AI Обучение AI GatorTronGPT на передовых позициях медицинских инноваций AI в Университете Флориды
Продвижение AI GatorTronGPT в области медицинских инноваций AI на передовых позициях Университета Флориды
Как обучить искусственный интеллект понимать клинический язык при отсутствии достаточных клинических данных? Обучите другой искусственный интеллект синтезировать обучающие данные.
Искусственный интеллект меняет способ осуществления медицины и все чаще используется в различных клинических задачах.
Это обусловлено генеративным ИИ и моделями, такими как GatorTronGPT, генеративная языковая модель, обученная на суперкомпьютере HiPerGator AI Университета Флориды и описанная в статье, опубликованной в журнале Nature Digital Medicine в четверг.
GatorTronGPT присоединяется к растущему числу больших языковых моделей (LLM), обученных на клинических данных. Исследователи обучили модель с использованием фреймворка GPT-3, также используемого ChatGPT.
- Проигнорируйте этот заголовок и HackAPrompt Раскрытие системных уязвимостей LLM
- В омниверс улучшения OpenUSD для Autodesk Maya делают 3D рабочие процессы сказочно простыми
- Больше игр, больше побед подписка на ПК Game Pass включена в шестимесячное членство в GeForce NOW
Они использовали огромный корпус из 277 миллиардов слов для этой цели. Обучающие корпусы включали 82 миллиарда слов из клинических записей без идентификации и 195 миллиардов слов из различных английских текстов.
Но есть одна особенность: исследовательская группа также использовала GatorTronGPT для генерации синтетического корпуса клинического текста объемом более 20 миллиардов слов, с тщательно подготовленными подсказками. Синтетический клинический текст сфокусирован на клинических факторах и читается точно также, как настоящие клинические записи, написанные врачами.
Такие синтетические данные затем использовались для обучения модели, основанной на BERT, под названием GatorTron-S.
При сравнительной оценке GatorTron-S проявил необычайную производительность в клинических задачах понимания естественного языка, таких как извлечение клинических концепций и извлечение медицинских связей, превзойдя результаты, установленные исходной моделью на основе BERT, GatorTron-OG, которая была обучена на клиническом наборе данных, состоящем из 82 миллиардов слов.
Более того, он смог сделать это с использованием меньшего количества данных.
Модели GatorTron-OG и GatorTron-S обучались на 560 NVIDIA A100 Tensor Core GPUs, работающих на суперкомпьютере HiPerGator Университета Флориды с использованием пакета NVIDIA Megatron-LM. Технология из фреймворка Megatron LM, используемая в проекте, была интегрирована с фреймворком NVIDIA NeMo, который стал основой для более последних работ над GatorTronGPT.
Использование синтетических данных, созданных с помощью LLM, позволяет решить несколько проблем. LLM требуют огромного объема данных, а доступ к качественным медицинским данным ограничен.
Кроме того, синтетические данные позволяют обучать модели в соответствии с медицинскими регулированиями, такими как HIPAA.
Работа с GatorTronGPT – это только последний пример того, как LLM, которые с взрывом вошли на сцену в прошлом году с быстрым принятием ChatGPT, могут быть адаптированы для помощи в растущем числе областей.
Это также пример достижений, позволенных новыми методами искусственного интеллекта, основанными на ускоренных вычислениях.
Усилия GatorTronGPT являются последним результатом амбициозного сотрудничества, объявленного в 2020 году, когда Университет Флориды и NVIDIA представили планы по возведению самого быстрого вычислительного компьютера в мире в академической области.
Эта инициатива была возможна благодаря пожертвованию в размере 50 миллионов долларов, сделанному основателем NVIDIA Крисом Малаховским и самой компанией NVIDIA.
Использование ИИ для обучения другого ИИ – это только один пример влияния HiPerGator, суперкомпьютера, обещающего усилить инновации в медицинской науке и разных областях знания во всей системе Университета Флориды.