Исследователи из MIT представляют MechGPT языковой пионер, объединяющий масштабы, дисциплины и модальности в моделировании механики и материалов.
MechGPT языковой пионер от MIT объединение масштабов, дисциплин и модальностей в моделировании механики и материалов
Исследователи сталкиваются с серьезным вызовом в обширной области науки о материалах – эффективное извлечение ключевых идей из плотно упакованных научных текстов. Этот сложный процесс включает в себя навигацию по сложному содержанию и создание связных вопросно-ответных пар, которые содержат суть материала. Сложность заключается в необходимости извлечения важной информации из плотной ткани научных текстов, что требует от исследователей составления осмысленных вопросно-ответных пар, которые захватывают суть материала.
Текущие методологии в этой области часто опираются на общие языковые модели для извлечения информации. Однако подобные подходы требуют дополнительной обработки текста и точного включения уравнений. В ответ на это команда исследователей из MIT представила MechGPT, новую модель, основанную на предварительно обученной языковой модели. Этот инновационный подход использует двухэтапный процесс, используя общую языковую модель для формулировки содержательных вопросно-ответных пар. Помимо простого извлечения, MechGPT повышает ясность ключевых фактов.
Путешествие MechGPT начинается с тщательного процесса обучения, реализованного в PyTorch в экосистеме Hugging Face. Основываясь на архитектуре трансформера Llama 2, модель имеет 40 слоев трансформера и использует вращающиеся позиционные вложения для обеспечения продолжительности контекста. Применяя 32-разрядный оптимизатор AdamW, процесс обучения достигает впечатляющего значения потерь около 0.05. Исследователи внедряют Low-Rank Adaptation (LoRA) при тонкой настройке, чтобы улучшить возможности модели. Это включает интеграцию дополнительных обучаемых слоев при замораживании исходной предварительно обученной модели, что предотвращает удаление исходной базы знаний модели. В результате достигается повышенная эффективность использования памяти и ускорение обучения.
- Исследователи NVIDIA представляют ускоренный с помощью GPU декодер с использованием взвешенного конечного автомата (WFST) на основе поиска луча, совместимый с существующими моделями CTC.
- Исследователи Чосонского университета представляют машинное обучение для точной локализации обесцвеченных кораллов с использованием классификации мешка гибридных визуальных признаков
- Исследователи Университета Беркли предлагают алгоритм искусственного интеллекта, который достигает нулевой активации целевых диалоговых агентов.
Помимо основной модели MechGPT с 13 миллиардами параметров, исследователи также приступили к обучению двух более обширных моделей: MechGPT-70b и MechGPT-70b-XL. Первая представляет собой настроенную версию чат-модели Meta/Llama 2 70, а вторая включает динамически масштабируемое RoPE для контекстов с длиной более 10 000 токенов.
Выбор каждого элемента внутри MechGPT соответствует принципу авторегрессии, реализуя причинное маскирование для генерации последовательности. Это гарантирует, что модель предсказывает каждый элемент на основе предшествующих, не учитывая будущие слова. В реализации используется масштабирование температуры для регулирования фокуса модели, вводя концепцию температуры неопределенности.
В заключение, MechGPT является обещающим прорывом, особенно в сложной области извлечения знаний из научных текстов в области материаловедения. Процесс обучения модели, обогащенный инновационными методами, такими как LoRA и квантование 4-бит, показывает ее потенциал для применения вне области традиционных языковых моделей. Также модель MechGPT в виде чат-интерфейса, предоставляющего доступ к Google Scholar, является мостом к будущим расширениям. Исследование представляет MechGPT как ценный актив в науке о материалах и определяет ее как смелого пионера, расширяющего границы языковых моделей в специализированных областях. По мере продвижения исследовательская команда MechGPT становится свидетельством динамической эволюции языковых моделей и открывает новые горизонты в извлечении знаний.