Генеративное искусственное интеллекта научных статей с использованием модели Nougat
Генеративный ИИ для научных статей с моделью Nougat
Делаем крутые вещи с данными!
Введение
Последние достижения в области больших языковых моделей (LLM), таких как GPT-4, показали впечатляющие возможности в генерации связного текста. Однако точный анализ и понимание научных статей остаются чрезвычайно сложной задачей для ИИ. Научные статьи содержат сложное форматирование, математические уравнения, таблицы, рисунки и специфический для области язык. Плотность информации очень высока, и важная семантика закодирована в форматировании.
В этой статье я покажу, как новая модель под названием Nougat от Meta может помочь точно анализировать научные статьи. Затем мы объединим ее с конвейером LLM, который извлекает и подводит итоги всех таблиц в статье.
Здесь огромный потенциал. В научных статьях и книгах содержится множество данных/информации, которые не были правильно обработаны. Точный анализ позволяет использовать их во множестве разных приложений, включая переобучение LLM.
Модель Nougat
Nougat – это модель визуального трансформера, разработанная исследователями Meta AI, которая может преобразовывать изображения страниц документов в структурированный текст [1]. Она принимает растрированное изображение страницы документа в качестве входных данных и выводит текст в легковесном языке разметки.
- Исследователи разблокировали чип-основанное термионное охлаждение для квантовых компьютеров
- Может ли ChatGPT решать задачи о рюкзаке?
- Исследователи IBM предлагают новую атакующую рамку, способную генерировать атакующие входы для систем искусственного интеллекта независимо от модальности или задачи.
Основным преимуществом Nougat является то, что она полностью полагается на изображение документа и не требует текста OCR. Это позволяет ей правильно восстанавливать семантическую структуру, такую как математические уравнения. Она обучается на миллионах научных статей из arXiv и PubMed, чтобы изучить шаблоны форматирования и языка научных статей.
На рисунке ниже из [1] показано, как математические уравнения, написанные в формате PDF, воспроизводятся в LaTeX и отображаются правильно.
Nougat использует архитектуру визуального трансформера кодировщик-декодировщик. Кодировщик использует Swin Transformer для кодирования изображения документа в скрытые вложения. Swin Transformer обрабатывает изображение иерархически, используя сдвинутые окна. Затем декодер генерирует выходные токены текста авторегрессивно, используя самовнимание над кодировщиком…