Генеративное искусственное интеллекта научных статей с использованием модели Nougat

Генеративный ИИ для научных статей с моделью Nougat

Делаем крутые вещи с данными!

Фото от Dan Dimmock на Unsplash

Введение

Последние достижения в области больших языковых моделей (LLM), таких как GPT-4, показали впечатляющие возможности в генерации связного текста. Однако точный анализ и понимание научных статей остаются чрезвычайно сложной задачей для ИИ. Научные статьи содержат сложное форматирование, математические уравнения, таблицы, рисунки и специфический для области язык. Плотность информации очень высока, и важная семантика закодирована в форматировании.

В этой статье я покажу, как новая модель под названием Nougat от Meta может помочь точно анализировать научные статьи. Затем мы объединим ее с конвейером LLM, который извлекает и подводит итоги всех таблиц в статье.

Здесь огромный потенциал. В научных статьях и книгах содержится множество данных/информации, которые не были правильно обработаны. Точный анализ позволяет использовать их во множестве разных приложений, включая переобучение LLM.

Модель Nougat

Nougat – это модель визуального трансформера, разработанная исследователями Meta AI, которая может преобразовывать изображения страниц документов в структурированный текст [1]. Она принимает растрированное изображение страницы документа в качестве входных данных и выводит текст в легковесном языке разметки.

Основным преимуществом Nougat является то, что она полностью полагается на изображение документа и не требует текста OCR. Это позволяет ей правильно восстанавливать семантическую структуру, такую как математические уравнения. Она обучается на миллионах научных статей из arXiv и PubMed, чтобы изучить шаблоны форматирования и языка научных статей.

На рисунке ниже из [1] показано, как математические уравнения, написанные в формате PDF, воспроизводятся в LaTeX и отображаются правильно.

Источник: Рис. 5 из статьи Nougat — https://arxiv.org/pdf/2308.13418.pdf

Nougat использует архитектуру визуального трансформера кодировщик-декодировщик. Кодировщик использует Swin Transformer для кодирования изображения документа в скрытые вложения. Swin Transformer обрабатывает изображение иерархически, используя сдвинутые окна. Затем декодер генерирует выходные токены текста авторегрессивно, используя самовнимание над кодировщиком…