Meta AI выпускает Nougat визуальную модель-трансформер, выполняющую OCR для обработки научных документов в разметочный язык

Meta AI выпускает Nougat визуальную модель-трансформер для OCR научных документов в разметочный язык

С ростом достижений в области искусственного интеллекта его подобласти, включая обработку естественного языка, генерацию естественного языка, компьютерное зрение и т.д., быстро приобрели большую популярность из-за своего широкого применения. Оптическое распознавание символов (OCR) – это хорошо изученная исследуемая область компьютерного зрения. У нее есть несколько применений, таких как цифровая обработка документов, распознавание почерка и идентификация текста на сцене. Распознавание математических выражений – это одна из областей OCR, которая вызвала большой интерес в научных исследованиях.

Переносимый формат документа (PDF) является одним из наиболее широко используемых форматов для научных знаний, которые часто сохраняются в книгах или публикуются в научных журналах. Второй по популярности формат данных в Интернете, составляющий 2,4% информации, PDF-файлы часто используются для доставки документов. Несмотря на их широкое использование, извлечение информации из PDF-файлов может быть сложным, особенно при работе с высокоспециализированными материалами, такими как научно-исследовательские статьи. В частности, при преобразовании этих статей в формат PDF часто теряется семантическая информация математических выражений.

Для решения этих проблем команда исследователей из Meta AI представила решение под названием Nougat, что означает “Нейронное оптическое понимание академических документов”. Для оптического распознавания символов (OCR) в научных текстах Nougat является моделью визуального преобразователя. Ее целью является преобразование этих файлов в язык разметки, чтобы они могли быть более легко доступными и машинночитаемыми.

Для демонстрации эффективности методологии команда также создала новый набор данных научных статей. Этот метод предлагает жизнеспособное решение для улучшения доступности научных знаний в цифровую эпоху. Он заполняет пробел между текстами, которые легко читаются людьми, и текстами, которые компьютеры могут обрабатывать и анализировать. Исследователи, преподаватели и все, кто интересуется научной литературой, могут более эффективно получать доступ к научным статьям и работать с ними с использованием Nougat. Nougat – это модель на основе трансформера, разработанная для преобразования изображений страниц документов, особенно изображений из PDF-файлов, в размеченный форматированный текст.

Команда сводит свои ключевые вклады следующим образом:

  1. Публикация предварительно обученной модели: Команда создала предварительно обученную модель, которая может преобразовывать PDF-файлы в простой язык разметки. Эта предварительно обученная модель предоставлена на GitHub, где исследовательская община и любой желающий могут получить к ней доступ, а также к соответствующему коду.
  1. Пайплайн для создания набора данных: В исследовании описывается метод построения наборов данных, сопоставляющих PDF-документы с соответствующими исходными кодами. Этот метод разработки набора данных является важным для тестирования и совершенствования модели Nougat и может быть полезен для будущих исследований и приложений анализа документов.
  1. Зависимость только от изображения на странице: Одной из ключевых особенностей Nougat является ее способность работать только с изображением страницы. Это делает ее гибким инструментом для извлечения контента из различных источников, даже когда исходные документы недоступны в цифровом текстовом формате. Он может обрабатывать отсканированные документы и книги.