На самом деле большие языковые модели хорошо генерируют сложные структурированные данные? Эта научная статья по искусственному интеллекту представляет Struc-Bench оценка возможностей LLM и введение решения с учетом структуры для настройки модели

Большие языковые модели хорошо генерируют сложные структурированные данные? Эта научная статья представляет Struc-Bench оценку LLM и введение решения для настройки модели

Большие языковые модели (LLM) сделали значительный прогресс в задачах создания текста, среди прочих задач обработки естественного языка. Одной из фундаментальных компонентов создательской способности, способности генерировать структурированные данные, в ранних исследованиях уделялось много внимания. Однако LLM продолжают плохо справляться с созданием сложных структурированных выходных данных, что является важным навыком для различных приложений, от автоматического создания отчетов до помощи в программировании. Более того, относительно мало исследований было проведено для оценки способности LLM создавать структурированный вывод; большинство оценок LLM были сосредоточены на спонтанном тексте или разработке кода. Это вызывает вопрос о том, насколько хорошо LLM могут создавать сложные структурированные данные.

Исследователи из Йельского университета, Жэцзянского университета, Нью-Йоркского университета и Цюрихского политехнического института стремятся провести тщательный анализ и ответить на эти открытые вопросы в своей работе. Во-первых, требуется провести более всестороннее исследование способности LLM создавать сложные структурированные данные. Предыдущие попытки оценить LLM на структурированных данных сосредоточены на простых задачах извлечения информации (IE), таких как извлечение отношений, распознавание событий и определение именованных сущностей. В этом случае целью задач IE является сбор извлеченных данных в упорядоченном виде. Предыдущая работа была значительно более задачно ориентирована по сравнению с LLM-ориентированной работой. Используя предварительно обученные модели, такие как BART и T5, которые создают структурированные данные из текста, основное внимание было сосредоточено на проблемах текст-данные. Во-вторых, требуется провести всесторонние оценки или метрики производительности LLM.

Существующие показатели часто используют простые объективные метрики, такие как совпадение слов, чтобы оценить, насколько хорошо машина категоризирует информацию, которую она производит. Возможно, потребуется больше, чтобы определить, могут ли LLM предоставлять структурированный вывод, потому что правильная оценка должна также учитывать формат производимой информации. В-третьих, могут ли существующие LLM лучше выполнять следование человеческому естественному языку более точно и предоставлять вывод с точными форматами и безошибочным содержанием? Это исследование пытается заполнить эти пробелы в литературе и улучшить обучающие наборы данных и критерии оценки для LLM, создающих структурированный вывод.

Вот список их вкладов: (1) Они создали бенчмарк под названием STRUCBENCH, который фокусируется на создании структурированных текстов в виде обычного текста, HTML и LaTeX. Они также тщательно оценивают возможности хорошо известных LLM, выявляя значительные проблемы с правильностью содержания, форматированием, числовым рассуждением и управлением длинными таблицами. (2) Они проводят эмпирическую оценку хорошо известных LLM на своем бенчмарке генерации структурированного текста, включая известные наборы данных и расширение до различных областей, что дает более глубокое понимание основных видов ошибок и размеров недостатков. Их результаты свидетельствуют о том, что GPT-3.5 и GPT-4 нуждаются в помощи в создании точных правильных результатов, проблемы в основном возникают из-за некорректного содержания, плохого форматирования, недостаточных навыков числового рассуждения и невозможности управлять длинными таблицами. (3) Они используют настройку инструкций, осознающих структуру, чтобы решить эти проблемы, обучая модель LLaMA следовать этим форматам после использования ChatGPT для создания инструкций формата. Положительные результаты на видимых и скрытых данных подтверждают, что это может значительно улучшить способность LLM предоставлять структурированный вывод.