Как влияет расширение извлечения на ответы на вопросы в длинной форме? Это исследование по искусственному интеллекту предоставляет новые понимания того, как расширение извлечения влияет на генерацию текста на основе знаний в долгосрочной перспективе и на

Влияние расширения извлечения на ответы на вопросы в длинной форме новые понимания благодаря исследованию искусственного интеллекта

LFQA стремится предоставить полный и всесторонний ответ на любой запрос. Параметрическая информация в больших языковых моделях (LLMs) и полученные документы, представленные во время вывода, позволяют системам LFQA строить сложные ответы на вопросы в виде параграфов, а не путем извлечения фрагментов из документа-доказательства. Последние годы показали поразительные возможности и хрупкость возможностей систем LFQA на основе масштабных LLMs. Недавно была предложена рекомендация как мощный подход для обеспечения LMs актуальной и соответствующей информацией. Однако до сих пор неизвестно, как включение поиска влияет на LMs во время производства, и это не всегда имеет ожидаемый эффект.

Исследователи из техасского университета в Остине изучают, как поиск влияет на создание ответов для LFQA, проблему генерации длинных текстов. В их исследовании предоставляются два моделируемых исследовательских контекста, один, при котором LM остается постоянным, а документы-доказательства меняются, и другой, при котором ситуация наоборот. Из-за сложности оценки качества LFQA они начинают с подсчета поверхностных показателей (например, длины, непослушности), связанных с различными атрибутами ответа, такими как согласованность. Возможность привести созданный ответ к имеющимся доказательствам является привлекательной особенностью систем LFQA, усиленных поиском. Недавно полученные аннотации человека по привлечению на уровне предложений используются для тестирования коммерчески доступных технологий детектирования атрибуции.

На основе анализа поверхностных шаблонов команда пришла к выводу, что усиление поиска значительно изменяет создание LM. Не все воздействия блокируются при нерелевантных статьях; например, может измениться длина созданных ответов. В отличие от нерелевантных документов, те, которые предоставляют важные контекстные доказательства, заставляют LMs создавать более неожиданные фразы. Даже при использовании одинакового набора документов-доказательств различные базовые LMs могут иметь противоположные воздействия от усиления поиска. Их свежеаннотированный набор данных предоставляет стандарт для измерения оценок атрибуции. Полученные результаты показывают, что модели NLI, которые определили атрибуцию в фактологической QA, также хорошо справляются в контексте LFQA, превосходя случайность на значительный уровень, но отстают от согласия между людьми на 15% в точности.

Исследование показывает, что даже при наличии одинакового набора документов, качество атрибуции может сильно различаться между базовыми LMs. Исследование также осветило образцы атрибуции для создания длинных текстов. Созданный текст обычно следует последовательности документов-доказательств, даже если контекстный документ является объединением множества статей, и последнее предложение гораздо менее прослеживаемо, чем предыдущие предложения. В целом, исследование раскрыло, как LMs используют контекстные доказательства для ответа на глубокие вопросы и указывает на действенные аспекты исследовательской повестки.