Как выполняются большие языковые модели при ответах на вопросы в длинной форме? Глубокий анализ исследователей Salesforce о устойчивости и возможностях LLM.

Выполнение больших языковых моделей при ответах на длинные вопросы глубокий анализ исследователей Salesforce о LLM.

В то время как большие языковые модели (LLM), такие как ChatGPT и GPT-4, продемонстрировали лучшую производительность по нескольким бенчмаркам, проекты с открытым исходным кодом, такие как MMLU и OpenLLMBoard, быстро продвигаются в навязывании на множестве приложений и бенчмарков. Понимание их возможностей, ограничений и отличий становится все более важным по мере перехода в новую эру LLM с быстрым развитием новых моделей и методологий. Хотя LLM продемонстрировали свою способность генерировать связный текст в задачах, таких как резюмирование, требуется более подробное изучение того, насколько хорошо они справляются с LFQA.

Одной из главных проблем, которую все еще нужно решить, является ответ на длинные вопросы (LFQA), которые имеют многочисленные и значительные практические применения (например, форумы поддержки, устранение неполадок, обслуживание клиентов и т. д.). Ответ на такие запросы часто требует сложных навыков мышления для понимания вопроса и осмысления материала, разбросанного по оригинальной статье. Основные моменты статей сжимаются в абстрактные резюме. Предполагается, что последующие запросы по этим резюме потребуют более глубокого понимания тем, связывающих различные разделы исходного материала. Кроме того, другие исследователи показывают, что ответы, требующие понимания более трети длинного материала, часто оцениваются как “СЛОЖНЫЕ” людьми.

Исследователи из Salesforce предлагают масштабируемый подход к сравнению различий между огромными LLM и более маленькими, но успешными базовыми LLM (такими как Llama-7B, 13B) и их дистиллированными аналогами (такими как Alpaca-7B, 13B). Для этого они предлагают явно указать ChatGPT на создание сложных вопросов на основе резюме документа. Их эмпирическое исследование показывает, что последующие вопросы, созданные на основе резюме, представляют сложную, но более реалистичную ситуацию для оценки навыков рассуждения LLM по двум аспектам (сложность созданных вопросов и качество ответов открытых LLM с открытым исходным кодом). Они используют GPT-4 для определения качества ответов на связность, актуальность, фактическую согласованность и правильность на основе предыдущих работ, поскольку полное зависимость от человеческого обзора для длинной формы QA является дорогостоящей и трудно масштабируемой. Они также проводят масштабированную оценку качества от человека, демонстрирующую, что GPT-4 сильно коррелирует с оценкой человека, делая их оценку достоверной.

Ниже приведены основные выводы исследования:

• Они рекомендуют делать выводы из более длинных контекстов, делая несколько проходов через контекст более 20% времени, чтобы создавать вопросы на основе абстрактных резюме.

• Дистиллированные LLM (Alpaca-7B, 13B) часто меньше полагаются на контекст при создании вопросов на основе оригинального материала, но их способность создавать вопросы на основе резюме документа существенно снижена.

• Для вопросов, полученных из резюме (> 16,8%), ответы, созданные дистиллированными LLM, могут быть последовательными в разных контекстах, но они часто отклоняются от темы, производят избыточные ответы и являются только частично точными.

• Alpaca-7B и 13B более чувствительны к более длинным контекстам (>1024 токенов) по сравнению с базовыми LLM (Llama), хотя они обычно дают осмысленные ответы.