Вне факта или вымысла оценка передовых возможностей проверки фактов больших моделей языка, таких как GPT-4
Проверка фактов и возможности GPT-4 реальность или вымысел?
Исследователи из Цюрихского университета сосредоточены на роли Large Language Models (LLM), таких как GPT-4, в автономной проверке фактов, оценивая их способность формулировать запросы, извлекать контекстуальные данные и принимать решения, предоставляя объяснения и ссылки. Результаты показывают, что LLM, особенно GPT-4, хорошо справляются с контекстуальной информацией, но точность варьируется в зависимости от языка запроса и правдоподобности утверждения. Хотя они обещают в проверке фактов, несоответствия в точности подчеркивают необходимость дальнейших исследований для более полного понимания их возможностей и ограничений.
Исследования в области автоматизированной проверки фактов развивались с использованием различных подходов и задач за последнее десятилетие. Исследователи предлагали компоненты, такие как обнаружение утверждений и извлечение доказательств, часто опираясь на большие языковые модели и источники, такие как Википедия. Однако обеспечение объяснимости остается сложной задачей, так как четкие объяснения выводов проверки фактов критичны для журналистского использования.
Важность проверки фактов выросла с появлением дезинформации в интернете. Ложные новости вызвали резкий рост во время значительных событий, например, президентских выборов в США в 2016 году и референдума о Brexit. Ручная проверка фактов должна быть улучшена для огромного объема информации в сети, что требует автоматизированных решений. Большие языковые модели, такие как GPT-4, стали важным инструментом для проверки информации. Больше объяснимости в этих моделях представляет сложность в журналистских приложениях.
- Революционирование навыков прослушивания ИИ Университет Цинхуа и ByteDance представляют SALMONN – инновационную мультимодальную нейронную сеть для продвинутой обработки звука.
- Познакомьтесь с помощником по кодированию Watsonx от IBM Революционирование предприятийного кодирования с помощью искусственного интеллекта
- Познакомьтесь с Davidsonian Scene Graph революционной AI-системой для оценки точности преобразования текста в изображение
В данном исследовании оценивается использование LLM в проверке фактов, с акцентом на GPT-3.5 и GPT-4. Модели оцениваются в двух условиях: без доступа к внешней информации и с доступом к контексту. Исследователи предлагают оригинальную методологию, используя фреймворк ReAct, чтобы создать итеративного агента для автоматизированной проверки фактов. Агент автономно решает, завершать ли поиск или продолжать с дополнительными запросами, с целью достижения баланса между точностью и эффективностью и обосновывает свой вывод посредством цитирования рассуждений.
Предложенный метод оценивает LLM для автономной проверки фактов, при этом GPT-4 в целом превосходит GPT-3.5 на наборе данных PolitiFact. Контекстуальная информация значительно улучшает производительность LLM. Однако надо быть осторожным из-за отличий в точности, особенно в нюансированных категориях, таких как “полуистина” и “в основном ложно”. Исследование призывает к дальнейшим исследованиям для более глубокого понимания, в каких ситуациях LLM показывают отличные результаты или терпят неудачу в задачах проверки фактов.
GPT-4 превосходит GPT-3.5 в проверке фактов, особенно при включении контекстуальной информации. Однако точность варьируется в зависимости от таких факторов, как язык запроса и достоверность утверждения, особенно в нюансированных категориях. Также подчеркивается важность осведомленного человеческого присмотра при использовании LLM, поскольку даже 10% ошибка может иметь серьезные последствия в сегодняшнем информационном ландшафте, что подчеркивает неподменную роль человеческих проверяющих факты.
Дальнейшие исследования необходимы для всестороннего понимания условий, при которых агенты LLM показывают отличные результаты или терпят неудачу в проверке фактов. Изучение неравномерной точности LLM и определение методов для улучшения их производительности является одним из приоритетов. Будущие исследования могут изучать производительность LLM на различных языках запросов и ее связь с правдоподобностью утверждений. Исследование факторов, влияющих на улучшение моделей обнаружения ложных утверждений по сравнению с истинными, может предложить ценные идеи для повышения точности.