Понимание правды на основе данных как большие языковые модели используют персонажи для моделирования достоверности

Понимание истинности на основе данных как большие языковые модели помогают моделировать достоверность с помощью персонажей

Со введением больших языковых моделей (LLMs) подобласть искусственного интеллекта, а именно естественной обработки языка (NLP), значительно продвигается и улучшается. LLMs, благодаря своим удивительным способностям интерпретации и генерации текста, становятся всё более популярными. Эти модели предварительно обучаются с использованием огромных объемов интернет-данных, лучшими примерами которых являются известные модели GPT 3.5 И GPT 4. Хотя данные, на которых обучаются модели, то есть корпус, большие и разнообразные, они далеки от идеала. Они фильтруются и шумны, включают ложную информацию, а также фактические ошибки. Возникает вопрос, как LLMs различать правду и неправду, когда они представлены корпусом данных, который содержит и то, и другое.

В недавнем исследовании команда исследователей из Нью-Йоркского университета, ETH Цюриха и Бостонского университета предложила, что LLMs могут кластеризовать правдивый текст, исходя из того, что эти модели могут представлять разные агенты или источники, вносящие вклад в данные обучения. Называя это “правдивой персоной”, исследователи рассказывают, что эта персона представляет собой коллекцию агентов, которые, благодаря общим характеристикам создания текста, более склонны к генерации точной и достоверной информации.

Например, авторитетные и хорошо установленные сайты, такие как Science и Wikipedia, часто используют формальные стили письма и регулярно предоставляют фактическую информацию. LLMs способны предложить подлинные ответы вне конкретных ситуаций, в которых каждый агент создавал данные обучения, моделируя эту правдивую персону. Команда поделилась двумя основными наблюдениями, чтобы поддержать гипотезу о персоне:

  1. Оценка правдивости до генерации: Еще до генерации ответа модель может определить, будет ли он правдивым. Это означает, что в зависимости от ситуации и персоны источника агенты LLM могут оценить правдивость ответа.
  1. Улучшение правдивости путем точной настройки: Когда LLMs точно настраиваются с использованием коллекции фактических данных, они становятся более правдивыми как для несвязанных, так и прямо связанных вопросов. Это означает, что влияние истинной персоны позволяет модели обобщать принципы правдивости на различные темы.

Команда проанализировала связь между персонами и честностью модели, используя синтетическую среду и математические процессы. Разные агенты в этом контролируемом сценарии верят в разные вещи относительно каждого математического оператора, в зависимости от того, насколько правдивы или неправильны их убеждения. Уравнения этих агентов позволяют LLMs улучшить свою способность точно отвечать на ранее неизвестные операторы и успешно различать между истинными и ложными утверждениями. Это достижение возможно только в том случае, если актеры в тренировочных данных разделяют правдивый генеративный процесс, который позволяет создавать правдивую идентичность.

В заключение, данное исследование показывает, что LLMs могут приобретать абстрактные понятия, такие как правдивость, используя иерархические структуры, включенные в их тренировочные данные. Эти модели способны обобщать свою способность различать между истинной и ложной информацией и генерировать соответствующие ответы по широкому спектру тем, моделируя правдивую персону, даже когда источники для этих тем разделяют атрибуты, указывающие на искренность.