В этой статье представлена FELM оценка фактичности больших языковых моделей

Оценка фактичности больших языковых моделей представление FELM в данной статье

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-10-at-10.48.27-PM-1024×656.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-10-at-10.48.27-PM-150×150.png”/>Большие языковые модели (LLM) имели значительный успех, заложив новые принципы в генеративном искусственном интеллекте через создание планов. Однако проблема связанная с LLM заключается в их склонности генерировать неточную информацию или создавать контент, что представляет значительное препятствие для их широкого применения. Даже передовые LLM, такие как ChatGPT, не являются исключением в отношении данной проблемы. Оценка фактичности текста, созданного Большими Языковыми Моделями (LLM), становится важной областью исследования, направленной на повышение надежности выводов, созданных LLM, и предупреждение пользователей о возможных ошибках. Однако, оценщикам, ответственным за оценку фактичности, необходимы соответствующие инструменты для измерения прогресса и содействия развитию данной области. К сожалению, данная область исследования остается относительно недоисследованной, создавая значительные вызовы для оценщиков фактичности. <figure><img alt=”” src=”https://ai.miximages.com/lh3.googleusercontent.com/OsqOUP0mReFGyd0buQDvUo2HE0uXh4D_5h7qCEUvI9kirb_AKaPHBdWEV147qgCma8m8kCzulza1LdMZU9WwGj8XdMtXklRfU4OXOXevaAvFBc72sLYAa7LfomwNg8XDdVo2waGaNYGiZpIAO83EjzY”/></figure>Для заполнения этой ниши, авторы данного исследования представляют бенчмарк для Оценки Фактичности Больших Языковых Моделей, названный FELM. На приведенном выше изображении показаны примеры системы оценки фактичности – она может выделить фрагменты текста из LLM, содержащие фактические ошибки, объяснить ошибку и предоставить ссылки, чтобы подтвердить принятые решения. Бенчмарк включает сбор ответов, сгенерированных LLM, и аннотирование фактических меток в детализированной форме. В отличие от предыдущих исследований, в которых основное внимание уделяется оценке фактичности мировых знаний, таких как информация из Википедии, FELM акцентирует свое внимание на оценке фактичности в различных областях, охватывающих не только общие знания, но и математические и связанные с рассуждением контент. Для понимания и выявления возможных ошибок в тексте они рассматривают разные части текста по отдельности. Это помогает им точно определить, где может быть ошибка. Они также добавляют метки к этим ошибкам, говоря какого рода они являются, и предоставляют ссылки на другую информацию, подтверждающую или опровергающую то, что сказано в тексте. Затем, в своих тестах, они проверяют, насколько хорошо различные компьютерные программы, использующие большие языковые модели, могут обнаружить эти ошибки в тексте. Они проверяют стандартные программы и некоторые, улучшенные дополнительными инструментами, чтобы помочь им мыслить и лучше находить ошибки. Выводы из этих экспериментов показывают, что, хотя механизмы поиска могут помочь при оценке фактичности, современные LLM все равно не в состоянии точно обнаружить фактические ошибки. В целом, такой подход не только развивает наше понимание оценки фактичности, но также предоставляет ценные идеи об эффективности различных вычислительных методов при решении проблемы выявления фактических ошибок в тексте, способствуя непрерывным усилиям по совершенствованию надежности языковых моделей и их применений.

AI Shorts,Applications,Artificial Intelligence,Editors Pick,Language Model

Алгоритм Дейкстры с весом, основанным на времени передвижения в сетях OSM.

Олиго бьет тревогу критическая уязвимость безопасности в TorchServe может позволить хакерам захватывать серверы и внедрять в них вредоносные модели искусственного интеллекта.

В этой статье представлена FELM оценка фактичности больших языковых моделей

Оценка фактичности больших языковых моделей представление FELM в данной статье

Алгоритм Дейкстры с весом, основанным на времени передвижения в сетях OSM.

Парадигмальный переход в разработке програм...

«Docker представляет ‘Docker AI’...

Эта статья о искусственном интеллекте от NV...

Модели фундамента Mistral 7B от Mistral AI ...

Как мы можем эффективно развертывать больши...

Революционирование обучения СПМ с помощью C...

Машинное обучение