В этой статье представлена FELM оценка фактичности больших языковых моделей

Оценка фактичности больших языковых моделей представление FELM в данной статье

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-10-at-10.48.27-PM-1024×656.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-10-at-10.48.27-PM-150×150.png”/><p>Большие языковые модели (LLM) имели значительный успех, заложив новые принципы в генеративном искусственном интеллекте через создание планов. Однако проблема связанная с LLM заключается в их склонности генерировать неточную информацию или создавать контент, что представляет значительное препятствие для их широкого применения. Даже передовые LLM, такие как ChatGPT, не являются исключением в отношении данной проблемы. </p><p>Оценка фактичности текста, созданного Большими Языковыми Моделями (LLM), становится важной областью исследования, направленной на повышение надежности выводов, созданных LLM, и предупреждение пользователей о возможных ошибках. Однако, оценщикам, ответственным за оценку фактичности, необходимы соответствующие инструменты для измерения прогресса и содействия развитию данной области. К сожалению, данная область исследования остается относительно недоисследованной, создавая значительные вызовы для оценщиков фактичности. </p><figure><img alt=”” src=”https://ai.miximages.com/lh3.googleusercontent.com/OsqOUP0mReFGyd0buQDvUo2HE0uXh4D_5h7qCEUvI9kirb_AKaPHBdWEV147qgCma8m8kCzulza1LdMZU9WwGj8XdMtXklRfU4OXOXevaAvFBc72sLYAa7LfomwNg8XDdVo2waGaNYGiZpIAO83EjzY”/></figure><p>Для заполнения этой ниши, авторы данного исследования представляют бенчмарк для Оценки Фактичности Больших Языковых Моделей, названный FELM. На приведенном выше изображении показаны примеры системы оценки фактичности – она может выделить фрагменты текста из LLM, содержащие фактические ошибки, объяснить ошибку и предоставить ссылки, чтобы подтвердить принятые решения. Бенчмарк включает сбор ответов, сгенерированных LLM, и аннотирование фактических меток в детализированной форме. </p><p>В отличие от предыдущих исследований, в которых основное внимание уделяется оценке фактичности мировых знаний, таких как информация из Википедии, FELM акцентирует свое внимание на оценке фактичности в различных областях, охватывающих не только общие знания, но и математические и связанные с рассуждением контент. Для понимания и выявления возможных ошибок в тексте они рассматривают разные части текста по отдельности. Это помогает им точно определить, где может быть ошибка. Они также добавляют метки к этим ошибкам, говоря какого рода они являются, и предоставляют ссылки на другую информацию, подтверждающую или опровергающую то, что сказано в тексте. </p><p>Затем, в своих тестах, они проверяют, насколько хорошо различные компьютерные программы, использующие большие языковые модели, могут обнаружить эти ошибки в тексте. Они проверяют стандартные программы и некоторые, улучшенные дополнительными инструментами, чтобы помочь им мыслить и лучше находить ошибки. Выводы из этих экспериментов показывают, что, хотя механизмы поиска могут помочь при оценке фактичности, современные LLM все равно не в состоянии точно обнаружить фактические ошибки. </p><p>В целом, такой подход не только развивает наше понимание оценки фактичности, но также предоставляет ценные идеи об эффективности различных вычислительных методов при решении проблемы выявления фактических ошибок в тексте, способствуя непрерывным усилиям по совершенствованию надежности языковых моделей и их применений. </p>