Исследователи из НЮУ предлагают GPQA сложный набор данных из 448 вопросов с множественным выбором, написанных экспертами в области биологии, физики и химии.

Ученые из НЮУ представляют GPQA сложный набор данных из 448 вопросов с множественным выбором, составленный экспертами в области биологии, физики и химии.

Большие языковые модели (LLMs) находятся на переднем крае искусственного интеллекта (ИИ) и обещают превзойти человеческие навыки в этой быстро меняющейся области. Однако, когда эти модели приближаются к сверхчеловеческим возможностям, становится сложнее справедливо оценивать их и приводить их в соответствие с человеческим пониманием. Решение этой проблемы является необходимым для обеспечения надежности новых ИИ-систем в предоставлении правильной информации, особенно по вопросам, где истина, которую люди могут проверить, может быть неясной, проблемы, известной как масштабируемое наблюдение.

Для оценки того, насколько хорошо LLM соответствуют этим задачам, необходимы надежные испытательные стенды. Испытания должны надежно получать точные данные от этих моделей, особенно в ситуациях, когда доступ к данным, созданным людьми или независимо проверенной правде, ограничен. Такие испытания должны быть достаточно сложными, чтобы позволить генерализацию к проблемам вне человеческого знания, даже для проверки высокообученных непрофессионалов. Оценка точности ответов LLM становится сложнее, когда они затрагивают более сложные темы, особенно в областях, где требуется специализированные знания. Одним из основных компонентов методик наблюдения, таких как обучение с подкреплением, основанное на обратной связи человека, является точность, с которой аннотаторы могут оценить достоверность выводов LLM. Однако, проблемы, такие как галлюцинации и льстивость в ответах модели, становятся более заметными в областях, где аннотаторам сложно отличить правильность из-за нехватки опыта.

В ответ на эти проблемы исследователи из университета Нью-Йорка, Cohere и Anthropic представляют GPQA: оценочный набор данных Graduate-Level Google-Proof Q&A. GPQA – это набор данных с квалификационными вопросами с множественным выбором, охватывающих биологию, химию и физику. Интересно то, что GPQA уделяет много времени каждому вопросу и проверяет его с помощью предметных экспертов и высококвалифицированных и мотивированных непрофессионалов, чтобы убедиться, что вопросы являются сложными. GPQA – результат тщательной четырехэтапной процедуры. Вопросы сначала разрабатываются предметными экспертами, а затем проверяются и пересматриваются другими. Еще два эксперта-проверяющих оценивают исправленные вопросы на объективность. В конечном счете, высококвалифицированные непрофессиональные проверяющие, тратящие время на ответы на каждый вопрос, подтверждают сложность набора данных. Систематически разрабатываются стимулы для сотрудников, чтобы признавать и вознаграждать превосходную работу на каждом уровне.

С 448 требовательными вариантами GPQA демонстрирует сложность, с которой сталкиваются даже самые передовые ИИ-системы. Лучшая модель на основе GPT-4 достигает только 39% точности, в то время как профессионалы достигают 65%, а непрофессионалы – 34%. Это подчеркивает ценность набора данных для исследования масштабируемых методик наблюдения для моделей следующего поколения, превосходящих существующие. Несмотря на его важность, GPQA имеет недостатки, включая очень ограниченные размеры модельных тренировок и возможные предвзятости в выборе экспертов. В будущем наборы данных для наблюдения могут стремиться найти нерешенные проблемы как стандарт для надзора за сверхчеловеческим ИИ, сужая знаковый разрыв между моделями и человеческими знаниями.

GPQA является первооткрывающим набором данных для оценки искусственного интеллекта, расширяющим границы оценки в области требовательных сфер. Подход к его разработке и методам проверки облегчает разработку протоколов для эффективного контроля сверхчеловеческих ИИ-систем, предоставляя информацию о масштабируемых пробах наблюдения. В заключение, разработка GPQA является значительным этапом в оценке ИИ-систем и может потенциально повысить соответствие сверхчеловеческих моделей человеческому знанию.