Это исследование искусственного интеллекта представляет GAIA испытание, определяющее следующий этап достижений в общей пригодности искусственного интеллекта.

GAIA Испытание искусственного интеллекта, определяющее новый этап в развитии его общей пригодности

Исследователи из FAIR Meta, HuggingFace, AutoGPT и GenAI Meta занимаются проблемой тестирования возможностей общего искусственного интеллекта в области обработки вопросов реального мира, требующих фундаментальных навыков, таких как логическое мышление и работа с множественными модальностями, что является сложной задачей даже для передовых искусственных интеллектов с человекоподобными ответами. Развитие GAIA имеет целью достижение общего искусственного интеллекта, ориентируясь на устойчивость на уровне человека.

Сосредотачиваясь на вопросах реального мира, требующих логического мышления и навыков работы с множественными модальностями, GAIA отклоняется от текущих тенденций, акцентируя задачи, сложные как для людей, так и для передовых искусственных интеллектов. В отличие от закрытых систем, GAIA отражает реалистичные случаи использования искусственного интеллекта. В GAIA используются тщательно подобранные вопросы, приоритетным является качество, которые демонстрируют превосходство людей над GPT-4 с помощью плагинов. Она направлена на руководство процессом разработки вопросов, обеспечивая выполнение многошаговых задач и предотвращая загрязнение данных.

По мере превышения текущих стандартов LLM, оценка их способностей становится все более сложной. Несмотря на акцент на сложные задачи, исследователи утверждают, что уровни сложности для людей не обязательно вызывают трудности у LLM. Чтобы преодолеть эту проблему, была представлена новая модель под названием GAIA. Это общий искусственный интеллект, который фокусируется на вопросах реального мира, избегая проблем при оценке LLM. С помощью человекообразных вопросов, отражающих случаи использования искусственного интеллекта, GAIA гарантирует практичность. Сосредотачиваясь на генерации открытого типа в области NLP, GAIA стремится переопределить стандарты оценки и продвинуть следующее поколение систем искусственного интеллекта.

В предлагаемом исследовательском методе используется стандарт GAIA для тестирования общих искусственных интеллектов. Он включает в себя вопросы реального мира, приоритет предоставляется логическому мышлению и практическим навыкам, которые люди разработали, чтобы предотвратить загрязнение данных и проводить эффективную и фактическую оценку. Процесс оценки использует почти точное совпадение для сопоставления ответов модели с истинной информацией с помощью системного запроса. Был выпущен набор разработчика и 300 вопросов для формирования списка лидеров. Методология GAIA’s benchmark направлена на оценку генерации открытого типа в области NLP и предоставление информации для продвижения следующего поколения систем искусственного интеллекта.

Статистика, собранная GAIA’s benchmark, показала значительный разрыв в результате между людьми и GPT-4 при ответах на вопросы реального мира. В то время как люди достигли 92% успеха, GPT-4 набрал всего лишь 15%. Однако оценка GAIA также показала, что точность и использование LLM могут быть улучшены с помощью дополнительных инструментов API или доступа к Интернету. Это открывает возможность для совместных человеко-искусственных моделей и прогресса в системах искусственного интеллекта следующего поколения. В целом, этот стандарт предоставляет четкую классификацию искусственных интеллектов и подчеркивает необходимость дальнейших улучшений в работе общих искусственных интеллектов.

В заключение, стандарт Gaia для оценки общих искусственных интеллектов на вопросах реального мира показал, что люди превосходят GPT-4 с плагинами. Это подчеркивает необходимость того, чтобы системы искусственного интеллекта проявляли устойчивость, подобную человеческой, к концептуально простым, но сложным вопросам. Простота, невозможность игры и интерпретируемость методологии данного стандарта делают его эффективным инструментом для достижения общего искусственного интеллекта. Кроме того, публикация аннотированных вопросов и списка лидеров направлена на решение задач оценки генерации открытого типа в области NLP и не только.