Исследователи из Китая предлагают ALCUNA революционный искусственный интеллект для оценки крупномасштабных языковых моделей на основе новых аспектов интеграции знаний.

Китайские ученые предлагают революционный искусственный интеллект ALCUNA для оценки большомасштабных языковых моделей с использованием новых аспектов интеграции знаний

“`html

Оценка языковых моделей большого масштаба (LLM) в области новых знаний представляет собой сложную задачу. Исследователи из Пекинского университета представили метод KnowGen для генерации новых знаний путем изменения существующих атрибутов и отношений между сущностями. Бенчмарк под названием ALCUNA оценивает способности LLM в понимании и различении знаний. Их исследование показывает, что LLM-модели часто испытывают трудности в рассуждениях о новых и внутренних знаниях. Это подчеркивает важность осторожного применения LLM в новых сценариях и стимулирует развитие LLM в области управления новыми знаниями.

Модели LLM, такие как FLAN-T5, GPT-3, OPT, LLama и GPT-4, отлично справляются с различными задачами обработки естественного языка и находят применение в коммерческих продуктах. Существующие бенчмарки оценивают их производительность, но основаны на существующих знаниях. Исследователи предлагают метод Know-Gen и бенчмарк ALCUNA для оценки способности LLM в управлении новыми знаниями. Это подчеркивает необходимость осторожности при использовании LLM в новых сценариях или области экспертизы, а также способствует развитию в этом контексте.

LLM-модели отлично справляются с различными задачами, но существующие бенчмарки могут не учитывать их способность работать с новыми знаниями. Предлагаются новые стандарты для решения этой проблемы. Оценка производительности LLM с новыми знаниями крайне важна в связи с постоянно изменяющейся информацией. Перекрывающиеся данные обучения и тестирования могут влиять на оценку памяти. Создание нового бенчмарка знаний является сложной, но необходимой задачей.

Know-Gen – это метод генерации новых знаний путем изменения атрибутов и отношений сущностей. Он оценивает LLM с помощью тестов с нулевым и ограниченным количеством примеров, с использованием различных форм рассуждений Chain-of-Thought. Их исследование исследует влияние искусственной схожести сущностей с родительскими сущностями, оценивая схожесть атрибутов и имен. На этих бенчмарках оцениваются несколько моделей LLM, включая ChatGPT, Alpaca-7B, Vicuna-13B и ChatGLM-6B.

Значение LLM-моделей на бенчмарке ALCUNA, оценивающем их способность работать с новыми знаниями, могло бы быть лучше, особенно в рассуждении между новыми и существующими знаниями. ChatGPT показывает лучшие результаты, а Vicuna – вторую по эффективности модель. Ограниченное количество примеров обычно превосходит нулевое количество примеров, а форма рассуждений CoT является лучшей. LLM-модели наиболее трудно справляются с ассоциацией знаний и рассуждениями с несколькими шагами. Сходство сущностей влияет на их понимание. Их метод подчеркивает важность оценки LLM на новых знаниях и предлагает бенчмарки Know-Gen и ALCUNA для содействия прогрессу в этой области.

Предложенный метод ограничен биологическими данными, но может иметь потенциальное применение в других областях с соблюдением онтологического представления. Оценка ограничена несколькими моделями LLM из-за закрытого исходного кода и масштаба, требуя оценки широкого спектра моделей. Это подчеркивает способность LLM-моделей управлять новыми знаниями, но не предлагает обширного анализа ограничений существующих бенчмарков. Он также не рассматривает потенциальные предубеждения или этические последствия, связанные с генерацией новых знаний с использованием подхода Know-Gen или ответственным использованием LLM в контексте новых знаний.

KnowGen и бенчмарк ALCUNA могут помочь оценить способность LLM до новым знаниям. Хотя ChatGPT показывает лучший результат, а Vicuna – второй по эффективности, производительность LLM-моделей в рассуждении между новыми и существующими знаниями могла бы быть лучше. Ограниченное количество примеров превосходит нулевое количество примеров, и форма рассуждений CoT является лучшей. LLM-модели имеют трудности в ассоциации знаний, что подчеркивает необходимость дальнейшего развития. Это призывает быть осторожными при использовании LLM с новыми знаниями и предвидит, что эти бенчмарки стимулируют развитие LLM в этом контексте.

“`