Встречайте FLM-101B открытая декодирующая модель LLM с 101 миллиардом параметров

FLM-101B - LLM open decoding model with 101 billion parameters.

В последнее время большие языковые модели (LLM) превосходят в области NLP и мультимодальных задач, но сталкиваются с двумя серьезными проблемами: высокими вычислительными затратами и сложностями в проведении честной оценки. Эти затраты ограничивают развитие LLM только несколькими крупными игроками, ограничивая исследования и применения. Для решения этой проблемы в статье предлагается стратегия роста, позволяющая существенно снизить затраты на обучение LLM и подчеркивающая необходимость эффективных с точки зрения затрат методов обучения в этой области.

Для решения проблемы обучения с точки зрения затрат исследователи обучают LLM с 100 миллиардами параметров с помощью стратегии роста. Рост означает, что количество параметров не фиксируется в процессе обучения, а увеличивается с меньшего размера до больших. Чтобы оценить интеллектуальные способности больших языковых моделей (LLM), исследователи разработали комплексный бенчмарк оценки IQ. Этот бенчмарк учитывает четыре важных аспекта интеллекта:

  • Символьное отображение: LLM проверяют на их способность обобщать на новые контексты с использованием символьного подхода к отображению, аналогичного исследованиям, использующим символы вместо категориальных меток.
  • Понимание правил: Бенчмарк оценивает, способны ли LLM понимать установленные правила и выполнять действия соответствующим образом, что является ключевым аспектом человеческого интеллекта.
  • Анализ шаблонов: LLM оцениваются на способность распознавать шаблоны через как индуктивное, так и дедуктивное мышление, что отражает важность анализа шаблонов в различных областях.
  • Способность к противодействию вмешательству: Эта метрика измеряет способность LLM поддерживать производительность в условиях внешнего шума, подчеркивая основной аспект интеллекта, связанный с сопротивлением вмешательству.

Основными достижениями этого исследования можно считать:

  • Пионерский успех – успешное обучение большой языковой модели (LLM) с более чем 100 миллиардами параметров с использованием стратегии роста с нуля. Следует отметить, что это представляет собой наиболее экономически эффективный подход к созданию модели с более чем 100 миллиардами параметров всего за 100 000 долларов.
  • Исследование решает различные проблемы нестабильности при обучении LLM путем улучшения целей обучения FreeLM, многообещающих методов оптимизации гиперпараметров и введения функционально сохраняющего роста. Эти методологические улучшения обещают для широкой научной общественности.
  • Были проведены комплексные эксперименты, охватывающие хорошо установленные бенчмарки, ориентированные на знания, а также новый систематический бенчмарк оценки IQ. Эти эксперименты позволяют сравнить модель с надежными базовыми моделями, демонстрируя конкурентоспособную и устойчивую производительность FLM-101B.
  • Исследовательская команда внесла значительный вклад в научное сообщество, выпустив модельные точки контроля, код, связанные инструменты и другие ресурсы. Эти активы нацелены на поддержку дальнейших исследований в области двуязычных китайских и английских LLM-моделей с масштабом более 100 миллиардов параметров.

В целом, эта работа не только демонстрирует возможность экономически эффективного обучения LLM, но и вносит вклад в более надежную систему оценки интеллекта этих моделей, в конечном итоге приближая область к реализации AGI.