История открытых LLM-программ начальные годы (Часть первая)

LLM-программы история начальных лет (Часть первая)

Понимание GPT-Neo, GPT-J, GLM, OPT, BLOOM и других…

(Фото от Chris Lawton на Unsplash)

Исследования в области языкового моделирования имеют долгую историю, начиная с моделей, таких как GTP и GPT-2, и даже методов на основе RNN (например, ULMFit), предшествовавших современным моделям языка на основе трансформеров. Тем не менее, несмотря на эту долгую историю, языковые модели стали популярными сравнительно недавно. Первый всплеск популярности произошел с предложением GPT-3 [1], который показал, что можно достичь впечатляющего обучения с небольшим количеством данных по многим задачам благодаря комбинации самообучения и контекстного обучения; см. ниже.

(из [1])

После этого признания GPT-3 были предложены целые ряды больших языковых моделей (LLM). Вскоре после этого исследования по выравниванию языковых моделей привели к созданию еще более впечатляющих моделей, таких как InstructGPT [19] и, особенно, ее сестринская модель ChatGPT. Впечатляющая производительность этих моделей вызвала поток интереса к языковому моделированию и генеративному искусственному интеллекту.

Несмотря на их невероятную мощь, многие ранние разработки в исследовании LLM имеют одно общее свойство – они являются закрытыми исходниками. Когда языковые модели начали получать широкое признание, многие самые мощные LLM были доступны только через платные API (например, OpenAI API), и возможность исследования и разработки таких моделей была ограничена выбранным лицам или лабораториям. Такой подход отличается от типичных практик исследования ИИ, где общность и обмен идеями обычно поощряются для продвижения вперед.

“Ограниченный доступ снижает возможности исследователей понять, как и почему работают эти большие языковые модели, препятствуя прогрессу в улучшении их устойчивости и снижении известных проблем, таких как предвзятость и токсичность.” — из [4]

Обзор. Несмотря на изначальное внимание к собственной технологии, исследовательская община LLM медленно начала создавать открытые варианты популярных языковых моделей, таких как GPT-3. Хотя первые открытые языковые модели отставали от лучших собственных моделей, они заложили основу для…