Предтренировочный контекст – всё, что вам нужно

Предтренировочный контекст все, что вам нужно знать

Основной движущей силой современных моделей трансформаторов является в значительной степени их относящиеся к данным, позволяющие обладать сильными возможностями контекстного обучения.

Генеративное искусственное интеллекта и его популярные модели трансформаторов рекламируются повсюду в эти дни, и каждый час выпускаются новые модели (см. операционного расширения искусственного интеллекта). В этой стремительно развивающейся области искусственного интеллекта возможности, которые могут принести эти модели, кажутся бесконечными. Большие языковые модели (LLM), такие как chatGPT, уже попали в каждую кучу ресурсов инженеров, писатели используют их для поддержки своих статей, а дизайнеры создают первые визуальные образы или ищут вдохновение в результатах моделей компьютерного зрения.

Если это не волшебство, то что на самом деле дает силу этим впечатляющим моделям трансформаторов?

Однако, несмотря на великие достижения и полезность генеративного искусственного интеллекта, важно отметить, что современные модели машинного обучения (такие как LLM или VisionTransformers) не производят волшебство (как и модели МО, или статистические модели вообще, никогда не были волшебными). Несмотря на то, что замечательные способности моделей могут восприниматься как магические, и некоторые эксперты в этой области говорят о таких вещах, как галлюцинации моделей, основа каждой модели – это просто математика и статистические вероятности (иногда сложные, но все же математика). Это приводит к фундаментальному вопросу: Если это не волшебство, то что на самом деле дает силу этим впечатляющим моделям трансформаторов?

Рисунок 1: Демонстрация того, что ChatGPT (с использованием GPT4) указывает на свои «продвинутые технологии» и «тщательное обучение» как основные факторы успеха.

Основа каждой модели – это данные

Как и в случае любой модели (статистической или МО), это тренировочные данные оказывают наибольшее влияние на последующую производительность модели. Если у вас нет большого объема качественных данных, отражающих отношения, которые вы хотели бы научить модель, то нечего обучать, и результативность модели будет низкой (известный принцип GIGO: Грязь на входе – грязь на выходе). Этот фундаментальный принцип моделирования данных не изменился за все эти годы. За каждой революционной новой моделью трансформатора, прежде всего, стоит одно: данные. Именно объем, качество и контекст этих данных будут…