Основные термины генеративного искусственного интеллекта объяснены

Понимание основных терминов генеративного искусственного интеллекта введение в тему

За последние несколько лет, особенно с появлением ChatGPT немного больше года назад, появились и быстро развиваются генеративные модели искусственного интеллекта для создания реалистичного синтетического текста, изображений, видео и аудио. То, что началось как скромная научная исследование, быстро превратилось в системы, способные генерировать качественные, человекоподобные результаты в различных областях применения генеративных моделей упомянутых выше. Способное на то прогрессирование было особенно спровоцировано ключевыми инновациями в нейронных сетях и крупными повышениями вычислительной мощности, и сейчас все больше и больше компаний предлагают бесплатный и/или платный доступ к этим моделям, обладающим удивительной способностью улучшаться.

Однако генеративный искусственный интеллект – это не только радуги и щенки. Вопреки своему огромному потенциалу для расширения творческого потенциала человека в различных областях, остаются вопросы о том, как правильно оценивать, тестировать и ответственно использовать эти генеративные системы. Возникает особенное беспокойство в связи с распространением дезинформации, а также с вопросами предвзятости, правдивости и социальных последствий, связанных с этой технологией.

Однако первое, что следует сделать с любой новой технологией, – попытаться понять ее, прежде чем воспользоваться ею или критиковать ее. Начать этот процесс понимания и познания мы и собираемся предоставить вам в этой статье. Мы намерены изложить некоторые ключевые термины генеративного искусственного интеллекта и сделать их понятными на интуитивном уровне для начинающих, чтобы предоставить элементарные базовые знания и проложить путь для более глубокого изучения. В этом разделе вы найдете ссылки на связанные материалы, которые помогут вам исследовать дальше по желанию.

Теперь приступим.

Обработка естественного языка (Natural Language Processing)

Обработка естественного языка (NLP) – это подраздел искусственного интеллекта, фокусирующийся на обеспечении машин способности понимать, интерпретировать и генерировать человеческий язык, предоставляя им программные инструменты для этого. NLP стоит на пересечении человеческого общения и понимания компьютеров. Сначала в NLP использовались методы на основе правил, затем “традиционные” методы машинного обучения, а сейчас современная NLP опирается на различные методы работы с нейронными сетями.

Нейронные сети

Нейронные сети – это вычислительные модели машинного обучения, вдохновленные (но не точными копиями) человеческого мозга, используемые для извлечения знаний из данных. Нейронные сети состоят из слоев (глубокое обучение = много слоев) искусственных нейронов, обрабатывающих и передающих небольшие отдельные кусочки данных, приспосабливающих эти данные для выполнения функции и многократно обновляющих веса, связанные с обрабатывающими нейронами, пытаясь лучше соответствовать задаче. Нейронные сети являются основой для обучения и принятия решений в современном искусственном интеллекте. Без начавшейся чуть более десяти лет тому назад революции в глубоком обучении, многие из технологий, которые мы называем искусственным интеллектом, были бы невозможны.

Генеративный искусственный интеллект

Генеративный искусственный интеллект – это категория искусственного интеллекта, основанная на нейронных сетях, и она сфокусирована на создании нового контента. Этот контент может принимать различные формы, от текста до изображений, аудио и других. Это отличается от “традиционных” типов искусственного интеллекта, которые сосредотачиваются на классификации или анализе существующих данных и не обладают способностью “воображать” и создавать новый контент на основе обучающих данных.

Генерация контента

Генерация контента – это процесс создания синтетического текста, изображений, видео и аудио с помощью обученных генеративных моделей, которые используют обучающие данные, чтобы генерировать контекстуально релевантный вывод в ответ на пользовательский ввод или запросы. Ввод могут быть представлены в любой из указанных форм. Например, текст может использоваться в качестве ввода для генерации большего количества текста, или для генерации изображения на основе текстового описания, или для получения аудио или видео. Точно так же можно использовать изображение в качестве ввода для генерации другого изображения, текста, видео и т. д. Возможно также использование мультимодального ввода, при котором, например, текст и изображение могут использоваться для генерации аудио.

 

Большие языковые модели

Большие языковые модели (LLMs) – это специализированные модели машинного обучения, которые настроены на обработку и “понимание” человеческого языка. LLM обучаются на огромных объемах текстовых данных, что позволяет им анализировать и воспроизводить сложные языковые структуры, тонкости и контексты. Независимо от точной модели и используемых техник LLM, суть этих моделей заключается в том, чтобы учиться и предсказывать, какое следующее слово или токен (группа букв) следует за текущим, и так далее. LLM в основном являются невероятно сложными “угадывателями следующего слова”, и улучшение предсказания следующего слова является актуальной темой исследований в настоящее время, как вы, вероятно, уже слышали.

 

Основные модели

Основные модели – это системы искусственного интеллекта, разработанные с широкими возможностями, которые затем могут быть адаптированы для различных конкретных задач. Основные модели обеспечивают базу для создания более специализированных приложений, таких как настройка общей языковой модели для конкретного чат-бота, помощника или дополнительных функций генерации. Однако основные модели не ограничиваются только языковыми моделями и применяются также задачи генерации изображений и видео. Примеры известных и надежных основных моделей включают GPT, BERT и Stable Diffusion.

 

Параметры

 В этом контексте параметры – это числовые значения, определяющие структуру модели, ее операционное поведение и способность к обучению и предсказанию. Например, миллиарды параметров в GPT-4 от OpenAI влияют на его способность предсказывать слова и создавать диалоги. Более технически, соединения между каждым нейроном в нейронной сети имеют веса (упомянутые выше), при этом каждый из этих весов является одним параметром модели. Чем больше нейронов → тем больше весов → тем больше параметров → тем больше возможностей для (хорошо обученной) сети учиться и предсказывать.

 

Векторные представления слов

Векторные представления слов – это техника, при которой слова или фразы преобразуются в числовые векторы заранее заданного количества измерений, в попытке уловить их значение и контекстуальные отношения в многомерном пространстве гораздо меньшего размера, чем если бы требовалось кодировать каждое слово (или фразу) в словаре. Если бы вы создали матрицу из 500 000 слов, где каждая строка создавалась для отдельного слова, и каждый столбец в этой строке был установлен на “0”, кроме одного столбца, представляющего данное слово, то матрица была бы размером 500 000 x 500 000 строк х столбцов и была бы невероятно разреженной. Это было бы катастрофой как для хранения, так и для производительности. Задавая столбцы различными дробными значениями от 0 до 1 и уменьшая количество столбцов до, скажем, 300 (измерений), у нас имеется более сосредоточенная структура хранения и автоматически повышается производительность операций. Как побочный эффект, имея эти векторные значения, изученные нейронной сетью, схожие термины будут “ближе” по значению измерений, чем непохожие термины, что предоставляет нам понимание относительных значений слов.

 

Модели-трансформеры

Модели-трансформеры – это архитектуры искусственного интеллекта, которые одновременно обрабатывают целые предложения, что важно для понимания контекста языка и долгосрочных связей. Они отлично находят отношения между словами и фразами, даже находясь на значительном расстоянии друг от друга в предложении. Например, когда “она” уже установлена в начале текстового фрагмента как существительное и/или местоимение, относящееся к конкретному лицу, трансформеры способны “запомнить” эту связь.

 

Позиционное кодирование

 Позиционное кодирование относится к методу в моделях-трансформерах, которые помогают сохранять последовательный порядок слов. Это важный компонент для понимания контекста внутри предложения и между предложениями.

 

Обучение с подкреплением на основе обратной связи от людей

 Обучение с подкреплением на основе обратной связи от людей (RLHF) относится к методу обучения LLMs. Как и в традиционном обучении с подкреплением (RL), RLHF обучает и использует модель вознаграждения, однако в этом случае модель вознаграждения получается непосредственно от обратной связи людей. Модель вознаграждения затем используется в качестве функции вознаграждения при обучении LLM с использованием алгоритма оптимизации. Эта модель явно учитывает участие людей во время обучения модели в надежде, что обратная связь людей может предоставить существенные и, возможно, иначе недостижимые обратные связи, необходимые для оптимальных LLM.

Возникающее поведение

Возникающее поведение относится к неожиданным навыкам, которые проявляются крупными и сложными моделями языка, навыки, которые не проявляются у более простых моделей. Эти неожиданные навыки могут включать умение программировать, музыкальное сочинение и написание художественной литературы. Эти навыки не являются явно запрограммированными в модели, но возникают из их сложных архитектур. Однако вопрос о возникающих способностях может выходить за рамки этих более распространенных навыков; например, является ли теория разума возникающим поведением?

Галлюцинации

Галлюцинации – это термин, который используется, когда LLM (языковые модели большого масштаба, Large Language Models) производят фактически неверные или нелогичные ответы из-за ограничений данных и архитектуры. Несмотря на все передовые возможности модели, такие ошибки могут все равно возникать как при обработке запросов, которые не имеют основания в обучающих данных модели, так и при наличии неверной или нефактической информации в обучающих данных модели.

Антропоморфизм

Антропоморфизм – это склонность приписывать искусственным интеллектуальным системам человекоподобные качества. Важно отметить, что, несмотря на их способность имитировать человеческие эмоции или речь и наш инстинкт мыслить об моделях как о “он” или “она” (или любом другом местоимении) вместо “оно”, аппаратные системы искусственного интеллекта не обладают чувствами или сознанием.

Предвзятость

Предвзятость – это многозначный термин в исследованиях искусственного интеллекта и может относиться к различным вещам. В контексте нашего обсуждения, предвзятость относится к ошибкам в выводах искусственного интеллекта, вызванным искаженными обучающими данными, приводящими к неточным, оскорбительным или вводящим в заблуждение предсказаниям. Предвзятость возникает, когда алгоритмы приоритезируют нерелевантные характеристики данных по сравнению с значимыми шаблонами или когда последние отсутствуют вообще.

****[Мэтью Майо](https://www.kdnuggets.com/wp-content/uploads/./profile-pic.jpg)**** (@mattmayo13) имеет степень магистра по компьютерным наукам и диплом об окончании курса по добыче данных. В качестве главного редактора VoAGI Мэттью стремится сделать сложные концепции науки о данных доступными. Его профессиональные интересы включают обработку естественного языка, алгоритмы машинного обучения и изучение новых направлений развития искусственного интеллекта. Он поддерживает миссию демократизации знаний в сообществе науки о данных. Мэттью программировал с 6 лет.