Что означает, когда машинное обучение допускает ошибку?

Значимость ошибок в машинном обучении?

Правильно ли понимаем понятие “ошибка” в контексте ML/AI? Если нет, то почему?

Фото от Kind and Curious на Unsplash

Комментарий к моей последней публикации о восприятии обществом машинного обучения заставил меня задуматься о значении понятия ошибки в машинном обучении. Читатель спросил, думаю ли я, что модели машинного обучения всегда будут “делать ошибки”. Как я описал в той публикации, люди имеют сильную склонность антропоморфизировать модели машинного обучения. Когда мы общаемся с чат-ботом на основе МО, мы применяем техники, которые мы изучили, общаясь с другими людьми – убеждение, формулировка, аргументация и т. д. Однако это часто неэффективно и приводит к неудовлетворительным ответам.

В моей повседневной работе я также вижу подобные проблемы, связанные с классификаторами и моделями регрессии. Моя команда и я тратим много времени и энергии, пытаясь помочь клиентам и коллегам понять, что машинное обучение не является идеальным (и вероятнее всего никогда не будет). “Почему модель сказала X, когда правда оказалась X-5?” – это постоянная тема. Я не виню задающих вопрос, по крайней мере, не полностью, потому что, как я писал в своей последней статье, мы, представители сообщества машинного обучения в широком смысле, не очень хорошо обучаем основам литературности МО.

Но это поднимает важный вопрос, который требует дальнейшего рассмотрения, прежде чем мы сможем решить эту проблему неграмотности.

Что мы подразумеваем (и что подразумевают другие люди), когда говорят, что модель совершила ошибку, неудачу, галлюцинацию или солгала?

Прежде чем мы сможем ответить на это, нам нужно начать сначала.

Что такое модель машинного обучения?

В очень общем смысле, модель машинного обучения – это алгоритм, который принимает некоторый ввод или запрос и возвращает некоторый ответ, вероятностно определенный. Каким образом модель принимает решение о том, каким должен быть ответ, может сильно варьироваться – это может быть дерево решений, нейронная сеть, линейная регрессия или любой другой тип машинного обучения.

Для создания модели мы начинаем с образцов данных, которые отражают желаемые результаты. Входные образцы могут быть разного рода – для генеративного искусственного интеллекта они могут представлять собой большие объемы текста, написанного людьми, или музыку или изображения. Для других типов МО они могут быть большими наборами данных, содержащими характеристики объектов или классификации изображений или текстов по категориям и многое другое.

Иногда эти образцы “помечены”, чтобы модель узнала, какие из них желательны, а какие нет, или какие относятся к определенной категории и какие – нет. В других случаях модель будет изучать закономерности в основных образцах и вырабатывать собственное понимание этих закономерностей, чтобы либо воспроизводить характеристики входов, выбирать между вариантами, разделять входы на группы или выполнять другие действия.

Способы обучения генеративных моделей ИИ

Способ обучения генеративных моделей специфичен и сложнее, чем обучение модели для оценки вероятности одного ответа. Вместо этого эти модели оценивают вероятности множества разных элементов и объединяют их для создания своего ответа. Вот очень простые объяснения нескольких способов этого обучения. (Все они являются ЧРЕЗВЫЧАЙНО упрощенными, поэтому простите за отсутствие деталей и обобщений.)

При генерации звука или изображений мы можем использовать генеративно-состязательные сети. Здесь модели соперничают друг с другом: одна модель генерирует новый контент, а другая модель пытается определить, был ли этот контент создан моделью или нет, взаимодействуя между собой. Две модели соревнуются тысячами и тысячами случаев, каждая становится лучше в своей задаче по мере продвижения. В конце концов, генерирующая модель сможет производить контент, который почти неотличим от того, что создало реальность. (Модель, определяющая, был ли ввод создан человеком, также становится очень хорошей в этом, как побочный эффект.)

Для LLM и генерации текста, таких как модели GPT, мы используем то, что мы называем трансформерами. Обучение включает в себя обучение модели пониманию, как связаны значения слов друг с другом, а также производству текстового контента, который практически неотличим от человеческого. Результаты звучат очень убедительно, потому что модель знает, какие слова вероятно будут использоваться вместе (с вероятностями, основанными на том, как реальный человеческий язык, использованный при обучении, сочетал их вместе).

Для создания изображений на основе текстовых вводов, как, например, в Dall-E, мы используем Diffusion. В этом случае мы обучаем модель вычислять, какие характеристики изображения наиболее вероятно являются желаемыми на основе предоставленного текста. Суть заключается в том, что модель начинает с изображения, которое является статическим, и на основе вашего текста применяет детали/цвета/характеристики. Это основано на знаниях о том, как текст обычно соотносится с изображениями, полученных в результате обучения модели.

Используя эти техники, мы обучаем модели распознавать паттерны во входных данных – иногда паттерны, которые мы сами не можем объяснить или обнаружить (особенно это верно для глубокого обучения), и затем модель может интерпретировать и применять эти паттерны. Всё это – математика под поверхностью, даже если паттерны могут быть в тексте, изображениях или других вещах.

Теперь, когда мы знаем это, мы можем поговорить о том, каковы результаты и что это означает, когда результат не является желаемым.

Результаты

Вещи, которые создает модель машинного обучения, могут быть самыми разными. Особенно генеративное искусственное интеллекта создает изображения, видео, аудио и тексты самого разного вида. Другие типы моделей дают нам вероятность событий/явлений, оценки неизвестных значений, переводы текста на разные языки, метки или группировки для содержимого и многое другое.

Во всех этих случаях сложные математические расчеты применяются для оценки наилучшего ответа на основе предоставленного ввода. Однако “наилучшее” – это очень конкретное понятие. В процессе создания модели вы указываете модели, какой характер вы хотите, чтобы ее ответы имели.

В процессе создания модели вы указываете модели, какой характер вы хотите, чтобы ее ответы имели.

Что означает получение непредвиденного результата?

Это зависит от нас так же, как и от модели. Это в основном аналогично любому продукту в сфере технологий. Дизайнеры и создатели продукта создают “истории пользователей”, когда они разрабатывают что-то для продажи людям, и это состоит из повествований о том, кто будет использовать этот продукт, как, и почему, и что они хотят получить от него.

Например, предположим, что мы разрабатываем инструмент для создания таблиц. Мы бы использовали истории пользователей, чтобы подумать об Анне, бухгалтере, и поговорили бы с бухгалтерами о том, какие функции нужны бухгалтеру в программном обеспечении для работы с таблицами. Затем мы бы подумали о Бобе, бизнес-аналитике, и поговорили бы с аналитиками бизнес-интеллекта о том, какие функции им нужны. Мы бы включили все это в наш список при планировании инструмента для работы с таблицами и использовали его для направления нашего дизайна. Вы понимаете идею.

Кто является пользователем модели машинного обучения? Это полностью зависит от того, какого рода модель это. Если ваша модель, например, предсказывает цены на недвижимость на основе характеристик объекта, это могут быть риэлторы, ипотечные кредиторы или покупатели недвижимости. Относительно конкретная модель, которая имеет ясно определенные приложения, легко настраивается для пользователя. Мы, как специалисты по данным, можем убедиться, что эта модель соответствует ожиданиям людей, которые будут ее использовать.

Иногда прогноз может быть неточным, но это математическая проблема, и мы, вероятно, можем разобраться, почему это произошло. Возможно, мы передали модели неверные данные или эта недвижимость является исключительной по некоторым причинам, о которых мы не могли сообщить модели. Если модель никогда не была обучена интерпретировать эффект, скажем, заднего двора с зоопарком на цену дома, у нее не будет способа учесть эту информацию. А что, если произошел обвал цен на недвижимость? Мы видели это недавно, и вы можете представить, что паттерны, которые модель изучила до обвала, больше не будут применимы.

Однако, в таком случае у нас есть две вещи:

  1. Ясная цель, которую модель должна достичь, и о которой знают данные ученые и пользователи;
  2. Количественный способ измерения, насколько близко модель приблизилась к своей цели.

Это означает, что нам ясно и просто определить, была ли модель успешной. После того, как мы сделаем такое определение, мы можем изучить, почему модель сделала то, что сделала – это то, что называется “понятностью модели” или “интерпретируемостью модели” в этой области.

А что насчет LLM?

Что все это значит для модели, такой как LLM? Кто является пользователем для ChatGPT? (Только что вы сказали “все” в своих мыслях?) Когда вывод модели может быть столь же сложным и разнообразным, как у LLM, у нас начинают появляться вопросы.

Для научных сотрудников, создающих генеративные модели искусственного интеллекта, хотя они могут использовать различные методы обучения, мы всегда стремимся создавать контент, который максимально приближен к обучающим данным, которые обычно генерируются людьми или природой. Чтобы это произошло, модель обучается на образцах контента, созданного людьми или природой. Мы прилагаем все усилия, чтобы дать модели математический способ понять, как и почему этот контент кажется “реальным”, чтобы она могла его воспроизвести. Именно так генеративная модель искусственного интеллекта становится способной создавать эффективность и делать определенную человеческую работу устаревшей.

Для научных сотрудников, создающих генеративные модели искусственного интеллекта, целью является создание контента, который максимально приближен к обучающим данным, которые обычно генерируются людьми или природой.

В целом, эти модели отлично справляются с этой задачей! Однако это создает некоторые проблемы. Поскольку модели LLM настолько убедительны в имитации человеческих ответов, пользователи склонны считать их похожими на людей. Это похоже на то, как дети изучают животных – вы учите ребенка, что меховое существо с четырьмя ногами и влажным носом – это собака, но затем вы показываете им кошку, и они склонны считать, что это тоже собака, потому что основные признаки кажутся такими похожими. Только когда вы объясняете, что кошка – это другое существо, они начинают интерпретировать различия и строить другую модель мышления.

Поскольку эти модели настолько убедительны в имитации человеческих ответов, пользователи склонны считать их похожими на людей.

На данный момент я считаю, что большинство общественности все еще формирует эту другую модель мышления для различения LLM от человека. (Как я уже писал ранее, научным сотрудникам нужно быть взрослыми и объяснять, что собака – это не то же самое, что кошка, чтобы продолжить метафору.)

Но я немного отклонился от темы. Что это на самом деле означает, так это то, что люди, взаимодействующие с очень простой моделью (цены на дома), понимают, что это ограниченный алгоритм. Это больше похоже на формулу электронной таблицы, чем на человека, и это формирует наши ожидания. Но когда мы используем ChatGPT, например, это уже сопровождается множеством черт общения в режиме онлайн с реальным человеком, и это влияет на нас. Вместо того, чтобы ожидать только ограниченных вещей, таких как “текст, звучащий как человеческий язык”, мы начинаем ожидать, что утверждения всегда будут точными, что результаты будут включать цельное критическое мышление и что факты из сегодняшних новостей будут доступны из модели, хотя она была обучена в прошлом году, например.

[P]ользователи, взаимодействующие с очень простой моделью, понимают, что это ограниченный алгоритм. … Но когда мы используем ChatGPT, например, это уже сопровождается множеством черт общения в режиме онлайн с реальным человеком, и это влияет на нас.

В том случае, если результаты модели могут проявлять признаки критического мышления, это происходит потому, что модель узнала, что упорядочение текста, которое мы интерпретируем как “критическое мышление” в реальных источниках человеческого происхождения, звучит более “человеческим”, и она имитирует эти упорядочения с этой целью. Когда мы разговариваем с людьми, мы делаем выводы из того, что они говорят, что они используют критическое мышление. Однако мы не можем сделать такое предположение с машинным обучением.

Помните два ключевых элемента, о которых я упоминал выше, у модели цен на дома:

1. Четкая цель, которую модель должна достичь, и о которой знают как научные сотрудники, так и пользователи;

2. Количественный способ определить, насколько близко модель подошла к своей цели.

В случае генеративного искусственного интеллекта, включая, но не ограничиваясь LLM, у нас возникают проблемы с первым элементом, частично потому, что цель на самом деле не такая ясная (“вернуть материал, который невозможно отличить от того, что произвел человек”), но главным образом потому, что научным сотрудникам не удается успешно объяснить пользователям, какова эта цель. У научных сотрудников, работающих над этими моделями, есть второй элемент, потому что они используют сложные математические системы, чтобы обучать модели, когда они создают достаточно “реальный” или похожий на человека контент. Но для обычного пользователя на улице это гораздо сложнее. Определение того, справилась ли модель или нет, больше похоже на оценку работ, чем на проверку результата математической задачи. Вмешивается субъективность.

Но даже если бы это было проще измерить, я настоятельно утверждаю, что пользователи, даже некоторые технически грамотные и высокообразованные, не очень ясно представляют себе, для чего были обучены эти модели, и поэтому не могут знать, что реалистично ожидать, а что нет. Поэтому результаты, которые абсолютно соответствуют модели, такие как свободный, гармоничный, абсолютно “человеческий” абзац, описывающий, как луна сделана из зеленого сыра, будут восприниматься как “ошибка”. Однако это не так – такой результат соответствует целям обучения – и в этом и кроется источник многих наших заблуждений.

Калибровка ожиданий

Это подразумевает, что нам нужно калибровать ожидания от этих моделей, и я надеюсь, что, возможно, этот статья поможет в этом. Чтобы успешно использовать модель машинного обучения и отличать ошибку от ожидаемого поведения, вам необходимо понимать, для каких задач модели были обучены и какова природа обучающих данных. Если вы становитесь по-настоящему продвинутым, у вас также должен быть четкий контекст, как ученые-данные за этой моделью измеряли успех, потому что это значительно формирует поведение модели.

Включая эти элементы, у вас будет контекст, необходимый для понимания, что означают результаты модели, и вы сможете правильно их интерпретировать – ваши ожидания будут разумными, и вы будете знать, были ли они выполнены. И вы будете знать, что на самом деле означает “ошибка” в машинном обучении.

Есть полезный материал, который разъясняет многое из этого (как они обучаются, что на самом деле означают ответы) для популярных генеративных моделей машинного обучения, и я добавил некоторые ссылки на них ниже. (Я не поддерживаю все мнения в этих материалах, но предлагаю их варианты для тех, кто хочет узнать больше о генеративном искусственном интеллекте.)

Обречены ли AI-модели на постоянные галлюцинации? | TechCrunch

Большие языковые модели, такие как ChatGPT, имеют плохую привычку выдумывать факты. Но может ли это быть решено на техническом уровне?

techcrunch.com

Google Cloud Skills Boost

Qwiklabs предоставляет реальные среды Google Cloud, которые помогают разработчикам и ИТ-специалистам изучать облачные платформы и…

www.cloudskillsboost.google

Garon, Jon M., Практическое введение в генеративный искусственный интеллект, синтетические медиа и сообщения, найденные в последних VoAGI (14 марта 2023 года). Доступно по адресу SSRN: https://ssrn.com/abstract=4388437 или http://dx.doi.org/10.2139/ssrn.4388437

Смотрите больше моих работ на www.stephaniekirmer.com.

Примечание: Я обычно говорю “машинное обучение”, а не ИИ, но в случае “генеративного ИИ” я выбираю использовать эту фразу из-за ее широкого принятия в области.