Как человеческий труд позволяет машинному обучению

Как труд человека способствует развитию машинного обучения

Большая часть разделения между технологией и человеческой деятельностью является искусственной – как люди делают нашу работу возможной?

Фото: Dominik Scythe на Unsplash

Мы недостаточно говорим о том, какую огромную работу мы делаем ручным трудом, чтобы сделать возможными захватывающие достижения в ML. Истина в том, что разделение между технологией и человеческой деятельностью является искусственным. Все входы, которые делают модели, являются результатом усилий людей, и все выводы в большей или меньшей степени существуют, чтобы оказать влияние на людей. Сегодняшняя колонка посвящена разговору о некоторых конкретных областях, в которых мы упускаем из виду, насколько важны люди для нашей работы – и не только для ученых-исследователей, которые пишут код.

Разделение между технологией и человеческой деятельностью является искусственным, потому что все входы, которые делают модели, являются результатом усилий людей, и все выводы в большей или меньшей степени существуют, чтобы оказать влияние на людей.

Создание данных

Вы, вероятно, уже знаете об этом – для обучения LLMs требуются огромные объемы текстовых данных. Мы обычно думаем об этом в сотнях или тысячах гигабайт данных на жестком диске, но это немного абстрактно. Согласно некоторым отчетам, GPT-4 включал порядка 1 триллиона слов в своих обучающих данных. Каждое из этих слов было написано человеком, с использованием его творческих способностей. Для сравнения, первая книга серии “Игра престолов” состояла из примерно 292 727 слов. Таким образом, обучающие данные для GPT-4 были примерно в 3 416 152 раза длиннее этой книги. И это лишь один пример из текстового моделирования – другие виды моделей, такие как модели, создающие или классифицирующие мультимедиа, также используют такие же огромные объемы данных.

Есть несколько вещей, которые следует учитывать при работе с этими данными. Во-первых, все эти данные генерируются людьми, они не появляются на наших жестких дисках волшебным образом. Уважение и признание людей, создающих наши данные, важны с этической точки зрения, потому что они вкладывают свою работу и создают ценность, которую мы используем. Но есть и более эгоистичные причины, по которым мы должны знать, откуда берутся наши данные. У нас есть ответственность как ученых-исследователей по данных знать, какой материал мы предоставляем нашим моделям в качестве примеров и глубоко его понимать. Если мы игнорируем происхождение наших данных, мы подвергаем себя риску неприятных сюрпризов, связанных с поведением наших моделей в реальном мире. Например, обучение LLMs на форумах Интернета или данных из социальных сетей приводит к риску репликации худшего из этих пространств, включая расизм, ненависть и другое. В несколько менее экстремальных примерах мы знаем, что модели получают свойственность от обучающих данных.

Если мы игнорируем происхождение наших данных, мы подвергаем себя риску неприятных сюрпризов, связанных с поведением наших моделей в реальном мире.

Маркировка данных

Для маркировки данных требуется помощь людей. Но что такое маркировка? В своей сущности, маркировка данных означает использование человеческого разума для присвоения значений или суждений тому, что мы обнаруживаем в данных. Независимо от того, как данные собираются или создаются, для множества применений машинного обучения для таких данных требуется маркировка какого-либо вида.

Это может означать просто определение, является ли точка данных хорошей или плохой, определение, являются ли слова положительными или отрицательными, создание производных значений, разделение записей на категории, определение применимых тегов к изображению или видео или бесчисленные другие варианты. Один из общих примеров – определение текста на изображении или других мультимедийных данных для улучшения моделей распознавания символов. Если вы когда-либо использовали captcha, вам, вероятно, знакома эта работа по маркировке данных.

Сами LLMs в теории не требуют маркировки, потому что мы выводим качество “похожести на человеческий вывод” текстов на основе того факта, что эти тексты уже были созданы реальными людьми и, следовательно, должны быть наиболее похожими на “человеческий вывод”. В основном, поскольку это написали люди, оно определенно является приемлемым примером для модели в попытке научиться и эмулировать. Здесь мы используем такие вещи, как семантическое вложение – модель изучает, как работают языковые образцы в текстах, созданных людьми, и количественно это оценивает с помощью математических представлений. Однако мы все равно выбираем, какой текст используется в процессах модели, как я ранее описал, и у нас есть обязанность понимать и оценивать этот текст.

Обучение моделей

Обучение с подкреплением требует участия человека для настройки задач – то есть, мы незначительно подстраиваем, как модель отвечает на запросы, когда она уже освоила способность возвращать связанный ответ, будь то текст, изображения, видео или другие материалы. После автоматического начального этапа предварительного обучения или основного обучения многие модели проходят тонкую настройку исправления человеками, которые делают иногда неоднозначные решения о том, соответствует ли модель желаемому. Это очень сложная задача, потому что нюансы того, что мы на самом деле ожидаем от модели, могут быть довольно сложными. Практически это редактирование LLM-статьи по грамотности в масштабах.

Как я уже упоминал ранее, многие современные модели стремятся создавать контент, который будет наиболее приятен пользователю – что-то, что будет казаться правильным и привлекательным человеку. Что может быть лучшим способом обучить этому, чем попросить людей взглянуть на промежуточный этап обучения и решить, соответствуют ли результаты этому описанию, и сообщить модели, чтобы она могла принимать более подходящие выборы? Это не только самый эффективный способ, но, возможно, и единственный, который работает.

Практически это редактирование LLM-статьи по грамотности.

Почему это важно

Хорошо, и что? Достаточно ли быть добросовестным и признавать, что реальные люди вкладывают много труда, чтобы сделать наши модели возможными? Поклониться им и сказать спасибо? Нет, не совсем, потому что нам нужно исследовать, как влияние человека влияет на результаты, которые мы получаем. Как ученые-данные, нам нужно быть любопытными о взаимодействии между тем, что мы создаем, и остальным миром, в котором это существует.

Из-за всех этих влияний человеческие выборы формируют способности и суждения моделей. Мы внедряем человеческий предвзятость в модели, потому что люди создают, контролируют и оценивают все вовлеченные материалы. Мы решаем, какой текст предоставить модели для обучения, или что один ответ модели хуже другого, и модель закрепляет наши выборы в математических представлениях, которые она может использовать и повторить.

Этот элемент предвзятости неизбежен, но это необязательно плохо. Попытки создать что-то, свободное от человеческого влияния, подразумевает, что человеческое влияние и сами люди – проблемы, которых следует избегать, что, по моему мнению, несправедливая оценка. В то же время мы должны быть реалистичными и признать, что человеческая предвзятость является частью наших моделей и сопротивляться соблазну смотреть на модели как на что-то, превышающее наши человеческие недостатки. Вещи, такие как присвоение меток, например, заставляют нас вкладывать сознательное или подсознательное значение в данные. Мы оставляем следы наших мыслительных процессов и наших историй в данных, которые мы создаем, будь то оригинальный творческий контент, данные метки или оценки выводов модели.

Попытка создать что-то, свободное от человеческого влияния, подразумевает, что человеческое влияние и сами люди – проблемы, которых следует избегать, что, по моему мнению, несправедливая оценка.

Кроме того, часто в сфере машинного обучения человеческий труд воспринимается как служение “реальной” работе, а не имеющий самостоятельного значения. Люди, создающие оригинальные труды, перестают рассматриваться как уникально творческие личности, а превращаются в “генераторы контента” в служении модели. Мы теряем человечность и настоящую причину существования этого контента, которая заключается в служении и укреплении позиции человечества. Как и в предыдущем пункте, мы недооцениваем людей в пользу идеализации технологии, что, по моему мнению, глупо. Модели – это продукт людей и существуют, чтобы служить людям, они не являются самоцелью. Если вы создаете модель, которая никогда не используется и не запускается, в чем смысл?

Является ли данные возобновляемым ресурсом?

Есть еще одна интересная проблема: риск исчерпания чистого контента, созданного людьми, как ограничивающий фактор способностей модели. То есть, по мере того, как наше общество начинает использовать LLM-модели для генерации данных и Dall-E для создания изображений, и мы перестаем поощрять настоящих людей быть креативными без этих технологий, тогда триллионы слов и горы изображений, необходимых для обучения новых версий этих моделей, станут загрязнены искусственно созданным контентом. Этот контент, конечно же, производится на основе контента, созданного людьми, но это не одно и то же. У нас еще нет очень хороших способов различить контент, созданный людьми без использования моделей, поэтому мы будем испытывать трудности в определении, содержит ли наша обучающая выборка для будущих моделей такое загрязнение и в каком объеме.

Некоторые люди утверждают, что это на самом деле не имеет большого значения, и что обучение моделей на хотя бы какой-то доле искусственного контента не представляет проблемы, но другие теоретизируют, что когда мы начнем закусывать искусственно созданный контент таким образом, внутренние процессы обучения будут существенно изменены, в виде чего-то, называемого Модельным Крахом. В некотором смысле это пример существенной проблемы, что ваша модель оказывает влияние на мир, от которого она зависит, поэтому модель, по своей сути, меняется своим собственным поведением. Это не только относится к LLM-ам, как хорошо знают специалисты по обработке данных. Любая модель может лишить себя работы, влияя на то, как люди ведут себя, что приводит к изменению ее производительности из-за изменения основных связей данных.

Ваша модель оказывает влияние на мир, от которого она зависит, поэтому модель, по своей сути, меняется своим собственным поведением.

Даже если мы не обучаемся на настоящих искусственных данных, также есть множество ученых, рассматривающих, изменится ли наша человеческая композиция и творческий процесс в результате изучения искусственно созданного контента. Если вы много читаете тексты, генерируемые LLM, будь то при написании и получении советов модели или просто на просторах Интернета, это изменит ваш стиль написания незаметно? Пока на уровне сообщества сложно сказать, но это серьезная проблема.

Влияние человека есть неотъемлемая часть машинного обучения – это философский вопрос. Мы думаем о машинном обучении как о чисто научной деятельности, что-то, что действует на нас, и поэтому для некоторых это кажется пугающим. Но на самом деле, создаваемые системы – это результат вмешательства человека и человеческого творчества. Создание и поддержка данных делают возможным остальную часть машинного обучения. В некотором смысле, это должно нас успокаивать, потому что мы имеем контроль над тем, что делаем с машинным обучением и как это делаем. Процесс машинного обучения заключается в установлении связей между фрагментами данных и их расчете в математические представления, но данные производятся людьми и находятся под нашим контролем. Машинное обучение и искусственный интеллект – это не какие-то чужие, абстрактные силы – это просто мы.

Посмотрите еще мои работы на сайте www.stephaniekirmer.com.

Статьи и ссылки, указанные выше, для удобного доступа: