Как практиковать центрированное на данных искусственное интеллекта и позволить ИИ улучшать свой собственный набор данных

Инновации в сфере искусственного интеллекта использование центрированного на данных подхода для расширения набора данных ИИ

Примечание редактора: Джонас Мюллер будет выступать на ODSC West с 30 октября по 2 ноября. Не забудьте посмотреть его доклад «Как практиковать данных-центрическое искусственное интеллект и позволить ИИ улучшить собственный набор данных», там!

Модели машинного обучения хороши только насколько хороши данные, на которых они обучены. Даже с самыми современными архитектурами нейронных сетей, если обучающие данные содержат ошибки, модель будет иметь проблемы. Проблемы данных, такие как ошибки меток, выбросы, дубликаты, изменение данных и примеры низкого качества значительно влияют на производительность модели.

Вот почему техники данных-центрического искусственного интеллекта становятся все более популярными. Вместо того, чтобы полностью сосредотачиваться на архитектуре модели, гиперпараметрах и приемах обучения как основных средствах улучшения модели, данные-центрический искусственный интеллект использует саму модель для систематического улучшения набора данных (таким образом, можно получить более хорошую версию модели даже без изменений в коде моделирования). Не думайте, что вам придется вручную выполнять работу по курированию данных! Новые алгоритмы и программное обеспечение могут помочь вам систематически улучшить ваши данные с помощью автоматизации.

В этой статье я дам общий обзор того, как можно использовать ИИ/МО для автоматического обнаружения различных проблем, характерных для реальных наборов данных. Эти техники основаны на годах исследований от моей команды, исследующей, какие проблемы данных можно обнаруживать алгоритмически с использованием информации из обученной модели. Чтобы внедрить эти идеи на практике, я продемонстрирую библиотеку с открытым исходным кодом cleanlab, которая является самым популярным программным обеспечением для данных-центрического ИИ. С помощью одной строки кода на Python вы можете автоматически обнаружить общие проблемы данных практически в любом наборе данных (изображения, текст, таблицы, аудио и т. д.) с использованием любой модели машинного обучения, которую вы уже обучили (sklearn, huggingface, pytorch, LLMs и т. д.). Обнаруженные проблемы могут быть решены для создания более качественного набора данных и, в свою очередь, более надежной модели.

Шаги практики данных-центрического искусственного интеллекта

  1. Обучите начальную модель машинного обучения на исходном наборе данных.
  2. Используйте эту модель для диагностики проблем данных (с помощью описанных здесь техник) и улучшения набора данных.
  3. Обучите ту же модель на улучшенном наборе данных.
  4. Попробуйте различные техники моделирования для дальнейшего улучшения производительности.

Многие специалисты по обработке данных переходят от Шага 1 → 4, но вы можете достичь большого прогресса без изменений в вашем коде моделирования, используя техники данных-центрического ИИ, основанные на информации, полученной вашей начальной моделью машинного обучения (которая уже способна раскрыть многое о данных). Постоянно повышайте производительность, выполняя Шаги 2 → 4 (и попытайтесь оценить с очищенными данными).

Еще один способ улучшить ваш набор данных – просто собрать больше аннотаций/примеров. Вы удивитесь, как часто модель умного специалиста по обработке данных, который потратил недели на оптимизацию, будет побеждена кем-то, кто использовал базовую модель и просто потратил день на разметку большего количества данных (это часто происходит даже в крупных технологических компаниях). Если вы правильно используете информацию, которую ваша модель машинного обучения запомнила о ваших данных, она может помочь определить, какие данные/аннотации будут наиболее информативными для сбора. Эти техники позволяют вам сохранить ограниченные ресурсы.

Начало работы с Cleanlab

Cleanlab – это библиотека на Python, созданная специально для данных-центрического ИИ. С помощью всего нескольких строк кода вы можете анализировать свой набор данных, чтобы найти потенциальные проблемы.

Этот простой код запускает различные алгоритмы, которые используют данные и вероятностное предсказание вашей модели машинного обучения, чтобы оценить различные типы проблем, характерные для реальных наборов данных.

Простое обнаружение проблем с данными не улучшает вашу модель – вам нужно решить проблемы. Для некоторых проблем, таких как (почти) дубликаты, исправлением может быть очистка дополнительных копий из набора данных.

Для более сложных проблем, таких как ошибки меток, вы можете просто отфильтровать все автоопределенные некорректные данные. Например, при настройке различных моделей LLM на задаче классификации текста (предсказание вежливости), такая автоматическая фильтрация улучшает производительность LLM без каких-либо изменений в коде моделирования! Еще большие преимущества можно получить, исправив метки образцов, которые были обнаружены как ошибочные; эти выгоды сохраняются для различных моделей LLM (и более общо для разнообразных модальностей данных и моделей машинного обучения).

Мое руководство ODSC West 2023 по AI с уклоном в работу с данными

Чтобы узнать больше о основных техниках AI, сфокусированных на данных, и реальных случаях использования, загляните на мое руководство на ODSC West 2023. Я расскажу о следующем:

  • Основы AI, сфокусированной на данных
  • Алгоритмы для автоматического обнаружения проблем с данными, таких как ошибки меток и выбросы
  • Методы улучшения наборов данных, включая эффективное сбор дополнительных аннотаций.

С помощью примеров и анализа кода вы узнаете, как применять AI, сфокусированный на данных, чтобы получить максимальную пользу от ваших проектов машинного обучения с помощью техник, которые, вероятно, вы никогда не изучали в университете.

Надеюсь, вам понравилось это введение в cleanlab и AI, сфокусированный на данных. Обязательно загляните на мою презентацию на ODSC West, чтобы более подробно изучить эти мощные техники! Здесь вы можете найти больше подробностей.

Биография:

Jonas Mueller является главным ученым и сооснователем компании Cleanlab, разрабатывающей программное обеспечение для инструментов AI, сфокусированных на данных, чтобы превратить ненадежные данные в надежные модели/аналитику. Ранее он работал старшим ученым в Amazon Web Services, разрабатывая алгоритмы, которые поддерживают ML-приложения сотен крупнейших компаний мира, и прежде окончил аспирантуру по обучению с подкреплением в MIT. Он также помог создать самые быстрорастущие библиотеки с открытым исходным кодом для AutoML и AI, сфокусированного на данных.