В этой статье AI предлагается методика AugGPT подход к аугментации текстовых данных, основанный на ChatGPT.

Новый метод аугментации текстовых данных AugGPT ChatGPT в роли основы

NLP или Natural Language Processing – это область искусственного интеллекта, которая фокусируется на взаимодействии между человеком и компьютером с использованием языка. Анализ текста, перевод, чат-боты и анализ тональности – лишь некоторые из его множества приложений. NLP стремится сделать так, чтобы компьютеры понимали, интерпретировали и генерировали человеческий язык.

В последнее время исследования в области NLP сосредоточены на улучшении методов обучения с ограниченным числом обучающих примеров в ответ на вызовы нехватки данных. При этом данные методы повышают возможности моделей через архитектурные конструкции и предварительно обученные языковые модели, но ограничения качества и количества данных сохраняются.

Кроме того, всплыли методы дополнения текстовых данных, являющиеся ценными инструментами для преодоления ограничений объема выборок. Эти модельно-независимые техники, включая замену синонимов и более сложные процедуры, такие как обратный перевод, дополняют методы обучения с ограниченным числом обучающих примеров в NLP, предлагая решения для этих вызовов.

В этом же контексте команда исследователей опубликовала новую статью, в которой представлен новый метод дополнения данных под названием “AugGPT”. Этот метод использует ChatGPT, большую языковую модель, для генерации вспомогательных образцов для задач классификации текста с ограниченным числом обучающих примеров.

Метод решает проблему обучения с ограниченным числом обучающих примеров, когда модель, обученная на исходной области с ограниченным числом данных, должна качественно обобщаться на целевую область с лишь несколькими примерами. Предлагаемый метод AugGPT использует ChatGPT для генерации дополнительных образцов и улучшения обучающих данных для классификации текста.

Конкретно, модель обучается на базовом наборе данных (Db), содержащем относительно большой набор помеченных образцов, и новом наборе данных (Dn) с лишь несколькими образцами с метками. Цель состоит в достижении удовлетворительной обобщаемости на новом наборе данных. Фреймворк AugGPT состоит из дообучения BERT на базовом наборе данных, генерации дополненных данных (Daugn) с использованием ChatGPT и дообучения BERT с использованием дополненных данных. Для дополнения данных используется ChatGPT, который преформулирует входные предложения в дополнительные предложения для увеличения набора образцов с ограниченным числом обучающих примеров. Модель классификации текста с ограниченным числом образцов основана на BERT и использует функции потерь перекрестной энтропии и контрастивной потери для эффективной классификации образцов. AugGPT сравнивается с другими методами дополнения данных, включая замену символов и слов, имитацию клавиатуры, замену синонимов и другие. Подсказки метода разработаны для диалогов с одним или несколькими оборотами, обеспечивая эффективное дополнение данных для различных наборов данных и сценариев.

В заключение можно выделить следующие шаги для выполнения предложенного подхода AugGPT для улучшения классификации текста с ограниченным числом обучающих примеров:

1- Подготовка набора данных:

  • Создание базового набора данных (Db) с большим набором помеченных образцов.
  • Подготовка нового набора данных (Dn) с лишь несколькими помеченными образцами.

2- Дообучение BERT:

  • Начать с дообучения модели BERT на базовом наборе данных (Db), чтобы использовать ее предварительно обученные возможности понимания языка.

3- Дополнение данных с использованием ChatGPT:

  • Использовать ChatGPT, большую языковую модель, для генерации дополненных данных (Daugn) для задачи классификации текста с ограниченным числом обучающих примеров.
  • Применить ChatGPT для переформулировки входных предложений, создавая дополнительные предложения для дополнения образцов с ограниченным числом обучающих примеров. Этот процесс повышает разнообразие данных.

4- Дообучение BERT с использованием дополненных данных:

  • Дообучить модель BERT с использованием дополненных данных (Daugn) для адаптации ее к задаче классификации с ограниченным числом обучающих примеров.

5- Настройка модели классификации:

  • Разработать модель классификации текста с ограниченным числом образцов на основе BERT, используя дополненные данные для обучения.

Авторы провели эксперименты с использованием BERT в качестве базовой модели для оценки предложенной техники. AugGPT показал лучшие результаты по точности классификации на различных наборах данных по сравнению с другими методами дополнения данных. AugGPT также генерировал высококачественные дополнительные данные и повышал производительность модели. При сравнении ChatGPT для задач нижестоящего уровня он превосходил в более простых задачах, но требовал дообучения модели для более сложных задач, таких как PubMed, что демонстрирует ценность предложенного подхода в улучшении производительности.

В заключение статья представила AugGPT, новый метод дополнения данных для классификации с ограниченным числом обучающих примеров, который работает на семантическом уровне и приводит к улучшению согласованности и устойчивости данных по сравнению с другими методами. Она подчеркивает потенциал использования больших языковых моделей, таких как ChatGPT, в различных задачах NLP и предлагает дообучение этих моделей для прикладных областей. Успех AugGPT в улучшении задач классификации открывает возможности для его применения в суммировании текста и задачах компьютерного зрения, в частности, в генерации изображений из текста.