Исследователи из Alibaba предлагают INSTAG открытый теггер для тонкой классификации, использующий способность современных чат-ботов, таких как ChatGPT, следовать инструкциям.

Researchers from Alibaba propose INSTAG, an open tagger for fine-grained classification, utilizing the ability of modern chatbots like ChatGPT to follow instructions.

Вы когда-нибудь задумывались, как большие модели языка, такие как ChatGPT, приобретают способность следовать инструкциям? Различные основные языковые модели получают ее через надзорное дообучение ( SFT ). Критическим фактором для успеха SFT является разнообразие и сложность наборов данных. Их качественный анализ и определения должны быть более ясными.

Исследователи из Alibaba DAMO Academy предлагают открытый классификатор с подробной разметкой, называемый “InsTag”, для классификации образцов в наборе данных SFT на основе семантики и намерений для определения разнообразия и сложности инструкций по задачам. Они утверждают, что способности модели растут с более сложными и разнообразными данными.

Исследователи также предлагают селектор данных на основе InsTag для выбора 6 тысяч разнообразных и сложных образцов из открытых наборов данных и дообучения моделей на выбранных данных InsTag. Они утверждают, что широкий диапазон обучающих данных, охватывающих различную семантику и специализацию, является ключевым для хорошо настроенных LLMs, соответствующих ожиданиям человека, которые могут точно распознавать человеческие намерения и правильно формализовывать ответы на естественных языках.

InsTag – это автоматический метод разметки инструкций, усиленный высокопроизводительным чатботом ChatGPT. Это фреймворк, который автоматически подсказывает ChatGPT присваивать теги запросам. ChatGPT использует систематическую технику нормализации тегов для объяснения каждого присвоенного тега. Когда InsTag применяется к существующим открытым наборам данных, он создает открытые теги с подробной разметкой, которые затем подробно анализируются для получения распределений на основе сложности и разнообразия. LLM, дообученные с использованием данных, выбранных селектором InsTag, показывают лучшие результаты на MIT-Benchmark.

При попытке генерировать теги намерений с использованием ChatGPT исследователи выявили три типа помех. Из-за нестабильности ChatGPT в соблюдении инструкций по форматированию вывода возникает лексический шум. Теги, которые слишком специфичны, создают неконтролируемую детализацию, что приводит к шуму. Некоторые теги часто появляются вместе из-за предвзятости ChatGPT и приводят к ложным корреляциям.

Для решения этих проблем они нормализуют результаты разметки с открытым набором тегов с использованием различных аспектов, таких как формат, семантика и ассоциации. Они сначала отфильтровывают теги с низкой частотой, которые появляются реже определенного параметра (называемого гиперпараметром, который связан со масштабом набора данных). Все теги преобразуются в нижний регистр, чтобы избежать влияния заглавных букв. Наконец, к каждому тегу применяется стемминг. Стемминг – это техника извлечения базовой формы слов путем удаления аффиксов.

Исследователи выбрали версию 13B LLaMA для дообучения и другие аналогичные LLM для сравнения. Их результаты показывают, что их модели превосходят все открытые выровненные LLM, достигая среднего балла 6,44 на MIT-Bench.

В заключение исследователи говорят, что их предложенный InsTag предоставляет новый аспект для более глубокого понимания распределения запросов при выравнивании LLM. У него есть сильный потенциал для расширения на более широкий круг применений, таких как всеобъемлющие оценки и самоинструкция на основе тегов.