Это исследование по искусственному интеллекту представляет собой Owl новую большую языковую модель для IT-операций.

Это исследование представляет новую большую языковую модель Owl для IT-операций.

В постоянно меняющемся мире обработки естественного языка (NLP) и искусственного интеллекта (AI) большие языковые модели (LLM) стали мощными инструментами, демонстрирующими замечательные возможности в различных задачах NLP. Однако существенным недостатком текущих моделей является отсутствие специализированных больших языковых моделей (LLM), разработанных специально для IT-операций. Эта проблема представляет вызовы из-за особенностей терминологии, процедур и контекстуальных тонкостей, характеризующих это направление. В результате возникает неотложная необходимость создания специализированных LLM, способных эффективно ориентироваться и решать сложности в рамках IT-операций.

В рамках сферы IT растет важность технологий NLP и LLM. Задачи, связанные с информационной безопасностью, системной архитектурой и другими аспектами IT-операций, требуют специфических знаний и терминологии. Традиционные модели NLP часто испытывают трудности в расшифровке тонких нюансов IT-операций, что приводит к спросу на специализированные языковые модели.

Для решения этой проблемы исследовательская команда представила модель “Owl”, большую языковую модель, специально созданную для IT-операций. Эта специализированная LLM обучается на тщательно отобранном наборе данных, известном как “Owl-Instruct”, который охватывает широкий спектр IT-связанных областей, включая информационную безопасность, системную архитектуру и многое другое. Цель состоит в том, чтобы оснастить Owl специфическими знаниями, необходимыми для успешного выполнения задач, связанных с IT.

Исследователи реализовали стратегию самообучения для обучения модели Owl на наборе данных Owl-Instruct. Такой подход позволяет модели генерировать разнообразные инструкции, охватывающие как одношаговые, так и многошаговые сценарии. Для оценки производительности модели команда ввела набор данных “Owl-Bench”, который включает девять различных областей IT-операций.

Была предложена стратегия “смешивания адаптеров”, позволяющая использовать задаче-специфичные и область-специфичные представления для разнообразных входных данных, дополнительно улучшая производительность модели путем облегчения контролируемой тонкой настройки. Функция выбора TopK(·) используется для расчета вероятностей выбора всех адаптеров LoRA и выбора топ-k экспертов, следуя распределению вероятности. Стратегия “смешивания адаптеров” заключается в обучении языково-чувствительных представлений для различных входных предложений путем активации топ-k экспертов.

Несмотря на отсутствие обучающих данных, Owl достигает сравнимой производительности по RandIndex 0,886 и лучшему F1-оценке 0,894. В контексте сравнения RandIndex, Owl проявляет только незначительное снижение производительности по сравнению с LogStamp, моделью, обученной в значительной степени на логах в пределах домена. В контексте детализированного сравнения F1 Owl значительно превосходит другие базовые модели, показывая способность точно определять переменные в ранее неизвестных логах. Следует отметить, что основная модель для logPrompt – ChatGPT. По сравнению с ChatGPT при идентичных основных настройках, Owl проявляет превосходную производительность в этой задаче, подчеркивая устойчивые обобщающие способности нашей большой модели в операциях и обслуживании.

В заключение, Owl представляет собой прорывное достижение в области IT-операций. Это специализированная большая языковая модель, тщательно обученная на разнообразном наборе данных и тщательно оцененная на IT-связанных бенчмарках. Эта специализированная LLM изменяет способ управления и понимания IT-операций. Работа исследователей не только удовлетворяет потребность в специализированных LLM для конкретных областей, но также открывает новые возможности для эффективного управления и анализа данных в IT, в конечном итоге продвигая область управления IT-операциями.