В данной статье на искусственном интеллекте предлагается ML-BENCH новый подход искусственного интеллекта, разработанный для оценки эффективности LLMs в использовании существующих функций в библиотеках с открытым исходным кодом.

Исследуем новый подход искусственного интеллекта ML-BENCH для оценки эффективности использования LLMs с открытым исходным кодом в библиотеках

Модели LLM все чаще используются в качестве мощных языковых агентов, способных выполнять различные программные действия. Несмотря на эти впечатляющие достижения, все еще существует значительный разрыв между возможностями этих моделей в статических экспериментальных условиях и постоянно меняющимися требованиями реальных сценариев программирования.

Стандартные бенчмарки на генерацию кода тестируют, насколько хорошо LLM может генерировать новый код с нуля. Однако программные соглашения редко требуют генезиса всех компонентов кода с нуля.

При написании кода для приложений реального мира обычной практикой является использование существующих общедоступных библиотек. Эти созданные библиотеки предлагают надежные, испытанные в бою решения для различных задач. Поэтому успех LLM в программировании должен оцениваться не только по производству функций, но и по их возможности выполнять код, основанный на открытых библиотеках с правильным использованием параметров.

В новом исследовании университетов Йель, Нанкинского и Пекина представлена ML-BENCH, реалистичный и всесторонний набор тестов для оценки способностей LLM понимать инструкции пользователей, навигировать по репозиториям GitHub и генерировать исполняемый код. ML-BENCH предоставляет высококачественный код для выполнения инструкций, который соответствует требованиям. В состав ML-BENCH входят 9 444 примера, 130 задач и 14 популярных репозиториев машинного обучения на GitHub.

Исследователи использовали Pass@k и Parameter Hit Precision в качестве метрик в своих исследованиях. С помощью этих инструментов они исследовали возможности GPT-3.5-16k, GPT-4-32k, Claude 2 и CodeLlama в средах ML-BENCH. ML-BENCH предлагает новые тесты для LLM. Экспериментальные результаты показывают, что модели GPT и Claude 2 значительно превосходят CodeLlama. Хотя GPT-4 проявляет значительный рост производительности по сравнению с другими LLM, он все же выполняет только 39,73% задач в экспериментах. Другие известные модели LLM испытывают галлюцинации и достигают низких результатов. Исследования показывают, что LLM должны делать не только генерировать код, но и понимать подробную документацию. Ключевой технологический вклад – это предложение ML-AGENT, автономного языкового агента, разработанного для устранения выявленных проблем через анализ ошибок. Эти агенты могут понимать человеческий язык и инструкции, генерировать эффективный код и выполнять сложные задачи.

ML-Bench и ML-Agent являются значительным прогрессом в области автоматизированных процессов машинного обучения. Исследователи надеются, что это заинтересует других исследователей и практиков.