В данной статье на искусственном интеллекте предлагается ML-BENCH новый подход искусственного интеллекта, разработанный для оценки эффективности LLMs в использовании существующих функций в библиотеках с открытым исходным кодом.

Исследуем новый подход искусственного интеллекта ML-BENCH для оценки эффективности использования LLMs с открытым исходным кодом в библиотеках

Модели LLM все чаще используются в качестве мощных языковых агентов, способных выполнять различные программные действия. Несмотря на эти впечатляющие достижения, все еще существует значительный разрыв между возможностями этих моделей в статических экспериментальных условиях и постоянно меняющимися требованиями реальных сценариев программирования.

Стандартные бенчмарки на генерацию кода тестируют, насколько хорошо LLM может генерировать новый код с нуля. Однако программные соглашения редко требуют генезиса всех компонентов кода с нуля.

При написании кода для приложений реального мира обычной практикой является использование существующих общедоступных библиотек. Эти созданные библиотеки предлагают надежные, испытанные в бою решения для различных задач. Поэтому успех LLM в программировании должен оцениваться не только по производству функций, но и по их возможности выполнять код, основанный на открытых библиотеках с правильным использованием параметров.

В новом исследовании университетов Йель, Нанкинского и Пекина представлена ML-BENCH, реалистичный и всесторонний набор тестов для оценки способностей LLM понимать инструкции пользователей, навигировать по репозиториям GitHub и генерировать исполняемый код. ML-BENCH предоставляет высококачественный код для выполнения инструкций, который соответствует требованиям. В состав ML-BENCH входят 9 444 примера, 130 задач и 14 популярных репозиториев машинного обучения на GitHub.

Исследователи использовали Pass@k и Parameter Hit Precision в качестве метрик в своих исследованиях. С помощью этих инструментов они исследовали возможности GPT-3.5-16k, GPT-4-32k, Claude 2 и CodeLlama в средах ML-BENCH. ML-BENCH предлагает новые тесты для LLM. Экспериментальные результаты показывают, что модели GPT и Claude 2 значительно превосходят CodeLlama. Хотя GPT-4 проявляет значительный рост производительности по сравнению с другими LLM, он все же выполняет только 39,73% задач в экспериментах. Другие известные модели LLM испытывают галлюцинации и достигают низких результатов. Исследования показывают, что LLM должны делать не только генерировать код, но и понимать подробную документацию. Ключевой технологический вклад – это предложение ML-AGENT, автономного языкового агента, разработанного для устранения выявленных проблем через анализ ошибок. Эти агенты могут понимать человеческий язык и инструкции, генерировать эффективный код и выполнять сложные задачи.

ML-Bench и ML-Agent являются значительным прогрессом в области автоматизированных процессов машинного обучения. Исследователи надеются, что это заинтересует других исследователей и практиков.

AI Shorts,Applications,Artificial Intelligence,Editors Pick,Language Model

Эта научная статья ознакомит вас с новаторской моделью машинного обучения для эффективного прогнозирования горения водорода использование отрицательного проектирования и метадинамики в реактивной химии.

Исследуем новый подход искусственного интеллекта ML-BENCH для оценки эффективности использования LLMs с открытым исходным кодом в библиотеках

«BARD от Google теперь может «Смотреть и Отвечать на Вопросы» о видеороликах на YouTube»

Google AI представляет Mirasol3B Мультимоде...

«Real AI» выиграла проект по созданию крупн...

Финляндский стартап на базе искусственного ...

Ваш путеводитель по генеративному искусстве...

Эта научная работа исследует понимание скры...

«Экземпляр EC2 DL2q Amazon для экономичной ...

Машинное обучение