Это исследование по искусственному интеллекту представляет прорывные методы по настройке языковых моделей для разработки микросхем.

Прорывные методы настройки языковых моделей для разработки микросхем исследование по искусственному интеллекту

ChipNeMo исследует использование LLM для индустриального проектирования чипов, применяя техники доменной адаптации вместо использования готовых LLM. Эти методики включают в себя настраиваемую токенизацию, доменно-адаптивное предварительное обучение, надзорное донастроивание с доменно-специфическими указаниями и доменно-адаптированные модели поиска. В ходе исследования эти методы были оценены на трех применениях LLM в чип-дизайне, что привело к значительному улучшению производительности по сравнению с универсальными моделями. Это позволяет существенно уменьшить размер модели с одновременным сохранением или улучшением производительности в различных задачах дизайна, подчеркивая потенциал для дальнейшего совершенствования подходов к доменно-адаптированным LLM.

Исследование изучает доменно-специфические применения LLM в чип-дизайне, подчеркивая наличие закрытых данных в различных областях. Оно углубляется в аугментированное поколение поиска для улучшения задач NLP с высоким уровнем знаний и генерации кода, включая разреженные и плотные методы поиска. Предыдущие исследования в чип-дизайне использовали надстройку LLM с открытыми исходными данными для улучшения производительности в задачах, таких как генерация кода Verilog. Это также предлагает дальнейшее исследование и улучшение подходов к доменно-адаптированным LLM в чип-дизайне.

Инструменты автоматизации проектирования электронных схем (EDA) повышают продуктивность проектирования чипов, однако некоторые трудоемкие задачи, связанные с языком, все еще нуждаются в выполнении. LLM могут автоматизировать генерацию кода, инженерные ответы, анализ и устранение ошибок в чип-дизайне. Предыдущие исследования исследовали применение LLM для генерации RTL и EDA-скриптов. Доменно-специфические LLM показывают превосходную производительность в задачах доменно-специфического проектирования чипов. Цель состоит в улучшении производительности LLM при одновременном уменьшении размера модели.

Данные по чип-дизайну прошли обработку через настраиваемые токенизаторы, оптимизируя их пригодность для анализа. Были проведены процедуры доменно-адаптивного предварительного обучения для донастройки предобученных фундаментальных моделей, синхронизируя их с доменом чип-дизайна. Надзорное донастроивание использовало наборы данных с доменно-специфическими и общими инструкциями для настройки производительности модели. Доменно-адаптированные модели поиска, объединяющие разреженные методы поиска, такие как TF-IDF и BM25, а также плотные методы поиска с использованием предобученных моделей, были задействованы для улучшения поиска информации и генерации.

Техники доменной адаптации в ChipNeMo привели к значительному улучшению производительности LLM в применении к чип-дизайну, охватывая такие задачи, как инженерные чат-боты, генерация EDA-скриптов и анализ ошибок. Эти методы не только значительно сократили размер модели, но и поддерживали или улучшали производительность в различных заданиях дизайна. Доменно-адаптированные модели поиска превосходят универсальные модели, демонстрируя заметное улучшение – вдвое лучше, чем ненадзорные модели и впечатляющее увеличение в 30 раз по сравнению с моделями Sentence Transformer. Проведение строгих оценочных испытаний, включающих множественный выбор запросов и оценку генерации кода, предоставило количественные показатели точности и эффективности модели.

В заключение, доменно-адаптированные техники, такие как настраиваемая токенизация, доменно-адаптивное предварительное обучение, надзорное донастроивание с доменно-специфическими инструкциями и модели поиска, адаптированные к домену, привели к значительному повышению производительности LLM в задачах проектирования чипов. Модели ChipNeMo, в частности ChipNeMo-13B-Chat, показали сравнимые или превосходящие результаты по сравнению с базовыми моделями, сокращая разрыв в производительности с более мощными моделями LLaMA2 70B в задачах инженерного чат-бота, генерации EDA-скриптов и анализа ошибок.