Hugging Face представляет SafeCoder решение для помощи в написании кода, разработанное для предприятий
Hugging Face представляет SafeCoder - решение для помощи в написании кода для предприятий.
Решения помощника по кодированию – это инструменты или программные приложения, которые помогают разработчикам при написании и редактировании кода. Решения помощника по кодированию получили широкое распространение в последнее время из-за своей высокой важности. В мире проводятся эксперименты и исследовательские инициативы для развития этой области. Эти решения помощника по кодированию базируются на LLM. Некоторые решения помощника по кодированию включают GitHub Copilot, TabNine, IntelliCode и т. д. Они обеспечивают значительный прирост продуктивности. Эти платформы существенно повышают производительность, предлагая контекстно-релевантные предложения и завершения кода. Их влияние способствует значительному повышению эффективности в процессе разработки программного обеспечения.
Однако использование этих помощников по кодированию имеет проблему, поскольку использование этих помощников подвергает кодовую базу третьим лицам. Кодовая база раскрывается третьим лицам как во время обучения, так и во время вывода, поскольку тонко настроенные Code LLM могут утечь код из своего обучающего набора данных во время вывода. SafeCoder позволяет клиентам изучить процесс создания и обновления своих моделей и сохранять контроль над своими возможностями искусственного интеллекта.
В результате исследователи Hugging Face тщательно изучили эти решения помощника по кодированию и разработали метод, называемый SafeCoder, чтобы помочь клиентам создавать свои собственные Code LLM. Этот метод включает тонкую настройку модели на их собственной кодовой базе с использованием передовых открытых моделей и библиотек. Важным является то, что этот процесс позволяет клиентам сохранять конфиденциальность своего кода, избегая его передачи Hugging Face или внешним сущностям. Основным принципом SafeCoder является то, что внутренняя кодовая база клиента никогда не будет доступна никакой третьей стороне (включая Hugging Face) во время обучения или вывода. Код остается виртуальной частной области (VPC) на протяжении всего процесса обучения и вывода, обеспечивая его целостность.
- Приложения Python | Использование многопоточности для повышения скорости и эффективности
- 14 дополнений Google Drive, которые помогут вам сэкономить время каждый день
- Persistent Systems формирует будущее инженерии программного обеспечения с помощью Amazon CodeWhisperer
StarCoder прошел обучение с помощью надежных 15 миллиардов параметров, используя техники оптимизации кода. Интеграция Flash Attention дополнительно повышает эффективность модели, позволяя ей охватывать контекст 8 192 токенов. Он обучен в более чем 80 языках программирования и обеспечивает передовую производительность на нескольких показателях.
Исследователи начали работу над необязательной фазой обучения для предоставления пользовательских рекомендаций по коду. Команда Hugging Face тесно сотрудничала с командой клиента, предоставляя пошаговое руководство по составлению и созданию обучающего набора данных. Этот процесс доходит до создания персонализированной модели генерации кода путем тонкой настройки, при этом обеспечивается максимальная конфиденциальность.
Во время фазы развертывания SafeCoder клиенты берут на себя ответственность, реализуя контейнеры, предоставленные Hugging Face, на своей инфраструктуре. Эти контейнеры настраиваются в соответствии с конкретной аппаратной конфигурацией клиента, включая опции, такие как графические процессоры NVIDIA, графические процессоры AMD Instinct, процессоры Intel Xeon, ускорители AWS Inferentia2 или Habana Gaudi. После развертывания и активации точек доступа SafeCoder внутри VPC клиента разработчики могут интегрировать совместимые плагины SafeCoder IDE. Эта интеграция позволяет разработчикам получать предложения по коду в режиме реального времени во время работы.
В будущем SafeCoder может предложить другие коммерчески допустимые модели с открытым исходным кодом, построенные на этически обоснованных и прозрачных наборах данных в качестве базовой LLM, доступной для тонкой настройки.