Vectara запускает прорывную модель с открытым исходным кодом для сравнения и борьбы с галлюцинациями в моделях искусственного интеллекта и языковых моделях

Vectara представляет новаторскую модель с открытым исходным кодом для сравнения и преодоления галлюцинаций в искусственном интеллекте и языковых моделях

В рамках неслыханной инициативы, направленной на повышение ответственности в быстро развивающейся сфере генеративного искусственного интеллекта (GenAI), Vectara выпустила модель оценки галлюцинаций в открытом доступе, что является значительным шагом к стандартизации измерения фактической точности в моделях большого объема языка (LLM). Эта инициатива создает коммерческий и открытый ресурс для оценки степени “галлюцинаций” или отклонения от проверяемых фактов в моделях LLM, а также предоставляет динамически вычисляемую и общедоступную таблицу лидеров.

Такое решение направлено на укрепление прозрачности и предоставление объективного метода для количественной оценки рисков галлюцинаций в ведущих инструментах GenAI, что является важной мерой для продвижения ответственного применения искусственного интеллекта, смягчения дезинформации и обеспечения эффективного регулирования. Модель оценки галлюцинаций поможет оценить насколько LLM сохраняют связь с фактами при генерации контента на основе предоставленного материала.

Модель оценки галлюцинаций от Vectara, которая теперь доступна на Hugging Face под лицензией Apache 2.0, предлагает четкое представление о фактической достоверности моделей LLM. Ранее утверждения о проотивостоянии галлюцинациям в моделях LLM от производителей оставались в основном непроверяемыми. Модель от Vectara использовует последние достижения в исследованиях галлюцинаций для объективной оценки кратких сводок.

Вместе с выпуском модели представлен Leaderboard, аналогичный FICO-оценке точности GenAI, поддерживаемый командой Vectara совместно с открытым сообществом. Он ранжирует модели LLM на основе их результатов в стандартизированном наборе задач, предоставляя предприятиям и разработчикам ценную информацию для принятия обоснованных решений.

Результаты Leaderboard показывают, что модели OpenAI в настоящее время лидируют по результатам, недалеко следуют модели Llama 2, причем Cohere и Anthropic также показывают хорошие результаты. Однако модели Palm от Google набрали ниже оценку, что отражает непрерывную эволюцию и конкуренцию в этой области.

Хотя модель от Vectara не является решением для галлюцинаций, она является решающим инструментом для безопасного и точного применения GenAI. Ее ввод происходит в критический момент, когда особое внимание уделяется риску дезинформации перед важными событиями, такими как президентские выборы в США.

Модель оценки галлюцинаций и Leaderboard готовы стать ключевым инструментом для развития данных с помощью регулирования GenAI, предлагая стандартизированный комплекс, давно ожидавшийся от индустрии и органов регулирования.