Как я использовал открытые LLM-модели для достижения огромных сэкономий на большом вычислительном проекте

Использование открытых LLM-моделей для сэкономии на вычислительном проекте

Разблокировка стоимостной эффективности в больших вычислительных проектах с использованием открытых LLM и аренды GPU.

Фото Александра Грея на Unsplash

Введение

В мире больших языковых моделей (LLM) стоимость вычислений может быть значительным препятствием, особенно для обширных проектов. Недавно я начал проект, который требовал выполнения 4 000 000 запросов с средней длиной ввода 1000 токенов и средней длиной вывода 200 токенов. Это почти 5 миллиардов токенов! Традиционный подход к оплате за токен, как это обычно бывает с моделями, такими как GPT-3.5 и GPT-4, привел бы к значительным затратам. Однако я обнаружил, что, используя открытые LLM и аренду GPU за час, я мог изменить модель ценообразования и существенно сэкономить. В этой статье будут подробно рассмотрены подходы, которые я выбрал, и сравнены их достоинства и недостатки. Обратите внимание, что, хотя я делюсь своим опытом в ценообразовании, эти данные могут измениться и могут отличаться в зависимости от вашего региона и конкретных обстоятельств. Основная идея здесь заключается в потенциальной экономии затрат при использовании открытых LLM и аренде GPU за час, а не в конкретных приведенных ценах. Если вы планируете использовать мои рекомендуемые решения для своего проекта, я оставил несколько партнерских ссылок в конце этой статьи.

API ChatGPT

Я провел первоначальное тестирование с использованием GPT-3.5 и GPT-4 на небольшой подвыборке моих входных данных. Оба модели продемонстрировали похвальные результаты, но GPT-4 постоянно превосходил GPT-3.5 в большинстве случаев. Чтобы дать вам представление о стоимости, выполнение всех 4 миллионов запросов с использованием Open AI API будет выглядеть примерно так:

Общая стоимость выполнения 4 млн запросов с длиной ввода 1000 токенов и длиной вывода 200 токенов

Хотя GPT-4 действительно предложил некоторые преимущества в производительности, стоимость была несоразмерно высокой по сравнению с приростом производительности для моих результатов. С другой стороны, GPT-3.5 Turbo, хотя и более доступный, уступал в производительности, делая заметные ошибки на 2-3% моих входных данных. Учитывая эти факторы, я не был готов инвестировать $7,600 в проект, который…