Познакомьтесь с xVal непрерывным способом кодирования чисел в языковых моделях для научных приложений, который использует только один токен для представления любого числа.

Изучите xVal непрерывный метод кодирования чисел в языковых моделях для научных приложений, который представляет любое число всего одним токеном.

В мире больших языковых моделей выделяется одна запутанная проблема. Хотя эти модели могут успешно выполнять множество задач, связанных с языком, они зачастую сбиваются при выполнении числовых вычислений с большими числами. В частности, умножение двух четырехзначных чисел дает показатель успешности чуть более 90%, что оставляет место для улучшений.

Эта проблема обусловлена отличиями между числами и другими формами языка. В отличие от букв или слов, числа представляют собой непрерывный спектр значений, подчиненный тонким и строгим правилам. Это вызывает вопросы о взаимосвязи между языковыми моделями и числовыми данными, и побуждает поиск решения.

Существующие решения этой проблемы являются немногими и далеки от совершенства. Большие языковые модели, которые преуспевают в задачах, связанных с языком, затрудняются адаптироваться к непрерывному и бесконечно изменчивому характеру чисел. Большинство подходов включает токенизацию, при которой числа разбиваются на несколько токенов, что увеличивает сложность модели и требования к памяти.

Исследователи из компании Polymathic AI представляют потенциальную революцию: стратегию кодирования xVal. Этот новаторский подход предлагает новую перспективу кодирования чисел в больших языковых моделях для научных приложений. xVal использует единственный токен с меткой [NUM], чтобы представлять любое число.

Стратегия xVal достигает этого, относя числа к языковой модели по-другому. Вместо использования нескольких токенов каждое число предварительно обрабатывается и хранится в отдельном векторе. В тексте число заменяется на токен [NUM]. При декодировании применяется специальный токен-головка в архитектуре трансформера, который предсказывает значение, связанное с токеном [NUM], используя среднеквадратичную ошибку (MSE) в качестве руководящей метрики.

В ходе серии экспериментов возможности xVal были тщательно протестированы и сравнены с четырьмя другими стратегиями числового кодирования. Результаты были интересными. xVal превзошел другие методы в задачах с несколькими операндами и выполнил задания сравнимо сложных вычислений, таких как умножение больших многозначных чисел.

Применение xVal к данным температуры из мирового климатического набора данных ERA5 позволило ему блестяще проявить свою плавность, достигнув лучшей производительности за минимальное время обучения.

Симуляции планеты показали исключительные способности xVal в интерполяции при моделировании планет, вращающихся вокруг центральной массы, переходя далеко за границу данных, имеющихся в распоряжении.

В заключение, инновационный подход xVal к кодированию чисел в языковых моделях открывает потенциал для переворота будущего. Решение проблемы представления чисел в больших языковых моделях более эффективным и точным способом открывает двери для новаторских приложений в научной сфере. Это прорывное решение может установить основу для создания моделей, объединяющих несколько сфер науки и, в конечном счете, изменить ландшафт научного познания в грядущие годы.