Можем ли мы преобразовать текст в научную векторную графику? В этой научной статье представлен AutomaTikZ и объясняется мощь TikZ.

Превращаем текст в научную векторную графику знакомимся с AutomaTikZ и познаем мощь TikZ

Недавние достижения в генерации текста в изображение сделали возможным создание подробной графики по простому естественному языку описаний. Результаты, полученные с помощью моделей, таких как Stable Diffusion и DALL-E, часто напоминают реальные изображения или произведения искусства, созданные людьми. Эти модели не производят лучшие растровые изображения для научных фигур, часто создаваемых с низким разрешением. Научные фигуры важны для научных исследований, потому что они помогают исследователям объяснять сложные концепции или передавать важные открытия. Растровая графика должна улучшиться в этих областях, поскольку требуется высокая геометрическая точность и читаемый текст, даже мелкими буквами. В результате многие академические конференции рекомендуют использовать векторную графику, которая делит данные на геометрические формы, позволяет поиск текста и обычно имеет меньший размер файлов. 

Область автоматизированного создания векторной графики также расширяется, хотя доступные подходы имеют свои недостатки. Они в основном производят компоненты пути низкого уровня формата масштабируемой векторной графики (SVG), либо не удается сохранить точные геометрические отношения, либо производят выходные данные с низкой степенью сложности, например, одиночные значки или буквы цифрового шрифта. Исследователи из университетов Билефельда, Гамбурга и Маннгейма и Билефельда исследуют использование визуальных языков, которые абстрагируются от формата векторной графики низкого уровня, предлагая высокоуровневые структуры, которые могут быть скомпилированы к ним для решения этих ограничений. 

Языковые модели предлагают, что овладение этими языками и их использование для выполнения простых задач возможно. Однако устанавливается, в какой степени они могут создавать научные числа. В этой работе они сосредоточены на графическом языке TikZ из-за его выразительности и акцента на науке, который позволяет создавать сложные фигуры всего несколькими инструкциями. Им интересно узнать, могут ли языковые модели автоматически создавать научные фигуры на основе подписей к картинкам, подобно созданию текста в изображение, и улавливать тонкости TikZ. Это может не только увеличить производительность и способствовать включительности (помогая академикам, менее знакомым с языками, похожими на программирование, такими как социальные ученые), но также может улучшить образование, создавая настраиваемые примеры TikZ. Примером этого в использовании является TEX Stack Exchange, где обсуждается TikZ, и около 10% запросов получают ответ. 

Их основными вкладами являются:

(i) В рамках своего проекта AutomaTikZ они разработали DaTikZ, в котором содержится более 120 тысяч пар TikZ-рисунков и подписей, и это первый крупномасштабный набор данных TikZ.

(ii) Большая языковая модель (LLM) LLaMA на DaTikZ скорректирована, и ее производительность сравнивается с производительностью универсальных LLM, в частности GPT-4 и Claude 2. Автоматическая и человеческая оценка показывает, что научные фигуры, созданные скорректированной LLaMA, более схожи с созданными людьми.

(iii) Они продолжают работать над CLiMA, расширением LLaMA, которое включает мультимодальные вложения CLIP. Благодаря этому улучшению CLiMA теперь может легче понимать вводимые подписи, что усиливает соответствие текста и изображения. Кроме того, это позволяет использовать фотографии в качестве дополнительного ввода, что еще больше улучшает скорость.

(iv) Они также показывают, что все модели дают оригинальные результаты и мало страдают от проблем запоминания. В то время как LLaMA и CLiMA часто демонстрируют вырожденные решения, которые максимизируют сходство текста и изображения, путем явного дублирования подписи входного изображения на выходном изображении, GPT-4 и Claude 2 чаще производят более простые результаты.