GenAI Как синтезировать данные на 1000 раз быстрее с лучшими результатами и меньшими затратами

GenAI Синтез данных на 1000 раз быстрее с отличными результатами и экономией

<img src="https://ai.miximages.com/opendatascience.com/wp-content/uploads/2023/10/VGTop.png"/>
<p>Примечание редактора: Винсент Гранвиль выступит на ODSC West с 30 октября по 2 ноября. Обязательно посмотрите его выступление "Генерация данных GenAI: быстрая и высококачественная синтезация табличных данных" здесь: <a href="https://www.rupython.com/apache-kafka-the-mission-critical-data-fabric-for-genai.html">https://www.rupython.com/apache-kafka-the-mission-critical-data-fabric-for-genai.html</a>.</p>
<p>У этой проблемы синтезирования данных есть два аспекта. Во-первых, как оценить результаты и сравнить синтезаторы? Затем, как практически устранить обучение, тем самым ускоряя алгоритмы на несколько порядков? Это, в свою очередь, приводит к существенной экономии затрат, так как GPU не требуется, и время в облаке существенно сокращается. Я сначала сосредоточусь на оценке, а затем на быстрой архитектуре. Я предоставляю только краткий обзор. Полные детали можно найти в моей новой книге "Статистическая оптимизация для генеративного искусственного интеллекта и машинного обучения", доступной здесь. И новая метрика оценки, и новый синтезатор данных теперь доступны в виде библиотек с открытым исходным кодом, соответственно "GenAI Evaluation" и "NoGAN Synthesizer". Контекст - генерация табличных данных.</p>
<h3 id="event---odsc-west-2023">МЕРОПРИЯТИЕ - ODSC West 2023</h3>
<h4 id="in-person-and-virtual-conference">Личное и виртуальное мероприятие</h4>
<p><strong>30 октября - 2 ноября</strong></p>
<p>Присоединяйтесь к нам и углубитесь в последние тенденции в науке о данных и искусственном интеллекте, инструменты и методы, от LLM'ов до аналитики данных и от машинного обучения до ответственного искусственного интеллекта.</strong></p>
<p></p>
<p><strong>Оценка синтетических данных</strong></p>
<p>Существует множество метрик для оценки качества синтетических табличных данных. Эти метрики измеряют, насколько похожи оригинальные и синтетические данные с точки зрения статистического распределения. Цель заключается в минимизации расстояния между двумя совместными эмпирическими распределениями (ECDF): одно вычисляется на реальных данных, а другое - на сгенерированных данных. ECDF имеет преимущества перед расстояниями, основанными на эмпирической функции распределения (EPDF). В частности,
</p>
<ul><li>ECDF всегда существует.</li><li>Как исчисление, он менее чувствителен к ошибкам.</li><li>Он легко обрабатывает смесь категориальных, порядковых и непрерывных функций.</li></ul>
<p>Расстояние между совместными (многомерными) ECDF, называемое здесь расстоянием Колмогорова-Смирнова (KS), изучается в академических кругах уже некоторое время с акцентом на вопросы сходимости. Тем не менее, я не видел практической реализации, протестированной на реальных данных в размерностях выше 3, объединяющих как числовые, так и категориальные признаки. Мой алгоритм NoGAN, вероятно, впервые использует полное многомерное расстояние Колмогорова-Смирнова для оценки результатов. Оно настроено на размерность. Кроме того, оно возвращает значение между 0 (наилучшее соответствие) и 1 (наихудшее соответствие). Сходимость приближенного KS, используемого здесь, хотя и очевидна во всех тестах, остаётся открытым теоретическим вопросом.</p>
<p>Причина для реализации этого расстояния, несмотря на его сложность, состоит в том, чтобы избежать ложных отрицательных результатов. Метрики, используемые поставщиками, часто оценивают низкое качество синтезации как отличное из-за недостатка глубины. В отличие от стандартных методов, многомерный ECDF улавливает все линейные и нелинейные зависимости признаков, простирающиеся по нескольким измерениям, тем самым устраняя эту проблему. Кроме того, все оценки были выполнены с использованием перекрестной проверки: разбиение реальных данных на обучающую и валидационную выборки, использование только обучающих данных для синтезации и валидационного набора для оценки производительности.</p>
<p><strong>Генерация синтетических данных</strong></p>
<p>NoGAN - это первый алгоритм в серии высокопроизводительных, быстрых синтезаторов, не основанных на нейронных сетях, таких как GAN. Он просматривает входные данные только один раз, создавая минимальное количество многомерных корзин или гиперпрямоугольников, которые эффективно охватывают разреженную рабочую область в пространстве признаков. Формы этих статических корзин предопределены на основе квантилей признаков. Общее количество корзин не превышает количество наблюдений. Все категориальные признаки совместно кодируются с использованием эффективной схемы ("умного кодирования").</p>
<p>Для генерации синтетических данных я выбираю количество корзин с помощью мультиномиального распределения для воспроизведения распределения количества в реальных данных. Внутри каждой корзины синтетические наблюдения генерируются с использованием равномерного или усеченного гауссовского распределения, с центром, оцененным на реальных данных.</p>
<p><img src="https://ai.miximages.com/opendatascience.com/wp-content/uploads/2023/10/VG1.png"/>Figure 1: Синтетические данные (слева) по сравнению с реальными (справа), набор данных Telecom</p>

Основной вектор гиперпараметров определяет количество квантильных интервалов, используемых для каждого признака (по одному на признак). Он легко настраивается, что позволяет автоматическую настройку. Действительно, вся техника олицетворяет объяснимое искусственный интеллект. Например, если у категориального признака есть только одна категория, которая составляет всего 1% наблюдений, соответствующее значение гиперпараметра должно быть не менее 100 (обратное значение 1%), чтобы убедиться, что оно не будет пропущено при синтезе.

Большие значения гиперпараметров всегда работают хорошо, но могут привести к переобучению и другим проблемам, особенно при сравнении синтезированных данных с валидационным набором. Как правило, лучше всего использовать наименьшие возможные значения для достижения желаемого качества. Меньшие значения также приводят к более богатым синтетическим данным; они полезны при использовании расширенных данных для повышения производительности прогностических алгоритмов.

Об авторе на GenAI:

Винсент Гранвиль – ведущий ученый и эксперт по машинному обучению в GenAI, сооснователь Data Science Central (приобретен компанией с публичной торговлей в 2020 году), главный ученый по искусственному интеллекту в MLTechniques.com, бывший руководитель с финансированием от венчурного капитала, автор и владелец патента, связанного с LLM. Опыт работы Винсента в корпоративной сфере включает Visa, Wells Fargo, eBay, NBC, Microsoft и CNET.

Винсент также является бывшим аспирантом Кембриджского университета и Национального института статистических наук (NISS). Он публиковался в «Journal of Number Theory», «Journal of the Royal Statistical Society» (серия B) и «IEEE Transactions on Pattern Analysis and Machine Intelligence». Он является автором нескольких книг, включая «Синтетические данные и генеративный искусственный интеллект» (Elsevier, 2024). Винсент живет в штате Вашингтон и увлекается исследованиями стохастических процессов, динамических систем, экспериментальной математики и вероятностной теории чисел. Недавно он запустил программу сертификации GenAI, предлагающую высококлассные проекты для участников.