Большие модели встречаются с большим количеством данных Spark и LLM в гармонии

Моделирование красоты как Spark и LLM создают совершенную гармонию в мире больших данных

ДАННЫЕ ИНЖЕНЕРИЯ И ГЕНЕТИЧЕСКИЙ ИНТЕЛЛЕКТ

Пошаговое руководство по использованию Apache Spark и больших языковых моделей

Изображение сгенерировано Midjourney.

Генеративный ИИ, включая Большие Языковые Модели (БЯМ), революционизирует различные аспекты человеческой жизни. За последние пять лет Генеративный ИИ превратился из научного проекта в прикладное решение для многих людей. Как инженер данных, интересующийся Генеративным ИИ, я всегда задавал себе вопрос, какая польза может быть от этой технологии для моей работы и приложений в области Обработки Данных? Существуют некоторые общие применения Ген ИИ и БЯМ для инженеров, такие как вспомогательное кодирование, помощь в документации и так далее. Однако здесь я рассмотрю некоторые более специализированные применения Ген ИИ и БЯМ в области инженерии данных. Если вас интересует эта тема, пожалуйста, прочтите эту статью и подписывайтесь на меня в VoAGI и Linkedin, чтобы получать больше статей о других случаях использования.

БЯМ: Мощные инструменты для преобразований

Не новость, что инженеры данных любят структурированные и абстрагированные данные. Но мир полон неструктурированных и неорганизованных данных, которым требуется внимание инженеров данных. Преобразования неструктурированных данных всегда сложны и иногда невозможны с помощью традиционных инструментов. Исторически одним из таких сложных неструктурированных данных был текст (например, комментарии, отзывы, беседы). Простые преобразования текстов не составляли особой проблемы, но сложные преобразования могут извлекать больше информации из текстов и позволяют создавать более богатые наборы данных.

Примерами сложных преобразований текста могут быть извлечение имен и объектов из текста, анализ настроений в отзыве или комментарии, замена важной информации (например, конфиденциальных данных, данных пользователей) в сохраненных текстах, перевод с одного языка на стандартный язык, краткое изложение текста и т. д. Хорошая новость заключается в том, что сегодня БЯМ могут выполнять все эти преобразования. Поэтому я считаю, что одним из сотен приложений БЯМ в инженерии данных является их использование как функций преобразования для сложных данных, таких как тексты.

В этой статье я покажу эту способность БЯМ с помощью Apache Spark, мощной системы обработки данных. Более конкретно, я собираюсь использовать небольшую БЯМ…