ChatGPT в качестве OCR для PDF Ваш новый инструмент для ETL-обработки данных для анализа

ChatGPT как OCR для PDF ваш новый инструмент для обработки данных ETL для анализа

Написание кода на английском языке со скоростью мысли

Как использовать ChatGPT в качестве OCR и ETL-решения, Автор: Дэвид Лейбовиц

Для недавнего исследования я поставил перед ChatGPT задачу превзойти отдел маркетинга Kroger в получении моей преданности. Могла ли генеративная ИИ, получив мою историю транзакций, создать маркетинговую стратегию, более убедительную, чем еженедельные купоны на яйца и овощи?

Более общий вопрос заключался в том, может ли ChatGPT консультировать маркетологов по созданию ценных представлений о клиентах и стратегий потребительского маркетинга для роста и удержания, используя реальные данные для массовой персонализации. В эксперименте использовались мои собственные квитанции о покупке для проверки способности ChatGPT анализировать бизнес на основе ограниченного набора данных.

Однако я столкнулся с распространенной проблемой анализа данных:

  1. Квитанции были хранены в формате неструктурированных документов Adobe PDF. Правильное форматирование данных было первым важным шагом.
  2. Данные были ограничены описаниями продуктов, артикулами и ценами. Для анализа, визуализации и получения представлений требовалось обогащение данных.
Источник данных: неструктурированный файл квитанции в формате PDF, Автор: Дэвид Лейбовиц

В данной статье рассматриваются следующие вопросы:

  1. Вызов: преобразование квитанций в PDF во взаимодействующие данные
  2. Использование ChatGPT для OCR и ETL
  3. Перевод английского на язык программирования Python с помощью ChatGPT
  4. Получение представлений и визуализаций на основе данных

Использование ChatGPT без необходимости в навыках программирования

Инструмент интеграции данных или среда разработки обычно были бы полезны для этих задач ETL (извлечение, преобразование, загрузка), но для этого требуются время, ресурсы, программное обеспечение и навыки программирования — ресурсы, которых не хватает людям, которые в течение десятилетий не касались клавиатуры для программирования.

Мне было нужно, чтобы ChatGPT получил данные из PDF-файлов, извлек текст со страниц с помощью OCR (оптическое распознавание символов), а затем идентифицировал шаблоны для преобразования текста в данные, все это на английском языке, а не в виде кода.