ChatGPT в качестве OCR для PDF Ваш новый инструмент для ETL-обработки данных для анализа
ChatGPT как OCR для PDF ваш новый инструмент для обработки данных ETL для анализа
Написание кода на английском языке со скоростью мысли

Для недавнего исследования я поставил перед ChatGPT задачу превзойти отдел маркетинга Kroger в получении моей преданности. Могла ли генеративная ИИ, получив мою историю транзакций, создать маркетинговую стратегию, более убедительную, чем еженедельные купоны на яйца и овощи?
Более общий вопрос заключался в том, может ли ChatGPT консультировать маркетологов по созданию ценных представлений о клиентах и стратегий потребительского маркетинга для роста и удержания, используя реальные данные для массовой персонализации. В эксперименте использовались мои собственные квитанции о покупке для проверки способности ChatGPT анализировать бизнес на основе ограниченного набора данных.
Однако я столкнулся с распространенной проблемой анализа данных:
- Квитанции были хранены в формате неструктурированных документов Adobe PDF. Правильное форматирование данных было первым важным шагом.
- Данные были ограничены описаниями продуктов, артикулами и ценами. Для анализа, визуализации и получения представлений требовалось обогащение данных.

В данной статье рассматриваются следующие вопросы:
- Вызов: преобразование квитанций в PDF во взаимодействующие данные
- Использование ChatGPT для OCR и ETL
- Перевод английского на язык программирования Python с помощью ChatGPT
- Получение представлений и визуализаций на основе данных
Использование ChatGPT без необходимости в навыках программирования
Инструмент интеграции данных или среда разработки обычно были бы полезны для этих задач ETL (извлечение, преобразование, загрузка), но для этого требуются время, ресурсы, программное обеспечение и навыки программирования — ресурсы, которых не хватает людям, которые в течение десятилетий не касались клавиатуры для программирования.
Мне было нужно, чтобы ChatGPT получил данные из PDF-файлов, извлек текст со страниц с помощью OCR (оптическое распознавание символов), а затем идентифицировал шаблоны для преобразования текста в данные, все это на английском языке, а не в виде кода.