ChatGPT в качестве OCR для PDF Ваш новый инструмент для ETL-обработки данных для анализа
ChatGPT как OCR для PDF ваш новый инструмент для обработки данных ETL для анализа
Написание кода на английском языке со скоростью мысли
![Как использовать ChatGPT в качестве OCR и ETL-решения, Автор: Дэвид Лейбовиц](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/1*ytrNNCd5fH_kA3OPS9r_kA.gif)
Для недавнего исследования я поставил перед ChatGPT задачу превзойти отдел маркетинга Kroger в получении моей преданности. Могла ли генеративная ИИ, получив мою историю транзакций, создать маркетинговую стратегию, более убедительную, чем еженедельные купоны на яйца и овощи?
Более общий вопрос заключался в том, может ли ChatGPT консультировать маркетологов по созданию ценных представлений о клиентах и стратегий потребительского маркетинга для роста и удержания, используя реальные данные для массовой персонализации. В эксперименте использовались мои собственные квитанции о покупке для проверки способности ChatGPT анализировать бизнес на основе ограниченного набора данных.
Однако я столкнулся с распространенной проблемой анализа данных:
- Квитанции были хранены в формате неструктурированных документов Adobe PDF. Правильное форматирование данных было первым важным шагом.
- Данные были ограничены описаниями продуктов, артикулами и ценами. Для анализа, визуализации и получения представлений требовалось обогащение данных.
![Источник данных: неструктурированный файл квитанции в формате PDF, Автор: Дэвид Лейбовиц](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*u14Q7TpBF4pLh8lhwHbhJA.png)
В данной статье рассматриваются следующие вопросы:
- Вызов: преобразование квитанций в PDF во взаимодействующие данные
- Использование ChatGPT для OCR и ETL
- Перевод английского на язык программирования Python с помощью ChatGPT
- Получение представлений и визуализаций на основе данных
Использование ChatGPT без необходимости в навыках программирования
Инструмент интеграции данных или среда разработки обычно были бы полезны для этих задач ETL (извлечение, преобразование, загрузка), но для этого требуются время, ресурсы, программное обеспечение и навыки программирования — ресурсы, которых не хватает людям, которые в течение десятилетий не касались клавиатуры для программирования.
Мне было нужно, чтобы ChatGPT получил данные из PDF-файлов, извлек текст со страниц с помощью OCR (оптическое распознавание символов), а затем идентифицировал шаблоны для преобразования текста в данные, все это на английском языке, а не в виде кода.