MakeBlobs + Fictional Synthetic Data – новое (но не совсем) применение

MakeBlobs + Fictional Synthetic Data - новые (но не вполне) возможности применения

Придайте новую жизнь вашим проектам (и практике в области науки о данных) с помощью этого малоизвестного модуля SkLearn

На западном издании конференции Open Data Science Conference (ODSC) одной из самых привлекательных панелей была тема синтетических данных. В этой статье мы заново рассмотрим эту тему, обратив внимание на то, как можно быстро создать новый фиктивный набор данных с помощью make_blobs.

Кредит за изображение: конференция ODSC. Четыре участника панели обсуждают синтетические данные: Али  Голшан, Джей Аламмар, Шемус Макговерн и Яшар Бехзади. Изображение использовано с разрешения.

В различных областях практики в области науки о данных, ценность фиктивных, но реалистичных данных слишком часто недооценивается и еще чаще недооценивается. Статья направлена на привлечение внимания к малоизвестному модулю в популярной библиотеке Scikit-Learn: make_blobs совместно с MinMaxScaler – вместе эти модули могут быть умным инструментом для создания реалистичных фиктивных данных, что крайне важно для обучения, тестирования, образования и демонстрации в области науки о данных.

Это не первый раз, когда я затрагиваю тему фиктивных синтетических данных. Например, несколько лет назад я написал Как создать фиктивные данные, который руководит читателями по созданию собственных наборов данных для различных целей, таких как тестирование, обучение или демонстрация. Он подчеркивает полезность создания фиктивных данных, особенно для ученых в области данных и тех, кто изучает науку о данных. В статье я привел подробный пример создания данных для двух вымышленных видов птиц – западного и восточного – с использованием Python и библиотек, таких как Pandas, NumPy и Seaborn.

Позже, в статье Три дополнительных способа создания фиктивных данных, я снова писал для тех, кто хочет узнать еще больше о фиктивных данных. Основной вывод из этой статьи заключается в том, что каждый инструмент имеет свои сильные и слабые стороны. Я предложил, чтобы создание данных вручную или использование комбинации этих инструментов может быть лучшим способом полностью удовлетворить ваши специфические требования к фиктивным данным.

Я также приветствую призыв к учащимся в области науки о данных создавать свои собственные данные. Это помогает развивать навыки обработки данных, визуализации данных и также позволяет углубить знания о распределениях. В статье Пособие специалиста по созданию фиктивных данных с помощью Python я предоставляю подробное руководство.