Что означает выражение На входе мусор, на выходе мусор при решении реальных бизнес-проблем?

Что означает выражение На входе мусор, на выходе мусор в решении бизнес-проблем?

Фото от Gary Chan на Unsplash

и как избежать этого с помощью практического рабочего процесса

В сегодняшней деловой среде надежность данных имеет большее значение, чем когда-либо раньше. Фраза “мусор на входе, мусор на выходе” идеально передает важность качества данных для достижения успешных решений, основанных на данных. В то время как использование правильной модели для прогнозирования или классификации является важным, невозможно достичь хороших результатов без надежного ввода данных. Используя усиленные функции, генерируемые из надежных источников данных, даже простые линейные регрессии могут давать высокоточные результаты. В этой статье блога я расскажу о важности данных в решении реальных бизнес-проблем и опишу шаги для создания надежного процесса оценки данных, который обеспечивает качество входных данных для точного моделирования и принятия умных решений.

Реальность в прикладной науке о данных

После работы в качестве научного сотрудника по данным более двух лет, одним из самых удивительных наблюдений для меня является то, сколько времени я и мои коллеги тратим на очистку данных. Во время учебы наше внимание обычно направлено на понимание основных алгоритмов, математических принципов, лежащих в основе моделей, общего процесса создания процесса прогнозирования и т. д. Мы часто работаем с идеальными наборами данных, которые специально созданы определенным образом, чтобы мы сосредоточились только на процессе исследовательского анализа данных, оценки модели и настройке ее частей, что приводит нас к недооценке значимости очистки данных до тех пор, пока мы не столкнемся с реальными бизнес-данными в индустрии. Реальные бизнес-данные бывают беспорядочными. Беспорядок возникает из-за, но не ограничивается следующими причинами:

  1. Разнообразие источников данных: Бизнесы собирают данные из разных источников. Например, компания электронной коммерции может собирать данные о покупках клиентов, планировании продаж, процессах производства, маркетинговых кампаниях и т. д. Каждый источник данных имеет свои уникальные форматы, структуры и уровни качества. Здесь возникают несоответствия, которые представляют большую проблему при объединении всех источников данных для последующего анализа.
  2. Человеческая ошибка: Сбор данных требует участия людей, что увеличивает вероятность ошибок в процессе. Ошибки, допущенные людьми, такие как опечатки, неправильные…