3 проекта по анализу данных, гарантированных для трудоустройства

3 незаменимых проекта по анализу данных для успешного трудоустройства

 

Довольно смелое заявление! Утверждать, что я могу гарантировать вам получение работы, вот это да.

Хорошо, правда в том, что в жизни ничего не гарантировано, особенно нахождение работы. Даже в области анализа данных. Но то, что приближает вас к гарантии, это наличие проектов по анализу данных в вашем портфолио.

Почему я считаю, что проекты так важны? Потому что, если выбрать их мудро, они наиболее эффективно демонстрируют ваши технические навыки в анализе данных. Здесь решает не количество проектов, а их качество. Они должны охватывать как можно больше навыков анализа данных.

Так, какие проекты гарантируют вам успех с минимальным числом проектов? Если вам ограничены только тремя проектами, я бы выбрал следующие:

  1. Определение информации о предложении и спросе в городах
  2. Прогнозирование оттока клиентов
  3. Предсказательная полиция

Но не принимайте это буквально. Здесь самое главное – не придерживаться только этих трех проектов. Я выбрал их, потому что они охватывают большую часть технических навыков, необходимых в анализе данных. Если вы хотите выполнить другие проекты, посвященные анализу данных, не стесняйтесь делать это. Но если у вас есть ограниченное время/количество проектов, выбирайте их сообразно и выбирайте такие, которые тестируют наибольший набор навыков анализа данных.

Кстати, давайте я вам объясню, какие это навыки.

 

Технические навыки, которые нужно искать в проектах анализа данных

 

Существуют пять основных навыков в анализе данных.

  • Python
  • Обработка данных
  • Статистический анализ
  • Машинное обучение
  • Визуализация данных

Это чек-лист, который следует учитывать при выборе проектов по анализу данных, чтобы получить максимальную пользу.

Вот обзор того, что входит в эти навыки.

  

Конечно, навыки анализа данных включают в себя гораздо больше. Они также включают знание SQL и R, технологии обработки больших данных, глубокое обучение, обработку естественного языка и облачные вычисления.

Однако, их необходимость сильно зависит от описания работы. Но фундаментальных пяти навыков, которые я упомянул, нельзя обойтись.

Давайте теперь рассмотрим, какие навыки анализа данных проверяются в трех выбранных мной проектах анализа данных.

 

3 проекта анализа данных для практики основных навыков анализа данных

 

Некоторые из этих проектов могут быть немного сложными для некоторых людей. В этом случае попробуйте выполнить эти 19 проектов анализа данных для начинающих.

 

1. Понимание предложения и спроса на рынке города: анализ бизнеса

 

Источник: Определение информации о предложении и спросе в городах

Тема: Анализ бизнеса

Краткий обзор: Города являются центрами взаимодействия спроса и предложения для Uber. Анализ этих данных может предложить инсайты в компанию и ее планирование. Uber предоставляет вам набор данных с подробностями о поездках. Вам необходимо ответить на одиннадцать вопросов, чтобы дать бизнес-инсайты о поездках, их времени, спросе на водителей и т.д.

Исполнение проекта: Вам предлагается одиннадцать вопросов, которые нужно ответить в указанном порядке. Ответ на них потребует выполнения таких задач, как

  • Заполнение пропущенных значений,
  • Агрегация данных,
  • Поиск наибольших значений,
  • Анализ временных интервалов,
  • Расчет процентов,
  • Расчет взвешенных средних,
  • Поиск различий,
  • Визуализация данных и так далее.

Навыки, показанные: Исследовательский анализ данных (EDA) для выбора нужных столбцов и заполнения пропущенных значений, получение ценных идей о завершенных поездках (различные периоды, взвешенное среднее отношение поездок на водителя, определение самых загруженных часов для составления графика работы водителей, связь между предложением и спросом и т. д.), визуализация связи между предложением и спросом.

 

2. Прогнозирование оттока клиентов: задача классификации

 

Источник: Прогнозирование оттока клиентов

Тема: Обучение с учителем (классификация)

Краткий обзор: В этом проекте по науке о данных Sony Research предоставляет вам набор данных клиентов телекоммуникационной компании. Они ожидают, что вы выполните исследовательский анализ и извлечете ценные выводы. Затем вам придется построить модель прогнозирования оттока, оценить ее и обсудить проблемы при внедрении модели в производство.

Выполнение проекта: Проект следует выполнять в несколько основных этапов.

  • Исследовательский анализ данных и извлечение выводов
    • Проверьте основные данные (пустоты, уникальность)
    • Выберите нужные данные и сформируйте свой набор данных
    • Визуализируйте данные, чтобы проверить распределение значений
    • Сформируйте матрицу корреляции
    • Проверьте важность признаков
  • Разделение на обучающую и тестовую выборки
    • Используйте sklearn для разделения набора данных на обучающую и тестовую выборки в соотношении 80% – 20%
  • Прогностическая модель
    • Примените классификаторы и выберите один для использования в производстве на основе производительности
  • Метрики
    • Используйте точность и показатель F1 для сравнения производительности разных алгоритмов
  • Результаты модели
    • Используйте классические модели ML
    • Визуализируйте Дерево решений и оцените производительность алгоритмов на основе деревьев
  • Модель глубокого обучения
    • Попробуйте искусственную нейронную сеть (ANN) для решения этой проблемы
  • Проблемы внедрения
    • Отслеживайте производительность модели, чтобы избежать изменения данных и изменения концепции

Навыки, показанные: Исследовательский анализ данных (EDA) и обработка данных для проверки пустот, уникальности данных, извлечения выводов о распределении данных, положительной и отрицательной корреляции; визуализация данных в гистограммах и матрице корреляции; применение классификаторов ML с использованием библиотеки sklearn, оценка точности алгоритмов и показателя F1, сравнение алгоритмов, визуализация дерева решений; использование искусственной нейронной сети для оценки производительности глубокого обучения; развертывание модели, при котором необходимо учитывать проблемы изменения данных и концепции в цикле MLOps.

 

3. Прогнозирование преступности: рассмотрение последствий

 

Источник: Опасности прогнозирования преступности

Тема: Обучение с учителем (регрессия)

Краткий обзор: Для прогнозирования преступности используются алгоритмы и анализ данных для предсказания мест, где вероятно будут происходить преступления. Ваш выбранный подход может иметь глубокие этические и социальные последствия. В проекте используются данные о преступности в городе Сан-Франциско за 2016 год из его инициативы по открытым данным. В рамках проекта предпринимается попытка предсказать количество преступлений в определенном почтовом индексе в определенный день недели и время суток.

Выполнение проекта: Вот основные шаги, которые предпринял автор проекта.

  • Выбор переменных и расчет общего количества преступлений за год в каждом почтовом индексе в час
  • Разделение данных на обучающую и тестовую выборки по хронологии

  • Попытка пяти алгоритмов регрессии:

    • Линейная регрессия
    • Случайный лес
    • Метод K-ближайших соседей
    • XGBoost
    • Многослойный перцептрон

Показанные навыки: Исследовательский анализ данных (EDA) и обработка данных, где вы получаете информацию о преступлениях, часе, дне недели и почтовом индексе; Машинное обучение (надзорное обучение/регрессия), где вы проверяете, как работают линейная регрессия, случайный лес, метод k-ближайших соседей, XGBoost; Глубокое обучение, где вы используете многослойный перцептрон, чтобы попытаться объяснить полученные результаты; Получение понимания прогнозирования преступлений и его возможности злоупотребления; Развертывание модели на интерактивную карту.

Если вы хотите заниматься больше проектами с использованием подобных навыков, вот более 30 идей проектов по машинному обучению.

 

Вывод

 

Завершив эти проекты по науке о данных, вы протестируете и освоите необходимые навыки в области науки о данных, такие как обработка данных, визуализация данных, статистический анализ, создание и развертывание моделей машинного обучения.

Говоря о машинном обучении, здесь я сосредоточился на надзорном обучении, так как оно наиболее часто используется в науке о данных. Я могу почти гарантировать вам, что эти проекты по науке о данных будут достаточными для получения желаемой работы.

Однако вам следует внимательно прочитать описание работы. Если вы видите, что требуется безнадзорное обучение, обработка естественного языка или что-то еще, чего я не затронул здесь, включите один или два таких проекта в свое портфолио.

В любом случае, у вас все равно есть не только три проекта. Они здесь, чтобы помочь вам с выбором проектов, которые гарантируют вам получение работы. Обратите внимание на сложность проектов, так как они должны полноценно охватывать основные навыки в области науки о данных.

Итак, пойдите и получите эту работу!  Нейт Росиди – это дата-сайентист и стратег по продукту. Он также преподает аналитику в качестве преподавателя в учебных заведениях и является основателем StrataScratch, платформы, помогающей дата-соентистам подготовиться к собеседованиям с реальными вопросами от топовых компаний. Свяжитесь с ним в Twitter: StrataScratch или LinkedIn.