5 редких навыков в науке о данных, которые могут помочь вам найти работу

5 редких навыков в науке о данных, которые помогут вам найти работу

 

Если вы знаете, как создавать дерево решений для машинного обучения, то поздравляю, у вас есть тот же уровень экспертизы в кодировании, что и у ChatGPT и тысяч других конкурирующих за работу дата-ученых.

Один захватывающий тренд среди менеджеров по найму в настоящее время заключается в том, что простое умение программировать уже не помогает. Чтобы быть нанятым, вам нужно вышеописанным знаниям языков программирования, фреймворков и умению искать ответы на StackOverflow. Вам необходимо иметь гораздо больше концептуального понимания и представление о современном мире науки о данных – включая вещи, о которых вы думаете, заботится только глава компании, такие как управление данными и этика.

Есть множество технических и не технических навыков в науке о данных, которыми вы должны обладать, но если вам трудно устроиться на работу, эти более редкие навыки в науке о данных могут помочь вам преодолеть порог занятости.

 

1. Визуализация моделей

 

В прошлом дата-ученые работали в изоляции, в темных подвальных помещениях, создавая модели. Модели создавали предсказания или понимание, которые передавались исполнительным директорам, не имеющим понятия о модели, из которой они произошли. (Я немного преувеличиваю, но не на много.)

Сегодня руководство играет более активную роль в понимании продуктов дата-ученых. Это означает, что вам, как дата-ученому, нужно быть способным объяснить, почему модели делают то, что они делают, как они работают и почему они приходят к определенному предсказанию.

Хотя вы можете показать своему начальнику фактический код, выполняющий вашу модель, намного полезнее (и пригоднее для работы) показать им, как ваша модель работает через визуализацию. Например, представьте себе, что вы разработали модель машинного обучения, которая прогнозирует отток клиентов для телекоммуникационной компании. Вместо снимка экрана с вашим кодом, вы можете использовать блок-схему или диаграмму дерева решений, чтобы визуально объяснить, как модель сегментирует клиентов и выявляет тех, кто подвержен риску оттока. Это делает логику модели более прозрачной и легче понять.

Умение иллюстрировать код является редким навыком, но определенно стоит развиваться. Пока еще нет курсов, но я рекомендую вам попробовать бесплатный инструмент, такой как Miro, чтобы создать блок-схему, документирующую ваше дерево решений. И, что еще лучше, попробуйте объяснить свой код своему другу или члену семьи, которые не являются дата-учеными. Чем проще объяснения, тем лучше.

 

2. Инженерия признаков

 

 

Многие дата-ученые больше сосредотачиваются на алгоритмах моделей, чем на особенностях входных данных. Инженерия признаков — это процесс выбора, изменения и создания признаков (входных переменных) для улучшения производительности моделей машинного обучения.

Например, если вы работаете над предиктивной моделью цен на недвижимость, вы можете начать с базовых признаков, таких как площадь, количество спален и расположение. Однако, благодаря инженерии признаков, можно создать более тонкие признаки. Вы можете рассчитать расстояние до ближайшей станции общественного транспорта или создать признак, который представляет возраст недвижимости. Вы даже можете комбинировать существующие признаки для создания новых, таких как “оценка привлекательности места” на основе уровня преступности, рейтингов школ и близости к удобствам.

Это редкий навык, потому что требуется не только техническое умение, но и глубокие знания в области, а также креативность. Вам нужно действительно понять данные и проблему, а затем творчески преобразовывать данные, чтобы сделать их более полезными для моделирования.

Инженерия признаков часто включается в более общие курсы машинного обучения на платформах вроде Coursera, edX или Udacity. Но лучшим способом изучения является практический опыт. Работайте с реальными данными и экспериментируйте с различными стратегиями инженерии признаков.

 

3. Понимание управления данными

 

Представьте себе гипотетический вопрос: предположим, что вы дата-ученый в компании здравоохранения. Вам поручено разработать предиктивную модель для выявления пациентов, подверженных риску определенного заболевания. Что представляется наибольшей проблемой?

Если вы ответили: “работа с трубопроводами ETL”, вы неправы. Вашей самой большой проблемой, вероятно, будет убедиться, что ваша модель не только эффективна, но также соответствует нормам, этике и устойчивости. Это включает в себя обеспечение того, что любые данные, которые вы собираете для модели, соответствуют нормам, таким как HIPAA и GDPR, в зависимости от вашего местоположения. Вам необходимо знать, когда допустимо использовать эти данные, как необходимо анонимизировать их, какое согласие требуется от пациентов и как его получить.

Вы также должны иметь возможность документировать источники данных, трансформации и решения модели так, чтобы даже неспециалист мог проверить модель. Это требуется не только для соблюдения регулятивных требований, но и для будущих аудитов и улучшений модели.

Где узнать о управлении данными: Хотя это сложно, отличным ресурсом является Глобальное сообщество по управлению данными .

 

 

4. Этика

 

“Я знаю, что наука о данных в основном занимается статистикой, созданием моделей, поиском трендов, но если бы вы спросили меня, я бы не смог придумать никаких реальных этических дилемм, я думаю, наука о данных просто раскрывает реальные факты”, – ошибочно сказал пользователя Reddit Carlos_tec17.

Помимо соблюдения закона, следует учитывать еще и этический аспект. Вам необходимо убедиться, что любая создаваемая вами модель не привносит непреднамеренную предвзятость, которая может привести к неравному отношению к определенным группам.

Мне нравится пример старой модели найма в компании Amazon, чтобы показать, почему этика имеет значение. Если вы не знакомы с ней, ученые-дантсисты Amazon попытались ускорить процесс найма, создав модель, которая могла бы выбирать потенциальных сотрудников на основе резюме. Проблема заключалась в том, что они обучили модель на основе уже имеющейся базы резюме, которая была в значительной степени мужской. Их новая модель была предвзята к найму мужчин. Это крайне неэтично.

Мы давно вышли за рамки этапа “двигайся быстро и ломай вещи” в науке о данных. Теперь, будучи ученым-дантистом, вам необходимо знать, что ваши решения будут иметь реальное влияние на людей. Незнание больше не является оправданием; вы должны полностью осознавать все возможные последствия, которые может иметь ваша модель, и объяснить, почему она принимает те или иные решения.

Университет Мичигана предлагает полезный курс по “этике в науке о данных”. Мне также понравилась эта книга, чтобы показать, почему и как в этическом плане возникают проблемы в “численной” науке, такой как наука о данных.

 

5. Маркетинг

 

Один секретный совет – чем лучше вы знаете, как маркетинговать, тем проще будет найти работу. И под “маркетингом” я имею в виду “знание, как делать вещи привлекательными”. Благодаря умению маркетинга, вы сможете лучше составить резюме, которое продаст ваши навыки. Вам будет легче произвести впечатление на интервьюера. И в конкретно науке о данных вы будете лучше объяснять, почему ваша модель и результаты вашей модели важны.

Помните, как хороша ваша модель ни была, если вы не сможете убедить кого-то ее необходимости. Например, представьте, что вы разработали модель, которая может предсказывать неисправности оборудования на производственном предприятии. В теории ваша модель может сэкономить компании миллионы, связанные с неожиданным простоем работы. Но если вы не сможете объяснить этот факт верхнему руководству, ваша модель останется неиспользованной на вашем компьютере.

Благодаря навыкам маркетинга вы сможете доказать свою полезность и необходимость вашей модели с помощью убедительной презентации, которая подчеркнет финансовую выгоду, потенциал повышения производительности и долгосрочные преимущества внедрения вашей модели.

Это очень редкий навык в мире науки о данных, потому что большинство ученых в этой области скорее численные люди. Большинство будущих ученых-дантистов действительно верят, что достаточно просто стараться и не привлекать лишнего внимания, чтобы успешно найти работу. К сожалению, вас не наймут компьютеры – вас наймут люди. Умение маркетинга себя, своих навыков и продуктов – это реальное преимущество на сегодняшнем рынке труда.

Чтобы научиться маркетингу, я рекомендую несколько бесплатных курсов для новичков, например, “Маркетинг в цифровом мире” на платформе Coursera. Мне особенно понравился раздел “Предложение идей о продуктах, которые запоминаются в цифровом мире”. На данный момент нет специализированных курсов по маркетингу в области науки о данных, но мне понравилась эта статья в блоге, которая рассказывает, как продвигать себя как ученого-данных.

 

Заключительные мысли

 

Сейчас сложно находить работу. Несмотря на прогнозируемый рост сферы занятости ученых-данных, согласно данным Бюро трудовой статистики, многие начинающие специалисты испытывают трудности с трудоустройством, как показывают эти посты на Reddit иллюстрируют. Конкуренция со стороны ChatGPT все нарастает, а безработные из увольняющихся компаний тоже ищут работу.

Чтобы быть конкурентоспособным и выделиться на рынке труда, вам необходимо обладать не только техническими навыками. Умение управлять данными, соблюдать этику, визуализировать модели, создавать новые возможности и обладать навыками маркетинга делают вас более вдумчивым, надежным и захватывающим кандидатом для руководителей по найму.

****[Nate Rosidi](https://twitter.com/StrataScratch)**** – ученый-данных, занимающийся стратегией продукта. Он также ведет лекции по аналитике в качестве внештатного преподавателя и является основателем платформы StrataScratch, помогающей ученым-данным подготовиться к собеседованиям на реальные вопросы от ведущих компаний. Свяжитесь с ним в Twitter: StrataScratch или на LinkedIn.