Тенденции работы в области аналитики данных Часть 2

Тенденции в области аналитики данных Часть 2 Работа в сфере красоты и моды

Авторы: Andrea De Mauro и Mahantesh Pattadkal

 Продолжаем тему, начатую в первой части серии блогов “Тенденции вакансий в области аналитики данных“. Наше путешествие по миру трендов вакансий по аналитике данных и роли обработки естественного языка (Natural Language Processing, NLP) продолжается.

В первой части мы представили приложение “Тенденции вакансий по аналитике данных“, которое направлено на сбор данных и их анализ с использованием NLP при помощи платформы KNIME Analytics Platform. Мы рассмотрели этап сбора данных с веб-страниц и очистки данных с использованием методов NLP. Затем мы представили модель темы, которая выявила семь однородных наборов навыков в вакансиях. Эти наборы навыков представляют компетенции и деятельность, которые работодатели в различных отраслях ищут у специалистов по аналитике данных.

Во второй части блога мы рассмотрим эти наборы навыков и сделаем некоторые основанные на данных соображения о развивающейся области профессиональных карьер в области науки о данных.

 

Темы и их описания

 Для обозначения наборов навыков мы используем самые часто встречающиеся термины и их вес, определенные с помощью алгоритма LDA, примененного к вакансиям. Далее мы анализируем описания работы в каждой теме, чтобы выделить ключевые действия, необходимые навыки и отрасли, где они наиболее часто встречаются. Понимание этих тем может помочь соискателям работы согласовать свои навыки с потребностями рынка и повысить свои шансы на получение подходящей должности в области аналитики данных. В следующих абзацах вы найдете краткое описание каждого набора навыков.

 

Тема 0: Исследование и анализ данных

 Таблица ниже показывает пять наиболее часто встречающихся терминов и их вес для темы 0. Вес отражает значимость термина для определения этой конкретной темы. Исходя из этих терминов и документов, помеченных темой 0, мы истолковываем этот набор навыков как “Исследование и анализ данных”.

 

Термин Вес
Исследование 4510
Позиция 4195
Информация 4112
Здравоохранение 3404
Университет 2118

Таблица 0: Вес терминов для темы 0

Этот набор навыков включает в себя такие действия, как проведение исследований, анализ данных и предоставление инсайтов, которые влияют на принятие решений в различных секторах. Как основополагающий элемент аналитики данных, этот навык способствует извлечению ценных знаний из данных, определению трендов и информированному принятию решений. Из собранных внутри корпуса вакансий мы выделили следующие ключевые требования к компетенциям, связанным с этим набором навыков:

  • Сильные аналитические и проблемно-ориентированные способности
  • Опыт работы с программным обеспечением для статистического анализа (R, Python)
  • Опыт работы со средствами визуализации данных
  • Эффективное общение и документирование навыков
  • Образование в соответствующей области (математика, статистика или наука о данных)

 

Тема 1: Администрирование и поддержка клиентов

 

Изучив термины и веса из Таблицы 1 и документы, связанные с Темой 1, мы решили назвать ее “Администрирование и поддержка клиентов”. Этот набор навыков включает в себя управление взаимодействием с клиентами, оказание административной поддержки и координацию логистики или процессов закупок.

Термин Вес
Поддержка 2321
Управление 2307
Информация 2134
Позиция 2126
Клиент 1909

Таблица 1: Термины-веса для Темы 1

По нашему мнению, фундаментальные компетенции, необходимые для успеха в работе, требующей данного набора навыков:

  • Сильные организационные и управленческие навыки
  • Внимательность к деталям
  • Опыт работы с офисными программами и коммуникационными инструментами
  • Отличные межличностные и проблемно-ориентированные навыки

Тема 2: Маркетинг и Управление продуктом

Основываясь на терминах, показанных в Таблице 2, мы итерпретируем это как набор навыков “Маркетинг и Управление продуктом”.

Термин Вес
Бизнес 8487
Команда 8021
Продукт 6825
Клиент 3923
Маркетинг 3740

Таблица 2: Термины-веса для Темы 2

Этот набор навыков связан с разработкой маркетинговых стратегий, управлением жизненным циклом продукта и стимулированием роста рынка. Он важен в работе с уклоном на аналитику данных, так как позволяет профессионалам использовать данные для принятия обоснованных решений относительно тенденций на рынке, предпочтений клиентов и производительности продукта.

Необходимые компетенции в рамках набора навыков “Маркетинг и Управление продуктом”:

  • Сильные аналитические и стратегические навыки мышления
  • Экспертиза в области маркетинговых исследований и конкурентной разведки
  • Опыт работы с маркетинговыми инструментами и платформами
  • Отличные коммуникативные и лидерские навыки
  • Опыт работы в сфере бизнеса, маркетинга или связанных областей

Тема 3: Управление бизнесом, управление данными и соответствие нормам

Исходя из терминов, показанных в Таблице 2, мы пришли к выводу, что здесь речь идет о наборе навыков “Управление бизнесом, управление данными и соответствие нормам”.

Этот набор навыков включает в себя контроль над бизнес-операциями, обеспечение качества и безопасности данных, а также управление рисками и соблюдение требований регулирующих органов. В работе, связанной с аналитикой данных, данный набор навыков позволяет поддерживать целостность данных, контролировать соответствие требованиям, выявлять риски и оптимизировать бизнес-процессы с использованием данных стимулирующих аналитику.

Термин Вес
Бизнес 14046
Управление 10531
Команда 5835
Анализ 5672
Проект 4309

Таблица 3: Веса терминов для Темы 3

Согласно нашим результатам, требуемые компетенции в рамках этого набора навыков включают:

  • Сильные организационные и лидерские способности
  • Навыки работы с данными, управление данными и оценка рисков
  • Опыт работы с регуляторными рамками и стандартами отрасли
  • Эффективные коммуникационные и проблемно-ориентированные навыки
  • Опыт работы в сфере бизнеса, финансов или связанных областей

Тема 4: Бизнес-аналитика и визуализация данных

Основу навыков в этой области составляет разработка более простых решений аналитики, таких как панели инструментов и отчеты, создание информативной визуализации и анализ данных для принятия обоснованных решений. Эта область навыков играет ключевую роль в работе с данными, преобразуя их в действенные информации для стратегического принятия решений.

Термин Вес
Бизнес 19372
Анализ 7687
Power bi 7359
Интеллект 7040
Sql 5836

Таблица 4: Веса терминов для Темы 4

На наш взгляд, основные компетенции в области бизнес-аналитики и визуализации данных включают:

  • Сильные аналитические и проблемно-ориентированные навыки
  • Навыки работы с инструментами бизнес-аналитики (такими как Power BI, Tableau, SQL)
  • Опыт работы с техниками визуализации данных
  • Эффективные коммуникационные и навыки рассказа историй

Тема 5: Хранилище данных и облачная инфраструктура

Основываясь на терминах, представленных в таблице 5, мы истолковываем их как умение в области “Хранилища данных и облачной инфраструктуры”.

Вакансии, требующие умения работы с облачной и большой данных, обычно связаны с такими задачами, как разработка и внедрение облачных решений, управление обработкой масштабных объемов данных и разработка программных приложений. Это важно в работе, связанной с аналитикой данных, позволяя эффективно обрабатывать и анализировать большие объемы данных для получения ценной информации.

Термин Вес
Разработка 4525
Облачность 3998
Инженерия 3692
Программное обеспечение 3510
Дизайн 3494

Таблица 5: Веса терминов для Темы 5

На наш взгляд, основные компетенции, связанные с этими умениями, включают:

  • Сильные программные и проблемно-ориентированные навыки
  • Навыки работы с облачными платформами (например, AWS, Azure и Google Cloud)
  • Опыт работы с технологиями больших данных (например, Hadoop, Spark и NoSQL базы данных)
  • Знание политик информационной безопасности и связанных процессов

Тема 6: Машинное обучение

На основании терминов, представленных в Таблице 6, мы интерпретируем это как «набор навыков в области машинного обучения», который включает в себя проектирование моделей искусственного интеллекта, исследование передовых методов машинного обучения и разработку интеллектуальных программных решений. В работах, связанных с интенсивным анализом данных, это является основой для обучения моделей и оптимизации их работы.

Термин Вес
Машина 9782
Наука 8861
Исследование 4686
Компьютер 4209
Python 4053

Таблица 6: Вес терминов для Темы 6

Согласно нашим результатам, основными компетенциями, необходимыми в машинном обучении сегодня, являются:

  • Устойчивые навыки программирования и математики
  • Экспертиза в фреймворках машинного обучения (например, TensorFlow, PyTorch)
  • Опыт работы с передовыми методами искусственного интеллекта (например, глубокое обучение и обработка естественного языка)
  • Навыки эффективного общения и совместной работы

Набор навыков и профессиональные профили

В этой статье мы обращаем внимание на подробный анализ взаимосвязей наборов навыков, выявленных при помощи моделирования тематик по трем различным профессиональным профилям: инженер по данным, аналитик данных и ученый по данным. Для соотнесения этих профессиональных профилей с вакансиями мы использовали правило основанного классификатора. Этот классификатор позволяет определить назначение профиля вакансии на основе ключевых слов, найденных в названии вакансии. Например, вакансия с названием “Архитектор данных” будет отнесена к профилю инженера по данным, тогда как вакансия с названием “Инженер по машинному обучению” будет отнесена к категории ученых по данным.

С использованием моделирования тематик через скрытое распределение Дирихле (Latent Dirichlet Allocation, LDA) мы получаем веса тематик для каждой вакансии, охватывающие семь различных наборов навыков. Рассчитывая средний вес каждого набора навыков по всем профессиональным профилям, мы получаем средний вес набора навыков, специфичный для каждой должности. Отмечается, что эти веса затем нормализуются и представляются в виде процентов.

Как показано на Рисунке 1, мы представляем показательное визуальное представление взаимосвязи между профессиональными профилями и соответствующими наборами навыков. Эта визуализация отображает коллективные ожидания работодателей относительно ключевых компетенций, необходимых для инженеров по данным, аналитиков данных и ученых по данным.

Как и ожидалось, роль инженера по данным тесно связана с владением набором навыков в области “Хранилища данных и облачной инфраструктуры”. Кроме того, важным является владение навыками визуализации и машинного обучения. Этот акцент на разнообразном наборе навыков можно объяснить ожиданием, что инженеры по данным будут играть важную роль в поддержке как аналитиков данных, так и ученых по данным.

В случае ученых по данным на первом месте проектируется экспертиза в области “Машинного обучения”, за которой тесно следует владение навыками “Исследования”. Заметно, что гибридный набор навыков, включающий “Управление бизнесом” и “Управление продуктом”, также занимает высокое место по значимости. Это отражает сложный набор компетенций, которые требуются рынку труда от стремящихся стать учеными по данным.

Обращая внимание на область работы аналитиков данных, становится очевидным важность владения навыками “BI и визуализации”. Учитывая их роль в создании бизнес-отчетов, создании и управлении панелями управления и мониторинге деловой активности, это не вызывает удивления. Параллельное требование навыков “Управления бизнесом” как второго основного навыка отражает ожидаемое стратегическое понимание этой роли. Кроме того, подобно роли ученых по данным, в области аналитиков данных также существует параллельное требование компетенций в области “Управления продуктом” и “Исследований”.

В заключение, эта статья подчеркивает сложную картину требований к наборам навыков в различных профилях разработчиков аналитики данных. Она отображает многообразные ожидания работодателей к кандидатам, стремящимся преуспеть в роли инженера по данным, аналитика данных и ученого по данным.

Рисунок 1: График Radar отображает взаимосвязь между профессиональными профилями, построенными относительно наборов навыков, показанных на осях (нажмите для увеличения).

Заключение

Наш анализ вакансий в расширяющейся области анализа данных направлен на категоризацию рабочих мест на основе отдельных наборов навыков и уточнение разнообразия требуемых способностей в каждой категории. С экспоненциальным ростом в этой сфере и критическим значениям принимаемых решений, основанных на данных, процесс сбора, хранения и анализа данных продемонстрировал замечательные успехи, что привело к неутолимому спросу на специалистов, владеющих навыками анализа данных.

Классифицируя вакансии по семи основным темам набора навыков, мы проливаем свет на необходимость как специализированных, так и многофункциональных навыков в этой быстро меняющейся области. Темы варьировались от анализа данных и бизнес-интеллекта до машинного обучения и искусственного интеллекта, подчеркивая взрывной спрос на людей, способных использовать данные, технологии и командную работу.

Тем не менее, данное исследование имеет несколько ограничений. Динамичная природа рынка труда и появление новых технологий и методологий требуют непрерывного обновления нашего анализа в отличие от статической «снимковой» точки зрения, которую мы использовали здесь. Кроме того, наш подход, возможно, не уловил каждую тонкость разнообразных ролей и навыков в области анализа данных, учитывая зависимость от доступных вакансий на момент исследования.

Весь наш материал доступен бесплатно на сайте сообщества KNIME – «Приложение для оценки компетенций по работе». Вы можете скачать и использовать рабочие процессы для проверки и изучения своими силами, а также расширения или улучшения их.

  

Что дальше?

 Смотря вперед, мы видим потенциал для значительного расширения этого исследования. Это включает разработку компонентов KNIME для реализации метода “Удаление стоп-фраз”, описанного в части 1, и интерактивной системы визуализации с участием человека в KNIME. Такая система упростит процесс принятия решений человеком при выборе наиболее согласованной тематической модели в заданном корпусе, способствуя масштабированию нашей работы. Мы также представляем применение механизмов с использованием модели LLM для поддержки и упрощения этапа моделирования тем: этот сценарий, безусловно, оставляет место для дальнейших экспериментов и исследований.

Специалисты в области анализа данных должны оставаться информированными и гибкими перед появлением новых технологий. Это гарантирует актуальность и ценность их навыков в постоянно меняющейся среде принятия решений на основе данных. Распознавая и развивая навыки, связанные с выявленными темами, соискатели могут получить преимущество на этом динамичном рынке. Чтобы сохранить свою актуальность в этой области, специалисты в области анализа данных должны оставаться любознательными на протяжении всей своей карьеры и продолжать непрерывное обучение.

  Махантеш Паттадкал обладает более 6-летним опытом консультирования по проектам и продуктам в области науки о данных. Обладая степенью магистра в области науки о данных, его экспертиза проявляется в глубинном обучении, обработке естественного языка и машинном обучении с объяснениями. Кроме того, он активно сотрудничает с сообществом KNIME в совместных проектах, связанных с наукой о данных.

****[Андреа Де Мауро](https://www.linkedin.com/in/andread/)**** имеет более 15-летний опыт создания команд аналитики бизнеса и науки о данных в международных компаниях, таких как P&G и Vodafone. Кроме своей корпоративной работы, он преподает маркетинговую аналитику и прикладное машинное обучение в нескольких университетах Италии и Швейцарии. С помощью своих исследований и письменных работ, он исследовал влияние данных и искусственного интеллекта на бизнес и общество, убежденный в том, что более широкая грамотность в области аналитики сделает мир лучше. Его последняя книга “Data Analytics Made Easy” была выпущена издательством Packt. Он появился в списке “Forty Under 40” журнала CDO в 2022 году.