Полезны ли соревнования Kaggle для реальных проблем в реальном мире?

Какую пользу приносят соревнования Kaggle при решении реальных проблем в реальном мире?

 

Если вы только входите в технологическую индустрию или уже давно в ней находитесь, вы, безусловно, слышали о сайте Kaggle. Это платформа для соревнований по науке о данных, предназначенная для специалистов по обработке данных и энтузиастов машинного обучения.

Целью онлайн-платформы является помощь пользователям в достижении своих профессиональных целей в области науки о данных или машинного обучения с помощью мощных инструментов и ресурсов, которые она предоставляет.

Как люди стремятся улучшить и продвинуться в своей карьере, вы увидите, что многие люди обращаются к онлайн-курсам, соревнованиям и т. д. Kaggle – удивительная платформа, где люди могут проверить свои силы, бросить себя в гущу событий и столкнуться с реальностью своего набора навыков.

Многие люди создали проекты на платформе Kaggle, имея доступ к различным наборам данных и отличным ресурсам, таким как бесплатный доступ к GPU NVIDIA K80 в ядрах. Вопрос, который мы сегодня задаем, такой: «Что дает участие в соревнованиях на Kaggle для решения реальных проблем?».

Вопрос задался на Quora: стоит ли мне потратить время на участие в Kaggle или заниматься интересными побочными проектами? Что будет более полезно для моей карьеры?

Существует множество ответов, но, как вы можете видеть на скриншоте ниже, изображение дает ответ на ваш вопрос.   Поговорим о том, насколько полезны соревнования на Kaggle для решения реальных проблем. 

 

Kaggle против реального мира

 

Мы уже говорили о том, как соревнования на Kaggle помогают вам в процессе обучения и какие аспекты отражают то, что происходит в реальном мире. Но насколько это полезно для решения реальных проблем? Общий ответ – нет. Позвольте мне объяснить почему в разных аспектах.

 

Определение проблемы

 

Как ученый в области данных или инженер машинного обучения, ваша первая задача – определить проблему или понять текущую бизнес-проблему, которую необходимо решить. Например, вам может потребоваться определить, является ли тип проблемы обучающимся или без учителя, решить, какую модель использовать и т. д. 

Это одно из самых важных решений, которые вы примете. Если у вас нет общего представления о компании, это усложнит вашу жизнь, так как вы не сможете определить корневую проблему.

В реальном мире: Определите проблему или поймите текущую бизнес-проблему, которую необходимо решить

На Kaggle: Вам предоставляется подробное описание проблемы и того, что вы оцениваете.

 

Подготовка данных

 

В соревнованиях Kaggle организаторы конкурса предоставляют вам подготовленные наборы данных вместе с подробным описанием проблемы. Это сэкономит множество времени ученым в области обработки данных и инженерам машинного обучения, которым не придется собирать, очищать и структурировать данные – что происходит в реальном мире.

Некоторые считают, что Kaggle кормит новых ученых в области данных и инженеров машинного обучения предоставленными данными, позволяя им сразу приступить к работе. Подготовка данных – важный этап в жизненном цикле науки о данных, и Kaggle доказал, что делает все это для пользователей. 

В реальном мире ваша компания может предоставить вам данные или нет. Если нет, вам придется собрать данные самостоятельно, убедиться, что они соответствуют проблеме, и очистить и структурировать их. Вы также можете свободно искать дополнительные данные, в то время как на Kaggle вам запрещено использовать внешние данные.

В реальном мире: Сбор и подготовка данных помогают вам работать с определенной проблемой.

На Kaggle: Предоставляется подготовленные данные, соответствующие подробному описанию проблемы.

 

Преобразование признаков

 

Как только у вас будет ваши чистые данные, вашим следующим шагом в качестве ученого в области данных будет приступить к созданию признаков. Преобразование признаков опирается на вашу конкретную проблему, то, что вы пытаетесь решить, и способ его решения. 

С этим вы получите лучшее понимание того, сколько времени вы потратите на создание функций и если другие элементы жизненного цикла науки о данных важнее.

Однако, в конкурсах Kaggle создание функций играет большую роль в том, где вы остановитесь в таблице лидеров. Да, создание функций является частью жизненного цикла науки о данных, но проекты науки о данных в реальном мире сосредоточены больше на факторе, который определяет вашу модель, а не на маленьких приростах. 

В реальном мире: Уровень создания функций зависит от проблемы, перед которой вы стоите, и на что вы сосредоточены.

Kaggle: Уровень создания функций используется в качестве стимула для поднятия вверх в таблице лидеров. 

 

Моделирование

 

Выбор правильной модели основан на множестве факторов, таких как объяснимость модели, используемые данные, производительность модели и перенос модели в производство. Все это соответствует вашей проблеме, так как вам предстоит определить, какая модель наилучшим образом соответствует потребностям вашего бизнеса. 

В то время как на Kaggle пользователи более заинтересованы в том, какая модель лучше всего работает и обрабатывает данные, с которыми они работают. Факторы, учитываемые при выборе модели, гораздо менее реалистичны, чем то, с чем приходится сталкиваться в реальном мире. 

В реальном мире: Выбор правильной модели на основе множества факторов, связанных с проблемой вашего бизнеса.

Kaggle: Выбор правильной модели на основе производительности, так как вы участвуете в конкурсе. 

 

Проверка

 

Проверка является аспектом, в котором Kaggle и реальный мир похожи. Проверка производительности вашей модели является важным аспектом, так как это позволяет вам исследовать, где можно внести изменения, чтобы улучшить модель, и показывает, имеет ли ваша модель значение в реальном мире. 

Соревнования на Kaggle показывают, как построение надежной модели полезно в реальном мире. 

 

Модель в производство

 

В реальном мире большинство моделей, которые вы создаете, направлены на внедрение в производство. Это происходит потому, что у вашей модели есть цель, вы пытаетесь решить реальную проблему. Ваша модель одним или другим способом найдет свою дорогу, чтобы быть интегрированной в бизнес-процесс для помощи в принятии решений в будущем. 

С другой стороны, когда вы участвуете в конкурсе Kaggle, вашей главной заботой является ваше место в таблице лидеров и не то, как ваша модель будет внедрена и использована в будущем. 

В реальном мире: Каждая созданная вами модель имеет цель, и вы хотите внедрить ее в производство для решения проблем вашего бизнеса.

Kaggle: Общая цель построения модели заключается в том, чтобы узнать, насколько вы заняли место в таблице лидеров и что вы можете сделать лучше в следующий раз по сравнению с конкурентами. 

 

Кривая обучения

 

Kaggle учит вас многому. Благодаря соревнованиям Kaggle и работе над различными задачами и наборами данных, вы можете научиться многому. Лично я считаю, что узнавать и сталкиваться с вызовами не вредно. Вы учитесь преодолевать эти вызовы, осмысливая свои слабости и превращая их в сильные стороны. 

Вы бы предпочли находиться там, где знаете больше, прежде чем получить свою мечту или нет? Ответ довольно прост и зависит от того, чего вы хотите достичь в своей карьере. 

Соревнования на Kaggle показывают производительность вашей модели, что полезно для вашего путешествия обучения. Как указано на скриншоте выше, вы можете предположить, что производительность вашей модели действительно хороша, чтобы понять, что она не была такой хорошей, как у других участников в том же конкурсе. 

С этим в связи, соревнования Kaggle позволяют вам прогрессировать во время обучения, позволяя вам соревноваться с людьми со всего мира и повышать свою квалификацию как личность.

 

Сроки выполнения

 

В реальном мире, когда вы работаете над проектами, вам устанавливаются сроки выполнения. Сроки помогают вам быть в курсе ваших задач, которые соответствуют бизнес-плану организации. Каждый срок выполнения является началом нового проекта. 

Компетиции на платформе Kaggle имеют сроки, которые отражают, как могут выглядеть ваша повседневная работа. Это отличный способ понять, как вы используете свое время и преодолеть прокрастинацию.

 

Итак, подведем итоги

 

На практике полезность компетиций на Kaggle в основном зависит от индивидуальных предпочтений. Да, не все аспекты соревнований Kaggle полностью совпадают с реальным миром, но многие из нас могут сказать то же самое о некоторых вещах, которые мы учились в школе.

Все ли это достаточно, чтобы сказать, что это не полезно для проблем реального мира?

Kaggle competitions предоставляют вам множество возможностей для обучения и позволяют вам исследовать навыки, которые вы раньше никогда не изучали. В результате у вас может накопиться много опыта, который вы сможете применить в своей карьере впоследствии.

****[Nisha Arya](https://www.linkedin.com/in/nisha-arya-ahmed/)**** – дата-сайентист и фриланс-технический писатель. Она особенно заинтересована в предоставлении советов по карьере в области Data Science, обучающих материалов и теоретических знаний в области Data Science. Она также хочет исследовать различные способы, которыми искусственный интеллект может быть полезен для продолжительности человеческой жизни. Стремящаяся учиться, она стремится расширить свои знания в области технологий и навыки письма, помогая при этом помогать другим.