«Предсказание Touchdown’ов в футболе с использованием машинного обучения»
«Анализ Touchdown'ов в футболе с помощью машинного обучения»
Футбол. Американская забава, которая объединяет фанатов по всей стране. Среднее число зрителей на одну игру составляет 16,7 миллиона, а на финал Суперкубка – 113 миллионов зрителей (56 миллионов домашних). Очевидно, что этот вид спорта любим многими. Я создал модель машинного обучения, чтобы разобраться и проанализировать игру. Давайте погрузимся в нее.
Во-первых, нам следует признать важность ключевого игрока в атаке любой футбольной команды: квотербека. Этот игрок распределяет мяч своим партнерам с целью набрать ярды или, лучше всего, забить тачдаун (правила игры можно найти здесь). Тачдауны приносят командам наибольшее количество очков из всех вариантов забивания, и хотя их достижение непросто, они обычно являются приоритетом в атаке. А что, если мы смогли анализировать факторы, ведущие к тачдаунам, и предсказывать, какие квотербеки будут лучшими в предстоящие сезоны?
Данные. Существует множество данных о футболе. Я нашел файлы csv с ходом игры с 1999 года в этом репозитории GitHub (включая имена ключевых игроков, полученные ярды, завершенные передачи и т. д.). Такое обширное количество данных требует… машинного обучения!
Признаки. Чтобы создать модель машинного обучения, мне пришлось определить, какие признаки наиболее коррелируют с большим количеством тачдаунов (в наборе данных 372 признака!). Испытывая различные факторы и строя графики, я установил, что пять наиболее коррелирующих с тачдаунами факторов – это полученные ярды, успешные передачи, всего передачи, перехваты и сэки. Эти факторы прогрессивно менее коррелируют с большим количеством тачдаунов, и важно помнить, что корреляция не равно причине. Например, если квотербек совершает больше перехватов, это может быть просто индикацией того, что он играет/совершает много передач, что также может повлиять на его количество тачдаунов. Хотя для некоторых квотербеков бег является основным способом забрасывания, эти данные рассматривают всех квотербеков в лиге. Это означает, что некоторые необычные случаи могут забивать больше тачдаунов, не забрасывая много передач, поскольку они забивают другими методами, например, бегом.
- Внутри Охотников за Призраками Новый метод Берклийского университета для обнаружения ИИ-созданных контентов
- Научитесь создавать – Рассылка сообщества Towards AI #1
- Разблокируйте продвинутое понимание видео ИИ с помощью MM-VID для GPT-4V(ision)

Год к году. Очевидно, что в течение одного года определенные статистики квотербека коррелируют с его тачдаунами. Однако будут ли его показатели предыдущего года коррелировать с его тачдаунами следующего года? Другими словами, могут ли статистические данные квотербека из одного сезона указывать на его выступление в следующем сезоне? Мне это было необходимо узнать, так как это критическое для прогнозирования успеха квотербеков в будущих сезонах. Изучив тачдауны с предыдущими статистиками сезона, я обнаружил, что связь все еще существует! Кроме того, на этот раз мы также можем учитывать связь между предыдущим и текущим сезонами. К сожалению, связь уже не такая сильная, как раньше, но все же она позволяет перейти к следующему шагу: машинному обучению.

Машинное обучение. Используя машинное обучение, мы можем предсказывать успех квотербеков в предстоящем футбольном сезоне. Линейная регрессия, термин, который, возможно, вы помните из математики, – это метод анализа данных, который предсказывает значение неизвестных данных (тачдаунов) с помощью других связанных и известных данных (признаки, которые мы определили ранее). Я создал модель линейной регрессии с использованием разделения данных на обучающую и тестовую выборки (простое объяснение). Я также протестировал модель случайного леса, но регрессионная модель показала лучшие результаты.
И вот вы можете задаться вопросом, может ли модель линейной регрессии считаться машинным обучением? Да, это так. В основном, потому что она использует статистические методы для обучения модели на основе данных, которая может делать прогнозы или оценивать взаимосвязь между переменными; это довольно фундаментальная концепция в области машинного обучения.
Внешние факторы. Важно отметить, что многое влияет на то, что делает квотербека «хорошим». Например, другие игроки в команде квотербека, его тренировка и его конкретные преимущества, такие как скорость или пасинг, все имеют значение. Учет этих факторов может быть сложным в процессе тренировки, и эффекты вероятно будут заметны в конечных прогнозах. Поэтому я сосредоточилась на достигнутых тачдаунах, а не на общем рейтинге квотербеков.
Результаты. Среднеквадратическая ошибка составляет 7,4649 (это означает, что прогнозы ошибаются в среднем на ~7,5 тачдаунов), а коэффициент детерминации r-квадрат равен 0,709 (что означает, что переменные сильно влияют на зависимую переменную). Можно сказать, что модель работала достаточно хорошо. Однако, как уже упоминалось ранее, в футболе влияют и другие факторы, такие как травмы, новички и т.д. Моя модель точно предсказала 6 из 10 лидеров по набранным тачдаунам в 2022 году на основе данных 2021 года, а некорректные предсказания обусловлены возрастом, травмами и другими факторами. Я также протестировала модель для предсказания успеха квотербеков в предстоящем сезоне NFL 23–24 гг. и она оказалась довольно успешной! Топ-10 предсказаний по набранным тачдаунам совпадают с 7 из 10 прогнозов Fox News по квотербекам, а расхождения обусловлены травмами, умением делать другие вещи (например, набирать ярды вместо передач), плохим предыдущим сезоном или новой командой. И кто знает, может быть, мои предсказания окажутся точными!

Что это значит? Я создала модель машинного обучения, которая может с высокой точностью предсказывать количество тачдаунов квотербеков, находя сложные закономерности в данных. Это показывает, насколько мощное машинное обучение и как оно имеет широкий спектр применений. Важно помнить, что в определенных областях, таких как футбол, требуется другая информация, чтобы принять наилучшее решение о игроках и статистике. Но, кто знает? Возможно, использование этой модели поможет вам выигрывать ставки или свои фэнтези-лиги по футболу. А что еще можно сделать с помощью этого? Одно из главных применений – анализ команд и лиги в целом. Пока мы анализировали количество тачдаунов квотербеков с данными о каждом игровом ходе из прошлых лет, другая информация может быть использована для анализа успеха квотербеков в целом, различных позиций и команд в целом. Исследование данных футбола (или спортивных данных вообще) может открывать революционные идеи и предсказания. Аналитический подход к спорту – это не ново, но обладая последней мощной технологией, которую мы имеем сегодня, мы, безусловно, перевернем представление о том, как мы понимаем, анализируем и преуспеваем в игре.
Возможно, в будущем мы сможем создать компьютер, способный предсказывать идеальные комбинации или делать оптимальные ставки на спорт с помощью машинного обучения…
Вы можете найти мой код в репозитории GitHub здесь.
Ниже перечислены некоторые другие интересные ресурсы и источники: