Наука о развлечениях данных потоковая передача против кинотеатров

Наука о потоковой передаче развлечений противостояние кинотеатрам

Как разнообразно, так и похоже

Фото от Krists Luhaers на Unsplash

В моей статье Next Frontiers in Entertainment Data Science на Toward Data Science я упоминаю, как наука о данных может применяться на различных этапах жизненного цикла контента, начиная с принятия решения о производстве и заканчивая релизом. Хотя легко представить, как применения науки о данных могут различаться, скажем, между принятием решения о том, какие сценарии должны быть одобрены, и определением оптимальных затрат на производство, даже в контекстах, которые на первый взгляд могут казаться относительно похожими, могут быть явные различия.

Примерно полтора года назад я начал работать в крупной киностудии. Приходя из технической сферы стриминга, я ожидал, что всё будет больше или менее похожим, за исключением того, что на этот раз я буду работать исключительно с данными о фильмах, а не и о фильмах и о телевидении. Предсказывать, насколько популярными будут вещи с использованием данных, насколько все эти вещи могут быть сильно различными?

Мальчик, у меня не было ни малейшего понятия.

Бизнес совершенно другой. Вопросы другие, заинтересованные стороны другие, данные другие и т. д. Поэтому я хотел написать эту статью с двумя целями. Первая, более очевидная цель – показать начинающим и младшим специалистам по данным в сфере развлечения, как работа науки о данных может различаться между театральными и стриминговыми контекстами. Но я предполагаю, что такая динамика может проявиться во многих отраслях – когда вы думаете, что будете делать прогнозы, используя X и Y так же, как всегда, только чтобы обнаружить, что это совершенно разные подходы к X и Y – поэтому вторая, более широкая цель – дать специалистам по данным всех отраслей представление о том, что даже если две работы могут казаться функционально похожими на поверхности, они могут быть совершенно разными в разных аспектах, когда вы начинаете погружаться в данные и бизнес-вопросы, стоящие на повестке дня.

С этим ниже приведены некоторые из моих ключевых наблюдений после перехода от научной деятельности в области стриминга к научной деятельности в сфере театрального развлечения. Я пропускаю некоторые из более очевидных моментов (о, нет театральных телешоу, какое удивление), но я касаюсь некоторых основных тенденций. И, конечно же, ничто из этого не является библейским заявлением о истине. Всё зависит от компании, руководства командой и тому подобного. Кроме того, хотя наука о данных может играть роль на более ранних этапах жизненного цикла контента, о чем я упоминаю выше, эта статья основана на моем опыте более поздних процессов, ближе к релизу. Если я кажусь немного неоднозначным, это намеренно, потому что я не хочу разоблачать никаких тайных приемов 😉

Фото от Joshua Sortino на Unsplash

Охват данных

Самое очевидное отличие – это разница в охвате данных. В театральной науке о данных основной единицей анализа является фильм, возможно, фильм-страна – и в определенной стране за определенный год выходит только столько фильмов!

Это не значит, что вы никогда не работаете с большими наборами данных, которые поступают на более детализированных уровнях на театральной стороне; эти наборы данных обычно связаны с названием или каким-то элементом названия, и вы часто работаете с ними и обрабатываете их каким-то образом для получения соответствующих названию исследований. Но главный вывод состоит в том, что потому что пространство названий по умолчанию меньше, охват данных тоже меньше. Я надеюсь, что однажды мы сможем получить более детальное представление о потреблении в театральной сфере, которое возможно в стриминговой сфере, но пока это не так.

Фото от Michael Marais на Unsplash

Нет* исторических данных

В стриминге, по большей части времени (за исключением стриминговых эксклюзивных релизов), у вас будет значительное количество исторических данных, с которыми можно работать. Сколько заработал фильм в кассовых сборах? Какой был социальный резонанс вокруг него при его выходе? Какой рейтинг получил фильм на Rotten Tomatoes?

У вас нет такого роскоши в театральном пространстве. Конечно, вы можете в некоторой степени полагаться на историю отдельных компонентов, будь то актерский состав, съемочная группа, жанр или их комбинация, но даже в этом случае эти данные обычно не будут явно связаны с конкретным фильмом, как это делается с историческими данными. Кроме того, такое сравнение может быть затруднено субъективными факторами и внешними факторами-помехами; как определяется, какие фильмы действительно можно сравнивать с другими? Какую роль играет маркетинг и различия в маркетинговых кампаниях в восприятии публикой сходства между фильмами?

*Да, сериалы и франшизы являются полу-исключением из этого правила, но чрезмерная полагающность на сиквелы и предположения о сходстве может легко обернуться против вас. Да, во многих случаях успех предыдущей части может быть хорошим приблизительным оценочным инструментом для прогнозирования успеха ее продолжений, но франшизы со временем могут потерять популярность или быть излишне растянутыми (новые персонажи/сюжеты и слабые связи с предыдущими частями) до такой степени, что успех предыдущих частей может оказаться бесполезным при прогнозировании успеха новых фильмов.

Фото Scott Graham на Unsplash

Очень конкретные данные

При работе в стартапе, связанном со стриминговыми технологиями, и имея команду по обработке данных, я провел много времени, изучая, какие наборы данных могут быть полезны для наших потребностей. В процессе работы я нашел много малоизвестных наборов данных, подходящих для различных нужд, и исследовал, как можно дешево собирать данные, которые продавцы предлагают по высокой цене (например, как можно получить данные о поиске в Google, не платя за дорогостоящую лицензию?).

В театральной сфере стандарты и соглашения кажутся значительно более установленными. Существуют некоторые наборы данных соцсетей или типы данных, которыми пользуется практически вся индустрия. Например, хотя социальное прослушивание может показаться очевидным источником современных данных, есть большие установленные вендоры, предоставляющие подробную информацию о предрелизных и послерелизных данных потребителей для фильмов, и некоторые из этих вендоров существуют уже десятилетия. Это те наборы данных, о которых многие, находящиеся за пределами театрального пространства, могут никогда не слышать, но когда вы находитесь в этой сфере, о них можно говорить всегда.

Фото Marten Bjork на Unsplash

Нет ограничений по времени (или только одно ограничение)

В стриминговом пространстве срок доступности – и в некоторой степени, характер доступности – являются ключевыми факторами для анализа. Такие окна могут влиять на различные факторы, связанные с контентом (например, является ли фильм про Рождество и окно – рождественское окно?) и факторы на рынке (например, показывается ли фильм на главной странице?).

Как вы можете себе представить, эти проблемы не так актуальны в театральной науке о данных – точнее, если вы не занимаетесь моделированием, связанным с вопросами «стоит ли сделать этот фильм?» или «когда стоит выпустить этот фильм?», то все ограничения по времени уже приняты за вас в виде (вероятной) даты релиза, когда вы включаетесь в процесс. Нужно заботиться о только одном ограничении по времени (если необходимо учитывать отдельные даты релизов, это уже другая история), и Власти уже решили, когда это будет. Теперь вам нужно сделать все возможное, чтобы предоставить все полезные идеи в контексте этого ограничения по времени.

Фото от Christian Joudrey на Unsplash

Больший акцент на бизнесе

Во время работы в стриминговой сфере было легко рассматривать заголовки и аудитории как цифры, потому что мы имели данные о сотнях тысяч из них, но такая философия также проявлялась в методологии. Часто генерировались не только сводные статистики, но и все превращалось в некий векторное представление (т.е. набор чисел, которые описывают что-то по нескольким независимым от человека измерениям), даже если это обходилось в ущерб интерпретируемости. Действительно нет смысла говорить о том, что “Размерность контента 2 является наиболее важной переменной в модели”.

В театральной сфере больше внимания уделяется бизнесу, а не только цифрам. Данные существуют не только ради цифр, но и для получения действенных идей для различных заинтересованных сторон организации, многие из которых не являются учеными в области данных или даже не работают с данными ежедневно. Важно делать точные прогнозы, но также важна и интерпретируемость, и нет необходимости отказываться от нее ради уменьшения ошибки модели на доли процента. Следовательно, я чувствую большую связь с бизнесом и аудиторией в своей работе.

Выводы и заключение

Я затронул различные темы выше в контексте моего перехода от стриминга к театру в индустрии развлечений, но основные темы сводятся к задаванию вопросов, актуальных для тех, кто переходит между двумя схожими работами в одной и той же отрасли. Поэтому, чтобы подытожить, прежде чем вы будете предполагать, что ваша следующая работа будет в основном такой же, как ваша предыдущая работа, на основе различий между стримингом и театральным анализом данных, которые я упомянул выше, задайте себе несколько вопросов, которые стоит обдумать более глубоко, когда вы думаете о сходствах и различиях между вашей последней работой и вашей следующей работой:

  • Объем данных: Какова единица данных? Как часто данные добавляются и сколько единиц каждый раз? Следовательно, насколько большим является набор данных и какие инструменты необходимы для работы с таким набором данных?
  • Наличие исторических данных: Какие исторические данные доступны, если они вообще есть? Доступны ли исторические данные непосредственно или они требуют какого-то агрегирования, заполнения пропусков или анализа сходства?
  • Источники данных: Какие источники данных используются? Являются ли используемые источники данных более общими или очень специфичными? Насколько возможно экспериментировать с новыми источниками данных или отказаться от существующих источников данных? Какие установленные, традиционные наборы данных используют все?
  • Временные факторы: Какое время является релевантным для конкретного вопроса, который вам нужно ответить? Как это определяется? Оно является единичным или множественным, постоянным или изменяющимся? Как нужно учитывать время и связанные с ним факторы (например, сезонность, праздники и т. д.) в работе? Отдает ли бизнес предпочтение определенному временному периоду?
  • Акцент на бизнесе: Кто является аудиторией? Исходя из этого, каков баланс между точностью и интерпретируемостью, который нужно достичь? И как это, в свою очередь, влияет на тип функций, которые вы считаете полезными? Какой характер работы определяет темп бизнеса?

Я, безусловно, был нанят на текущую должность, потому что мой набор навыков соответствует требованиям работы и то, что я делаю, схоже с тем, чем я занимался раньше – но анализ данных в сфере театра отличается от анализа данных в сфере стриминга как похоже на него, так и отличается. Как я упомянул выше, данные различаются, процессы различаются, и ожидания различаются. Я надеюсь, что вы найдете эту статью полезной, если надеетесь попасть в захватывающую область анализа данных в области развлечений или обдумываете переключение на схожую, но разную работу в любой отрасли!

На момент написания, Дэнни Ким (доктор философии, Университет Пенсильвании; Forbes 30 до 30 лет 2022 года) работает старшим аналитиком данных в команде маркетинговой аналитики и исследований в Sony Pictures Entertainment Motion Picture Group. Дэнни ранее работал в Whip Media и Paramount Pictures, и он является выпускником школы коммуникации при Пеннском и Университете Южной Калифорнии; Школы Уортона; и Университета Южной Калифорнии в области киноискусства.