Сколько данных нам нужно? Балансировка машинного обучения и вопросов безопасности

Баланс между объемом данных и безопасностью в машинном обучении сколько информации нам действительно нужно?

Для ученого-эксперта по данным не существует понятия “слишком много данных”. Но если мы шире взглянем на организационный контекст, то мы должны сбалансировать наши цели с другими соображениями.

Фото университета Трнавы на Unsplash

Наука о данных против безопасности/IT: сражение века

Получение и сохранение данных – это фокусировка огромного количества нашей умственной энергии как ученых по данным. Если вы спросите у ученого по данным: “Можем ли мы решить эту проблему?”, то первый вопрос, который задаст большинство из нас, будет: “У вас есть данные?”, а затем – “Как много данных у вас есть?” Мы хотим собирать данные, потому что это превратный шаг для большей части работы, которую мы хотим делать, чтобы производить ценные модели и полезные результаты. Мы любим порыться в этих данных, узнать, что там на самом деле и что это значит, выяснить, как они были сгенерированы или собраны, и извлечь обобщающие выводы из них.

Однако, когда мы серьезно рассматриваем приватность данных, наши привычки и выбор становятся в другом контексте. Инстинкты и желания ученых по данным часто противоречат потребностям в приватности и безопасности данных. Любой, кто боролся, чтобы получить доступ к базе данных или хранилищу данных, чтобы построить модель, может почувствовать это. Иногда может показаться, что перед нами создаются чрезмерно осторожные барьеры в пути выполнения нашей работы. В конце концов, ведь причиной наличия у нас данных является их использование и моделирование? Даже лучшие из нас иногда демонизируют те части нашей организации, целевые задачи которых связаны с приватностью и безопасностью, и вступают в конфликт с нашими желаниями разбрасываться данными.

«На самом деле ученые по данным не всегда являются героями, и команды IT и безопасности не являются злодеями. Оба наших направления работают над важными целями и могут оба кое-когда быть озабочены своим узким взглядом на задачу. Полезно рассмотреть взгляды обеих ролей для понимания напряжения, между ними и соперничающих интересов.

Взгляд ученого по данным

С точки зрения ученого по данным, для достижения целей нашей работы часто необходимы большие объемы данных. Чтобы построить обобщающую модель, вам необходимо иметь много примеров типов данных, на которые ваша модель должна отвечать в производственной среде. Не является слишком большим количеством иметь сотни тысяч или миллионы случаев, вовсе нет. Однако, чтобы действительно сделать это работающим, ученым по данным придется потратить много времени и энергии на анализ этих данных. Иметь большое количество данных – замечательно, но если вы не знаете, что они на самом деле представляют и как они были получены, задача по созданию эффективной науки о данных будет очень трудной.

Угол безопасности

Если мы посмотрим на задачи безопасности, с другой стороны, то нужно признать, что чем больше мы имеем данные – особенно, если есть несколько систем хранения или процессов, влияющих на данные – тем выше риск их утечки. В основном, чем больше данных есть, тем больше шансов, что часть из них пропадет или окажется доступна неправильным лицам. Кроме того, чем больше людей имеет доступ к данным, тем больше возможностей для нарушения безопасности или потери данных, поскольку человек является самым уязвимым компонентом в технологическом пространстве. Мы являемся слабыми звеньями в цепочке.

Что все это значит? Я бы сказал, что это приводит нас к необходимости искать золотую середину. С одной стороны, чем больше данных мы имеем, тем меньше вероятность, что мы провели работу для их полного понимания или что мы вообще сможем это сделать за отведенное время и с использованием имеющихся инструментов. Если мы просто все складываем indiscriminantly, мы оказываемся в ситуации, когда не можем даже понять все данные, и одновременно находимся на пике риска утечки данных. Если мы ничего не храним или недостаточно храним, мы делаем невозможным доступ к невероятно ценным возможностям науки о данным.

Так что мы должны найти свою золотую середину. Существуют правильные практики в области инженерии и хранения данных, но мы также должны принимать мгновенные решения. Принципы относительно того, как мы думаем о хранении и использовании данных, важны для того, чтобы помочь руководить нами в таких ситуациях.

Институциональные аспекты

Когда я говорю о управлении данными, я должен упомянуть – я недавно начал новую роль! Я первый старший инженер по машинному обучению в DataGrail, компании, предоставляющей комплекс услуг B2B, помогающих компаниям обеспечивать безопасность и управление данными своих клиентов. Это естественным образом заставляет меня задуматься о вопросах хранения данных и конфиденциальности, а также заставляет меня задумываться о своем опыте работы в компаниях разной зрелости и о том, как они обращались с данными.

Так легко стать хранителем данных для компании. Вы начинаете со скудости данных и летите в слепую, собирая данные о транзакциях, деловой активности и т.д., чтобы помочь принимать решения и разрабатывать стратегию. Возможно, вы еще не занимаетесь машинным обучением, но видите его будущий потенциал и хотите подготовить сценарий. Кажется, что сбор данных и их хранение не только разумны, но и важны! Поэтому вы настраиваете системы данных и начинаете заполнять таблицы или темы.

Однако это неприемлемо в долгосрочной перспективе. Через несколько лет вы можете столкнуться с огромным объемом данных. Возможно, вам придется масштабироваться на облачного провайдера хранения, такого как Snowflake или AWS, чтобы удерживаться и обеспечивать доступность данных в нужном темпе. Конечно, вы используете эти данные! Возможно, вы уже начали программу машинного обучения, или даже только применяете продвинутую аналитику и бизнес-аналитику, и это значительно повышает эффективность вашего бизнеса, если это делается правильно. Но даже тогда вам придется задуматься о стоимости инфраструктуры, а также, вероятно, нанять сотрудников по работе с данными, чтобы помочь управлять этим “чудовищем”.

К сожалению, вы начали собирать данные, которыми уже плохо владеете. Документация может быть устаревшей, если она вообще существует, и сотрудники, которые помогли разработать исходные системы несколько лет назад, могут меняться. Что значит эта таблица? Каково происхождение этого столбца? Данные, которые невозможно интерпретировать, мало что приносят ценности, поскольку невозможно эффективно учиться на данных, которые вы не понимаете.

На этом этапе вам предстоит принятие решений. Как вы стратегически запланируете будущие системы данных? Вам, вероятнее всего, понадобится заняться архитектурой данных, чтобы избежать взлетающих издержек, но что на счет хранения данных? Сохранять все данные навсегда? Если нет, то что и когда следует удалять? Помните, что хранение довольно большого объема данных – это неотъемлемое требование, если ваш бизнес будет иметь эффективные функции машинного обучения и/или аналитики для поддержки принятия решений и производства товаров. “Выбрасывать все и избегать всего этого нелепого” – не вариант.

В то же время вам нужно думать о регулятивных и юридических рамках, которые применяются к таким данным. Что вы сделаете, если клиент попросит вас удалить все данные, которые у вас есть о нем, как это разрешено в некоторых юрисдикциях? Многие организации не относятся к этому серьезно, пока они уже не опоздали на вечеринку. Если вы хотите быть впереди и не начали с самого начала, перед вами жесткая задача – адаптировать архитектуру данных к регуляционным требованиям, к которым подлежат эти данные.

Пояснения о регулировании

Рост регулирования в области защиты данных в последние годы усилил сложности ситуации, описанной мной в этой статье, для бизнеса. В некотором смысле, это результат нашего собственного непосредственного действия – многочисленные утечки данных, небрежная безопасность и неясные политики согласия, предлагаемые разными компаниями в последние годы, привели к общественному требованию лучшей защиты, и правительство заполнило эту пустоту. Кажется, что доверие к бренду и безопасность не были достаточными мотивациями для многих компаний, чтобы улучшить обеспечение безопасности данных. Если законы необходимы, чтобы гарантировать добросовестную защиту наших персональных данных и чувствительных записей, то я лично за это.

Однако, как специалист в области обработки данных, мне необходимо отметить противоречие, о котором я упомянул в начале этой статьи. Я хочу иметь все данные и свободно в них копаться, потому что это помогает мне эффективно выполнять свою работу. Но, я также являюсь клиентом и гражданином, и хочу, чтобы МОИ данные были надежно защищены. Я знаю, что обещание и сила машинного обучения зависят от доступности и использования данных, но это не так очевидно, когда речь идет о данных о вас и ваших привычках. Мне легче справляться с этой задачей, чем с “безопасностью” в чистом виде, потому что я не специалист по безопасности данных, но это не мешает мне иметь ясное представление о том, какие предпочтения я, как потребитель, имел бы.

Мой совет заключается в том, чтобы мы держали наши шляпы потребителя/безопасности и наши шляпы дата-ученого рядом. Мы должны поддерживать баланс между накоплением данных для машинного обучения и ограничением сохранения наших данных для конфиденциальности клиентов и безопасности данных. Нет универсального ответа на вопрос “сколько мы должны сохранять?”, поэтому единственный выбор – балансирование интересов при принятии каждого решения относительно хранения данных.

Я немного отдохну от своей колонки на праздники и вернусь в середине января с моим следующим материалом.

Смотрите больше моих работ на www.stephaniekirmer.com.