Интервью с основателем Грегори Пиатецки-Шапиро в честь 30-летия VoAGI

Интервью с основателем Грегори Пиатецки-Шапиро

 

С днем рождения, VoAGI!

Этот веб-сайт – тот самый, который вы сейчас читаете – начал свою жизнь 30 лет назад как скромная рассылка и с тех пор превратился в один из самых старых и долгоживущих ресурсов по науке о данных, доступных сегодня. Мы празднуем этот достижение весь месяц, начиная со справедливо подходящего обсуждения с основателем VoAGI Грегори Пиатетски-Шапиро.

Грегори – гений за VoAGI, и руководил сайтом в течение 28+ лет, до совсем недавнего времени. Известный своим придумыванием термина “извлечение знаний из баз данных” и основанием серии конференций KDD, Грегори начал рассылку Knowledge Discovery Nuggets (VoAGI) в 1993 году, чтобы объединить исследователей в области добычи данных и извлечения знаний. До своего ухода на пенсию в 2022 году VoAGI стал влиятельным изданием в области науки о данных, машинного обучения, искусственного интеллекта и аналитики благодаря руководству Грегори.

Хотя он наслаждается заслуженным пенсионным отдыхом, мы смогли уговорить его вернуться в бой для обширного обсуждения истории VoAGI, его текущего состояния, будущего и даже некоторых воспоминаний.

Вопросы для этого интервью задали редакторы VoAGI Мэттью Майо, Абид Али Аван и Ниша Арья. Редактор, задающий каждый вопрос, отмечен по ходу.

  VoAGI: С днем рождения 30 лет, Грегори! Для немногих людей, которые могут не знать, кто вы такой, можете ли вы дать нам краткую версию на 30 000 футов? (спросил Мэттью)

Грегори: Мэтт, спасибо и рад снова работать с вами и писать для VoAGI!

Меня, вероятно, больше всего знают как основателя VoAGI – этого издания – и сооснователя конференций KDD, ведущей конференции в области науки о данных и добычи данных. Я начал свою научную карьеру исследователем в области искусственного интеллекта и баз данных; моя диссертация в 1984 году была посвящена самоорганизующимся системам баз данных. Затем я работал на протяжении дюжины лет в лаборатории GTE в Бостоне, занимаясь исследованиями и созданием прикладных систем на стыке искусственного интеллекта и баз данных. В 1989 году я начал первый в мире проект “Извлечение знаний из баз данных”. Наш проект породил интересные применения в области здравоохранения (система KEFIR), выявления мошенничества, прогнозирования оттока клиентов и других областях.

В 1997 году начинался бум интернет-компаний, и я ушел из GTE, чтобы присоединиться к стартапу, применяющему добычу данных в финансовой сфере. Мы сотрудничали с крупнейшими банками и страховыми компаниями в мире, разрабатывая модели для сегментации клиентов, оттока, перекрестной продажи и так далее. В 2000 году первый стартап был куплен более крупным стартапом за 50 миллионов долларов, но прежде чем кто-то из нас мог реализовать свои опционы по акциям, интернет-пузырь лопнул, и второй стартап разорился. Стоимость всего накопленного опыта с акциями оказалась равной нулю.

 

Грегори Пиатетски-Шапиро придумал термин “извлечение знаний из баз данных” для первого семинара по этой теме (KDD-1989), и этот термин стал более популярным в сообществах искусственного интеллекта и машинного обучения. Однако термин “добыча данных” стал более популярным в деловых и прессовых сообществах. В настоящее время термины “добыча данных” и “извлечение знаний” используются взаимозаменяемо. – статья “Data mining” на Википедии

 

Итак, в 2001 году я решил начать свое собственное дело, публикуя VoAGI и занимаясь консалтингом.

Я выполнил множество интересных консультационных проектов, от поиска биомаркеров для болезни Альцгеймера до обнаружения поддельных ювелирных изделий на eBay и анализа использования программного обеспечения. Но по мере роста популярности VoAGI требовал все больше времени, поэтому я прекратил консультирование и полностью сосредоточился на VoAGI.

С появлением науки о данных и машинного обучения в горячих областях вокруг 2012 года (как подтверждает статья под названием “Data Scientist – самая сексуальная профессия 21 века”), VoAGI значительно вырос и получил широкое признание в отрасли. VoAGI часто упоминался среди лучших изданий в области искусственного интеллекта, больших данных, науки о данных и машинного обучения (см. здесь для получения подробностей).

В 2018 году мне была велика честь быть названным одним из ведущих голосов LinkedIn в области науки о данных и аналитики.

Конечно, любой успех со VoAGI, который я достиг, разделяется с множеством других людей, которые помогли мне и работали со мной на протяжении всего пути. Я не могу назвать всех, но хочу особенно упомянуть Криса Матеуса и Майкла Беддоуса, которые работали со мной в GTE над первым веб-сайтом VoAGI; Усаму Файяд, Сэма Утурусами и Вона Кима, с которыми я работал над конференциями и организацией KDD; и Анмола Раджпурохита за помощь с VoAGI в 2013-15 годах.

Наконец, и самое важное, Мэтью Майо, который присоединился к команде VoAGI в 2016 году и помог достичь ей текущего успеха, и который взял на себя дела после моего ухода на пенсию в 2022 году.

   

Можете ли вы рассказать нам о вдохновении, лежащем в основе создания вашего издания? (Ниша)

В 1989 году я организовал первый семинар по обнаружению знаний в базах данных на конференции IJCAI-89. Этот семинар повторился в 1991 и 1993 годах, и в июле 1993 года, чтобы объединить исследователей, работающих в этой области, я начал выпускать информационный бюллетень, который я назвал “Knowledge Discovery Nuggets”. Я использовал термин “обнаружение знаний”, потому что тогдашний термин “data mining” казался неопределенным – не было ясно, что мы ищем. “Nuggets” потому что мы публиковали в основном короткие, но актуальные и интересные статьи. Подумайте о “золотых самородках”, найденных в руде данных.

Семинар стал конференцией KDD-95 в 1995 году (отлично организованной Усамой Фаяядом и Сэмом Рамасвами) и конференции KDD продолжают процветать как главная конференция по науке о данных в мире. Я занимал должность председателя организации ACM KDD с 2005 по 2009 год и был членом исполнительного комитета KDD до 2013 года.

Первый выпуск VoAGI был отправлен около 50 исследователям, принявшим участие в семинаре KDD-93. Количество информации в этой области росло, и как организатор семинара я был в хорошем положении, чтобы собрать и систематизировать ее. В 1994 году, вскоре после появления Всемирной паутины, мы начали создавать то, что тогда был вторым сайтом в мире о data mining и обнаружении знаний. Его называли “Knowledge Discovery Mine”, но он находился на домене GTE Labs и больше недоступен.

Когда я покинул GTE Labs в 1997 году, я скопировал информацию на новый сайт под названием VoAGI, что означает Knowledge Discovery Nuggets. Этот сайт существует до сих пор… и вы его сейчас читаете!!!

  Вы считаете, что достигли своей цели с VoAGI? (Ниша)

Цель – это путь!

Но успех и долговечность VoAGI превзошли мои ожидания.

Моя первоначальная цель при создании бюллетеня VoAGI была увеличить частоту контактов исследовательского сообщества в этой области по сравнению с ежегодным семинаром. Моя цель для первого сайта, связанного с VoAGI, созданного в 1994 году в GTE Labs и называемого “Knowledge Discovery Mine”, заключалась главным образом в систематизации тогдашней информации о data mining, в основном программного обеспечения и наборов данных, и сделать ее доступной для всех. В течение многих лет эти два раздела – программное обеспечение и наборы данных – были самыми популярными.

В 1990-х годах VoAGI имел очень полный каталог доступного программного обеспечения, наборов данных, встреч и другой актуальной информации, поэтому он был очень полезным ресурсом.

По мере роста отрасли стало невозможно поддерживать ручной каталог вещей, связанных с data mining и data science, и VoAGI переключился на практический и образовательный контент, а также на то, что было полезно для практиков. Мы также были удачны в выборе времени, так как интерес к data mining и data science резко возрос в 2010-х и 2020-х годах. В результате, количество подписчиков и посетителей сайта значительно выросло.

  Вы считаете, что VoAGI оказал положительное влияние на сферу данных на протяжении своей карьеры издателя? (Абид)

Надеюсь, что да! В первые годы бюллетень и веб-сайт VoAGI были полезными ресурсами для объединения исследовательского сообщества, а позже – полезным учебным ресурсом для практикующих и начинающих ученых в области обработки данных.

Некоторые из наших читателей действительно наслаждались VoAGI, что демонстрирует этот мультфильм:

   

Какой, по вашему мнению, был самым значительным прорывом в области науки о данных за время вашей карьеры издателя? (Мэтт)

Ясно, что это глубокое обучение. Хотя исследования в области нейронных сетей проводились с 1960-х годов, большой прорыв произошел в подходе глубокого обучения, разработанном в основном Геоффом Хинтоном, Ян Лекуном и Йошуа Бенджио в начале 2000-х годов. Первый значительный успех глубокого обучения обычно относится к октябрю 2012 года, когда AlexNet, созданный Геоффом Хинтоном и его студентами, выиграл конкурс ImageNet с несравненным отрывом.

Вскоре после этого многие исследователи и практики начали использовать глубокое обучение, и VoAGI начало освещать эту тему. Глубокое обучение уже было самой популярной новостью VoAGI в декабре 2012 года.

Глубокое обучение и все последующие технологии, производные от него, такие как ChatGPT, до сих пор остаются одними из самых популярных тем.

Что было важным для вас при работе над VoAGI (например, деньги, опыт или распространение знаний)? (Абид)

Конечно, деньги были важны, так как я работал на себя с 2001 года и должен был поддерживать свою семью и выплачивать ипотеку, но это не было самым важным. Вероятно, главная мотивация для меня, когда я начал VoAGI, была создание сообщества и общение с умными людьми. С 1993 по 2000 год я вел рассылку и веб-сайт VoAGI без какого-либо дохода или рекламы, как чисто волонтерскую службу для сообщества. Ведение VoAGI было естественным дополнением к организации мастер-классов и конференций KDD, и это была неоплачиваемая, но очень награждаемая волонтерская деятельность.

Я считаю, что VoAGI сыграл положительную роль в распространении знаний по добыче данных и науке о данных, судя по очень большому числу посетителей и подписчиков.

Как вы обеспечивали выделение VoAGI на конкурентном медиаполе? (Ниша)

Здесь нет магической формулы. Во-первых, это требовало много тяжелой работы. Но если бы я мог найти некоторые “крупинки” долгосрочного успеха VoAGI, то это были бы качественный контент, синергия и внимание.

Во-первых, мы старались найти или написать качественный контент. Во-вторых, мы полагались на позитивную синергию между разными каналами – электронные письма помогали привлекать посетителей на сайт, а сайт помогал привлекать больше подписчиков по электронной почте. Успешное присутствие VoAGI в Twitter (теперь X), LinkedIn и Facebook также взаимно подкрепляло друг друга.

Наконец, внимание. Я много внимания уделял как внутреннему поведению сайта, периодически модифицируя его для улучшения важных показателей, так и внешним тенденциям, адаптируя наш контент к тому, что было интересно и актуально в сфере.

Можете ли вы поделиться особенно значимой или запоминающейся историей, о которой рано сообщил VoAGI, и какое воздействие она имела? (Ниша)

Одна из ранних историй из 1990-х годов была связана с приемными детьми. Одна из полезных вещей, которые сделал VoAGI, заключалась в публикации запросов от исследователей, и один человек около 1995 года разместил запрос о своей проблеме работы с базой данных оплаты приемных детей. Было много имен, которые писались немного по-разному, и чтобы получить оплату нужному человеку, их имена нужно было совместить. Другой исследователь увидел этот запрос в VoAGI и смог применить свой алгоритм сопоставления имен для решения проблемы с приемными детьми. Это помогло обеспечить оплату большему числу детей и улучшило их жизнь.

Несмотря на то, что вы отошли, куда бы вы хотели видеть VoAGI в следующие 10 лет? (Ниша)

Надеюсь, что он все еще будет содержать некоторый контент, написанный людьми, и иметь читателей.

Как вы относитесь к тому, что ИИ в конечном итоге возьмет на себя создание контента? (Абид)

С одной стороны, я очень рад, что научно-фантастические истории об ИИ и роботах, которые я читал в детстве, приближаются к реальности, и в некоторых случаях реальность уже превосходит научную фантастику. С другой стороны, мне грустно за создателей контента.

Социальные сети уже показали опасность оптимизации на внимание, а ИИ чрезвычайно хорош в оптимизации. Я могу себе представить, что через несколько лет (или даже несколько месяцев) ИИ будет превосходить в создании привыкательного контента, который многие люди захотят смотреть без остановки.

Возможно, ИИ уже генерирует много контента в TikTok.

Но будет ли это хорошо для общества, если так много людей будет зависимо от цифрового наркотика?

Обещание и угроза ИИ, конечно, гораздо шире, чем создание контента – ИИ потенциально может занять большинство рабочих мест.

В краткосрочной перспективе я думаю, что будет период сотрудничества, когда человек + ИИ смогут справиться с задачами лучше, чем человек или ИИ по отдельности. Возьмем шахматы в качестве примера: после того, как Deep Blue победил чемпиона мира Гарри Каспарова в 1997 году, были турниры, где команды из человека + компьютера справлялись лучше, чем компьютеры или люди. Однако этот период был коротким, и теперь лучшие шахматные программы гораздо, гораздо лучше даже чемпиона мира.

В долгосрочной перспективе я очень обеспокоен потерей рабочих мест, вызванной ИИ, и увеличением неравенства доходов, что может нарушить стабильность обществ и разрушить демократии. Это не произойдет в этом году, но текущие тенденции в технологии указывают на такие сценарии. Возможным долгосрочным решением проблемы безработицы, вызванной ИИ, может быть некая форма универсального базового дохода и сосредоточение на развитии человеческого творчества.

Такое решение будет сложно принять и потребует политической активности и гражданского участия, поэтому, если вы, читатель, обеспокоены рисками искусственного интеллекта, то изучайте его, участвуйте и голосуйте!

  Спасибо, Грегори! Ваше участие в этом ценится, и празднование такого вехового момента для VoAGI не будет таким же без него.

    Мэттью Майо (@mattmayo13) имеет степень магистра по компьютерным наукам и диплом по добыче данных. Как главный редактор VoAGI, Мэттью стремится сделать сложные концепции науки о данных доступными. Его профессиональные интересы включают обработку естественного языка, алгоритмы машинного обучения и исследование новых направлений искусственного интеллекта. Он движим миссией демократизации знаний в сообществе науки о данных. Мэттью начал программировать в 6 лет.