Благословение размерности?! (Часть 1)

Загадка размера?! (Часть 1)

Относительно новая вычислительная техника революционизирует ландшафт машинного обучения

Рис. 1. Робот Shakey, созданный в Исследовательском институте Стэнфорда примерно в 1972 году (источник: Викимедиа Commons)

От Дартмута к Лиспу

“Мы считаем, что можно добиться значительного прогресса в одной или нескольких из этих проблем, если тщательно отобранный группа ученых будет работать вместе в течение лета”, – сказано в предложении. Мало кто знал Джон Маккарти и его коллеги, когда они писали эту фразу, что их короткий летний проект представляет собой начало одной из самых значительных технологических революций, когда-либо виденных человечеством.

Во многом летний проект 1956 года по искусственному интеллекту Дартмута [1,2] можно считать местом, где родилась ИИ, включая само имя ИИ. С тех пор возникли две школы мысли, у каждой из которых свой особый подход к пониманию и созданию интеллектуальных систем.

Символический ИИ: первая школа

Можно сказать, что более “древняя” из двух называется Символическим ИИ (вторая – Коннекционистский ИИ). Просто говоря, этот подход включает в себя:

  • создание большой базы данных объектов (скажем, животные),
  • определение правил для манипулирования этими объектами (что делает животное млекопитающим, рептилией или насекомым?) и
  • использование первых двух шагов для логических выводов (“Является ли кошка насекомым?”)

Формально символический подход к ИИ акцентирует использование символов и правил для представления и манипулирования знаниями. В отличие от коннекционистского ИИ, который вдохновлен структурой человеческого мозга, символический ИИ фокусируется на явном представлении понятий и отношений.

В символических ИИ системах знания кодируются в виде символов, которые могут представлять объекты, действия или абстрактные понятия. Затем эти символы манипулируются с использованием правил вывода, что позволяет системе делать выводы и принимать решения. Это на правилах основанное рассуждение позволяет символическим ИИ системам решать задачи логическим и структурированным образом.

Очень простой пример

  1. Я мог бы загрузить ИИ со следующей базой фактов о животных: имя, тип и характеристики а. животное(кошка, млекопитающее, мех, четыре лапы). б. животное(рыба, водный, чешуя, без ног). в. животное(птица, птица, перья, две ноги). г. животное(змея, рептилия, чешуя, без ног).
  2. Затем я могу программировать следующие ПРАВИЛА для классификации на основе характеристик а. млекопитающее(X) :- животное(X, млекопитающее, мех, четыре лапы). б. водный(X) :- животное(X, водный, чешуя, без ног). в. птица(X) :- животное(X, птица, перья, две ноги). г. рептилия(X) :- животное(X, рептилия, чешуя, без ног).
  3. В результате у нас есть простая экспертная система, которая может реагировать на различные запросы, например[a] Запрос: млекопитающее(кошка). # Мы спрашиваем, является ли кошка млекопитающим. Ожидаемый ответ: true[b] Запрос: млекопитающее(рыба) Ожидаемый ответ: false.

Вот более подробная информация о том, как работают системы символического ИИ

Символический ИИ применим в областях, требующих логического рассуждения и планирования, например, в экспертных системах и играх. Успехи включают:

  • Робот Shakey (см. первую фигуру), созданный в Институте Стэнфорда
  • экспертные системы, такие как правила ИИ с названием “MYCIN”, разработанный в Стэнфордском университете в 70-х годах для диагностики и лечения инфекций у людей, и
  • ELIZA, одна из первых программ обработки естественного языка, созданная Джозефом Вайзенбаумом в MIT.

Символическое искусственное интеллект было, по меньшей мере, вначале, чрезвычайно успешным и использовалось в широком спектре приложений. Действительно, целые семьи формальных языков, такие как LISP (1950-е годы), были созданы для облегчения мышления и кодирования для систем искусственного интеллекта [3]. Однако есть некоторые очень фундаментальные недостатки в этом способе мышления об искусственном интеллекте.

Рис. 2. Разговор с ELIZA (источник: Викимедиа Commons)

Некоторые проблемы с символическим искусственным интеллектом

  • Обработка неопределенности– Символические системы искусственного интеллекта имеют трудности с представлением и рассуждением о неопределенности. – Реальные ситуации часто связаны с неполной или двусмысленной информацией, и традиционным символическим подходам может быть сложно эффективно справиться с неопределенностью.- В областях, где неопределенность является врожденной, например, медицинская диагностика или понимание естественного языка, символический искусственный интеллект может давать излишне детерминированные или неточные результаты.
  • (связано) Представление и приобретение знаний– Символические системы искусственного интеллекта полагаются на явное представление знаний в форме символов и правил.- Это ставит задачу в захвате обширных и нюансированных знаний о реальном мире.- Крайне сложная задача, такая как автономное вождение, например, просто не может быть представлена в виде набора команд “Если-То-Иначе” – как сотни миллиардов таких условий можно закодировать в агента искусственного интеллекта?
  • Отсутствие обучения и адаптации– Практически нет возможности учиться на новых данных и опыте! – Агент искусственного интеллекта просто выполняет то, что программист вводит в него. Реальные данные могут быть введены в агента только как знания программиста о том, как работает данный мир – которые могут быть и очень ограниченными, и предвзятыми.

Все это и несколько других довольно серьезных недостатков сделали прогресс в символическом искусственном интеллекте достаточно разочаровывающим занятием. В то же время развивалась параллельная линия мысли, поддерживаемая исследователями, которые, услышав звон траура Мински и Паперта для классификатора Перцептрона [6], ответили вызывающе: “это еще не закончено!”

Все изменилось, когда атаковала связующая резьба…

Связующий подход к искусственному интеллекту (ИИ) – это (в основном) то, о чем сейчас читают от самоуправляемых такси Waymo до систем распознавания лиц Apple, до роботизированной армии, о которой только что рассказал дядя Боб на традиционном турецком ужине.

Рис. 3. Самоуправляемая машина Waymo (источник: Викимедиа Commons)

Связующий подход к искусственному интеллекту черпает вдохновение из структуры и функции человеческого мозга, стремится создать интеллектуальные системы, эмулируя взаимосвязь нейронов. В отличие от символического искусственного интеллекта, который полагается на явные правила и представления, связующий искусственный интеллект использует компьютерные программы, называемые “искусственными нейронными сетями” (Artificial Neural Networks – ANNs), чтобы учиться из данных и принимать решения.

ANN состоят из слоев взаимосвязанных искусственных нейронов, каждый из которых принимает входные сигналы, обрабатывает их и передает выходные сигналы другим нейронам. Например, на правой стороне Рис. 4 каждый диск (синий, зеленый или желтый) представляет собой один “нейрон”. Эти связи или веса настраиваются через процесс обучения, позволяя ANNs идентифицировать закономерности и отношения в данных. Возможность обучения также позволяет связующим ИИ системам решать сложные задачи и делать предсказания на основе новых данных, даже без явного программирования.

Рис. 4. Искусственные нейронные сети (R) эмулируют взаимосвязь биологических нейронных сетей. (L) Человеческий мозг, представленный в виде глубокой нейронной сети (источник: Викимедиа Commons)

Не углубляясь в мельчайшие детали (и их здесь точно множество), стоит отметить, что уже к 1990 году метод градиентного спуска и обратное распространение ошибки (Backpropagation) достигли значительных успехов [4, 16], несмотря на общий недостаток энтузиазма к коннекционистскому подходу в предшествующие десятилетия. Однако попытки решить более сложные проблемы реального мира с использованием коннекционистского подхода препятствовало (1) недостаточное вычислительное оборудование и (2) отсутствие достаточного количества обучающих данных.

Мур и Ли спасают

К концу 2000-х годов “закон Мура” совершил огромные шаги в помощи решения проблем с вычислительной мощностью. Также исследователи, такие как Фей Фей Ли, использовали огромные объемы доступных онлайн изображений, чтобы создать гигантские наборы данных для обучения искусственных нейронных сетей (кстати, создание Фей Фей Ли набора данных ImageNet – это настолько захватывающая сага, что она заслуживает свою собственную статью 😉). И когда искусственный интеллект справился с ImageNet вызовом Ли, коннекционистская модель стала явным победителем.

30 сентября 2012 года

После того, что теперь является знаменитым “Моментом AlexNet” (см. [17, 15], или просто послушайте выступление Питера Аббила в течение 5 минут), искусственные нейронные сети взорвались разнообразными областями, такими как обработка естественного языка, медицина и робототехника (лаборатория Аббила известна своими многими технологическими прорывами в области робототехники). Но коннекционистский искусственный интеллект – не панацея.

Проблемы с коннекционистским искусственным интеллектом

Прежде чем списать первый подход как “сломанный искусственный интеллект”, давайте рассмотрим некоторые из проблем, которые преследуют последний.

  1. Отсутствие объяснимости [18] Представьте себе нейронную сеть, показанную на предыдущей рисунке, но с около 175 миллиардами дисков вместо 11. Как начать понимать, как эта гигантская монструозность рассуждает? Большинство оценок говорят о том, что у GPT 3.5 примерно 175 миллиардов параметров. Нейронные сети часто считаются “черными ящиками” из-за своих сложных архитектур и большого количества параметров. Очевидно, в приложениях, где понимание обоснования принимаемых решений критично (например, медицинская диагностика, финансы), отсутствие объяснимости может ограничить применение коннекционистских моделей.
  2. Память, вычисления и энергопотребление– Искусственные нейронные сети требуют огромных объемов вычислительных ресурсов и энергии как во время процесса обучения, так и при нормальной работе.- В настоящее время проблема настолько серьезна, что крупные искусственные нейронные сети обучаются и работают у частных компаний, потому что академические учреждения просто не могут себе позволить платить огромные счета за электроэнергию или приобрести достаточное количество процессоров для поддержания этих гигантов в работе.
  3. Проблема связывания [8]- В человеческом мозге различные области обрабатывают различные аспекты сенсорной информации, такие как цвет, форма и движение.- Проблема связывания возникает, потому что мозг должен интегрировать эти отдельные особенности в единое восприятие объектов и сцен. – Например, когда вы видите красный мяч, катящийся по зеленому полю, ваш мозг бесшовно объединяет информацию о цвете, форме и движении, чтобы сформировать объединенное восприятие катящегося красного мяча.- Коннекционистские модели часто используют распределенное представление, где разные особенности кодируются активационными схемами нескольких нейронов. Это позволяет параллельную обработку и гибкость, но делает явную связь конкретных особенностей вызовом.- Вопреки попыткам решить эту проблему с помощью методов внимания (attention), она до сих пор далека от решения и является одним из главных недостатков коннекционистского подхода.

В целях краткости я ограничусь перечисленными проблемами. Мы также вернемся к ним немного позже. Для более подробного обсуждения недостатков коннекционистского подхода, пожалуйста, обратитесь к [9, раздел 2.1.2].

Неудивительно, что исследователи утверждают подобное:

Нам кажется, что интеграция символьной обработки в нейронные сети имеет фундаментальное значение для достижения искусственного интеллекта на уровне человека и потребует совместных усилий сообщества для решения этой задачи. [8]

Сможет ли HDC, владеющий обоими подходами, спасти нас?

Гиперпространственные вычисления (HDC), также известные как Векторно-символьная архитектура (VSA), объединяют идеи обоих вышеупомянутых подходов для решения некоторых из обсуждаемых проблем. Фундаментальная величина в основе этого третьего подхода к искусственному интеллекту называется “гипервектором,” который представляет собой просто вектор в очень высокоразмерном (представьте себе R¹⁰⁰⁰⁰ 😮) пространстве.

Привязка, объединение и перестановка [7, 19]

Очень условно говоря, эти гипервекторы используются для представления объектов и связей между ними (если вам это звонит 🔔, вы на правильном пути, символически говоря). Например, у нас может быть 10 000-мерный гипервектор α для “оранжевого” и β для “цвета”, тогда 10 000-мерный вектор, полученный из покомпонентного умножения, представленный как γ = αβ, представляет “оранжевый цвет”. В HDC-жаргоне это действие называется “привязкой”.

Совмещение двух или более выходов таких операций привязки через простое сложение векторов позволяет нам накладывать несколько характеристик. Например, если γ и δ представляют “оранжевый цвет” и “круглую форму” соответственно, то γ+δ представляет “оранжевый цвет и круглую форму”. Мы, конечно же, строим символическое представление апельсина (🍊). Это действие называется “связыванием”.

Третья операция, называемая “перестановкой”, включает перестановку элементов гипервектора. Например, если я начинаю со вектора x = [a, b, c], одной перестановкой x был бы Πx = [b, c, a]. Эта операция в основном используется для поддержания упорядоченности, например, последовательности времени, и выходит за рамки вводной статьи по этой теме.

Правильный потомок символического и связного

Когда у нас имеется достаточно богатое представление объектов, в нашем случае фруктов, с использованием этой процедуры, у нас есть HDC-эквивалент “базы данных”, который позже можно использовать для ответов на запросы. Описание общего процесса HDC довольно свободное и требует формализации. Мы сделаем это во второй части этой статьи. А пока заметим, что, несмотря на сильное сходство с символическим ИИ, эта процедура также включает некоторые идеи связного ИИ.

Например, где в 10 000 записях γ хранятся “оранжевость” и “форма”? Подобно ANNS, ответ находится в нескольких координатах. Распределенное хранение информации, называемое “голографическим представлением”, делает HDC чрезвычайно устойчивым к ошибкам, потому что очень сложно случайно повредить значительную часть из 10 000 записей. Другая причина этого перехода к очень высокомерным векторам заключается в сохранении “ортогональности” – несколько более сложной темы, которая будет подробно рассмотрена во второй части этой статьи.

Где в 10 000 записях γ хранятся “оранжевость” и “форма”? Подобно ANNS, ответ находится в нескольких координатах.

Кроме того, как мы увидим во второй части, эти характеристики-представления гипервекторов (γ+δ) могут быть полностью сконструированы из данных, поэтому HDC действительно может учиться на данных и опыте.

Наконец, HDC требует значительно меньше операций (особенно нелинейных операций) по сравнению с ANNs, поэтому обычно требует значительно меньше энергии, вычислительных ресурсов и памяти [9,10,20], с приемлемой потерей точности, если применение не является критическим по производительности (например, автомобильное самоуправление или роботическая хирургия).

Фото James Coleman на Unsplash

Таким образом, название…

На протяжении десятилетий сообщество машинного обучения разработало арсенал инструментов для уменьшения размерности данных с хорошей причиной. Такие техники, как анализ главных компонент, факторный анализ и независимый компонентный анализ, регулярно используются для переноса данных из высокомерных многообразий в более низкие размерности для достижения более высокой точности тестирования с доступными данными [21].

В HDC, однако, философия кажется идти в точно противоположном направлении! Мы берем данные из пространств более низкой размерности и отображаем их в крайне высокоразмерные многообразия. Но, как мы видели раньше (и увидим более четко во второй части), такое движение предлагает два очень важных преимущества, превращая высокую размерность в настоящее благословение.

Жизнеспособная альтернатива?

HDC была протестирована на очень широком спектре наборов данных машинного обучения (ML), таких как классификация изображений, распознавание голоса, обнаружение деятельности человека и т. д. и показала конкурентоспособность по сравнению с нейронными сетями и стандартными алгоритмами ML, такими как метод опорных векторов [9,10,14,20 и ссылки в них].

Однако, в то время как HDC определенно сочетает множество преимуществ символического и коннекционистского искусственного интеллекта, большинство улучшений в мощности и вычислительной мощности были продемонстрированы на относительно небольших наборах данных и на более простых задачах. Действительно, маловероятно, что HDC когда-либо заменит сложные коннекционистские архитектуры, такие как трансформаторы, из-за простоты его операций и внутренней архитектуры.

Тем не менее, эта парадигма является многообещающим новым направлением с большими возможностями для исследований. Альтернативы с низким энергопотреблением для искусственных нейронных сетей имеют несколько областей применения, одной из самых важных является беспроводные сенсорные сети.

Следующий этап…

Целью данной статьи было вызвать интерес читателя к довольно необычной технике, которая снова стала популярной с конца 2010-х годов. В следующей части мы увидим точную процедуру HDC, которая применяется для выполнения классификации.

Краткое примечание о стиле написания

С целью повышения читабельности, я специально выбрал полуформальный стиль написания, включая ссылки только там, где это абсолютно необходимо, и избегая моего обычного формального стиля написания научных статей. Этот стиль будет использоваться и в других частях данной статьи. Некоторым академикам это может показаться немного нервирующим, но обратите внимание, что целью не является создание обзорной статьи.

Ссылки

  1. Маккарти, Джон и др. «Предложение для летнего исследовательского проекта Дартмут по искусственному интеллекту, 31 августа 1955 г.» AI magazine 27.4 (2006): 12–12.
  2. Грейс Соломонов, «Встреча умов, которая запустила ИИ», IEEE Spectrum, 6 мая 2023 года.
  3. Эдвин Д. Райли, «Рубежи в области информатики и информационных технологий», 2003 год, Greenwood Publishing Group. с. 156-157.
  4. Румельхарт, Дэвид Е., Джеффри Е. Хинтон и Рональд Дж. Уильямс. «Обучение представлениям при обратном распространении ошибок». nature 323.6088 (1986): 533–536.
  5. Блог SRI International, «75 лет инноваций: робот Шейки», Ссылка: https://www.sri.com/press/story/75-years-of-innovation-shakey-the-robot/ от 3 апреля 2020 года.
  6. Мински, Марвин Л., и Сеймур А. Пеперт. «Перцептроны.» (1969).
  7. Канерва, Пентти. «Гиперразмерные вычисления: Введение в вычисления в распределенном представлении с помощью высокоразмерных случайных векторов.» Cognitive computation 1 (2009): 139–159.
  8. Грефф, Клаус, Сйорд Ван Стинкйсте и Юрген Шмидхубер. «Проблема связывания в искусственных нейронных сетях.» arXiv preprint arXiv:2012.05208 (2020).
  9. Клейко, Денис и др. «Обзор гиперразмерных вычислений, также известных как векторные символические архитектуры, часть I: модели и преобразования данных.» ACM Computing Surveys 55.6 (2023)
  10. Клейко, Денис и др. «Обзор гиперразмерных вычислений, также известных как векторные символические архитектуры, часть II: приложения, когнитивные модели и проблемы.» ACM Computing Surveys 55.9 (2023)
  11. Чэнь Ханнинг и др. «DARL: Распределенный реконфигурируемый ускоритель для гиперразмерного обучения с подкреплением.» Proceedings of the 41st IEEE/ACM International Conference on Computer-Aided Design. 2022 г.
  12. Ма Дуннинг и Иксун Джиао. «Гиперразмерные вычисления против нейронных сетей: сравнение архитектуры и процесса обучения.» arXiv preprint arXiv:2207.12932 (2022).
  13. Эрнандес-Кано, Алехандро и др. «Reghd: Устойчивая и эффективная регрессия в системе гиперразмерного обучения.» 2021 58-я ACM/IEEE Конференция по автоматизации проектирования (DAC). IEEE, 2021 г.
  14. Эрнандес-Кано, Алехандро и др. «Onlinehd: Устойчивое, эффективное и однопроходное онлайн-обучение с использованием гиперразмерной системы.» 2021 г. Конференция и выставка Design, Automation & Test in Europe (DATE). IEEE, 2021 г.
  15. Участники Википедии. «ImageNet». Википедия, свободная энциклопедия. Википедия, свободная энциклопедия, 6 нояб. 2023 г. Web. 26 нояб. 2023 г.
  16. Уидроу, Бернард и Майкл А. Лер. «30 лет адаптивных нейронных сетей: перцептрон, мадалин и обратное распространение.» Proceedings of the IEEE 78.9 (1990): 1415–1442.
  17. Крижевский, Алекс, Илья Суцкевер и Геоффри Е. Хинтон. «Классификация ImageNet с использованием глубоких сверточных нейронных сетей.» Advances in neural information processing systems 25 (2012).
  18. Чжан, Ю, и др. «Обзор интерпретируемости нейронных сетей.» IEEE Transactions on Emerging Topics in Computational Intelligence 5.5 (2021): 726–742.
  19. Анантасвами, Анил. «Новый подход к вычислениям переосмысливает искусственный интеллект», Quanta Magazine, апрель 2023 г.
  20. Имани, Мохсен и др. «Повторное рассмотрение гиперразмерного обучения для FPGA и низкопотребляющих архитектур.» 2021 IEEE Международная высокопроиз

    Примечания

    1. Я использовал термин “решено” здесь в очень относительном смысле. Это просто относится к довольно значительному скачку в точности классификации AlexNet по сравнению с более ранними попытками.
    2. В отношении самых больших, с которыми нейронные сети сегодня могут справиться.