Птичий взгляд на линейную алгебру почему умножение матриц такое?

С птичьего перелета на линейную алгебру почему умножение матриц вызывает такой интерес?

Почему столбцы первой матрицы должны соответствовать строкам второй? Почему не сделать так, чтобы строки обеих матриц совпадали?

Изображение, созданное с помощью midjourney

Это третья глава незаконченной книги по линейной алгебре, “Обзор линейной алгебры со стороны”. До сих пор оглавление выглядит так:

  1. Глава 1: Основы
  2. Глава 2: Мера отображения – определители
  3. Глава 3: (Текущая) Почему умножение матриц работает таким образом?

Здесь мы будем описывать операции, которые можно выполнять с двумя матрицами, но с учетом того, что они являются только представлениями линейных отображений.

I) Почему нам это нужно?

Практически любую информацию можно встроить в векторное пространство. Изображения, видео, язык, речь, биометрическая информация и все, что вы можете себе представить. И все приложения машинного обучения и искусственного интеллекта (например, недавние чат-боты, текст в изображение и т. д.) работают на основе этих векторных вложений. Поскольку линейная алгебра – это наука о работе с высокоразмерными векторными пространствами, она является неотъемлемым строительным блоком.

Сложные концепции из реального мира, такие как изображения, текст, речь и т. д., могут быть встроены в высокоразмерные векторные пространства. Чем выше размерность векторного пространства, тем более сложную информацию оно может закодировать. Изображение, созданное с помощью midjourney.

Множество техник состоит в том, чтобы брать входные векторы из одного пространства и отображать их на другие векторы из других пространств.

Но почему такое внимание к “линейным” функциям, когда большинство интересных функций являются нелинейными? Это связано с тем, что проблема сделать наши модели высокоразмерными и проблема сделать их нелинейными (достаточно общими, чтобы охватить все виды сложных отношений) оказываются ортогональными друг к другу. Множество архитектур нейронных сетей работают, используя линейные слои с простыми одномерными нелинейностями между ними. И есть теорема, которая говорит, что такая архитектура может моделировать любую функцию.

Поскольку способ, которым мы манипулируем высокоразмерными векторами, в основном является умножение матрицы, можно сказать, что оно является основой современной AI революции.