УЛТРА модели основнования для рассуждений на графах знаний

Ультрамодные основания для рассуждений на графах знаний

Что нового в Graph ML?

Одна модель, чтобы править ими всеми

Обучение одной общей модели для решения произвольных наборов данных всегда является мечтой для исследователей в области машинного обучения, особенно в эпоху моделей основания. В то время как такие мечты воплощены восприятии, таком как изображения или естественные языки, остается открытой проблемой, можно ли их воспроизвести в области рассуждений (например, графов).

Изображение от авторов, отредактированное из вывода DALL-E 3.

В этой статье мы доказываем, что такая универсальная модель рассуждений существует, по крайней мере, для графов знаний (KG). Мы создаем ULTRA, одну заранее обученную модель рассуждений, которая обобщается на новые KG с произвольными сущностями и отношениями, и служит в качестве стандартного решения для любой задачи рассуждения в KG.

Этот пост основан на нашей недавней статье (preprint), и написан совместно с Xinyu Yuan (Mila), Zhaocheng Zhu (Mila) и Bruno Ribeiro (Purdue / Stanford). Следите за Майклом, Xinyu, Zhaocheng и Bruno в Твиттере для получения больше материалов по Graph ML.

Содержание

  1. Почему обучение представлений KG застряло в 2018 году
  2. Теория: Что делает модель индуктивной и переносимой?
  3. Теория: Эквивариантность в мультиреляционных графах
  4. ULTRA: Основная модель для рассуждений в KG
  5. Эксперименты: Лучшие результаты даже с нулевым выводом, Поведение масштабирования
  6. Код, данные, контрольные точки

Почему обучение представлений KG застряло в 2018 году

Парадигма предварительного обучения и донастройки с нами с 2018 года, когда ELMo и ULMFit показали первые обнадеживающие результаты, которые были позднее закреплены с помощью BERT и GPT.

В эпоху больших языковых моделей (LLM) и более общих основных моделей (FMs), у нас часто есть одна модель (например, GPT-4 или Llama-2), предварительно обученная на огромном количестве данных и способная выполнять разнообразные задачи языка в режиме нулевого вывода (или, по крайней мере, быть донастроенной на конкретном наборе данных). В наши дни, мультимодальные FMs даже поддерживают язык, зрение, звук и другие модальности в одной модели.

В Graph ML всё немного иначе. Особенно, что происходит с обучением представлений на графовых знаниях в конце 2023 года? Основные задачи здесь связаны с реберным уровнем:

  • Предсказание сущностей (или заполнение графа знаний) (h,r,?): на основе головной сущности и отношения, расположить все узлы в графе, которые могут быть потенциально истинными хвостами.
  • Предсказание отношений (h,?,t): на основе двух сущностей предсказать тип отношения между ними.

Оказывается, до сих пор мы находимся где-то в доквантовом периоде. Основная проблема состоит в следующем:

У каждого графа знаний есть свой набор сущностей и отношений, нет единой предварительно обученной модели, которая бы переносилась на любой граф.

Например, если мы посмотрим на Freebase (граф застывших знаний, используемый в Google Knowledge Graph) и Wikidata (самый большой открытый граф знаний), они имеют совершенно разные наборы сущностей (86 млн. против 100 млн.) и отношений (1500 против 6000). Можно ли надеяться, что текущим методам обучения представлений на графах знаний подходит обучение на одном графе и перенос на другой?

Разные словари Freebase и Wikidata. Изображение авторами.

❌ Классические трансдуктивные методы, такие как TransE, ComplEx, RotatE и сотни других методов, основанных на эмбеддингах, обучаются на фиксированном наборе сущностей и типов отношений из обучающего графа и даже не могут поддерживать новые узлы, добавленные в тот же граф. Полуповерхностные методы на основе эмбеддингов не переносятся (по сути, мы считаем, что разработка таких методов больше не имеет смысла, кроме как для некоторых учебных проектов).

🟡 Вводные методы сущностей, такие как NodePiece и Neural Bellman-Ford Nets, не обучают эмбеддинги сущностей. Вместо этого они параметризуют учебные (видимые) и новые экземпляры (невидимые) узлы как функцию фиксированных отношений. Поскольку они обучают только эмбеддинги отношений, это позволяет им переноситься на графы с новыми узлами, однако перенос на новые графы с разными отношениями (например, с Freebase на Wikidata) до сих пор невозможен.

Относительные представления сущностей обеспечивают вводные графовые нейронные сети. Изображение авторами.

Что делать, если у вас есть и новые сущности, и новые отношения во время вывода (совершенно новый граф)? Если вы не обучаете эмбеддинги сущностей или отношений, теоретически ли возможен перенос? Рассмотрим теорию.

Теория: что делает модель индуктивной и переносимой?

Давайте определим параметры более формально:

  • Графы знаний являются ориентированными мультиреляционными графами с произвольными наборами узлов и типов отношений.
  • Графы поступают без признаков, то есть мы не предполагаем наличие текстовых описаний (или предварительно вычисленных векторных представлений) сущностей и отношений.
  • Дан запрос (head, relation, ?), и мы хотим упорядочить все узлы в базовом графе (граф вывода) и максимизировать вероятность возврата истинного хвоста.
  • Трансдуктивная настройка: множество узлов и сущностей одинаково как во время обучения, так и во время вывода.
  • Индуктивная (сущность) настройка: набор отношений должен быть зафиксирован во время обучения, но узлы могут различаться во время обучения и вывода.
  • Индуктивная (сущность и отношение) настройка: допускаются как новые невидимые сущности, так и отношения при выводе.

Что нейронные сети могут научиться для способности обобщаться на новые данные? Основной источник — книга «Геометрическое глубинное обучение» (Geometric Deep Learning) Бронштейн, Бруна, Коэн и Величкович — утверждает, что это вопрос симметрий и инвариантностей.

Какие инварианты можно выучить в фундаментальных моделях? Модели LLM обучаются на фиксированном словаре токенов (под-слова, байты или даже случайно инициализированные векторы, как в модели Lexinvariant LLMs), модели зрения учатся функциям для проекции изображений, модели звука учатся проектировать звуковые области.

Какие инварианты можно выучить для мультиреляционных графов?

Сначала мы познакомимся с инвариантностью (эквивариантностью) в стандартных однородных графах.

Стандартные (однородные) графовые модели с перестановкой: Большой шаг в графовом машинном обучении произошел, когда ранние работы по графовым нейронным сетям (Scarselli et al. 2008, Xu et al. 2018, Morris et al. 2018) показали, что индуктивные задачи на графах получают значительную выгоду от предположения об установлении произвольных идентификаторов вершин, что предсказания графовой модели не должны изменяться, если мы присваиваем вершинам другие идентификаторы. Это известно как перестановочная эквивариантность нейронной сети относительно идентификаторов вершин. Это осознание привело к большому волнению и множеству новых методов представления графов, поскольку пока нейронная сеть эквивариантна к перестановкам идентификаторов вершин, мы можем назвать ее графовой моделью.

Однородные графы. GNNs эквивариантны к перестановке вершин: вектор узла Майкла Джексона будет иметь одно и то же значение даже после переименования идентификаторов вершин. Изображение от авторов.

Эквивариантность по отношению к идентификаторам вершин позволяет GNN индуктивно (без обучения) передавать изученные паттерны от обучающего графа к другому (разному) тестовому графу. Это происходит из-за эквивариантности, поскольку нейронная сеть не может использовать идентификаторы вершин для создания вложений, она должна использовать структуру графа. Это создает то, что мы знаем как структурные представления в графах (см. Srinivasan & Ribeiro (ICLR 2020)).

Эквивариантность в мультиреляционных графах

Теперь ребра в графах могут иметь различные типы отношений — существует ли для таких графов какая-либо теория GNN?

1️⃣ В нашей предыдущей работе, Weisfeiler and Leman Go Relational (с Пабло Барсело, Кристофером Моррисом и Мигелем Ромеро Ортом, LoG 2022), мы получили реляционные вложения WL — иерархию основанной на WL способностей для мультиреляционных графов с акцентом на задачи на уровне узла. Великая последующая работа Хуанга и др. (NeurIPS 2023) расширила теорию на предсказание связей, формализовала условную передачу сообщений и логические возможности с использованием Relational WL. ✍️ Давайте вспомним условную передачу сообщений — нам понадобится это позже — это доказанно улучшает производительность предсказания связей.

Предложенное добавление глобального вектора чтения, вызванного направлением входящей/исходящей связи, напоминает недавнюю работу Эмануэля Росси и др. по изучению направленности в однородных MPNNs (прочтите статью на VoAGI для получения дополнительных деталей). Однако эти работы не предусматривают случай, когда даже отношения во время тестирования неизвестны.

2️⃣ Двойные перестановочные эквивариантные (мультиреляционные) графовые модели: Недавно Гао и др. (2023) предложили концепцию двойной эквивариантности для мультиреляционных графов. Двойная эквивариантность заставляет нейронную сеть быть эквивариантной к совместным перестановкам как идентификаторов вершин, так и идентификаторов отношений. Это обеспечивает обучение нейронной сети структурным шаблонам между узлами и отношениями, что позволяет ей индуктивно (без обучения) передавать изученные шаблоны в другой граф с новыми узлами и новыми отношениями.

Double эквивариантность в многоотношенных графах. Перестановка как идентификаторов узлов, так и идентификаторов отношений не изменяет отношения. Следовательно, состояния выходных узлов должны быть одинаковыми (но переставленными). Изображение авторов.

➡️ В нашей работе мы находим инвариантность взаимодействий отношений, то есть, даже если идентификаторы отношений различаются, их фундаментальные взаимодействия остаются одинаковыми, и эти фундаментальные взаимодействия могут быть захвачены графом отношений. В графе отношений каждый узел представляет собой тип отношения из исходного графа. Два узла в этом графе будут соединены, если ребра с этими типами отношений в исходном графе инцидентны (то есть, они имеют общий начальный или конечный узел). В зависимости от инцидентности мы различаем 4 типа ребер в графе отношений:

  • Head-to-head (h2h) — два отношения могут начинаться с одной и той же начальной сущности;
  • Tail-to-head (t2h) — хвостовая сущность одного отношения может быть начальной сущностью другого отношения;
  • Head-to-tail (h2t) — начальная сущность одного отношения может быть конечной сущностью другого отношения;
  • Tail-to-tail (t2t) — два отношения могут иметь одинаковую конечную сущность.
Различные схемы инцидентности в исходном графе порождают различные взаимодействия в графе отношений. Правая сторона: пример графа отношений (обратные ребра опущены для ясности). Изображение авторов

Несколько интересных свойств графа отношений:

  • Он может быть построен из любого многоотношенного графа (с помощью простых разреженных умножений матриц)
  • 4 фундаментальных взаимодействия никогда не изменяются, потому что они просто кодируют базовую топологию — в ориентированных графах всегда будут начальные и конечные узлы, и у нас будут эти схемы инцидентности для отношений

На самом деле, изучение представлений с использованием графа отношений может быть перенесено на любой многоотношенный граф! Это обучаемая инвариантность.

Фактически, можно показать (мы уже работаем над формальными доказательствами, которые будут доступны в будущей работе 😉), что представление отношений через их взаимодействия в графе отношений является моделью с двойной эквивариантностью! Это означает, что изученные реляционные представления независимы от идентификаторов, а основываются на совместных взаимодействиях между отношениями, узлами и узлами & отношениями.

ULTRA: модель-основа для рассуждений в графах знаний (KG Reasoning)

Со всеми теоретическими основами в нашем распоряжении мы готовы представить ULTRA.

ULTRA — это метод для унифицированного, обучаемого и переносимого представления графов. ULTRA использует инвариантность (и эквивариантность) графа отношений с его фундаментальными взаимодействиями и применяет условное передачу сообщений, чтобы получить относительные реляционные представления. Возможно, самый интересный факт состоит в том, что

одна предварительно обученная модель ULTRA может выполнять вывод 0-го шага на любом возможном многоотношенном графе и дополнять обучение на любом интересующем графе.

Другими словами, ULTRA является своего рода основной моделью, которая может выполнять вывод по любому входному графу (уже с хорошей производительностью) и дополнять обучение на любом целевом графе.

Важной частью ULTRA являются относительные представления отношений, созданные на основе графа отношений. При заданном запросе (Майкл Джексон, жанр, ?) мы сначала инициализируем узел жанр в графе отношений вектором, состоящим из единиц (все остальные узлы инициализируются нулями). Запуская Графовую Нейронную Сеть (GNN), результирующие вложения узлов графа отношений зависят от узла жанр — это означает, что каждое начальное инициализированное отношение будет иметь собственную матрицу реляционных признаков, и это очень полезно как с теоретической, так и практической стороны!

ULTRA использует относительное представление отношений (метка-приманка над графом отношений), так что каждое отношение (например, «жанр») имеет свою собственную уникальную матрицу отношений. Изображение авторов.

На практике, при заданном входном KG и запросе (h, r, ?), ULTRA выполняет следующие действия:

  1. Построение графа отношений;
  2. Получение характеристик отношений из условного передачи сообщений GNN по графу отношений (при условии инициализации запроса отношения r);
  3. Использование полученных относительных представлений для GNN предсказания индуктивной связи при условии инициализации узла головы h;

Шаги 2 и 3 реализуются с помощью незначительно разных модификаций Neural Bellman-Ford net (NBFNet). ULTRA обучает только эмбеддинги 4 основных взаимодействий (h2t, t2t, t2h, h2h) и веса GNN – в целом довольно небольшие. Основная модель, с которой мы экспериментировали, содержит только 177 тыс. параметров.

Три основных шага, предпринятые ULTRA: (1) построение графа отношений; (2) выполнение условной передачи сообщений по графу отношений для получения относительного представления отношений; (3) использование этих представлений для GNN предсказания индуктивной связи на уровне сущности. Изображение авторов.

Эксперименты: Лучше даже в режиме нулевого вывода и Тонкой настройки

Мы предварительно обучили ULTRA на 3 стандартных KG на основе Freebase, Wikidata и Wordnet, и выполнили link prediction в режиме 0-shot на 50+ других KG различных размеров от 1k – 120k узлов и 2k ребер – 1,1M ребер.

В среднем по наборам данных с известными SOTA, одна предварительно обученная модель ULTRA лучше в режиме нулевого вывода чем существующие модели SOTA, обученные специально на каждом графе 🚀 Тонкая настройка улучшает производительность еще на 10%. Особенно удивительно, что одна обученная модель ULTRA может масштабироваться для графов такого разного размера (разница в 100 раз в размере узлов и в 500 раз в размере ребер), в то время как GNN известны своим проблемам с обобщением размеров (см. выдающиеся работы Yehudai et al, ICML 2021 и Zhou et al, NeurIPS 2022).

Одна предварительно обученная модель ULTRA лучше даже в режиме нулевого вывода, чем модели SOTA, обученные end-to-end на конкретных графах (смотрите столбец Average). Тонкая настройка еще дальше улучшает производительность. Изображение авторов.

🙃 На самом деле, с 57 протестированными графами, у нас закончились KG для тестирования ULTRA. Так что, если у вас есть новый свежий бенчмарк в запаснике – дайте нам знать!

Поведение масштабирования

Мы можем еще больше улучшить нулевую производительность при нулевом обучении, добавив больше графов в смесь предварительного обучения, хотя мы наблюдаем определенное насыщение производительности после обучения на 4+ графах.

Церковь Scaling Laws предсказывает еще лучшую производительность с более крупными моделями, обученными на более качественных данных, поэтому это определенно находится в нашем повестке дня.

Увеличение производительности при нулевом обучении с более разнообразными графами в смеси предварительного обучения. Изображение от авторов.

Заключение: Код, Данные, Точки контроля

Таким образом, основные модели для логического вывода на графах наконец-то появились, мы преодолели этот порог 2018 года! Единственная предварительно обученная модель ULTRA может выполнять предсказание связей на любом графе (мультиреляционный граф) из любой области. Для начала вам действительно нужен граф с более чем 1 типом ребра.

📈 Практически ULTRA уже демонстрирует очень многообещающую производительность на различных бенчмарках KG уже в режиме нулевого обучения, но вы можете еще больше улучшить производительность с помощью короткой донастройки.

Мы предоставляем весь код, обучающие данные и предварительно обученные модели на GitHub, чтобы вы могли сразу начать запускать ULTRA на своих данных!

📜 preprint: arxiv

🛠️ Код, данные: репозиторий на GitHub

🍪 Точки контроля: 2 точки контроля (по 2 МБ каждая) в репозитории Github

🌎 Официальный сайт проекта: здесь

В заключение, логический вывод на графах представляет лишь часть из множества интересных проблем в области рассуждений, и большинство из них до сих пор не имеют общего решения. Мы верим, что успех логического вывода на графах приведет к новым прорывам в других областях рассуждений (например, недавно мы обнаружили, что LLM-модели могут фактически учиться и использовать текстовые правила). Давайте оставаться оптимистами относительно будущего рассуждений!