Познакомьтесь с показателем реляционного глубинного обучения (RelBench) сборником реалистичных, масштабных и разнообразных наборов данных для машинного обучения на реляционных базах данных.

Объект изучения - индикатор RelBench сборник разнообразных, масштабных и реалистичных наборов данных для глубокого обучения на реляционных базах данных.

В стремительно развивающихся областях искусственного интеллекта (ИИ) и машинного обучения (МО) поиск эффективных, автоматизированных и адаптируемых подходов стал значительно важным. Постоянное усовершенствование подходов ИИ и МО переформатирует возможности машин и взаимодействия людей с ними. 

Область ИИ, включая глубокое обучение, полностью зависит от данных, а важные данные хранятся в хранилищах данных, где они рассеяны по нескольким таблицам, связанным через первично-внешние ключевые отношения. Разработка моделей МО с использованием таких данных представляет ряд трудностей и требует много времени и работы, поскольку существующие подходы МО не подходят для прямого обучения на данных, охватывающих несколько реляционных таблиц. Существующие методы требуют преобразования данных в одну таблицу с помощью процедуры, называемой инженерией признаков.

Для преодоления этой проблемы команда исследователей из Стэнфордского университета, Kumo AI, Йельского университета, Макса Планка и Университета Иллинойса в Урбана-Шампейне недавно предложила Реляционное глубокое обучение. Этот метод глубинного обучения от начала до конца может обрабатывать данные, разбросанные по нескольким таблицам. Этот метод был разработан для переформулирования реляционных таблиц как гетерогенных графов. Каждая строка таблицы представляет узел в этой модели графа, а первично-внешние ключевые отношения определяют ребра. 

Несколько таблиц автоматически обходятся и учатся с использованием нейронных сетей с передачей сообщений (MPNN), которые извлекают представления, использующие все входные данные, и выполняются без необходимости ручной инженерии признаков. Команда также представила RELBENCH, комплексную среду, которая включает наборы данных для измерения и реализацию Реляционного глубокого обучения. Наборы данных охватывают широкий спектр тематик, от обзоров книг в каталоге товаров Amazon до бесед на сайтах, таких как Stack Exchange. 

RELBENCH включает три основных модуля, которые представлены ниже.

  1. Модуль данных: Модуль данных RELBENCH обеспечивает эффективное использование реляционных наборов данных. В него включены три основные функции: разделение временных данных, спецификация задачи и загрузка данных. 
  1. Модуль модели: Этот модуль создает предсказательные модели для графовых нейронных сетей (GNN), преобразуя необработанные данные в графическое представление. С использованием мощной библиотеки глубокого обучения PyTorch Geometric, RELBENCH оценивает несколько широко используемых архитектур GNN. Этот модуль позволяет гибкость в архитектуре модели и является неотъемлемым компонентом в мосте между разработкой предсказательных моделей и исходными реляционными данными.
  1. Модуль оценки: Этот модуль создает единые процедуры для оценки производительности модели. Он предоставляет количественный показатель эффективности модели, оценивая файл предсказаний методическим образом. Этот модуль работает с различными популярными инструментами глубокого обучения, поскольку он создан независимо от фреймворков глубокого обучения. Эта адаптируемость позволяет исследователям и практикам использовать выбранные ими инструменты без потери процедуры оценки.