Эта статья по искусственному интеллекту представляет собой всесторонний набор данных RDF с более чем 26 миллиардами троек, охватывающих ученые данные во всех научных дисциплинах.

Эта статья по искусственному интеллекту содержит набор данных RDF с 26 млрд троек из всех научных дисциплин.

Следить за последними исследованиями становится все сложнее из-за роста научных публикаций. Например, только в 2022 году было зарегистрировано более 8 миллионов научных статей. Исследователи используют различные техники, от поисковых интерфейсов до систем рекомендаций, чтобы исследовать связанные интеллектуальные сущности, такие как авторы и учреждения. Моделирование основных академических данных в виде графа знаний RDF (KG) является одним из эффективных методов. Это облегчает стандартизацию, визуализацию и связывание с ресурсами Linked Data. В результате, академические графы знаний необходимы для преобразования атрибутивно-ориентированного академического материала в связанные и автоматизируемые структуры знаний.

Однако существующие академические графы знаний имеют одно или несколько из следующих ограничений:

  1. Они редко включают полный список работ по каждой теме.
  2. Они часто охватывают только конкретные области, такие как компьютерные науки.
  3. Они обновляются редко, что делает множество исследований и бизнес-моделей устаревшими.
  4. Они часто имеют ограничения использования.
  5. Они не соответствуют стандартам W3C, таким как RDF, даже если они соответствуют этим критериям.

Эти проблемы препятствуют широкому использованию научных графов знаний, например, в системах глубокого поиска и рекомендаций или для количественной оценки научного влияния. Например, граф знаний Microsoft Academic (MAKG), его потомок в RDF, не может быть обновлен, поскольку Microsoft Academic Graph был прекращен в 2021 году.

Инновационный набор данных OpenAlex стремится закрыть этот разрыв. Однако данные OpenAlex не соответствуют принципам Linked Data и не доступны в RDF. В результате OpenAlex нельзя считать графом знаний, что затрудняет семантические запросы, интеграцию приложений и связь с новыми ресурсами. С первого взгляда может показаться, что это простой способ включить академическую информацию о научных статьях в Wikidata, и тем самым поддержать движение WikiCite. Помимо конкретной схемы, объем данных уже настолько велик, что тройное хранилище Blazegraph сервиса Wikidata Query подходит к пределу своей емкости, блокируя любую интеграцию.

В этой работе исследователи из Карлсруэского института технологий и Metaphacts GmbH представляют SemOpenAlex – очень крупный RDF-набор данных академической среды со своими публикациями, авторами, источниками, учреждениями, идеями и издателями. SemOpenAlex содержит около 249 миллионов статей из всех академических областей и более 26 миллиардов семантических троек. Он построен на основе их всесторонней онтологии и ссылается на дополнительные источники LOD, включая Wikidata, Wikipedia и MAKG. Они предоставляют общедоступный SPARQL-интерфейс для быстрого и эффективного использования интеграции SemOpenAlex с облаком LOD. Кроме того, они предлагают сложный семантический поисковый интерфейс, который позволяет пользователям в режиме реального времени получать информацию о сущностях, содержащихся в базе данных, и их семантических отношениях (например, отображение соавторов или наиболее важных концепций автора, которые выводятся с помощью семантического рассуждения, а не содержатся непосредственно в базе данных).

Они также предлагают полные снимки данных RDF для облегчения анализа больших данных. Они создали конвейер с использованием AWS для регулярного обновления SemOpenAlex без каких-либо сбоев в обслуживании из-за масштаба SemOpenAlex и растущего числа научных статей, интегрируемых в SemOpenAlex. Кроме того, они обучили передовые вложения сущностей графа знаний для использования с SemOpenAlex в прикладных задачах. Они гарантируют совместимость системы в соответствии с принципами FAIR, используя существующие онтологии, когда это возможно, и открывают двери для интеграции SemOpenAlex в Linked Open Data Cloud. Предлагая ежемесячные обновления, позволяющие непрерывно отслеживать научное влияние автора, отслеживать награжденные исследования и другие случаи использования их данных, они заполняют пробел, оставленный после прекращения MAKG. Они предоставляют возможность исследовательским группам из разных дисциплин доступ к предоставляемым данным и их использованию в их исследованиях, делая SemOpenAlex бесплатным и неограниченным. В настоящее время существуют первоначальные приложения SemOpenAlex и производственные системы.

В целом, они вносят следующий вклад:

1. Они используют популярную терминологию для разработки онтологии для SemOpenAlex.

2. По адресу https://semopenalex.org они создают граф знаний SemOpenAlex в RDF, который охватывает 26 миллиардов троек, и предоставляют все данные, код и сервисы SemOpenAlex общественности.

3. Они позволяют SemOpenAlex участвовать в облаке Linked Open Data, сделав все его URI разрешаемыми. Используя SPARQL-конечную точку, они индексируют все данные в тройном хранилище и делают их доступными для общественности.

4. Они предлагают семантический интерфейс поиска с распознаванием сущностей, так что пользователи могут получать доступ, искать и мгновенно просматривать граф знаний и его основные статистические данные.

5. С использованием высокопроизводительных вычислений они предлагают передовые вложения графа знаний для сущностей, представленных в SemOpenAlex.