Познакомьтесь с PyGraft открытым инструментом на основе Python для искусственного интеллекта, который генерирует высоко настраиваемые, доменно-независимые схемы и графы знаний.

PyGraft - открытый инструмент на Python для генерации высоко настраиваемых схем и графов знаний.

Все более популярным методом представления данных в графовой структуре является использование графов знаний (KG). KG – это группа троек (s, p, o), где s (субъект) и o (объект) являются двумя узлами графа, а p – предикат, который описывает тип связи между ними. KG часто поддерживается схемой (такой как онтология), которая описывает основные идеи и отношения в области исследования и ограничения, которые регулируют взаимодействие этих идей и отношений. Многие из деятельностей, для которых используются KG, имеют небольшое количество KG, которые стали принятыми стандартами для измерения производительности модели.

Однако существуют определенные проблемы с использованием только этих конкретных основных KG для оценки того, могут ли новые предложенные модели быть обобщены. Например, было показано, что основные наборы данных имеют общие статистические свойства, особенно гомофилию, для категоризации узлов. В результате наборы данных с сопоставимой статистикой используются для оценки новых моделей. В результате их вклад в улучшение производительности иногда несогласован за пределами общих эталонных наборов данных.

Точно так же было показано, что несколько существующих наборов данных для предсказания связей страдают отклонениями данных и содержат многочисленные паттерны вывода, которые могут быть включены предиктивными моделями, приводя к слишком оптимистической оценке производительности. В результате требуются более разнообразные наборы данных. Для тестирования новых моделей в различных контекстах данных крайне важно дать исследователям возможность создавать фиктивные, но реалистичные наборы данных разных размеров и свойств. В некоторых секторах применения отсутствие общедоступных KG является более серьезной проблемой, чем зависимость от небольшого количества KG.

Ведение исследований в областях таких, как образование, правоохранительные органы или медицина, является чрезвычайно сложным. Проблемы конфиденциальности данных могут сделать сбор и обмен реальными знаниями невозможными. В этих областях практически отсутствуют KG, связанные с конкретной областью. С другой стороны, инженеры, практикующие и исследователи обычно имеют определенные представления о характеристиках своей проблемы интереса. В этой ситуации было бы полезно создать синтетический KG, который имитирует характеристики реального KG. Хотя эти два компонента часто рассматривались независимо, описанные выше проблемы побудили к нескольким попыткам создания синтетических генераторов схем и KG.

Domain-neutral KG могут быть созданы с помощью генераторов, основанных на стохастическом подходе. Несмотря на то, насколько эффективными являются эти подходы для быстрого создания огромных графов, основная идея производства данных должна позволять учитывать внутреннюю структуру. Созданные KG могут не точно имитировать характеристики реальных KG в выбранной области применения. С другой стороны, генераторы, ориентированные на схему, могут создавать KG, которые отражают реальные данные. Однако насколько им известно, большинство усилий сосредоточены на создании синтетических KG с использованием уже существующей схемы. Более трудной задачей является синтез схемы и поддерживающего ее KG, который рассматривался, но пока не получил широкого успеха.

Они надеются решить эту проблему в своем исследовании. Исследователи из Университета Лоррен и Университета Кот-д’Азюр специально представляют PyGraft, инструмент на языке Python для создания высококастомизируемых, доменно-нейтральных схем и KG. Вот вклады, сделанные их работой: На сколько им известно, PyGraft – это единственный генератор, специально разработанный для создания схем и KG в новом конвейере с высокой настраиваемостью в зависимости от широкого спектра пользовательских критериев. Особенно созданные ресурсы являются доменно-нейтральными, что делает их подходящими для бенчмаркинга независимо от области применения. Полученные схемы и KG создаются с использованием расширенного набора элементов RDFS и OWL, а DL-резонатор используется для обеспечения их логической согласованности. Это позволяет создавать детальные описания ресурсов и тесно соблюдать общепринятые стандарты Семантической паутины. Они публично выпускают свой код с документацией и сопровождающими примерами для удобства использования.