Добро пожаловать в третью и заключительную часть серии «Все взаимосвязано». Хотите знать, что такое CricGraph? Ну, это График знаний, построенный на данных игроков в крикет. Графы знаний стали важным инструментом в аналитике данных для хранения и организации сложных наборов данных. Для создания графов знаний можно использовать множество инструментов, которые мы использовали в первой и второй частях этой серии, например, вики-данные для статей из Википедии и graphGPT для новостных статей и повседневного языка. Но эти инструменты, возможно, должны обеспечить большую гибкость и персонализированные базы данных. Поэтому в этой заключительной части серии мы создадим граф знаний с нуля, используя пользовательские базы данных и алгоритмы графа. Этот навык ценен для всех, будь вы специалистом по данным, инженером-программистом или просто изучаете новые технологии.

Готовы освободиться от ограничений готовых инструментов для создания диаграмм знаний? Откройте для себя возможности создания пользовательского графа знаний с нуля с использованием пользовательских баз данных.

Если вам нужно более фундаментальное изучение графов знаний, например, что они из себя представляют или как их создать, используя данные вики для статей в Википедии и graphGPT для новостных статей или повседневного языка, вот ссылки на первую и вторую части ряд.

Процедура создания диаграммы знаний

Есть несколько шагов, чтобы сделать График знаний с нуля. Этот блог будет использовать набор данных игроков в крикет ESPN, чтобы проиллюстрировать эти шаги.

Шаг 1 — сбор набора данных:

Первым шагом в построении графа знаний с нуля является поиск соответствующего набора данных.

Эти наборы данных можно получить с помощью веб-скрапинга, краудсорсинга, доступных онлайн-наборов данных, API и т. д. Набор данных, использованный для построения этого графа знаний, был взят здесь.

Шаг 2 — Предварительная обработка набора данных:

После того, как набор данных найден, его необходимо предварительно обработать. Для этого мы используем pandas и numpy. Этот шаг включает в себя удаление ненужных столбцов, работу со значениями NAN и нормализацию данных для более быстрой обработки.

Чтобы получить представление о наборе данных, мы показали снимок ниже.

Шаг 3 — Создание онтологии с помощью Protege:

Онтология формально представляет понятия, сущности и отношения конкретной предметной области. В случае графа знаний о крикете онтология может включать в себя такие понятия, как игроки, команды, страны и т. д.

Теперь эту онтологию можно создать с помощью программного обеспечения, такого как Protege, а затем сопоставить набор данных с этой онтологией/схемой.

Изображение выше является примером того, как выглядит онтология.
Вы можете использовать такие инструменты, как Protege, для создания своих онтологий и их визуализации. Здесь Protege используется для построения онтологии набора данных крикета ESPN.

Шаг 4 — Загрузка онтологии в базу данных Graph:

После создания онтологии следующим шагом будет ее загрузка в базу данных графа; мы будем использовать ArangoDB. Меры включают:

  • извлечение важных объектов и ребер из набора данных/фрейма данных
  • Сохраните их как отдельные файлы .json на вашем устройстве (сохраните фрейм данных в ориентации «записи»).

Cricketer.to_json('Cricketer.json', ориент='записи')

Country.to_json('Country.json', ориент='записи')

  • Теперь, когда у нас есть отдельные файлы .json для сущностей и ребер, мы можем загрузить их как разные коллекции в ArangoDB.

Шаг 5 — Создание графика:

Как только данные загружены в графовую базу данных ArangoDB, мы можем визуализировать их, щелкнув параметр GRAPHS в левом сером окне. Вы можете назвать свой график и выбрать, какие отношения вы хотите видеть на графике. Затем мы можем перемещаться по созданному графу для извлечения информации.

Граф знаний, сформированный в результате выполнения описанных выше шагов, выглядит следующим образом:

Заключение

Подводя итог, вы можете создавать собственные графы знаний с помощью Protege и баз данных графов, которые помогут систематизировать и анализировать данные структурированным и осмысленным образом. Выполните шаги, упомянутые в этом блоге. Вы можете найти наборы данных из разных доменов, очистить и предварительно обработать их, создать онтологию и загрузить ее в базу данных графа, чтобы создать граф знаний, который можно использовать для различных приложений. В наш век, основанный на данных, данные более доступны, чем когда-либо прежде. С помощью графов знаний этот огромный объем данных можно понять и использовать с пользой, экономя время и жизни.

Авторы — Рева Бхарара, Арьян Ратор.