Добро пожаловать в третью и заключительную часть серии «Все взаимосвязано». Хотите знать, что такое CricGraph? Ну, это График знаний, построенный на данных игроков в крикет. Графы знаний стали важным инструментом в аналитике данных для хранения и организации сложных наборов данных. Для создания графов знаний можно использовать множество инструментов, которые мы использовали в первой и второй частях этой серии, например, вики-данные для статей из Википедии и graphGPT для новостных статей и повседневного языка. Но эти инструменты, возможно, должны обеспечить большую гибкость и персонализированные базы данных. Поэтому в этой заключительной части серии мы создадим граф знаний с нуля, используя пользовательские базы данных и алгоритмы графа. Этот навык ценен для всех, будь вы специалистом по данным, инженером-программистом или просто изучаете новые технологии.
Готовы освободиться от ограничений готовых инструментов для создания диаграмм знаний? Откройте для себя возможности создания пользовательского графа знаний с нуля с использованием пользовательских баз данных.
Если вам нужно более фундаментальное изучение графов знаний, например, что они из себя представляют или как их создать, используя данные вики для статей в Википедии и graphGPT для новостных статей или повседневного языка, вот ссылки на первую и вторую части ряд.
Процедура создания диаграммы знаний
Есть несколько шагов, чтобы сделать График знаний с нуля. Этот блог будет использовать набор данных игроков в крикет ESPN, чтобы проиллюстрировать эти шаги.
Шаг 1 — сбор набора данных:
Первым шагом в построении графа знаний с нуля является поиск соответствующего набора данных.
Эти наборы данных можно получить с помощью веб-скрапинга, краудсорсинга, доступных онлайн-наборов данных, API и т. д. Набор данных, использованный для построения этого графа знаний, был взят здесь.
Шаг 2 — Предварительная обработка набора данных:
После того, как набор данных найден, его необходимо предварительно обработать. Для этого мы используем pandas и numpy. Этот шаг включает в себя удаление ненужных столбцов, работу со значениями NAN и нормализацию данных для более быстрой обработки.
Чтобы получить представление о наборе данных, мы показали снимок ниже.
Шаг 3 — Создание онтологии с помощью Protege:
Онтология формально представляет понятия, сущности и отношения конкретной предметной области. В случае графа знаний о крикете онтология может включать в себя такие понятия, как игроки, команды, страны и т. д.
Теперь эту онтологию можно создать с помощью программного обеспечения, такого как Protege, а затем сопоставить набор данных с этой онтологией/схемой.
Изображение выше является примером того, как выглядит онтология.
Вы можете использовать такие инструменты, как Protege, для создания своих онтологий и их визуализации. Здесь Protege используется для построения онтологии набора данных крикета ESPN.
Шаг 4 — Загрузка онтологии в базу данных Graph:
После создания онтологии следующим шагом будет ее загрузка в базу данных графа; мы будем использовать ArangoDB. Меры включают:
- извлечение важных объектов и ребер из набора данных/фрейма данных
- Сохраните их как отдельные файлы .json на вашем устройстве (сохраните фрейм данных в ориентации «записи»).
Cricketer.to_json('Cricketer.json', ориент='записи')
Country.to_json('Country.json', ориент='записи')
- Теперь, когда у нас есть отдельные файлы .json для сущностей и ребер, мы можем загрузить их как разные коллекции в ArangoDB.
Шаг 5 — Создание графика:
Как только данные загружены в графовую базу данных ArangoDB, мы можем визуализировать их, щелкнув параметр GRAPHS в левом сером окне. Вы можете назвать свой график и выбрать, какие отношения вы хотите видеть на графике. Затем мы можем перемещаться по созданному графу для извлечения информации.
Граф знаний, сформированный в результате выполнения описанных выше шагов, выглядит следующим образом:
Заключение
Подводя итог, вы можете создавать собственные графы знаний с помощью Protege и баз данных графов, которые помогут систематизировать и анализировать данные структурированным и осмысленным образом. Выполните шаги, упомянутые в этом блоге. Вы можете найти наборы данных из разных доменов, очистить и предварительно обработать их, создать онтологию и загрузить ее в базу данных графа, чтобы создать граф знаний, который можно использовать для различных приложений. В наш век, основанный на данных, данные более доступны, чем когда-либо прежде. С помощью графов знаний этот огромный объем данных можно понять и использовать с пользой, экономя время и жизни.
Авторы — Рева Бхарара, Арьян Ратор.