У меня есть набор данных журнала в виде плоских файлов, из которых я хочу сформировать график (на основе информации в журнале) и загрузить его в базу данных Titan. Эти данные занимают несколько гигабайт. Я изучаю варианты массовой загрузки Faunus и BatchGraph (о которых я читал в https://github.com/thinkaurelius/titan/wiki/Bulk-Loading). Данные журнала, разделенные табуляцией, которые у меня есть, нуждаются в небольшой обработке каждой строки файла, чтобы сформировать узлы и ребра графа, которые я имею в виду. Подойдет ли Faunus/BatchGraph для этого варианта использования? Если да, то в каком формате должен быть входной файл, чтобы эти инструменты работали? Если нет, то лучше ли использовать BluePrints API? Любые ресурсы, которыми вы можете поделиться по вашему предложению, очень ценятся, так как я новичок. Спасибо!
Загрузка данных в базу Титан
Ответы (1)
Чтобы ответить на ваш вопрос простым способом, я думаю, вы захотите использовать Faunus для загрузки ваших данных. Я бы рекомендовал сначала очистить и преобразовать ваши данные с помощью внешних инструментов, если это возможно. Формат с разделителями табуляцией — это хороший формат, но то, как вы подготовите этот файл, может повлиять на производительность загрузки (например, иногда простая сортировка данных правильным образом может обеспечить значительный прирост скорости).
Более полный ответ кроется в этих двух ресурсах. Они должны помочь вам определиться с подходом:
http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/ http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/
Я бы дал дополнительный совет: если вы действительно новичок, я рекомендую вам найти фрагмент ваших данных, который дает где-то между 100 000 и 1 000 000 ребер. Сосредоточьтесь на простой загрузке этого с помощью BatchGraph
или просто Blueprints API, как описано в части I этих сообщений в блоге. Немного привыкните к Gremlin, запросив данные в этом маленьком кейсе. Используйте это время для разработки методов проверки того, что вы загрузили. Как только вы почувствуете себя комфортно со всем этим, работайте над масштабированием до полного размера.