Загрузка данных в базу Титан

У меня есть набор данных журнала в виде плоских файлов, из которых я хочу сформировать график (на основе информации в журнале) и загрузить его в базу данных Titan. Эти данные занимают несколько гигабайт. Я изучаю варианты массовой загрузки Faunus и BatchGraph (о которых я читал в https://github.com/thinkaurelius/titan/wiki/Bulk-Loading). Данные журнала, разделенные табуляцией, которые у меня есть, нуждаются в небольшой обработке каждой строки файла, чтобы сформировать узлы и ребра графа, которые я имею в виду. Подойдет ли Faunus/BatchGraph для этого варианта использования? Если да, то в каком формате должен быть входной файл, чтобы эти инструменты работали? Если нет, то лучше ли использовать BluePrints API? Любые ресурсы, которыми вы можете поделиться по вашему предложению, очень ценятся, так как я новичок. Спасибо!


person DaTaBomB    schedule 11.07.2014    source источник


Ответы (1)


Чтобы ответить на ваш вопрос простым способом, я думаю, вы захотите использовать Faunus для загрузки ваших данных. Я бы рекомендовал сначала очистить и преобразовать ваши данные с помощью внешних инструментов, если это возможно. Формат с разделителями табуляцией — это хороший формат, но то, как вы подготовите этот файл, может повлиять на производительность загрузки (например, иногда простая сортировка данных правильным образом может обеспечить значительный прирост скорости).

Более полный ответ кроется в этих двух ресурсах. Они должны помочь вам определиться с подходом:

http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/ http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/

Я бы дал дополнительный совет: если вы действительно новичок, я рекомендую вам найти фрагмент ваших данных, который дает где-то между 100 000 и 1 000 000 ребер. Сосредоточьтесь на простой загрузке этого с помощью BatchGraph или просто Blueprints API, как описано в части I этих сообщений в блоге. Немного привыкните к Gremlin, запросив данные в этом маленьком кейсе. Используйте это время для разработки методов проверки того, что вы загрузили. Как только вы почувствуете себя комфортно со всем этим, работайте над масштабированием до полного размера.

person stephen mallette    schedule 11.07.2014
comment
Большое спасибо! Это было очень полезно. Я хотел бы знать, есть ли какой-либо ресурс по настройке среды Java (например, eclipse) для разработки в титане? Могу задать в отдельной теме, если не по теме. - person DaTaBomB; 12.07.2014