Я хотел бы упомянуть о моем маленьком проекте, и если я на правильном пути. Мне нужно работать со всеми статьями из Medline (http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html). Для тех, кто не знаком с базой данных Medline, добавлю немного информации:
- Есть ок. 20 000 000 записей (83,4 ГБ дискового пространства), каждая из которых имеет множество полей и подполей.
- Вы можете скачать эту БД (с лицензией) в формате XML.
- Эти 20 миллионов записей распределены в 653 файлах.
- Каждый файл имеет один MedlineCitationSet, и это набор записей (MedlineCitation's).
Я хочу обработать эти записи и получить такую информацию, как заголовок, реферат... Затем я подумал проиндексировать эти файлы (или записи) с помощью python и mongodb. И у меня есть один вариант:
Я создал синтаксический анализатор medline, и для каждой записи создается запись JSON для mongoDB и после индексации по pubmedID. Затем я могу создать такую функцию, как get_abstract('pubmedID'):string.
Мои вопросы:
- Это хорошая идея? (Разбор XML --> JSON --> вставка и индексация!)
- Могу ли я использовать GridFS и получить фрагменты, эквивалентные записям для каждого файла? Как?
- Вы знаете другой способ?
I want to process these records and get information such as title, abstract
- похоже, вам нужен elasticsearch, а не mongodb. - person Burhan Khalid   schedule 19.02.2015