Бих искал да спомена за моя малък проект и дали съм на път. Имам нужда от работа с всички статии от Medline (http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html). За тези, които не са запознати с базата данни на Medline, добавям малко информация:
- Има ок. 20 000 000 записа (83,4 GB дисково пространство), всеки има много полета и подполета.
- Можете да изтеглите тази DB (с лиценз) в XML формат.
- Тези 20 милиона записи са разпределени в 653 файла.
- Всеки файл има един MedlineCitationSet, а това набор от записи (MedlineCitation's).
Искам да обработя тези записи и да получа информация като заглавие, резюме... Тогава реших да индексирам тези файлове (или записи) с python и mongodb. И имам един вариант:
Създадох анализатор на medline и за всеки запис се създава JSON запис за mongoDB и след индексиране от pubmedID. След това мога да създам функция като get_abstract('pubmedID'):string.
Въпросите ми са:
- Добра идея ли е? (XML анализиране --> JSON --> вмъкване и индексиране!)
- Мога ли да използвам GridFS и да получа еквиваленти на парчета на записи за всеки файл? как?
- Знаете ли друг начин?
I want to process these records and get information such as title, abstract
- звучи сякаш имате нужда от elasticsearch, а не от mongodb. - person Burhan Khalid   schedule 19.02.2015