Има няколко SO въпроси относно време серия бази данни , но нито една, която да отговаря на конкретните ми притеснения, и въпреки че този е най-близо, той е на 3 години.
Изисквания:
- Множество набори от данни. Няма значение как са организирани (отделни таблици, бази данни, процеси, файлове и т.н.).
- Операция с единичен хост (поне първоначално), така че сме ограничени до приблизително 1TB диск и 10GB RAM.
- Закъснението при четене/производителността са ключовите показатели за ефективност.
Поведение на данните:
- Наборите от данни са само за добавяне и записите са неизменни.
- Всеки запис (независимо от набора от данни) трябва да има времево клеймо.
- Записите ще бъдат 32-битови или 64-битови цели числа в „прости“ набори от данни, докато по-„сложните“ набори от данни ще бъдат вектори от цели числа между 32-битови и 256-битови всеки, които не надвишават около 1 kb на запис.
- Ще има една основна „голяма“ таблица, съдържаща 200 милиона или повече записи от „сложен“ (вижте предишната точка) характер.
- Ще има много (10 ‹ N ‹ 100) малки (по-големи) набори от данни (както „прости“, така и „сложни“) с може би от порядъка на милиони записи всеки.
Списък с желания:
- Започвайки с един хост, ние наистина искаме да избегнем сложни зависимости "Big Data"-y за бекенда (като HBase), докато по-прости алтернативи ще бъдат разгледани. Това отнема напр. OpenTSBD от масата.
- Приятелски обвързвания на език от високо ниво. Ruby, Python, PHP и т.н., но можем да слезем до C, C++, Java и т.н., ако не можем да го избегнем.
- API за стрийминг/pubsub/в реално време е за предпочитане.
- Персонализирани заявки - ще имаме нужда от нещо повече от прости статистически средни/медиани/режим/std-dev операции и би било чудесно, ако можем да кодифицираме нашия анализ в „родни“ заявки/команди/структури, вместо да четем всички данни само за изчисляване на всичко в кода на приложението.
OpenTSBD е базиран на HBase, TempoDB няма да работи на база цена/производителност, Redis, Mongo, CouchDB и т.н. всички изглеждат така, сякаш ще се задавят от този обем данни и ние оставаме да се чудим дали не мечтаем. Поправете ме, ако подценявам някоя от споменатите системи (или техни съвременници). Съществува ли нещо подобно? Ако не, ще можем ли да свършим работата, като се подчиним на само едно от изброените изисквания или желания?