Я хочу написать MapReduce (может быть несколько раундов!)
1. Sample N records from Large data - for say X RandomTree
2. Train each tree (totally X)
3. And then test records on all these trees
Последовательно,
for X = 0 to 199:
- sample N records from Large data
- Train this tree
- test for all test records
Это моя домашняя задача, поэтому мне просто нужна идея ..!
я не уверен с
- В картографе я могу отобрать ровно N записей и создать 200 небольших файлов обучающих данных?
- Чтобы проверить каждую запись на всех 200 первом варианте, я подумал, что каждый редуктор будет запускать небольшой тест (часть тестового файла) для ВСЕХ деревьев. второй вариант Я не уверен, как это реализовать, запустить 200 деревьев независимо, а тестовый файл находится в распределенном кеше, прогнозировать для каждой тестовой записи.