Мне интересно, какова современная эффективная (приблизительная) реализация машин опорных векторов (SVM) для больших/очень больших наборов данных (5-15M+ строк) с нелинейной границей решения (например, гауссовское ядро) ?
Мне известны два конкретных подхода: с одной стороны, это исследование, в котором используется стохастический градиентный спуск и т. д.: http://cseweb.ucsd.edu/~akmenon/ResearchExam.pdf
С другой стороны, существуют подходы к базовым векторным машинам/шаровым векторным машинам: http://www.c2i.ntu.edu.sg/ivor/cvm.html
на этой странице мы можем найти две статьи, описывающие как базовые, так и шаровые векторные машины.
Другими словами, я считаю, что SVM вполне правдоподобны для рассматриваемой проблемы, но я ограничен размером выборки, если бы я использовал стандартную реализацию SVM (может быть сложностью до n ^ 3). Я ищу «приблизительную» реализацию, которая является достаточно точной, но при этом ниже n ^ 2 по временной сложности. Какие самые быстрые такие реализации? Хорошо ли они работают эмпирически или близки к оригинальному SVM по точности?