Оглядываясь назад, чтобы посмотреть вперед

XGBoost[1] и его преемник LightGBM[2] являются де-факто промышленным стандартом для решения многих реальных задач машинного обучения, включающих табличные данные, таких как прогнозирование CTR, прогноз погоды и обнаружение мошенничества, и это лишь некоторые из них, даже в ту эпоху. глубокого обучения.

Эффективный алгоритм и конструкция системы позволили достичь такой замечательной производительности XGBoost.

  1. Сторона алгоритма

а. больше регуляризаций для ограничения сложности изучаемых деревьев

б. усадка: масштабируйте вновь добавленные веса по коэффициенту для каждого шага повышения дерева.

в. выборка столбцов для дальнейшего уменьшения переобучения

д. приблизительное предложение точки разделения для функций

глобальное предложение, местное предложение

е. разделение с учетом разреженности обнаружило, что изучается направление по умолчанию для пропущенных значений

2. проектирование системы

а. хранить данные в формате CSC (сжатый столбец)

б. доступ с учетом кэша с использованием буфера предварительной выборки

в. вне основных вычислений с использованием сжатия блоков и сегментирования блоков, что делает возможным обучение миллиардов строк данных на одной машине.

Рекомендации

[1] Чен, Тяньци и Карлос Гестрин. «Xgboost: масштабируемая система улучшения деревьев». Материалы 22-й международной конференции ACM sigkdd по открытию знаний и интеллектуальному анализу данных. 2016.

[2] Ке, Гуолинь и др. «Lightgbm: высокоэффективное дерево решений для повышения градиента». Достижения в области нейронных систем обработки информации 30 (2017).