У меня есть 4000 (непрерывных) переменных-предикторов в наборе из 150 пациентов. Во-первых, следует определить переменные, связанные с выживаемостью. Поэтому я использую функцию множественных процедур тестирования (http://svitsrv25.epfl.ch/R-doc/library/multtest/html/MTP.html) с t-статистикой для тестов коэффициентов регрессии в моделях выживания с пропорциональными рисками Кокса для выявления значимых предикторов. Этот анализ определяет 60 параметров, которые в значительной степени связаны с выживаемостью. Затем я выполняю неконтролируемую кластеризацию k-средних с помощью пакета ConensusClusterPlus (https://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html), который определяет 3 кластера как оптимальное решение на основе кривой CDF и графика развития. Если я затем проведу анализ выживаемости Каплана-Мейера, я увижу, что каждый из трех кластеров связан с отчетливым паттерном выживаемости (низкая/промежуточная/долгая выживаемость).
Теперь у меня есть следующий вопрос: давайте предположим, что у меня есть еще один набор из 50 пациентов, где я хотел бы предсказать, к какому из трех кластеров, скорее всего, принадлежит каждый пациент. Как я могу этого добиться? Нужно ли мне обучать классификатор (например, с помощью пакета Caret (topepo.github.io/caret/bytag.html), где 150 пациентов с 60 значимыми параметрами находятся в обучающем наборе, и алгоритм знает, какой пациент был выделен для какой из трех кластеров) и проверить классификатор на 50 новых пациентах? А затем выполните анализ выживаемости Каплана-Мейера, чтобы увидеть, связаны ли снова предсказанные кластеры в проверочном наборе (n = 50) с отчетливым паттерном выживаемости?
Спасибо за вашу помощь.