Это матрица с некоторыми примерными данными:
S1 S2 S3
ARHGEF10L 11.1818 11.0186 11.243
HIF3A 5.2482 5.3847 4.0013
RNF17 4.1956 0 0
RNF10 11.504 11.669. 12.0791
RNF11 9.5995 11.398 9.8248
RNF13 9.6257 10.8249 10.5608
GTF2IP1 11.8053 11.5487 12.1228
REM1 5.6835 3.5408 3.5582
MTVR2 0 1.4714 0
RTN4RL2 8.7486 7.9144 7.9795
C16orf13 11.8009 9.7438 8.9612
C16orf11 0 0 0
FGFR1OP2 7.679 8.7514 8.2857
TSKS 2.3036 2.8491 0.4699
У меня есть матрица «h» с 10 000 генов в виде имен строк и 100 образцов в виде столбцов. Мне нужно выбрать 20% наиболее изменчивых генов для кластеризации. Но я не уверен в том, что я дал правильно или нет.
Итак, для этой фильтрации я использовал пакет Genefilter R.
varFilter(h, var.func=IQR, var.cutoff=0.8, filterByQuantile=TRUE)
Как вы думаете, правильна ли команда, которую я дал, чтобы получить верхние 20% высоковариабельных генов? И может ли кто-нибудь сказать мне, как этот метод работает статистически?
matrix
вdata.frame
. Это вариант для вас, или вы хотели бы остаться в рамках пакетаbioconductor
? Что касается базовой статистики, я думаю, что это статистика для Cross Validated (stats.stackexchange.com). - person JanLauGe   schedule 13.07.2017