EDIT: это вопрос, который я в конечном итоге пытался задать: Понимание min_df и max_df в scikit CountVectorizer
Я читал документацию по scikit-learn CountVectorizer и заметил, что при обсуждении max_df
нас интересует частота документирования для токенов:
max_df : float in range [0.0, 1.0] or int, default=1.0
When building the vocabulary ignore terms that have a document frequency strictly higher than the given threshold (corpus-specific stop words). If float, the parameter represents a proportion of documents, integer absolute counts. This parameter is ignored if vocabulary is not None.
Но когда мы рассматриваем max_features
, нас интересует частота терминов:
max_features : int or None, default=None
If not None, build a vocabulary that only consider the top max_features ordered by term frequency across the corpus.
Я в замешательстве: если мы используем max_df
и говорим, что устанавливаем его на 10, разве мы не говорим: «Игнорировать любой токен, который появляется более 10 раз»?
И если мы установим max_features
на 100, разве мы не говорим: «Используйте только те 100 токенов, которые имеют наибольшее количество появлений в корпусе»?
Если я правильно понял... тогда в чем разница между формулировками при использовании "частоты терминов" и "частоты документирования"?
max_df
без разбора, то да, поэтомуmax_df
применяется к стоп-словам, характерным для корпуса. - person Michael Foukarakis   schedule 18.01.2016max_df
применяется только к 318 стоп-словам, предоставленнымstop_words
в sklearn ?? Хам. Какое мне дело до того, в скольких документах появилось стоп-слово — я думаю, что что-то вроде «а» или «the», являющиеся стоп-словами по определению, должно быть полностью удалено, независимо от ихmax_df
! - person Monica Heddneck   schedule 18.01.2016