У меня есть 8 документов, и я запустил TF-IDF
, чтобы получить массив. Я не понимаю, как узнать, какой документ лучше всего подходит для данного входного запроса?
all_documents = [doc1, doc2, ...., doc7]
sklearn_tfidf = TfidfVectorizer(norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True, tokenizer=tokenize)
sklearn_representation = sklearn_tfidf.fit_transform(all_documents).toarray()
TfidfVectorizer
к входному запросу, а затем найти расстояние до вектора из 7 документов, которые у вас есть (это может быть косинусное расстояние/евклидово расстояние). - person titipata   schedule 21.03.2017