Я хотел бы сравнить два документа семантически и получить оценку сходства. Следующие документы взяты из Википедии, и при их сравнении я ожидаю увидеть более высокий балл для world_1 и world_2, поскольку они имеют схожий контекст.
Будет ли хорошим подходом обучение модели Doc2vec на «world_1» и тестирование двух других документов с этой моделью?
thermo = «Термодинамика в основном основана на наборе четырех законов, которые универсально применимы к системам, подпадающим под ограничения, подразумеваемые каждым из них. В различных теоретических описаниях термодинамики эти законы могут быть выражены в, казалось бы, различных формах, но наиболее Известные формулировки следующие: Нулевой закон термодинамики: если каждая из двух систем находится в тепловом равновесии с третьей, они также находятся в тепловом равновесии друг с другом. Это утверждение подразумевает, что тепловое равновесие является отношением эквивалентности на множестве термодинамических систем при рассмотрение."
world_1 = "Первая мировая война (часто сокращенно WWI или WW1), также известная как Первая мировая война или Великая война, была глобальной войной, зародившейся в Европе, которая длилась с 28 июля 1914 года по 11 ноября 1918 года. Одновременно описывается как война чтобы положить конец всем войнам, [7] это привело к мобилизации более 70 миллионов военнослужащих, в том числе 60 миллионов европейцев, что сделало ее одной из крупнейших войн в истории. [8] [9] Это также один из самых смертоносных конфликтов. в истории,[10] примерно девять миллионов комбатантов и семь миллионов гражданских лиц погибли в результате войны, в то время как последовавшие за ней геноциды и пандемия гриппа 1918 года привели к гибели еще от 50 до 100 миллионов человек во всем мире.28 июня 1914 года Гаврило Принцип, боснийский серб, югославский националист, убил австро-венгерского наследника эрцгерцога Франца Фердинанда в Сараево, что привело к июльскому кризису».
world_2 = "Вторая мировая война (часто сокращенно WWII или WW2), также известная как Вторая мировая война, была глобальной войной, которая длилась с 1939 по 1945 год. Подавляющее большинство стран мира, включая все великие державы, в конечном итоге образовали двух противоборствующих военных союзов: союзников и стран оси. Возникло состояние тотальной войны, в которой непосредственно участвовало более 100 миллионов человек из более чем 30 стран. Основные участники бросили все свои экономические, промышленные и научные возможности на военные действия, размывая различие между гражданскими и военными ресурсами. Вторая мировая война была самым смертоносным конфликтом в истории человечества, в котором погибло от 50 до 85 миллионов человек, большинство из которых были гражданскими лицами в Советском Союзе и Китае ».