У меня есть файл, содержащий тройной RDF (субъект-предикат-объект) в синтаксисе черепахи (.ttl), и у меня есть еще один файл, в котором у меня есть только некоторые предметы.
Например:
<http://dbpedia.org/resource/AlbaniaHistory> <http://www.w3.org/2000/01/rdf-schema#label> "AlbaniaHistory"@en .
<http://dbpedia.org/resource/AsWeMayThink> <http://www.w3.org/2000/01/rdf-schema#label> "AsWeMayThink"@en .
<http://dbpedia.org/resource/AlbaniaEconomy> <http://www.w3.org/2000/01/rdf-schema#label> "AlbaniaEconomy"@en .
<http://dbpedia.org/resource/AlbaniaGovernment> <http://www.w3.org/2000/01/rdf-schema#label> "AlbaniaGovernment"@en .
А в другом файле у меня есть, например:
<http://dbpedia.org/resource/AlbaniaHistory>
<http://dbpedia.org/resource/AlbaniaGovernment>
<http://dbpedia.org/resource/Pérotin>
<http://dbpedia.org/resource/ArtificalLanguages>
Я хотел бы получить:
<http://dbpedia.org/resource/AlbaniaHistory> <http://www.w3.org/2000/01/rdf-schema#label> "AlbaniaHistory"@en .
<http://dbpedia.org/resource/AlbaniaGovernment> <http://www.w3.org/2000/01/rdf-schema#label> "AlbaniaGovernment"@en .
Итак, я хотел бы удалить из первого файла триплеты, тематики которых нет во втором файле. Как я мог получить это?
Я попытался в java прочитать содержимое второго файла в массиве и использовать метод «содержать», чтобы проверить, соответствуют ли предметы каждой тройки первого файла какой-либо строке во втором файле, однако это слишком медленно, поскольку файлы очень большой. Как я мог получить это?
Большое спасибо за помощь