У меня есть большой набор данных, который включает несколько сотен названий компаний и выглядит примерно так:
Name:
Earth Ltd.
Rocket International LLC
Space Corp LLC
Space Corporation LLc
Space International Corporation Ltd
Satellite Global
Некоторые записи — это просто разные варианты написания (иногда опечатки или переименования) или (для моих целей) одна и та же компания. Я пытаюсь объединить эти разные варианты написания в одну непротиворечивую версию, например. Space Corp LLC, Space Corporation LLc, Space International Corporation Ltd
в Space Corp. LLC
.
Есть ли сценарий или пакет, который позволяет мне извлекать синтаксически или иным образом похожие записи, чтобы я мог видеть, какие записи мне нужно свернуть?
Большое спасибо!