По-отблизо в проблема с корекцията на правописа — Част 3

В searchhub.io почистването на заявката от човешка информация (потребителска заявка) е първата стратегия, която прилагаме към всяка заявка за търсене, която получаваме. В част 1 и 2 вече обсъдихме малко предизвикателствата на корекцията на правописа в мащаб и независимостта на езика.

В центъра за търсене обаче се стремим да помогнем на софтуерните системи да разбират хората. Следователно не само трябва да се погрижим за правописни грешки като „скейтборд -› скейтборд“. Има много повече причини, поради които търсачката може да не разбере или дори по-лошо да разбере погрешно потребителска заявка.

https://www.youtube.com/watch?v=cbtf1oyNg-8

1. Сегментиране на думи и разлагане на думи:

Тъй като повечето търсачки все още се основават на символично представяне на думи, първо трябва да идентифицираме думите в потребителска заявка. Това може да изглежда лесно и очевидно, но в доста случаи не е. И не говоря само за случаи, които се срещат в някои езици, които традиционно се пишат без интервали между думите, като „китайски“ и „японски“, или случаи, когато потребителските заявки се произвеждат от някаква система за разпознаване на реч.

Да вземем пример от реалния свят: „Damenmotorradlederhandschuh“. Сега може да си помислите, че WTF е това. Това е немска съставна дума, която е изградена чрез залепване на следните думи, преведени на английски. “дамски+велосипед+кожени+ръкавици”

Подходът на речника:

Традиционният подход за справяне с такава заявка би бил да се използва декомпозиционен речник, който сканира заявката и се опитва да прекъсне заявката веднага щом намери поддума от речника. Така че нека направим това „Damenmotorradlederhandschuh -› Damen motor rad leder hand schuh“ Отново за тези, които не говорят немски: „жени+двигател+колело+кожа+ръка+ обувки"

О, чакай какво, по дяволите, се случи тук: като разделихме думите, променихме значението им! Представете си резултата от търсенето за такава заявка.

И какво ще стане, ако напиша грешно заявката?

„Damenmotoradlederhantschuh -› Damen motorad leder hantschuh“ Така че в тази заявка потребителят е направил две прости грешки и дори могъщият Google не е в състояние да отгатне какво е търсил потребителят.

Сегментирането на думи и разлагането на думи са жизненоважни части от процеса на разбиране на заявката и не можете да поправите тази част в мащаб чрез ръчно картографиране чрез речници и обработка на неясноти.

2. Разпознаване на първична дума:

След като сегментирате/разложите заявката на думи, скоро ще разберете, че сега има друго измерение на заявката, за което трябва да се погрижите. Поредицата от думи. Има няколко случая, в които редът или последователността от думи в потребителска заявка може да промени значението на заявката или най-малкото да промени подхода на корена.

Нека директно преминем към друг пример за това: Представете си горната потребителска заявка „Damenmotorradlederhandschuhe“ и няколко други заявки, които представляват същото намерение/значение -› „motorrad leder handschuhe damen, leder motorradhandschuh für damen”.

В този пример редът или последователността на думите е почти независима от нейното значение или намерение. Въпреки това, веднага щом искате да въведете произхода, по-добре се уверете, че произнасяте само „основната дума(и)“ в този случай „handschuh(e)“.

Но не всяка потребителска заявка, която включва едни и същи думи, представлява същото значение или намерение. Заявката „Armbanduhr“, известна още като ръчен часовник срещу „Uhrarmband“, известна още като часовникова гривна, е перфектен пример за това. И двете заявки, сегментирани или декомпозирани, се състоят от абсолютно едни и същи думи, но описват две различни неща. За да разрешим този проблем, първо трябва да идентифицираме тези потребителски заявки и след това да намерим основната дума, за да разберем нейното значение или намерение.

3. Недостатъчно и надхвърляне:

Граматически правилният корен може да бъде много досаден. Прилагането на традиционни думи като „Портър“ или „Снежна топка“ обикновено води до много прекомерни или недостатъчни думи — особено при кратки думи, които представляват по-голямата част от корпуса на заявката.

Нека отново вземем пример от реалния свят: „babybetten -› babybetten“ и „vans -› van“ и iphone5s -› iphone5. В първия пример, портиер stemmer не успя да преобразува babybetten в своя корен babybett, докато във втория пример името на марката vans беше намалено до van, което в този случай променя значението си.

Но за да извлече подходящи и смислени резултати от търсенето, търсачката трябва да разбере значението на заявката. Докато формите за единствено и множествено число обикновено представляват едно и също значение/намерение, това може да не е така за думите с автоматичен корен.

search|hub прави всичко това автоматично

Когато изградихме център за търсене, ние решихме всички тези области чрез комбиниране на знания за домейна, интелигентни алгоритми и модели за машинно обучение, подхранвани от потребителски данни. Ние силно вярваме, че всичко това е от ключово значение, за да накараме търсачките да разбират хората.

ТЪРСЕНЕТО Е МЯСТОТО, КЪДЕТО ПОТРЕБИТЕЛЯТ ВИ КАЗВА КАКВО ИСКА. АКО ВАШАТА ТЪРСАЧКА ГОВОРИ СЪЩИЯ ЕЗИК КАТО ВАШИТЕ ПОТРЕБИТЕЛИ, ТЪРСЕНЕТО СЕ ПРЕВРЪЩА В РАЗГОВОР. SEARCH|HUB Е СПЕЦИАЛНО ПРОЕКТИРАН, ЗА ДА ПОМОГНЕ НА ВАШАТА СЪЩЕСТВУВАЩА ТЪРСАЧКА ДА РАЗБЕРЕ ХОРАТА И ДА ВОДИ ТЕЗИ РАЗГОВОРИ.

Наемаме

Ако се вълнувате от усъвършенстването на нашия API за център за търсене и се стремите да дадете възможност на компаниите да създават смислено изживяване при търсене, присъединете се към нас! Ние активно наемаме специалисти по данни, които да работят върху технологията API & SEARCH от следващо поколение.

www.searchhub.io, с гордост създаден от www.commerce-experts.com

По-отблизо в проблема с корекцията на правописа — Част 3 — звънците и свирките

1. Сегментиране на думи и разлагане на думи:

2. Разпознаване на първична дума:

3. Недостатъчно и надхвърляне:

search|hub прави всичко това автоматично

Наемаме

Подобни въпроси