Запрос TSQL для анализа текста

У меня есть таблица с номером заказа, датой отмены и причиной. Поле «Причина» представляет собой поле типа varchar (255), и оно было написано многими разными торговыми представителями, и его очень сложно сгруппировать по категории причин. Мне нужно создать отчет для классификации причин отмены. Как лучше всего проанализировать причины с помощью TSQL?

Пример причин, введенных торговым представителем

cust already has this order going out
cust can not hold for item Called to cancel order
cust doesn't want to pay for shipping
wife ordered same item from different vendor, sent email
cst made a duplicate order, sent email
cst can't hold
Cust doesn't want to go through verification process so is cancelling order
doesn't ant to hold  for Bo
doesn't want
Cust called to cancel the order  He can no longer get the product he wants 
cnt hld
will not comply with export req
cant' hold
Custs request
Cust will not hold for BO
per. cust. request.

Кстати, у меня SQL Server 2005.


person THEn    schedule 04.12.2009    source источник


Ответы (3)


часть вашей проблемы в том, что это не коды причин. звучит как проблема с вашей схемой для меня. если нет предопределенных кодов причин для ссылки, и вы разрешаете ввод произвольного текста для каждой причины, то на самом деле нет никакого способа сделать это напрямую, за исключением извлечения отдельных причин, что, вероятно, не будет очень полезно.

просто идея, можете ли вы добавить еще один столбец в таблицу, даже если она находится во временной или тестовой среде, а затем дать бизнес-пользователям возможность назначать код (например, 1 для ошибочных поставок, 2 для дублирующих заказов, 3 для неправильных пункт и т.п.) к каждой отмене заказа. затем выполните анализ этого.

Я предполагаю, что они ожидают от вас этого, но я не знаю, что я вижу лучшего пути. вы всегда можете провести анализ самостоятельно, если у вас есть полномочия/знания, но это может быть болезненно, если у вас много отмен.

редактировать - теперь я вижу, что вы пометили это с помощью регулярного выражения... можно было бы настроить указанные ключевые слова для извлечения записей, но должна быть некоторая встроенная терпимость и последующий ручной анализ для элементов, которые не не попадать ни в одну из указанных категорий из-за опечаток и т. д. / редактировать

person user10635    schedule 04.12.2009
comment
Спасибо. Я думал об этом. Но проблема в том, что мы используем стороннее приложение для обработки заказов, и мы не сможем установить список причин. Но я могу добавить дополнительный столбец в таблицу, но вопрос остается прежним. - person THEn; 04.12.2009

+1 к @jmatthews, вам действительно нужно иметь выбранные коды причин, а затем, возможно, разрешить ввод в свободной форме по полной причине.

Если это не вариант, вы можете изучить кластеризацию текста. Не ожидайте, что это будет быстро или легко, это все еще открытая тема для исследований, связанная как с ИИ, так и с машинным обучением.

person Donnie    schedule 04.12.2009

Посмотрите на поиск терминов в SSIS, вот статья для прочтения.

person Damir Sudarevic    schedule 04.12.2009