Подход к переподготовке для NLC или R&R

Наземная правда, которую мы знаем, используется для переобучения NLC или R&R.

Основная истина - это данные обучения на уровне вопросов.

e.g.

"Как жарко сегодня?, температура"

На вопрос "как сегодня жарко?" поэтому классифицируется как «температурный» класс.

Как только приложение будет запущено, будут получены реальные вопросы пользователей. Некоторые из них одинаковы (т.е. вопросы от реальных пользователей совпадают с вопросом в земной истине), некоторые являются похожими терминами, некоторые являются новыми вопросами. Предположим, что приложение имеет цикл обратной связи, чтобы узнать, релевантны ли класс (для NLC) или ответ (для R&R).

About the new questions, the approach seems to just add the them to the ground truth, which is then used to re-train the NLC/R&R?
For the questions with similar terms, do we just add them like the new questions, or do we just ignore them, given that similar terms can also be scored well even similar terms are not used to train the classifier?
In the case of the same questions, there seems nothing to do on the ground truth for NLC, however, to the R&R, are we just increase or decrease 1 for the relevance label in the ground truth?

Короче говоря, главный вопрос здесь в том, каков подход к переподготовке для NLC & R&R...


person kwshiu    schedule 09.05.2016    source источник


Ответы (2)


После того, как ваше приложение будет запущено, вам следует периодически просматривать журнал отзывов на предмет возможностей для улучшения. Для NLC, если есть тексты, которые неправильно классифицируются, вы можете добавить эти тексты в обучающий набор и переобучить, чтобы улучшить свой классификатор.

Нет необходимости фиксировать все мыслимые варианты класса, пока ваш классификатор возвращает приемлемые ответы.

Вы можете использовать дополнительные примеры классов из своего журнала, чтобы собрать тестовый набор текстов, которых нет в вашем обучающем наборе. Запуск этого тестового набора при внесении изменений позволит вам определить, не вызвало ли изменение непреднамеренно регрессию. Вы можете запустить этот тест, либо вызвав классификатор с помощью клиента REST, либо с помощью набора инструментов Beta Natural Language Classifier.

person davidgeorgeuk    schedule 09.05.2016

Надежным подходом к переобучению должно быть получение отзывов от живых пользователей. Ваше тестирование и проверка любого переподготовленного NLC (или R&R в этом отношении) должны руководствоваться некоторыми принципами, изложенными здесь Джеймсом Равенскрофтом (https://brainsteam.co.uk/2016/03/29)./cognitive-quality-assurance-an-introduction/) .

Ответ от @davidgeorgeuk верен, но не доводит мысль до вывода, который вы ищете. У меня был бы ежемесячный набор действий, когда я просматривал бы журналы приложений, где РЕАЛЬНЫЕ пользователи указывают, что вы неправильно классифицируете вещи, а также включал бы любые новые классы в свой классификатор. Я бы переобучил второй экземпляр NLC с новыми данными и прошел тестовые сценарии, описанные выше.

Как только вы будете удовлетворены тем, что УЛУЧШИЛИ свою модель, я затем переключу свой код, чтобы он указывал на новый экземпляр NLC, а старый экземпляр NLC будет вашим «резервным» экземпляром, а тот, который вы будете использовать для этого упражнения, следующий. месяц. Это просто применение простого подхода DevOps к управлению экземплярами NLC. Вы можете расширить это до сценария разработки, контроля качества или производства, если хотите.

person Daniel Toczala    schedule 09.05.2016