NER для предопределенных сущностей

Я разрабатываю приложение для категоризации требований в спецификации требований по таким категориям, как база данных, внешний интерфейс, серверная часть и т. д. Спецификация требований — это отдельный документ, в котором я хочу видеть основные категории. Могу ли я использовать NER для получения категорий? Предложения делятся на категории, если они содержат определенные слова, соответствующие этой конкретной категории.

Пример

данные должны храниться в защищенной базе данных.

Если мы считаем, что приведенное выше предложение является требованием, оно должно быть отнесено к категории базы данных с учетом содержащихся в нем слов (база данных, данные).


person rayan carlon    schedule 03.03.2019    source источник
comment
Вы можете обучить теггер NER Стэнфорда для своих собственных данных и объектов, но для этого у вас должен быть большой набор данных.   -  person Sociopath    schedule 03.03.2019


Ответы (1)


Насколько мне известно, готовые инструменты NER не помогут, но я рекомендую вам использовать spaCy. Это инструменты NER с самой современной точностью и поддержкой для повторного обучения вашей модели DL и ее настройки. Надеюсь это поможет!

person Giang Nguyễn    schedule 04.03.2019
comment
спасибо, но для обучения требуется много данных. - person rayan carlon; 05.03.2019
comment
Это зависит от того, что вы хотите сделать, но вы можете выполнить поиск доступного набора данных. Я полагаю, что они где-то в Интернете. - person Giang Nguyễn; 05.03.2019
comment
Я искал набор данных и даже запросил его, но они недоступны. Как уже упоминалось в вопросе, мне нужен набор данных, в котором набор данных помечен категориями, к которым он принадлежит, например, к базе данных, интерфейсу или серверной части. - person rayan carlon; 06.03.2019
comment
Я боюсь, что вам придется сделать это самостоятельно. Тем не менее, я реализовал здесь проект по анализу наиболее важных событий в большом корпусе. Я действительно думаю, что это может помочь вам. github.com/yeulam1thienthan/ Например, просто используйте кластеризацию для категоризации ваши спецификации, затем выберите кластер базы данных и выберите документы в кластере базы данных. Это мое решение вашей задачи. - person Giang Nguyễn; 06.03.2019