Я нахожусь в процессе (пере) обучения распознавателя именованных сущностей spaCy, и у меня есть несколько сомнений в том, что, надеюсь, более опытный исследователь / практик поможет мне разобраться:
- Если несколько сотен примеров считаются «хорошей отправной точкой», то к какому разумному числу следует стремиться? Является ли 100 000 единиц / лейбла чрезмерным?
- Если я введу новый ярлык, будет ли лучше, если количество объектов, которые помечены, будет примерно одинаковым (сбалансированным) во время обучения?
Что касается смешивания «примеров других типов сущностей»:
мне просто добавить случайные известные категории / метки в свой обучающий набор, например:
('The Business Standard published in its recent issue on crude oil and natural gas ...', [(4,21, 'ORG')], )
?могу ли я использовать один и тот же текст для разных этикеток? например
('The Business Standard published in its recent issue on crude oil and natural gas ...', [(55,64, 'COMMODITY')], )
?в аналогичной заметке предположим, что я хочу, чтобы spaCyto также распознал второй
COMMODITY
, могу ли я просто использовать то же предложение и обозначить другой регион, например.('The Business Standard published in its recent issue on crude oil and natural gas ...', [(69,80, 'COMMODITY')], )
? Так это и должно быть сделано?какое соотношение между новыми и другими (старыми) этикетками считается разумным
Спасибо
PS Я работаю с Python2.7 в Ubuntu 16.04, используя spaCy 1.8.2