Я использую Stanford Log-linear Part-Of-Speech Tagger, и вот пример предложение, которое я помечаю:
Он не может этого сделать
Когда я помечен, я получаю этот результат:
He_PRP ca_MD n't_RB do_VB that_DT
Как видите, can't
разбито на два слова, ca
помечено как модальное (MD), а n't
помечено как НАРЕЧИЕ (RB)?
На самом деле я получаю тот же результат, если использую can not
отдельно: can
— это MD, а not
— это RB, так что ожидается ли такой способ разделения вместо того, чтобы, скажем, разбить, как can_MD
и 't_RB
?