Предварительное обучение языковой модели BERT / RoBERTa с использованием текста предметной области, сколько времени это займет ориентировочно? что быстрее?

Я хочу предварительно обучить BERT и RoBERTa MLM, используя корпус домена (текст, связанный с настроениями). Сколько времени потребуется на использование 50–100 тысяч слов. Поскольку RoBERTa не обучена предсказанию следующей цели предложения, одной цели обучения меньше, чем BERT, и с большими мини-пакетами и скоростью обучения, я предполагаю, что RoBERTa будет намного быстрее?


person Cass Zhao    schedule 09.02.2020    source источник


Ответы (1)


100к слов - это слишком мало для обучения такой большой модели, как BERT или RoBERTa. Основное утверждение документа RoBERTa состоит в том, что BERT фактически недостаточно обучен. В то время как BERT был обучен на 16 ГБ текстовых данных, RoBERTa использовал 160 ГБ обычного текста.

Для небольших данных, относящихся к предметной области, как вы описываете, вы можете попробовать настроить существующую модель. В этом случае я бы выбрал RoBERTa, потому что он, кажется, лучше предварительно обучен, не имеет цели следующего предложения (что затрудняет предварительную обработку данных для него) и использует SentencePiece для токенизации, что позволяет детокенизация без потерь.

person Jindřich    schedule 10.02.2020