1. Двукачествено обучение: рамка за проектиране на алгоритми, занимаващи се с промени в разпределението на затворено множество (arXiv)

Автор : Пиер Ноде, Венсан Лемер, Алексис Бондю, Антоан Корнюйол

Резюме: Обучението на модели за машинно обучение от данни със слаб надзор и промени в набора от данни все още е предизвикателство. Проектирането на алгоритми, когато възникнат тези две ситуации, не е проучено много и съществуващите алгоритми не винаги могат да се справят с най-сложните разпределителни промени. Смятаме, че настройката на двукачествените данни е подходяща рамка за проектиране на такива алгоритми. Двойното обучение предполага, че два набора от данни са налични по време на обучението: доверен набор от данни, взет от разпределението, което представлява интерес, и ненадеждният набор от данни с промени в набора от данни и слабости на надзора (известни още като смени на разпространението). Доверените и ненадеждните набори от данни, налични по време на обучение, правят възможно проектирането на алгоритми, които се справят с всякакви промени в разпространението. Ние предлагаме два метода, един вдъхновен от литературата за шума на етикета и друг от литературата за ковариатно изместване за двукачествено обучение. Експериментираме с два нови метода за синтетично въвеждане на отклонение на концепцията и условни промени в класа в набори от данни от реалния свят в много от тях. Открихме някои дискусии и оценихме, че разработването на двукачествени алгоритми за обучение, устойчиви на промени в разпределението, остава интересен проблем за бъдещи изследвания.

2. Набори от сравнителни данни за времеви серии в реалния свят с промени в разпределението: Глобална цена на суровия петрол и волатилност (arXiv)

Автор: Пранай Пасула

Резюме: Недостигът на маркирани със задачи показатели за времеви серии във финансовата област възпрепятства напредъка в непрекъснатото обучение. Справянето с този дефицит би насърчило иновациите в тази област. Затова представяме набори от данни COB, Crude Oil Benchmark. COB включва 30 години цени на активи, които показват значителни промени в дистрибуцията и оптимално генерира етикети на съответните задачи (т.е. режим) въз основа на тези промени в дистрибуцията за трите най-важни сурови петрола в света. Нашият принос включва създаване на набори от сравнителни данни в реалния свят чрез трансформиране на данните за цените на активите в проксита за волатилност, монтиране на модели, използващи максимизиране на очакванията (EM), генериране на контекстни етикети на задачи, които са в съответствие със събития от реалния свят, и предоставяне на тези етикети, както и общия алгоритъм на обществеността. Ние показваме, че включването на тези етикети на задачи универсално подобрява производителността на четири алгоритъма за непрекъснато обучение, някои най-съвременни, в множество хоризонти за прогнозиране. Надяваме се, че тези бенчмаркове ускоряват изследванията за справяне с промените в разпространението на данни от реалния свят, особено поради глобалното значение на разглежданите активи. Ние направихме (1) необработените данни за цените, (2) етикетите на задачите, генерирани от нашия подход, (3) и кода за нашия алгоритъм достъпни на адрес https://oilpricebenchmarks.github.io