Jayden Kur [email protected]

Обучението на модел за машинно обучение (ML) върху данни с лошо качество неизбежно ще доведе до резултати с лошо качество. Това е известно като боклук в боклука навън. Често разработчиците създават авангардни модели за машинно обучение с най-добри практики с достъп до цялата изчислителна мощност, за която могат да мечтаят, но въпреки това им се предоставят данни за обучение с ужасно ниско качество в изобилие. След това те се разпитват за изхода на боклука. Предоставянето на по-голямо количество данни с лошо качество не е решението тук и няма да гарантира благоприятни резултати.

Фокусирайте се върху качеството, а не върху количеството

Съществува погрешно схващане, че повече данни ще бъдат по-добри за модели за обучение, вместо да се фокусира върху качеството на данните. Виждал съм това многократно в индустрията, особено в рамките на клиенти на корпоративно ниво като производство, енергетика и образование. Всички тези индустрии до известна степен са виновни за предоставянето на данни с лошо качество на инженерите и очакването на магия. Такъв беше дори случаят, когато работех за лидер в AI индустрията, който беше внедрил ML решение в една от най-големите минни компании в Австралия.

Изпитал съм това и в собственото си образование, където използвах конволюционни невронни мрежи (CNN) за идентифициране на морфологични свойства на галактиките. Получих толкова размазани изображения, че не можех да разбера дали е снимка на галактика, или някой е излязъл през нощта и е направил снимки на далечна улична лампа на флип телефон. Бързо разбрах, че ако искам да създам нещо полезно, ще трябва да осигуря данни за обучение с по-високо качество. Свързах се със собственика на голяма колекция от етикетирани галактически изображения в Америка. Осигурих си набор от данни с много по-високо качество и разделителна способност от етикетирани галактически изображения, за да обуча моя модел. Успях да постигна точност от близо 100%, като използвах драстично по-малко изображения за тренировъчен модел. Оттогава се използва за класифициране на милиони морфологични свойства на галактики, които могат да се използват от физиците.

Наскоро участвах в нашия годишен фирмен хакатон, където екипът ми създаде обучителен бот с първоначална гледна точка за включване. Използвахме Generative AI модели и интелигентно извличане на данни, за да предложим свеж и нов подход към служителите при достъп, обработка и разбиране на информация. Първият ни оптимистичен подход беше да му предоставим достъп до всички некритични документи, да му зададем въпроси и да проверим отговора. Този подход не проработи и беше, ами, боклук. След това бяхме селективни по отношение на предоставените документи и ограничихме въпросите, които могат да бъдат зададени към него. Това се оказа драматично по-добро от първоначалния ни подход. Като цяло установихме, че предоставянето на по-малко данни с по-високо качество дава по-полезни и точни отговори на нашите потребители.

Ключови поуки: по-малкото количество данни с по-високо качество всъщност е повече

Тъй като използваме нарастващите технологии за машинно обучение в живота си, ключовото поука от моята работа и изследвания е, че когато обучаваме модел за машинно обучение, по-малкото количество данни с по-високо качество всъщност е повече.

Трябва да сме преднамерени. Не можем да хвърляме боклук върху тези модели и да очакваме чудеса.

Инженерите в индустрията не винаги имат лукса да си осигурят данни с по-високо качество и често те изобщо не съществуват. Лидерите в индустрията трябва да се задължат да предприемат действия за осигуряване на най-висококачествени данни за оптимални резултати.