Добре дошли отново в нашето кратко ръководство за машинно обучение и събиране на данни. Както обсъдихме в част 1, събирането на данни за обучение за алгоритми за машинно обучение може да бъде огромно препятствие, особено за стартиращи фирми и малки фирми.

Докато в първата част се концентрирахме върху различните стилове и методи на обучение, които могат да се използват, този път се интересуваме главно от начините, по които даден продукт може да приложи машинно обучение и как бизнес моделът може да бъде проектиран така, че да поеме трудността при получаване на данни под внимание.

И трите идеи, разгледани по-долу, се въртят около една и съща основна концепция: Започване с добър, но несъвършен продукт и постепенното му усъвършенстване с помощта на пазара. Нека се потопим в него!

Точността не е линейна. Ако 95% могат да бъдат достигнати със 100k точки от данни, може да отнеме милион, за да достигнете 96%!

Връзката между количеството използвани данни за обучение и получената точност на обучената машина далеч не е линейна. Ако можете да постигнете 95% точност, като използвате 100 хиляди обозначени точки от данни, може да са необходими още 100 хиляди, за да достигнете до 96% точност. Така че 1% подобрение може да удвои разходите за получаване на данните, както и времето, необходимо за събирането им и времето, необходимо за обучение на машината, но ще удвои ли печалбите ви?

Бих казал, че силно зависи от това, което продавате. Ако предлагате пионерско, иновативно решение, може би е разумно да пуснете продукта си с 95% точност, да направите марката си международно известна, да сключите някои сделки с нови инвеститори и да използвате печалбите, за да изчистите разходите по първоначалния фаза на развитие. След това можете да отделите време (и да използвате новите си ресурси), за да съберете повече данни, да достигнете 96% точност и да започнете да продавате версия 2.0 на вашия вече успешен и доверен продукт.

От друга страна, ако някой друг ви е изпреварил на пазара, може да се нуждаете от този допълнителен 1% точност, за да реализирате някакви печалби изобщо. Тоест, ако вашият продукт не е ясно и обективно по-добър от този, който хората вече познават, повечето купувачи ще изберат познатата версия.

Посланието тук е следното: накарайте някои експерти да анализират какво въздействие ще има следващата партида от етикетирани точки от данни и дали не би било по-лесно и по-евтино да се правят подобрения чрез промени в алгоритъма. Вместо да постигнете 1% подобрение чрез удвояване на набора от данни за обучение, може да успеете да спечелите 3% точност, без да придобивате нови данни, просто като промените няколко параметъра в алгоритъма.

Настройка, при която машината ви помага с вашата задача, е много по-лесна за постигане от такава, при която трябва да разчитате напълно на нея

Както споменах в част 1, повечето алгоритми за машинно обучение изчисляват за даден вход стойност, която е по някакъв начин между различните валидни изходи, и след това избират и връщат валидния изход, който е най-близо до тази междинна стойност. Например, когато една машина се опитва да разбере дали JPEG е снимка на котка или не, тя може вътрешно да върне „това има вероятност от 45% да е снимка на котка и 55% да не е снимка на котка”. Но тъй като алгоритъмът има право да върне само една от двете стойности „cat“ и „no cat“, той избира тази, която изглежда по-вероятна (в този случай „no cat“), без да разкрива, че е била силно несигурна. Не е задължително обаче да е така!

Ако искате, машината може да бъде програмирана да бъде честна, когато има съмнения. Тоест, в случаите, когато избраният резултат не е ясен победител, машината може да изведе нещо като „това не изглежда да е снимка на котка, но не съм толкова сигурен… разликата във вероятността беше само 10%“ . С този подход машината не е напълно автономна, но все пак е много полезна.

Да предположим, че някой нещастен човек има задачата да класифицира 4000 снимки на ден в категориите „котка“ и „без котка“. Сигурен съм, че много ще се радват да използват програма, която може сама да се погрижи за 3900 от тях, като поиска двойна проверка само за оставащите 100 снимки. Въпреки това, ако програмата се опита да класифицира тези 100 по-трудни изображения без помощ, може да направи неприемливи грешки.

Освен това, ако задачата е да класифицирате снимки не само в 2, а по-скоро в хиляди различни категории, дори когато машината е несигурна, тя пак може да стесни възможностите. Например може да се каже „Не съм сигурен точно какво има на тази снимка. Определено е някакъв вид гъба, но не знам кой вид“, и тогава заявката за човешки принос може автоматично да бъде насочена към отдела за класификация на гъби на вашата компания.

Накратко: В някои приложения по-ниската точност на 100% автономна машина може да бъде проблем, докато машината с по-ниска автономност, но която гарантира 100% точност, може да бъде добре дошла. В зависимост от продукта, който продавате, тази хибридна версия може да бъде печеливша идея, която изисква много по-малко етикетирани данни.

Хибридният алгоритъм може също да се комбинира с активно обучение: Всеки път, когато машината не е сигурна как да класифицира даден вход и трябва да помоли човек за помощ, взетото от човека решение може да послужи като етикет за нова точка с данни за обучение, която може да се използва за подобряване на точността и увереността на машината. Това подобрение не трябва да е локално (напр. на телефона на потребителя). Новата точка от данни може да бъде изпратена до централна база данни, така че всички потребители да могат да се възползват от нея при следващата актуализация. По този начин, вместо да обещавате на клиентите си, че всяка актуализация ще донесе повече точност, вие им обещавате, че всяка актуализация ще направи машините по-автономни, изисквайки все по-малко човешка намеса.

Всъщност не е моя идея. В своите лекции и беседи професор Андрю Нг защитава идеята за използване на вашите клиенти като част от положителна обратна връзка, състояща се от събиране на данни, разработване на продукти и придобиване на потребители.

Итеративният процес на подобряване на възможностите на вашия AI с помощта на други

Накратко, започвате, като събирате възможно най-много данни за обучение. Може да не е достатъчно да направите продукта, за който сте мечтали, но може би е достатъчно да направите продаваем продукт. След като имате продукт, можете да придобиете първите си няколко потребители и докато потребителите ви прилагат продукта към случаи от реалния свят, вие получавате повече данни. Това може да са немаркирани данни, ако просто кажете на алгоритъма да изпраща всеки вход до централен сървър, за да бъде съхранен, или може да са етикетирани данни, ако използвате хибриден подход, както е описано в предишния раздел.

Ако получавате нови етикетирани данни от вашите клиенти, можете директно да ги използвате за допълнително обучение на машините. От друга страна, ако получавате немаркирани точки от данни, можете или да ги етикетирате (в зависимост от разходите), или да ги използвате директно чрез полуконтролирано обучение. Във всеки случай новите точки за данни могат да ви помогнат да разработите по-добър продукт, който ще ви осигури повече потребители, които ще предоставят още повече данни , и така нататък.

Когато някои от студентите на професор Нг в Станфорд послушаха съвета му, те създадоха компания, наречена „Blue River Technology“ и продукт, който използва машинно обучение в селското стопанство. Чрез фиксиране на камери върху трактори, тяхната програма може да разгледа растенията и да реши кои от тях са плевели (да се елиминират с пестициди) и кои са част от културата (да се подхранват с тор). Това намали разходите както за пестициди, така и за торове, а също така намали количеството пестицид, което влезе в контакт с културата.

Те започнаха цикъла, като посетиха посеви и направиха снимки ръчно, като по този начин получиха много малка база данни и чрез относително голям обем работа. Но бизнесът им се разраства толкова много само след няколко повторения на цикъла, че е закупен от John Deere за колосалните 305 милиона долара.

Ако имате идея за милиони долари, която включва машинно обучение по иновативен и смислен начин, надявам се вече да сте изчерпали извиненията да не я приложите. Най-малко извинения относно събирането и етикетирането на данни за обучение.

Комбинирайки методите, които видяхме в част 1 и стратегиите, описани тук, успехът на вашия продукт зависи по-малко от вашите финансови ресурси и повече от вашите усилия, креативност, търсене на продукти, маркетинг, дизайн, късмет… обичайните заподозрени. Има много области, в които малките предприятия могат да бъдат претоварени, конкурирайки се с технологичните гиганти, но машинното обучение не е задължително в една от тях.

Първоначално публикувано на www.imagineon.de.