Облачната война

Класиране на доставчици на облачни услуги за решения за машинно обучение

„Всичко се случва в облака. Така че не е нужно да се тревожите за инфраструктурата, а да се съсредоточите върху качеството на вашето решение.“

Обещанието, дадено от облачните доставчици, е толкова валидно сега, колкото и преди почти две десетилетия. С непрекъснато нарастващ процент на приемане, облачните изчисления позволиха както на потребителите, така и на предприятията в ИТ света да използват мощни инфраструктури по рентабилен и безпроблемен начин. Желанието да увеличат пазарния си дял мотивира доставчиците непрекъснато да подобряват офертите си. За потребителите на облачни услуги това означава по-безопасни, по-надеждни и повишена производителност на техните базирани на облак решения.

В сектора на изкуствения интелект бизнеси от всякакъв размер също се възползват от такова бързо развитие на облачните услуги. AI инструментите, които преди бяха достъпни само за няколко големи предприятия, сега са достъпни за всеки, от любопитния студент до опитния инженер. Единственото изискване е интернет връзка!

Но въпросът кой доставчик да изберете за базирано в облак решение за машинно обучение е такъв, който изисква задълбочено проучване и задълбочено разбиране на това, което предлагат различните екосистеми. Това ръководство за класиране дава на ML Solution Architect преглед на това, което считаме за най-важните критерии за надеждни доставчици на облачни услуги.

Тъй като пазарният дял е доминиран от Amazon Web Services, Google Cloud Platform и Microsoft Azure, ние ще се съсредоточим върху тях в нашето сравнение.

1. Наличие на специализирана апаратурата

Да започнем с очевидното. Големите данни изискват големи (ако не и огромни) възможности за изчисление и съхранение. Два от най-търсените облачни ресурси са Compute Instances и Storage Services. Базираните на GPU изчислителни инстанции често са необходими за машинно обучение, тъй като GPU позволяват масивни паралелни изчисления поради тяхната висока честотна лента на паметта. По същия начин, системите за съхранение също играят решаваща роля и са оптимизирани за скорост, за да бъдат в крак с възможностите за обработка на графичните процесори.

Тъй като различните AI проекти имат различни нужди, за ML Solution Architect е задължително да има свобода на избор при персонализирането на своите инфраструктурни компоненти. Освен това, тези ресурси трябва да бъдат предоставени по динамичен, мащабиран начин при поискване, за да се минимизират разходите и да се увеличи максимално ефективността.

Тъй като всичките 3 доставчици имат обширно предложение за персонализиране на ниво инфраструктура, ние отбелязваме равен резултат за тази категория.

2. Наличие на предварително конфигурирани среди

Възможността за конфигуриране на персонализирани инфраструктури за машинно обучение е основна необходимост при изграждането на мащабируеми системи за обработка на данни. Въпреки това, когато експериментират с нови алгоритми или изграждат потребителски модели, не е необичайно инженерите на ML да искат да завъртят предварително конфигурирана среда за минути. Считаме тази способност за наистина важен аспект.

В този смисъл, всичките 3 доставчика предлагат предварително конфигурирани екземпляри на VM, които използват най-новите версии на библиотеки за машинно обучение (и задълбочено обучение!) и които се изпълняват от кутията.

„Решението“ на Google е базирано на Debian 9 „Stretch“, докато Microsoft Azure предоставя „виртуални машини за наука за данни“, базирани на Linux (Ubuntu 16.04 LTS и CentOS 7.4) и Windows Server 2016. „AWS Deep Learning AMI“ са създадени за Amazon Linux 2018.03, Windows 2016 и няколко Ubuntu 16.04.

Предварително конфигурираните екземпляри на VM позволяват бързо създаване на прототипи, без да се притеснявате за проблеми със съвместимостта на софтуера. Просто проверете кои VM изображения поддържат вашите любими инструменти за анализ на данни и завъртете нова среда за машинно обучение!

3. Възможност за обучение и достъпност на онлайн ресурси

Потребителите на ML облачни услуги са специалисти по данни, отговорни за проектирането, внедряването и поддържането на решения за големи данни. Но дори и най-опитният Data Freak може да остане да се чеше по главата, когато се сблъска с множеството налични облачни услуги.

Ние считаме наличието на онлайн ресурси за важен фактор при приемането на конкретен доставчик за вашите бизнес нужди. В крайна сметка това означава колко бързо вие (или новият архитект на решения за данни във вашия екип) ще станете продуктивни.

Как трите най-добри доставчици на облачни услуги помагат на специалистите по данни да овладеят бързо своите ML екосистеми?

Уроци и ръководства за бърз старт

„Всички“ „три“ „доставчици“ улесняват инженерите да започнат с проекти за машинно обучение. Въпреки това, AWS има малко по-добри резултати, като се има предвид разделът „Случаи на употреба“, в който са показани успешни решения за големи данни, включително задълбочен преглед и анализ стъпка по стъпка на тяхната архитектура.

Форуми на общността

Форумите за разработчици на AWS са активна платформа за професионалисти за обмен на знания и взаимно подпомагане. Категория на форума за всяка от предоставените облачни услуги прави наистина лесна за намиране информация.

Подобно добре структуриран е MSDN Forum, където проблемите, свързани с облачните услуги на Azure, също са добре категоризирани. Обществото обаче изглежда не е толкова стегнато и много от темите, свързани с Azure, са разпространени в множество онлайн платформи.

Страницата Google Cloud Discuss от друга страна все още е базирана на добрата стара платформа Google Groups. Необходимо е малко повече копаене, за да достигнете до конкретна тема, тъй като облачните услуги са само грубо събрани в теми.

Програми за обучение на разработчици

От ноември 2019 г. AWS и GCP са единствените доставчици на облачни услуги, които предлагат сертификати с фокус върху машинното обучение. Този път Microsoft Azure изостава с ограниченото си „предложение за сертифициране“.

4. MLOps Tooling

Какво да направите, когато DevOp инженерът се обади за болен

Може би вашият бизнес все още се подновява, за да достигне до най-оптимизираната персонализирана ML инфраструктура. Или може би все още не сте наели този сертифициран DevOp инженер. Или още по-добре, вече сте уморени от «„Недиференцираното вдигане на тежести““.

Това означава ли, че вашият екип за наука за данни трябва да си вземе почивка? Няма начин!

Всички доставчици предлагат MLaaS (Machine Learning as a Service) поддръжка за непрекъснато развитие на ML: Amazon SageMaker, Microsoft Azure ML Services, Google Cloud AI Platform (преди това ML Engine). Това позволява на специалистите по данни да настройват, обучават и хостват модели, без да се притесняват за настройването на техните виртуални среди. Те вече са инсталирани и обикновено идват с най-новите версии на най-популярните инструменти за наука за данни.

Изчерпателно сравнение на услугите MLaaS можете да намерите тук. За целите на нашето класиране обаче, AWS отбелязва допълнителна точка отново: това е единствената услуга, която предоставя вградени ML алгоритми.

Познаването на разликите между трите облачни доставчици ви позволява да направите по-добър избор за следващото си ML начинание. Следващото обобщава класирането по-горе и дава преглед на нашите критерии.

Какво обикновено вземате предвид, когато настройвате вашата инфраструктура? Уведомете ни в коментарите по-долу и може би ще го добавим към нашия списък :)