Накратко за най-новите разработки в Big Data, AI, машинно обучение, IoT, облак и др.

Пътуване към AI

„Нещото, което ще направи изкуствения интелект толкова мощен, е способността му да учи, а начинът, по който AI учи, е да погледне човешката култура.“ – Дан Браун

Пътуването към AI е мястото, където сега са много компании и организации. Повечето от тях са достигнали етап на събиране на данни — те знаят как да изградят бързи и стабилни канали за данни и са създали огромни складове за данни и езера от данни. Но сега те се опитват да приложат модели и алгоритми за машинно обучение към тези данни - и решаването на този проблем се оказа болезнено за много играчи на големи данни.

Много разговори предложиха преминаване от организация, управлявана от процеси, към организация, управлявана от данни. Вслушването в нашите клиенти, анализирането на вътрешните ни показатели и намирането на прозрения от всичките ни данни са необходими, за да бъдем конкурентоспособни в днешно време – и това е мястото, където се очаква машинното обучение („ML“) да помогне.

Горещи теми

„Големите данни знаят и могат да изведат повече за вас, отколкото Биг Брадър някога би могъл.“ – Тоомас Хендрик Илвес

DataWorks Summit е огромна конференция с около 70 пистови сесии, интензивни курсове и bird-of-a-feather сесии. Въпреки това, всички те могат да бъдат свързани с една от групите по-долу.

  1. Придобиване на данни и качество на данните — това е началото за всяка компания за големи данни. Трябва да знаете как да събирате данни, да създавате ETL процеси и да гарантирате качество на данните. Apache NiFi беше най-използваният инструмент за автоматизация на преноса на данни. Apache Spark беше доста популярен и бяха обсъдени различни аспекти от него, като нови функции в Spark 3.0, как да го стартирате в Kubernetes, да правите машинно обучение и т.н.
  2. Сигурност на данните — поверителността и сигурността на данните са централни за всяка организация с големи данни. Много сесии бяха свързани със защитено съхранение на данни, защитен трафик, управление на роли и разрешения и други подобни. Регламенти като GDPR и HIPAA трябва да се прилагат внимателно и щателно. Много разговори прогнозираха огромна нужда от специалисти по киберсигурност след няколко години. Най-горещите инструменти в това пространство бяха Apache Ranger, Apache Metron и Apache Knox.
  3. Тръбопроводи за корпоративни данни — големи компании като IBM и Cloudera се опитват да опростят пътуването с големи данни и ML за предприятията. Те предоставят платформи „всичко, от което се нуждаете“, където можете да създадете сложна линия за събиране, обработка и анализ на данни почти с нулеви умения за кодиране. Освен това те предоставят сигурни решения за съхранение на данни.
  4. Машинно обучение — Сега всеки се опитва да реши проблема с прилагането на машинно обучение към своите данни. Огромни компании имат огромни складове за данни и търсят нови начини да извлекат информация от тях. Всички те изграждат ML тръбопроводи – и всички го правят по различен начин. Тук има голям технологичен зоопарк.
  5. DataOps — днес се появява много необходима нова професия, за да се справя с много инфраструктурна работа, свързана с данни и тръбопроводи за машинно обучение. В повечето случаи специалистите по данни нямат достатъчно познания за тази работа, тъй като тя изисква опит в толкова много области, като мрежи, облачни технологии, CI/CD инструменти и т.н.
  6. Поточно предаване— компаниите преминават към реално време. Те заменят традиционната групова обработка с инструменти за стрийминг. Apache Kafka е най-използваният инструмент в тази област, допълнен от Spark Streaming. Apache Druid, високопроизводителна база данни за анализи в реално време, беше спомената няколко пъти. Очакваме огромен технологичен тласък, свързан с поточното предаване и обработката на времеви серии, особено с постоянния растеж на IoT компаниите. И това повдига въпрос - как можем да приложим и подобрим ML моделите за поточно предаване на данни?
  7. Тестване на тръбопровода за данни — това е логичната крайна точка за еволюцията на всеки тръбопровод за данни — как можем да гарантираме тяхното качество и как можем да автоматизираме този процес? Днес няма лесен начин да направите това. Трябва да контролирате всяка стъпка, от тестване на единица SQL заявки и задание на Spark до извършване на инфраструктурни тестове с голямо натоварване. Все повече и повече инструменти ще се появяват в тази област.

Бъдеще

Вдъхновени от възможностите на ML и AI, бихме искали да изброим няколко точки от визията за нашето бъдеще от известната футуристка Софи Хакфорд.

  • Платформи за интелигентни аватари — всеки ще има аватар, който ще помогне да се опрости нашия човешки живот. Тяхната цел ще бъде решаването на всички сложни проблеми във финансите, правото, застраховането и други области.

  • Цифрово безсмъртие — сега има толкова много въпроси относно цифровото безсмъртие. Трябва ли да премахнем всички цифрови ресурси след смъртта на човека, като Facebook страница, Twitter и т.н.?
  • Човешки изходен код — идеята за представяне на човека като изходен код, както можем за компютърните програми днес. Това би ни позволило да направим толкова много невероятни неща, включително телепортиране.
  • Безкрайни машини и квантови компютри — те идват и с тях ще можем да разрешим много сложни проблеми в генетиката, физиката, сигурността и т.н.

Надявам се, че сте харесали този малък доклад от срещата на върха. #everythingwillbebigdata

Ако ви харесва, че току-що сте прочели, моля, натиснете бутона „Препоръчай“ по-долу, за да могат други да се натъкнат на тази история. За повече истории ни последвайте в Среден.

Искате ли да научите повече за GreenM? Намерете ни във Facebook или следвайте в Instagram.