Вкратце о последних разработках в области больших данных, искусственного интеллекта, машинного обучения, Интернета вещей, облачных вычислений и многого другого.

Путешествие к ИИ

«То, что сделает искусственный интеллект таким мощным, - это его способность учиться, а способ обучения ИИ - это взгляд на человеческую культуру». - Дэн Браун

Путешествие к ИИ - это то место, где сейчас находятся многие компании и организации. Большинство из них достигли стадии сбора данных - они знают, как построить быстрые и надежные конвейеры данных и создали огромные хранилища данных и озера данных. Но теперь они пытаются применить к этим данным модели и алгоритмы машинного обучения, и решение этой проблемы оказалось болезненным для многих игроков, работающих с большими данными.

Во многих разговорах предлагалось перейти от организации, «управляемой процессами», к организации, «управляемой данными». Чтобы быть конкурентоспособными в настоящее время, необходимо прислушиваться к мнению наших клиентов, анализировать наши внутренние метрики и находить понимание всех наших данных, и в этом, как ожидается, поможет машинное обучение (ML).

Горячие темы

«Большие данные знают и могут сделать о вас больше, чем когда-либо Большой Брат». - Тоомас Хендрик Ильвес

DataWorks Summit - это огромная конференция, включающая около 70 трековых сессий, ускоренных курсов и сессий «птички пера». Однако все они могут быть отнесены к одной из следующих групп.

  1. Сбор данных и качество данных - это начало для любой компании, занимающейся большими данными. Вы должны знать, как собирать данные, создавать процессы ETL и гарантировать качество данных. Apache NiFi был наиболее часто используемым инструментом для автоматизации передачи данных. Apache Spark был довольно популярен, и обсуждались различные его аспекты, такие как новые функции в Spark 3.0, его запуск в Kubernetes, машинное обучение и т. Д.
  2. Безопасность данных - конфиденциальность и безопасность данных имеют ключевое значение для любой организации, занимающейся большими данными. Многие сеансы были связаны с безопасным хранением данных, безопасным трафиком, управлением ролями и разрешениями и т. Д. Такие правила, как GDPR и HIPAA, должны строго соблюдаться. Многие разговоры предсказывали огромную потребность в специалистах по кибербезопасности через несколько лет. Самыми популярными инструментами в этой области были Apache Ranger, Apache Metron и Apache Knox.
  3. Enterprise Data Pipelines - крупные компании, такие как IBM и Cloudera, пытаются упростить для предприятий переход на большие данные и машинное обучение. Они предоставляют платформы «все, что вам нужно», на которых вы можете создать сложный конвейер сбора, обработки и анализа данных практически без навыков программирования. Кроме того, они предоставляют решения для безопасного хранения данных.
  4. Машинное обучение. Сейчас все пытаются решить проблему применения машинного обучения к своим данным. Огромные компании имеют огромные хранилища данных и ищут новые способы получить от них информацию. Все они создают конвейеры машинного обучения - и все делают это по-разному. Здесь есть большой технологический зоопарк.
  5. DataOps - сегодня появляется столь необходимая новая профессия, которая занимается большим объемом инфраструктурной работы, связанной с данными и конвейерами машинного обучения. В большинстве случаев у специалистов по обработке данных недостаточно знаний для этой работы, поскольку она требует опыта во многих областях, таких как сети, облачные технологии, инструменты CI / CD и т. Д.
  6. Стриминг - компании переходят в режим реального времени. Они заменяют традиционную пакетную обработку инструментами потоковой передачи. Apache Kafka - наиболее часто используемый инструмент в этой области, дополненный Spark Streaming. Несколько раз упоминалась высокопроизводительная аналитическая база данных в реальном времени Apache Druid. Мы ожидаем огромного технологического роста, связанного с потоковой передачей и обработкой временных рядов, особенно с постоянным ростом компаний, занимающихся IoT. И здесь возникает вопрос - как мы можем применить и улучшить модели машинного обучения для потоковой передачи данных?
  7. Тестирование конвейера данных - это логическая конечная точка для развития любого конвейера данных - как мы можем гарантировать их качество и как мы можем автоматизировать этот процесс? Сегодня нет простого способа сделать это. Вы должны контролировать каждый шаг, от модульного тестирования SQL-запросов и задания Spark до выполнения высоконагруженных тестов инфраструктуры. В этой области будет появляться все больше и больше инструментов.

Будущее

Вдохновленные возможностями машинного обучения и искусственного интеллекта, мы хотели бы перечислить несколько моментов из видения нашего будущего известной футуристки Софи Хакфорд.

  • Платформы для интеллектуальных аватарок - у каждого будет аватар, который поможет упростить нашу человеческую жизнь. Их цель будет заключаться в решении всех сложных проблем в финансах, юриспруденции, страховании и других сферах.

  • Цифровое бессмертие - сейчас так много вопросов о цифровом бессмертии. Следует ли нам удалить все цифровые ресурсы после смерти человека, например страницу в Facebook, твиттер и т. Д.?
  • Исходный код человека - идея представления человека в качестве исходного кода, как мы можем сделать это сегодня для компьютерных программ. Это позволило бы нам делать так много невероятных вещей, включая телепортацию.
  • Машины бесконечности и квантовые компьютеры - они приходят, и с ними мы сможем решить множество сложных проблем в генетике, физике, безопасности и т. Д.

Надеюсь, вам понравился этот небольшой отчет о саммите. #everythingwillbebigdata

Если вам нравится то, что вы только что прочитали, нажмите кнопку Рекомендовать ниже, чтобы другие могли наткнуться на эту историю. Чтобы узнать больше, подпишитесь на нас на Medium.

Хотите узнать больше о GreenM? Найдите нас на Facebook или подпишитесь на Instagram.