Публикации по теме 'data-engineering'


Распределение зарплат на ведущих должностях в области науки о данных
Распределение зарплат на ведущих должностях в области науки о данных Машинное обучение, НЛП, Инженер данных и Специалист по данным, и что значит быть в каждой роли Оглавление Вступление Инженер по машинному обучению Инженер по обработке естественного языка Инженер по данным Специалист по данным Резюме использованная литература Вступление При рассмотрении заработной платы специалистов по данным и их ролей стало очевидно, что в науке о данных есть разные, более..

Когда появятся баги? Моделирование машинного обучения в BigQuery для прогнозирования следующей вспышки ошибок
Во-первых, с Новым годом 🎉 Поскольку лето в Австралии набирает обороты, мы начали 2020 год с небольшого веселья, пытаясь ответить на вопрос, который все думают в Австралии в это время года (особенно моя жена и дети!), а именно — когда будут баги?! Это предсказывает вспышки тараканов и комаров (также известных как москиты). Проект по прогнозированию ошибок фактически собрался еще в октябре. У нас было достаточно времени для исследования, итерации и тестирования, прежде чем летний сезон —..

Как автоматизировать сравнение наборов данных с помощью Terraform и BigQuery
Проверка наборов данных упрощается благодаря автоматизации В своей повседневной работе я должен заботиться о качестве данных, и я просто меняю способ создания и сбора данных. Теперь я должен убедиться, что данные согласуются между старой и новой процедурами. Давайте посмотрим, сможем ли мы автоматизировать эту задачу с помощью Terraform и BigQuery. Как и я, вы, вероятно, также задаетесь вопросом, подходит ли для этого BigQuery ? Что ж, вероятно, использование BigQuery для этого..

Sparkify: мне остаться или уйти?
Как применять методы машинного обучения к данным с музыкальной платформы для удержания клиентов. 1. Определение проекта Sparkify — это вымышленное музыкальное приложение, используемое Udacity для имитации платформы потоковой передачи музыки. Пользователи Sparkify могут использовать бесплатную или платную версию для прослушивания песен. Каждый раз, когда пользователь взаимодействует с платформой, он генерирует данные, которые записываются в файл журнала. Сюда входят такие..

Внедрение отказоустойчивых систем машинного обучения, саммит по инженерии данных 18 января и главный…
Включение устойчивых систем машинного обучения Читайте дальше, чтобы узнать больше об устойчивых системах машинного обучения, которые быстры, точны и гибки, чтобы помочь с повседневными задачами. Создайте ИИ лучше с помощью лучших виртуальных сессий ODSC West 2022 Научитесь лучше создавать ИИ с помощью лучших виртуальных сессий ODSC West 2022, охватывающих такие темы, как генеративное моделирование и обучение с подкреплением. Десять самых важных репозиториев GitHub для..

Обработка медиафайлов в PySpark — Изображения, аудио и видеофайлы
Изучение обработки изображений, аудио и видео с помощью PySpark: особенности и преимущества вступление Pyspark предоставляет несколько API для работы с изображениями, аудио и видео файлами. В этой статье мы обсудим некоторые способы обработки этих файлов в PySpark: 1. Файлы изображений Для работы с файлами изображений в PySpark можно использовать библиотеку «Pillow». Вы можете использовать модуль «Изображение» от Pillow, чтобы открывать и управлять изображениями в PySpark. Вот..

JavaScript для инженеров данных
ИНЖИНИРИНГ ДАННЫХ JavaScript для инженеров данных Краткое введение в инструменты SQL с открытым исходным кодом на основе JavaScript, оркестровку и ETL для инженеров по данным Последний опрос разработчиков StackOverflow признал JavaScript самой популярной технологией, за которой следует SQL как третья по популярности технология. Первый считался языком сценариев / интерфейсов на стороне клиента до тех пор, пока несколько лет назад серверы на основе JavaScript не привлекли всеобщее..