Нет никаких сомнений в том, что библиотеки с открытым исходным кодом и инструменты с открытыми данными делают науку о данных доступной для всех, особенно для тех, кто только начинает работать в этой интересной области, пользующейся большим спросом. В предыдущем посте я рассказал о том, как бесплатный и простой сервис Data Scientist Workbench демократизирует изучение и практику науки о данных и анализа больших данных. В этом посте я немного расскажу о некоторых недавних дополнениях к Workbench.

Если вы используете Data Scientist Workbench в течение нескольких недель, вы, возможно, заметили, что после входа в Workbench через неделю или около того вы видите изображение милой собаки, взволнованно подпрыгивающей и говорящей: «ЭЙ, ПОСМОТРИТЕ НОВЫЕ ИГРУШКИ!!!» :

Это потому, что обычно раз в неделю мы выпускаем новые функции (и исправления ошибок) для Workbench. Мы не сразу автоматически обновляем вашу рабочую среду, но позволяем вам просмотреть журнал изменений и решить, хотите ли вы самые последние и самые лучшие вкусности (что, как мы знаем, делает большинство из вас ;-)

За последние пару месяцев мы добавили в Data Scientist Workbench множество полезных функций, таких как проводник «Мои данные», Sparkling.Data, Python3, TensorFlow, Scikit-Learn, ggplot2.SparkR, R Shiny, Graphviz и т. д. воспользуюсь случаем, чтобы рассказать о некоторых из них.

Sparkling.data
Очистка и подготовка данных для анализа — это задачи, которым специалисты по обработке и анализу данных обычно уделяют большую часть своего времени. Data Scientist Workbench поставляется с OpenRefine для помощи в подготовке данных. Но иногда вы можете предпочесть уточнить свои данные непосредственно в инструменте, в котором вы будете анализировать данные, например, в своих записных книжках. Чтобы помочь в этом, IBM предоставила библиотеку Sparkling.data (имеется в виду очистка данных с помощью Spark), которая была предварительно установлена ​​в ноутбуках Zeppelin и Jupyter. Учитывая каталог/местоположение, содержащее несколько файлов разных типов (в том числе в подпапках), библиотека Sparkling.data обнаруживает ваши типы файлов и возвращает фрейм данных, загруженный данными из наиболее часто встречающегося типа файла (по умолчанию). Вы можете использовать его для вывода схемы, обнаружения типов данных, наборов данных профиля и просмотра диапазона данных, распределения и т. д., выявления и исправления неверных данных и сохранения результатов. Data Scientist Workbench содержит учебные пособия, которые помогут вам начать работу с этой библиотекой.

TensorFlow
Одна из задач, которую решают некоторые специалисты по данным, — создание моделей для рекомендаций или прогнозов. Чтобы помочь в этом, мы предварительно установили TensorFlow в ноутбуки Jupyter в Data Scientist Workbench. TensorFlow — это библиотека машинного интеллекта для обучения нейронных сетей обнаружению и расшифровке шаблонов и корреляций с использованием графов потоков данных, исходный код которой был открыт Google несколько месяцев назад. Как и ожидалось, мы предоставляем руководство, которое поможет вам начать работу с TensorFlow в Data Scientist Workbench. (И, говоря о машинном обучении, вы также найдете поваренную книгу с библиотекой scikit-learn для Python, содержащей различные алгоритмы классификации, регрессии и кластеризации).

R Shiny
После того, как данные подготовлены и создана модель для их анализа, специалист по данным обычно создает визуализации, чтобы поделиться результатами анализа с другими. Чтобы помочь с этим аспектом работы Data Scientist, мы установили Shiny в Rstudio IDE в Data Scientist Workbench. Shiny позволяет создавать интерактивные приложения для работы с данными, которые можно использовать с помощью веб-браузеров. На Shiny есть много классных примеров и руководств, и эта статья может оказаться полезной для того, чтобы вы начали работать с Shiny в Data Scientist Workbench.

Если вы еще не получили свой бесплатный Data Scientist Workbench, вы можете начать здесь. Или, если вы хотите узнать больше о науке о данных, Spark, SQL, Hadoop, R, Python или Scala, вы можете пройти бесплатные курсы в Университете больших данных.