Саммит Datahack от Analytics Vidhya для машинного обучения и искусственного интеллекта

Я Дипак Марат, инженер данных, интересующийся машинным обучением.
Вот мой опыт и идеи, полученные на саммите Datahack от Analytics Vidhya для машинного обучения и искусственного интеллекта.

Я нахожу поразительное сходство с идеями о том, что «меньше значит больше» (Роберт Бабич в контексте аудиоинженерии), напоминающими методы обрезки данных и уменьшения размерности в науке о данных.

Многие согласны с идеей простоты. Это одна из методологий проектирования, о которой я слышал, как говорил Венкатеш Субраманьян — KISS (Keep It Simple, Stupid!) в разработке программного обеспечения, которая также применяется в области науки о данных.

Панельная дискуссия выявила проблемы и решения в области науки о данных, методологий и лучших практик, которые востребованы отдельными лицами или организациями.

Цель.
Подключиться к бизнесу, чтобы извлечь ценную информацию из данных.

Задачи:

  • специалист по данным или инженер увлекается техническими вещами, но не подключается к бизнесу
  • отсутствие стратегии проверки данных — концепция, аналогичная тестированию программного обеспечения.
  • KISS: разбивать проблемы на части и решать их проще, чем обращаться с ними как с черным ящиком.
  • Мониторинг самой модели, а не вывода модели. По мере изменения данных меняется среда.
  • Работа с несбалансированными/неполными наборами данных имеет много возможностей.

Методология | Мудрость:

  • Сначала попробуйте простые алгоритмы, а затем переходите к более сложным.
  • Точность — это не единственное соображение, но большое значение имеет ремонтопригодность.
  • Это путешествие, которое мы начинаем с ноутбука Jupyter, к моделям машинного обучения, развернутым на производственных машинах.
  • Наука о данных является экспериментальной и эвристической. Лучше всего взломать и сделать это простым. Поймите основы.
  • 2 способа решить проблему:
    а) Направить данные в модель глубокого обучения
    б) Спроектировать модель вручную — разработанная человеком модель признаков. разбивая это на более простые задачи и не теряясь в математике!
  • Избавление от данных важно. Сама модель может выкинуть фичу. Существуют проекты, в которых количество появлений объекта в дереве влияет на его вес. Точность больше, когда какая-то фича выброшена. сохранить функции с меньшей корреляцией и отсеять остальные. Это экономит время вычислений! Иметь много информации — это хорошо, но как майнер данных вы должны выбрасывать данные.
  • Бизнес сложный — каждый вопрос требует углубиться в данные. Тыкайте под разными углами, чтобы получить много точек зрения и обогатить понимание.

Вопрос по направлениям: инструменты или алгоритмы?

Киран Р., директор по науке о данных и расширенной аналитике, считает, что класс проблем зависит от типа бизнеса. Кэптивная фирма может работать с составленным списком клиентов и т. д. Корпорации используют SAAS. Компании-производители полагаются на R и Python. Python предпочтительнее, потому что его легче начать и проще подключить к программному обеспечению.
Ответ: Лучше знать больше инструментов. Если у вас есть молоток, все выглядит как гвоздь! Иногда выбор инструмента не с нами.

Вопрос о подходе к освоению науки о данных: проектное обучение или решение проблем реального мира?
Существует много контента, и учащиеся выясняют, что они хотят изучать. Руководство должно быть предоставлено, когда застрял.

Некоторые жаргоны, с которыми я столкнулся сегодня:
Базовая теория вероятностей
Дерево решений
Логистическая регрессия
Нейронные сети
Машина опорных векторов
Случайный лес
Повышение XG

Я встретил доктора Марию Вани, и общение привело к интенсивному обмену идеями, по крайней мере, в течение получаса. Она также верит в баланс между работой и жизнью! Все восходит к Даниэлю Канеману и его бестселлеру — думать быстро и думать медленно. Способ сбалансировать жизнь в ее нынешнем виде — это Работа, Отношения, Отдых и Сон, и это работает для меня. Итак, ребята, вы делаете математику сейчас! Доктор Мария Вани согласна со стратегией и находит сходство с культурой труда, существующей во многих европейских странах, а также в Австралии. Как оказалось, вот ваше резюме панельной дискуссии, на которую вы не смогли попасть сегодня!