Данные; базовая потребность в обучении моделям машинного обучения и глубокого обучения.

Здесь мы обсудим главную проблему науки о данных, связанную с данными, и способы ее решения:

  1. Сколько данных требуется для обучения?
  2. Согласованы ли доступные данные?

Потребность в данных зависит от проблемы, тогда как требование к размеру данных зависит от типа алгоритма (машинное обучение или алгоритм глубокого обучения). Обычно методы машинного обучения требуют меньше данных по сравнению с методами глубокого обучения.

Почему мы говорим о данных?

Для решения проблемы должны быть некоторые факты и цифры, которые могут помочь в решении проблемы, а также прийти к положительному заключению. Однако с данными существуют две основные проблемы:

  1. Недостаточный объем данных
  2. Несбалансированные данные

Первая проблема также может иметь свое наихудшее состояние, когда дело доходит до конфиденциальности данных пользователя, точно так же, как Google, Facebook, Twitter имеют пользовательскую информацию, которая может включать, кого вы знаете и насколько вероятно, что они свяжутся с вами, куда вы хотите пойти по особым случаям, каковы ваши интересы и даже некоторые дополнительные сведения, но поэтому эти данные не доступны публично, даже если компания предоставит данные, они анонимизируют некоторые поля в данных, поэтому они могут пойти на сторону несбалансированные данные из-за анонимности поля могут быть хорошей функцией для алгоритма.

похоже, что синтетические данные решают эти проблемы.

Что такое синтетические данные?

Синтетические данные обладают всеми качествами исходных данных. Точно так же, как таблица содержимого такая же, и содержимое не принадлежит ни одной сущности в реальном мире, но имеет тот же класс, что и реальные данные.

Решение. У нас есть данные, но их недостаточно для обучения алгоритму. Выбор состоит в том, чтобы либо создать больше данных, которые выглядят как настоящие, либо получить реальные данные, что иногда невозможно. Тот же сценарий случая с нестабильными данными, который похож на пропущенное так много значений в таблице, если мы обучаем модель на этом виде данных, это либо недостающие данные, заполненные значением NA, либо среднее значение, если значения являются числовыми или, возможно, некоторыми другими значениями, но цель этих значений не что иное, как просто заполнить пустое пространство, но что, если эти пустые пространства заполнены чем-то, что действительно имеет значение ?. Эти значения могут быть созданы с помощью синтетических данных. Когда дело доходит до табличных данных, существует библиотека, которая эффективно выполняет эту работу.

Вот ссылка на эту библиотеку, а также пример. Эта библиотека основана на архитектурах GAN (Генеративные состязательные сети).



Здесь я показываю результат сгенерированных данных кредитной карты.