Данни; основна нужда от машинно обучение и обучение по модели за задълбочено обучение.

Тук ще обсъдим основния проблем в науката за данните, свързан с данните, и как можем да го разрешим:

  1. Колко данни са необходими за обучение?
  2. Съгласувани ли са наличните данни?

Нуждата от данни зависи от проблема, докато изискването за размера на данните зависи от типа на алгоритъма (машинно обучение или алгоритъм за дълбоко обучение). Обикновено техниките за машинно обучение се нуждаят от по-малко данни в сравнение с техниките за дълбоко обучение.

Защо говорим за данни?

За да разрешите проблем, трябва да има някои факти и цифри, които могат да помогнат за разрешаването на проблема, както и за достигане до благоприятно заключение. Съществуват обаче два основни проблема с данните:

  1. Недостатъчно количество данни
  2. Небалансирани данни

Първият проблем също може да има най-лошото си състояние, когато става въпрос за поверителност на потребителските данни, точно както Google, Facebook, Twitter разполагат с потребителска информация, която може да включва, кого познавате и каква е вероятността да се свържат с вас, къде обичате да ходите по специални поводи, какви са вашите интереси и дори още някои подробности, но тези данни не са публично достъпни, дори ако компанията предостави данните, те ще анонимизират някои полета в данните, така че може да отидат отстрани на небалансираните данни, тъй като полето е анонимизирано, може да са добра характеристика за алгоритъм.

изглежда, че синтетичните данни имат решение за тези проблеми.

Какво представляват синтетични данни?

Синтетичните данни, които имат всички качества на оригиналните данни, точно както съдържанието е същото и съдържанието не принадлежи на нито един обект в реалния свят, но има точно същия клас като реалните данни.

Решение:Имаме данни, но не са достатъчни, за да може алгоритъмът да се учи. Изборът е или да създадем повече данни, които изглеждат като истински, или да получим реалните данни, което понякога е невъзможно. Същият сценарий с нестабилни данни, това е като липсващи толкова много стойности от таблицата, ако обучим модела на този вид данни, липсващите данни се попълват с NA стойност или средната стойност, ако стойностите са числени или може би някаква друга стойност, но целта на тези стойности не е нищо друго освен просто да запълнят празното пространство, но какво ще стане, ако тези празни пространства са запълнени с нещо, което всъщност има смисъл?. Тези стойности могат да бъдат генерирани със синтетични данни. Има библиотека, която върши тази работа ефективно, когато става въпрос за таблични данни.

Ето връзката към тази библиотека, а също и пример. Тази библиотека е базирана на GAN (Generative adversarial networks) архитектури.



Тук показвам резултата от генерираните данни за кредитна карта.