The PJC Synthetic Data Thesis — Защо инвестирахме в Synthesis.AI

Синтетичните данни са трудна концепция за разбиране, когато сте изложени на тях за първи път. По принцип това означава, че създавате фалшиви данни, които да поставите в модел за машинно обучение, така че той да работи по-добре, тъй като сам по себе си няма достатъчно данни. Повечето хора, като чуят това, си мислят, че звучи така, сякаш измисляме неща за нашите модели за машинно обучение. В тази публикация ще се опитам да обясня синтетичните данни с гледна точка на неспециалистите, да обясня някои случаи на употреба, да подчертая тезата на PJC и да обсъдя нашата инвестиция в Synthesis.ai.

Какво представляват синтетични данни?

Първото нещо, което трябва да знаете за синтетичните данни е, че има случаи на употреба, в които работят, и случаи, в които не работят. Повечето от ранните играчи на синтетични данни бяха фокусирани върху самоуправляващите се автомобили. Една кола може да се движи толкова бързо по света, като събира данни, и може да пропусне някои сценарии, които можем да си представим. За да преодолеем това, какво ще стане, ако изградим виртуален свят и оставим колата да се движи в него? Да, липсват му някои функции от реалния свят, но все още са валидни данни в модела за машинно обучение, който управлява колата.

Това може да се разшири до друга идея, но не всяка идея. За да генерирате добри синтетични данни, имате нужда от две неща. Първо, имате нужда от извадка от реални данни и второ, имате нужда от идея дали можете да генерирате добри синтетични данни от тези реални данни. Трябва да разберете пространството на това, което е възможно.

Примери за синтетични данни

Като друг пример, кажете, че искам да създам робот, който събира алуминиеви кутии от боклука. Тези консерви могат да се мачкат по хиляди различни начини. Ако имам 10 снимки на смачкани кутии от Coca-Cola, това може да не е достатъчно, за да обуча модел за машинно обучение да идентифицира кутии с достатъчно висока скорост. Имам нужда от още данни. Единият вариант е да смачкате още 5000 кутии, по най-различни начини, при най-различно време, оставяйки ги до най-различни неща на депото. Това е скъпо. По-лесният вариант е да взема физически двигател и да създам 5000 фалшиви изображения на смачкани консерви, които да добавя към моя набор от данни, които са базирани на истинската смачкана консерва.

Синтетичните данни работят добре, когато настройването на истинска снимка е лесно. Ако използвате модел за машинно обучение, за да отключите телефона си с лицето си и той не работи добре поради необичайно осветление или защото понякога носите очила или шапки или имате лицево окосмяване, мога да ви направя една реална снимка и създавайте бързо много реалистични картини, на които сте с очила, с шапка, с различна прическа и т.н.

За някои области обаче синтетичните данни работят по-малко добре. Имайки предвид 100 изречения на английски, може да не успея точно да генерирам 10 000 синтетични английски изречения, които да вложа в модел на НЛП. Изреченията може да са много основни и да не са полезни за модела. Важно е да знаете кога можете да използвате синтетични данни и кога не.

Ако искате да прочетете нещо по-техническо като пример, ето блог публикация от екипа на Google AI за това как Synthesis.ai е помогнал за създаването на набор от синтетични данни за тях.

Тезата на PJC

Синтетичните данни са много много ранни като пространство. Така че, ако четете това повече от 6 месеца след публикуването му, вероятно тезата ни се е променила въз основа на това, което сме научили и какво се е случило на пазара. Но в момента нашата теза е следната:

Техниките за изкуствен интелект с малки данни все още са далече и затова данните остават основен блокер за обучение на модели за машинно обучение за определени задачи.
Напредъкът в генерирането на данни, особено с GAN, прави синтетичните данни по-лесни от всякога.
Все повече и повече приложения ще имат вградени ML модели и синтетичните данни ще бъдат най-рентабилният начин за изграждане на набори от данни за много от тези модели.
Производителността на тези модели ще варира с течение на времето, тъй като случаите на използване се разширяват, базовите набори от данни се променят и други неща влияят на моделите. Така че моделите ще трябва постоянно да се променят с нови данни.
Текущият работен поток на софтуера за идентифициране на грешка, разбиране на причината, коригирането й, преглед на корекцията на кода и публикуването й в кодовата база е подобен на работния процес, който ще се разработи за модел. Даден модел ще се представи по-слабо в определени производствени случаи, ще бъде подаден „бъг“, специалист по данни ще разбере какви данни могат да подобрят модела, тези данни ще бъдат генерирани, новият модел ще бъде тестван, след което новият модел ще бъде публикуван .
В повечето случаи генерирането на синтетични данни ще се възползва от мащаба и затова ще има по-голям смисъл да наемете платформа, която да го направи, вместо да създавате свои собствени вътрешни инструменти за синтетични данни.
Като такива, победителят(ите) в пространството на синтетичните данни ще бъдат тези, които се намират в пресечната точка на а) най-добри случаи на употреба и б) най-добра интеграция към съществуващи работни потоци.

Голяма част от това може да се окаже невярно. Синтетичните данни може да са твърде трудни за генериране за повечето случаи на употреба. Може да е нещо, което хората използват за стартиране на минимални жизнеспособни модели, но не е необходимо за коригиране на модели по-късно. Възможно е AI с малки данни да стига тук достатъчно бързо, за да не се нуждаем от повече данни. Но ние работим в свят на висока несигурност и това са рискове, с които се чувстваме комфортно.

Нашата инвестиция в Synthesis.ai

Когато разгледахме пазара на синтетични данни и решихме да заложим, по-голямата част от компаниите, които видяхме, бяха просто идеи или прототипи. Все още много малко хора работят в независими компании. Synthesis вече имаше някои публикувани изследвания на случаи на използване на синтетични данни и вече имаше някои плащащи клиенти. Клиентите, с които разговаряхме, харесаха продукта и всички казаха, че планират да използват повече синтетични данни в бизнеса си с течение на времето, а тези в пилотните проекти очакваха да имат корпоративен лиценз за Synthesis в бъдеще.

Изпълнителният директор, Яшар Бехзади, е докторска степен със силен опит в тази работа и предишен опит в стартирането. Ръководителят на продуктовия отдел Матю Мур е експерт по синтетични данни за роботиката и предприемач, когото подкрепях преди, когато инвестирах като ангел. Те са се обградили със страхотна група съветници, инвеститори и ранни клиенти.

Техният подход на мислене за работни потоци със синтетични данни и интегрирането на инструменти, което ще изисква, съвпадна с нашия, така че инвестицията изглеждаше чудесно подходяща. Така че днес сме развълнувани да обявим, че сме инвестирали в Synthesis.ai. (Забележете, това е втората ми инвестиция в PJC).

Напред със синтетичните данни

Ако сте изпълнителен директор или технолог и установите, че ви липсват данните, от които се нуждаете за високоефективни модели за машинно обучение, не се колебайте да се свържете с нас, ако искате въведение в екипа на Synthesis. Те вече имат впечатляващ списък с клиенти.

Ако сте предприемач, работещ в областта на синтетичните данни и не се конкурирате със Synthesis.ai, моля, свържете се и ни разкажете за вашия бизнес. Предвиждаме да направим повече инвестиции в това общо пространство.

The PJC Synthetic Data Thesis — Защо инвестирахме в Synthesis.AI

Подобни въпроси