Какво прави въглеродните молекули толкова специални

Химическата информатика е разрастваща се област, успоредно с подобни на ИИ поради една причина: увеличаването на наличните данни. Не се очаква неудържимият растеж на данните да се забави, като докладите показват, че данните са се очаква да се удвоява на всеки 2 години през следващото десетилетие.

Това е важно, тъй като исторически, точността и прецизността на нашите изчислителни алгоритми са били ограничени само от данните, които им предоставяме.

Но докато популярните типове данни като текстови, визуални и цифрови са нараснали в по-голям брой, химическата информация е в застой.

Има много причини за тази липса на данни:

  1. Няма един стандартен формат за химически данни
  2. Химическите данни са дискретни и много крехки
  3. Експерименталните данни често се маргинализират и пазят в тайна

Най-добрият начин да заобиколите проблема с данните е да направите най-доброто с това, което ви е дадено, в противен случай създайте свои собствени данни. За щастие, няма недостиг на немаркирани химични данни онлайн от щедри сайтове като Chemspider, Pubchem и Chemexpr. Немаркираните данни са идеални за неконтролирано обучение, където входните данни не трябва да идват с предварително зададен съответен списък от етикетирани набори от данни.

Използвайки немаркирания въглероден каталог на Pubchem, създадох дълбок автоенкодер, с който латентният слой се състои от това, което невронната мрежа (NN) смяташе за най-важните детайли в немаркирания набор от данни SMILES.

Проект въглероден код

Автокодерите са тип архитектура на невронна мрежа, при която изходът е умишлено обучен да бъде възможно най-сходен с входа.

Ако въведете снимка на цвете, резултатът трябва да изглежда възможно най-подобен на оригиналното цвете.

Има някак си естетически приятна симетрична форма. Данните се компресират в латентния слой, оцветен в червено, подобно на компресиране на файл. Автоматичните енкодери обаче не санепременнопо-добри от другите алгоритми за компресиране. Така че имаме алгоритъм, който извежда нещо много подобно на своя вход и това всъщност не е по-добро от другите алгоритми за компресиране; За какво са добри автоматичните енкодери тогава?

Автокодерите са полезни заспецифичничасти от неговата архитектура; скрит слой. Известен също като латентен слой, той по същество е кондензиран и концентриран слой на най-важните характеристики на данните.

Това прави автоматичните енкодери идеални за намаляване на размерите и намаляване на шума.

Проектът е разделен на 4 части:

  1. Импортиране и нормализиране на данните от низа SMILES
  2. Превеждане на нормализирани низове в един горещ вектор
  3. Изграждане на дълбок модел NN
  4. Компилиране на модела и напасване на данните

Наборът от данни е списък от над 12 000 въглеродни молекули. Избран е един елемент, така че латентният слой на автокодера да може да научи характеристики, които правят въглеродните молекули уникални в сравнение с всички други елементи. Въглеродът също беше избран, тъй като е един от най-гъвкавите елементи, следователно има по-голям набор от данни с по-голямо разнообразие, предимство за намаляване на прекомерното оборудване.

Автокодерът е обучен да разпознава загубата между своя вход и изход, така че моделът да се научи да възпроизвежда най-добре дадения вход. Входните слоеве се състоят от 63 възли, преминаващи през още 2 филтъра с размер 32 и 14. Всеки слой намалява приблизително наполовина броя на възлите, докато достигне пречка от 7 възли в латентния слой. След завършване на процеса на кодиране, операцията се обръща и броят на възлите на слой на декодера се увеличава симетрично спрямо енкодера. Следователно обученият модел има твърдо разбиране за уникалната структура на въглеродните молекули.

Човек може да мисли за него като за бутилка от онази магическа есенция, която прави въглерода толкова гъвкав.

Веднъж обучен, латентният слой може да се използва в генеративен модел, превръщайки ванилия автоенкодер във вариационен автоенкодер (VAE). Теоретично този VAE би могъл да генерира нови въглеродни молекули, някои от които могат да бъдат полезни в материалознанието, нанотехнологиите или биотехнологиите. Моделът може да се използва и като основа за състезателен автоенкодер (AAE), друг тип генеративен алгоритъм, който превъзхожда VAE в изследователски експерименти по отношение на генерирането на молекули като лекарства.

Латентният слой осигурява основата за цял набор от нови прозрения за данните, които компресира. ИИ може потенциално да открие модели или характеристики в данни, които не са ни били известни преди.

Целият код и набори от данни за Project Charged могат да бъдат намерени в моя Github, в това хранилище.

Току-що започнахме да използваме ИИ, за да помогнем на изследователите в научните дисциплини да ускорят своите методи, да произведат по-точни резултати и да осигурят валидиране на своите хипотези. Тъй като предимствата стават все по-известни и сътрудничеството между експерти в двете области се отхвърля, нашите набори от данни ще растат, както и силата на нашия ИИ.

Ключови изводи

  1. Данните вече са един от най-ценните ресурси в света, но все още е рядкост да се намерят чисто етикетирани химически данни
  2. Автоматичните енкодери изглеждат контраинтуитивни, но имат огромен потенциал за една специфична част от своята архитектура: латентния слой
  3. Автоенкодерите компресират и извличат най-важните детайли от входните данни; можем да използваме тази компресия в генеративния ИИ
  4. Вариационни автоенкодери и Adversarial автоенкодери вече правят вълни в областта на генеративния AI и научната общност

Все още четете това? Искам още? Не сте сигурни какво да направите след това?

  • Споделете го в LinkedIn, Facebook или Twitter! (И ме добавете, докато сте там)
  • Разгледайте моето портфолио за още страхотни проекти, съдържание и актуализации!
  • Обърнете се към всяка платформа за въпроси, сътрудничество и идеи!

Нататък!