Обобщение на състезанието за прогнозиране на механизмите на действие (MoA) на kaggle, където използвахме алгоритми за дълбоко обучение, за да прогнозираме MoA на нови лекарства.

Откриването на ново лекарство винаги е било дълъг процес, който отнема години. С последните постижения на AI и натрупването на изследователски данни в биологични бази данни, процесът на откриване на лекарства и темпото на изследване стават по-бързи от всякога. Изследователи в лабораторията за иновации и наука в Харвард работят по „проекта Connectivity MAP“ [1] с цел напредък в разработването на лекарства чрез подобрения на алгоритмите за прогнозиране на лекарства MoA. Това предизвикателство беше стартирано като „състезание на kaggle“ [2] с цел изграждане на модели за машинно обучение за прогнозиране на MoA на неизвестни лекарства.

1- Набор от данни:

Започваме с разбирането на набора от данни на конкуренцията: имаме набор от данни с генна експресия и данни за жизнеспособността на клетките като характеристики и 206 MoA като цели.

1–1 Характеристики на генната експресия:

Генната експресия се измерва за 772 гена в този набор от данни.

Генната експресия се измерва с L1000 анализ. Можете да научите повече за тази нова технология в Уеб страницата на картата на свързаността и в изследователската статия: Карта на свързаността от следващо поколение: Платформа L1000 и първите 1 000 000 профила, Cell, 2017 г. [3]

За по-голяма простота беше обяснено само едно експериментално условие. Всъщност едно единствено лекарство е профилирано няколко пъти при различни дози (ниски и високи) и различно време на лечение (24H, 48H и 72H).

1-2 характеристики на клетъчната жизнеспособност:

Заедно с данните за генната експресия на 772 гена бяха предоставени данни за клетъчната жизнеспособност за 100 клетъчни линии, анализът за клетъчна жизнеспособност се основава на PRISM (Профилиране на относително инхибиране едновременно в смес).[4]

Оценката на жизнеспособността на клетките се основава на PRISM. Можете да научите повече за тази нова технология в уеб страницата на картата на свързаността и в изследователската статия: Откриване на противораковия потенциал на неонкологичните лекарства чрез систематично профилиране на жизнеспособността.

За разлика от стойностите на генната експресия, които представляват сместа от 100 клетъчни линии, стойностите на клетъчната жизнеспособност са за клетъчна линия, с други думи:

  • Стойностите на ген-1 са средната стойност на експресията на ген-1 за 100 клетъчни линии, както е обяснено на фигура 2, стъпка 4.
  • Стойността на клетка 1 е жизнеспособността на клетките, принадлежащи към клетъчна линия 1, както е обяснено на фигура 4.

Досега сме виждали характеристиките на генната експресия и характеристиките на жизнеспособността на клетките след лечението с лекарствата. Единственият липсващ пъзел е механизмът на действие на лекарствата, който е целта за прогнозиране.

1-3 Цели: Лекарства MoA

Във фармакологията терминът механизъм на действие (MoA) се отнася до специфичното биохимично взаимодействие, чрез което лекарственото вещество произвежда своя фармакологичен ефект.[5]

Нека опростим това определение, например лекарството аспирин намалява болката и възпалението, така че MoA на аспирин:

  • Функция на MoA: Намаляване на болката и възпалението.
  • Биохимичната функция на MoA: Включва необратимо инхибиране на ензима циклооксигеназа, като по този начин потиска производството на простагландини и тромбоксани, като по този начин намалява болката и възпалението.

Тази функция или MoA е само една от възможните функции/MoA, които може да има лекарството Аспирин, така че едно лекарство може да има повече от един механизъм на действие. Това прави прогнозата за MoA на лекарствата проблем с множество етикети. Бяха ни предоставени 206 MoA цели за лекарство, означени като (0: Без MoA, 1: MoA). Таблицата по-долу показва 4 цели (от 206 цели, предоставени в този набор от данни).

  • sig_id: е пробата, съдържаща сместа от 100 клетъчни линии, третирани с лекарство-X. (етап 1)
  • 5-alpha_reductase_inhibitor, 11-beta-hsd1_inhibitor, acat_inhibitor… са целевите механизми на действие

Да вземем първия ред:

  • sig_id: 'id_d00440fe6' е смес от 100 клетъчни линии (вижте стъпка 1), лекувана е с лекарство X (вижте стъпка 2) >, това лекарство X няма MoA '5-alpha_reductase_inhibitor', така че е означено като 0, но има MoA 'acat_inhibitor', така че е означено като 1.

Постановка на проблема: 100 клетъчни линии се третират с лекарство. Данните за генната експресия и клетъчната жизнеспособност се събират, за да се разбере биологичната активност на това лекарство. Задачата е да се предскаже MoA на нови лекарства въз основа на генната експресия и характеристиките на клетъчната жизнеспособност. (Вижте фигура 1)

Можете да научите повече за данните на конкуренцията и взаимодействието на характеристиките (гени, клетки и лекарства) в моя бележник kaggle: Класификация на лекарствата MoA: EDA.

2- Прогноза за лекарства MoA:

Стигаме до най-вълнуващата част от този анализ, предвиждането на механизма на действие на нови лекарства въз основа на тяхната генна експресия и характеристики на клетъчната жизнеспособност.

Докато задълбоченото обучение доминира в компютърното зрение и задачите за обработка на естествен език, алгоритмите, базирани на дърво (Random Forrest, дървета на решения…) и машините за усилване на градиент (XGBoost, LGBM, CatBoost…) все още са най-добрият вариант с таблични данни. Тук обаче случаят не е такъв, алгоритмите за дълбоко обучение надминаха машините за усилване на градиента. Защо така? Тъй като имаме проблем с множество етикети с 206 цели за прогнозиране. Плитките алгоритми за машинно обучение не поддържат задачи с множество етикети, с други думи, те не използват 206-те целеви корелации и съвместни събития, за да подобрят точността на своите прогнози.

За да имате по-добра представа, нека сравним представянето на Ridge, LGBM, XGBoost и 3 модела за дълбоко обучение в това състезание.

Тези резултати са приблизителни, за да имате по-добра представа как се представят тези модели, можете да разгледате преносимите компютри, които ги обучават на kaggle: Ridge, LGBM, XGBoost, ResNet, 4 слоя NN и TabNet .

Изводът от фигурата по-горе е разликата между плитките ML модели и моделите за дълбоко обучение. Моделите за дълбоко обучение се представиха по-добре в това състезание поради способността им да извличат информация от 206-те целеви връзки.

Разликата в резултата между плитките модели на машинно обучение и невронните мрежи може да изглежда малка за показател като log-loss. Бих искал да отбележа, че невронните мрежи извличат сигнали от корелацията на целите, ето защо те се представиха по-добре в този случай, обаче, корелацията между 206 цели в този набор от данни беше много лоша ( фигура 7), повечето цели имаха корелация 0 и само 13 двойки цели имаха корелация +0,3, така че нямаше много сигнал за извличане, следователно разликата в резултата за логаритмична загуба би била много по-висока, ако целите бяха по-свързани.

В следващия раздел бих искал да говоря за 3 архитектури за задълбочено обучение, които се представиха наистина добре с таблични данни с цели с множество етикети.

2–1. Многослоен перцептрон:

MLP или проста невронна мрежа за подаване напред, най-простата архитектура на невронни мрежи с 4 плътни слоя (първите 2 слоя с 2048 неврона и последните два с 1048 неврона) заедно с отпадане, слоеве за партидна нормализация и ReLu активиране функция, изпълнена изненадващо добре.

Резултатът, постигнат с този модел, беше много конкурентен с оптимизатор на Adam, планировчик Reduce on plateau и двоична кръстосана ентропия BCE с функция Logits Loss, която включва сигмоидно активиране.

КОД: 4 слоя Хранилище на MLP код Github. [9]

2–2 TabNet:

TabNet беше представен през 2019 г. от google cloud AI в статията: „TabNet: Внимателно интерпретируемо таблично обучение“. Това е модел за дълбоко обучение за таблични данни. TabNet съчетава свойствата на невронните мрежи и дърво-базираните алгоритми: [6]

  • Той има силата на невронните мрежи да напасва и научава сложни функции с голям брой параметри.
  • И има механизъм за избор на функции, подобен на дървовидните алгоритми. Той също така използва механизма за внимание при избор на функции.

Внедряването на TabNet в pytorch беше направено от dreamquark-ai в тяхното tabnet github repository и въведено в kaggle от optimo в неговия TabNet Regressor notebook. Настройката и разбирането на хиперпараметрите може да доведе до много мощен модел. Всъщност TabNet беше най-силният единичен модел в състезанието за прогнозиране на MoA, превъзхождайки всички останали модели.

КОД: Код на TabNet в хранилището на Github. [9]

2–3 DeepInsight CNN:

„DeepInsight е методология за трансформиране на данни без изображение в изображение за конволюционна невронна мрежова архитектура“ [7], което позволява да се възползвате от силните предварително обучени CNN модели като EfficientNets. Този подход беше публикуван в Scientific reports of nature 2019 и въведен в kaggle от Mark Peng в неговите урок за преобразуване на изображения и inference тетрадки.

Преобразуването на таблични данни в данни за изображения започва с разпределяне на характеристиките в матрица на характеристиките, където местоположението на характеристиките зависи от сходството на характеристиките, така че завършваме с матрица на характеристики с няколко клъстера, във всеки клъстер са подобни и силно корелирани характеристики групирани заедно (фигурата по-долу).

Силата на тази методология с данни за генна експресия се състои в подреждането на подобни гени в клъстери, което прави разликите по-достъпни и позволява стабилно идентифициране на скрити механизми, отколкото да се занимаваме с отделни елементи. Подаването на тези характерни матрични изображения към CNN помага да се уловят малките вариации в геномните данни със силата на слоевете за навиване и обединяване.

За да разберем по-добре как трансформацията на DeepInsight [8] работи с нашите данни, нека начертаем матриците на характеристиките, представящи данните за генната експресия и клетъчната жизнеспособност на 2 проби, третирани с 2 различни мишени (MoA): протеазомен инхибитор и ДНК инхибитор.

Разликата между тези 2 изображения е ясна, пробата, третирана с лекарство с активен протеазомен инхибитор, има различно разпределение на характеристиките и корелация от пробата, третирана с лекарство с ДНК инхибитор. Това позволява на предварително обучените конволюционни невронни мрежи да научат модели, които други модели, захранвани с таблични данни, не могат да уловят.

Обучението на предварително обучен модел на ефективна мрежа B3 и B4 с преобразуваните изображения на deepInsight постигна конкурентни резултати и по-добре от това, даде огромен тласък на крайния ансамбъл с другите модели на невронни мрежи, тъй като той научи нови модели, достъпни само в изображенията.

КОД: Трансформация на изображение + код на ефективнаNet B4 в репото на github. [9]

Заключение:

Наред с моделите, споменати в тази статия, други модели се представиха добре в това състезание с таблични данни и цели с множество етикети, като LSTM и GRU, които са последователни модели. Напредъкът на AI ни довежда до точката на решаване на проблем с таблични данни с ансамбъл от CNN и RNN.

Референции:

Диаграмите, графиките и илюстрациите са направени от: