Нейросеть против всех болезней: применение Deep Learning в разработке лекарств

Фото freepik.com
Применение технологий искусственного интеллекта в фармацевтике – крайне востребованная в настоящее время область ИТ-разработок, которая может вывести способы борьбы с различными болезнями на принципиально новый уровень. Успех в обучении моделей позволит в разы ускорить жизненный цикл создания и вывода на рынок лекарств и устранить риски, неизбежно возникающие при проведении лабораторных экспериментов. Российские компании поддерживают этот тренд и уже могут продемонстрировать некоторые достижения.

По данным исследования Университета «Иннополис», за последние девять лет общий годовой объем инвестиций 800 ведущих производителей лекарств в технологии искусственного интеллекта увеличился в 27 раз и продолжает расти. Нейросети позволяют добиться значительного ускорения всех этапов жизненного цикла создания лекарственного препарата и минимизации рисков на каждом из них. В том числе, они могут применяться для поиска новых белков-мишеней для заболеваний и создания новых молекул для наиболее эффективного взаимодействия с нужными мишенями в организме. Вместе с тем главным барьером на пути применения методов Deep Learning в медицине большинство экспертов считают недостаток клинических данных, доступных для анализа и обучения моделей.

Наибольшие успехи в этой области демонстрируют ученые из США, Китая и Индии, однако и в России этот тренд так же становится крайне актуален. Разработчик биоинформатического ПО Департамента вычислительной биологии BIOCAD Владислав Страшко на конференции МТС True Tech Day рассказал о достижениях своей компании в применении технологий ИИ при разработке лекарств на примере создания препаратов для борьбы с онкологическими заболеваниями.

 

Владислав Страшко, разработчик биоинформатического ПО Департамента вычислительной биологии BIOCAD

Владислав Страшко, разработчик биоинформатического ПО Департамента вычислительной биологии BIOCAD. Кадр из трансляции МТС True Tech Day 2024

 

Традиционный подход к разработке антител

Спикер начал с верхнеуровневого описания процессов, происходящих в организме, и причин возникновения заболеваний. «Онкологические заболевания относятся к числу заболеваний, с которыми организму сложно справиться самостоятельно. Наш организм состоит из клеток, которые взаимодействуют между собой, и таким образом в нем обеспечивается функционирование различных механизмов, то есть жизнедеятельность. Но иногда что-то идет не так, какое-то взаимодействие может оказаться заблокированным из-за того, что в процесс вмешалась вредоносная клетка. В случае онкологии такая клетка создает на своей поверхности специальный белок, который мешает организму распознать в ней вредоносный объект и уничтожить. Сложность в том, что видов новообразований очень много: по разным классификациям, – от нескольких сотен до нескольких тысяч», – говорит он

Организм борется с болезнями с помощью антител. Антитело (иммуноглобулин) – это специальный белок, вырабатываемый иммунной системой, который умеет одним концом связываться с другим белком, а другим – привлекать иммунную клетку и указывать ей на вредоносный объект, который надо уничтожить. Таким образом, теоретически организм обладает потенциалом для того, чтобы самостоятельно избавиться от опухоли и других патогенов. Но в случае серьезного заболевания ему необходима помощь.

 

Этапы разработки антитела

Этапы разработки антитела. Скрин из презентации Владислава Страшко, BIOCAD

 

Фармацевтические компании занимаются разработкой таких антител, чтобы встраивать их в лекарственные препараты. В случае компании BIOCAD, этот процесс выглядит так. Для начала происходит определение цели: идентификация мишени и наработка антигена – вещества, являющегося маркером для иммунных клеток и стимулирующего выработку антител. На следующем шаге этот антиген вводят ламе – доказано, что репертуар антител, которое может производить это животное, полностью соответствует человеческому репертуару, и при этом ламы не болеют раком. Животное, таким образом, без всякого вреда для себя проходит иммунизацию, а ученые получают антитела, которые отдаются в лабораторию на селекцию и скрининг. Сотрудники лаборатории отбирают наиболее эффективные образцы и отправляют их специалистам-структурным биоинформатикам Департамента вычислительной биологии BIOCAD, которые на основе моделирования улучшают свойства этих антител – оптимизируют силу связанности, а также делают антитела пригодными для применения в организме человека.

«Такой пайплайн в целом рабочий, и некоторое количество лекарственных препаратов нам уже удалось таким образом создать. Проблема состоит в том, что это очень долгий процесс: этапы создания одного антитела занимают в совокупности от трех до девяти месяцев. И гарантии результата при этом нет, то есть в любой момент в лабораторных экспериментах может что-то пойти не так. Поэтому мы пробуем преодолеть этот путь In silico, при помощи компьютерных вычислений», – заключает Владислав Страшко.

Достижения и вызовы Deep Learning в медицине

В структуре антител выделяется консервативный и вариабельные фрагменты. Последние (Fv, fragment variable) – наиболее интересны исследователям, так как именно они отвечают за связывание антитела с другими белками.

 

Структура и аннотация антител

Структура и аннотация антител. Скрин из презентации Владислава Страшко, BIOCAD

 

С точки зрения аннотации, белок – это последовательность аминокислот, которую можно записать как последовательность букв. Структура белка (и, в частности, антитела) представляет собой молекулу, которая имеет свои координаты в пространстве. Ее можно обозначить с помощью букв латинского алфавита и записать в памяти компьютера как обычный текстовый файл. Так, в репозитории Protein Data Bank (PDB) в стандартизированном виде записаны все белки: каждый из них представляет собой многострочный файл – обозначение атома и данные, к какой аминокислоте объект относится, какие у него координаты. Такмим образом, из 20 аминокислот составляются структуры белков.

Активно развиваются базы данных белков и антител. Например, репозиторий SAbDab (Structural Antibody Database) содержит около 3000 комплексов антител и антигена. База OAS включает в себя до 2 млрд различных последовательностей (цепей). Эти данные позволяют ближе подойти к достижению основной цели вычислительной биологии – эффективной генерации антител.

«В чем состоит наша задача? У нас есть структура антигена, и мы хотим к нему подобрать антитело. Причем в идеале – научиться делать это в один шаг: мы отправляем в какую-то модель или алгоритм антиген, и он нам выдает антитело, которое будет связываться с нашим антигеном и облегчит нам процесс разработки лекарства. У этой задачи есть различные постановки, исходя из того, что белок имеет разную структуру. Мы можем заниматься генерацией последовательности, можем сгенерировать сразу структуру, и самое сложное – попытаться сгенерировать комплекс, то есть связку антитела и антигена. К сожалению данных о таких комплексах довольно мало для того, чтобы с нуля предсказывать и антитело, и то, как оно будет располагаться в пространстве. Поэтому последняя задача пока нерешаемая. Те наработки, которые появляются в этом направлении, совершенно не жизнеспособны», – рассказывает спикер.

В направлении генерации структуры антител ученые продвинулись гораздо больше. Популярный подход состоит в том, что у контрольного антитела, у которого известна большая часть последовательностей, видоизменяется определенный участок. Однако и здесь эффективность подходов упирается в недостаток данных.

Самый жизнеспособный на данный момент подход – это генерация последовательности. Здесь в распоряжении исследователей уже находится огромная база данных, на основе которых можно обучать модели. Рабочий вариант – посимвольная токенизация, где один токен – это одна аминокислота.

Подходы к генерации

Среди используемых подходов при генерации антител – модель-Transformer, у которой есть энкодер и декодер. На входе энкодера – последовательность антигена, на выходе выдается последовательность антитела. Также используются BERT-подобные подходы: например для изменения в последовательности антитела специалисты маскируют интересующие их фрагменты и просят модель произвести некие мутации, исправить ошибки и т. д. Наконец, применяется GPT-подобный вариант, где для нейросети задается промт в виде некой последовательности.

 

Подходы при генерации последовательности антитела

Подходы при генерации последовательности антитела. Скрин из презентации Владислава Страшко, BIOCAD

 

«Все эти варианты – рабочие, и на текущий момент генерировать последовательности антитела оказалось несложно. То есть задача просто сгенерировать последовательность антитела, которая будет сохранять в себе нужные паттерны, которые есть в антителах, собираться и нарабатываться в лаборатории, – во многом решена. Современная методология и подходы в области языковых моделей, NLP – позволяют это делать, данных достаточно. Но здесь возникает другая сложная задача. Просто генерировать антитела нам не интересно. Нужно, чтобы это антитело связывалась с интересующим нас антигеном. Поэтому появляется задача скрининга антител. То есть мы умеем генерировать сотни и тысячи антител, но теперь нужно понять, какие из них хорошие, а какие нет, научиться как-то ранжировать антитела и назначать Score (оценку) каждому из кандидатов», – говорит Владислав Страшко.

Классический вариант In silico (виртуального) скрининга состоит из таких компонентов, как фолдинг, докинг и предсказание аффинности. Задача фолдинга состоит в том, чтобы по последовательности предсказать структуру белка. Это достаточно хорошо исследованный и действенный подход. Например, модель AlphaFold от компании Google Deep Mind действительно во многих случаях справляется с этой задачей с большой точностью.

Докинг – это предсказание комплекса по двум структурам, то есть определение способов, с помощью которых соединяются две молекулы. Для специалистов это сложная задача, поскольку у молекулы  очень много степеней свободы, большое количество различных вращений и трансляций. В этом направлении глубокое машинное обучение пока уступает по точности вычислительным алгоритмам, которые просто перебирают все варианты конформации молекул и выбирают из них наиболее выгодные. Различают методы «жесткого» (Grid-based) докинга, которые требуют долгих вычислений и демонстрируют ограниченную точность, а также «гибкого» докинга, которые неплохо работают с малыми молекулами.

Третий компонент скрининга – предсказание аффинности, то есть силы связывания двух молекул. Для этих целей чаще всего используются графовые модели.

«Перечисленные выше методы фолдинга и докинга по отдельности уже приносят пользу: структурные биоинформатики уже используют их для оптимизации антител, которые поступают к ним из лаборатории. Научное сообщество постоянно публикует новые статьи, проводит новые исследования. В любой области многие исследователи пытаются применять структурные методы, последовательности, языковые модели. Еще лет пять назад, когда я начинал работать в компании BIOCAD, было невозможно даже представить, что сгенерировать антитело можно с нуля. Тогда просто не хватало мощностей, методов и многих данных. Сегодня у нас есть огромная надежда, что в ближайшем обозримом будущем случится прорыв и In silico генерация в целом станет возможной», – резюмирует спикер.

 

Автор: Андрей Блинов.

Тематики: Инновации, Здоровье

Ключевые слова: Информационные технологии в здравоохранении, Нейросети, BIOCAD