Ученые из MIT создали нейросеть для ускорения разработки новых лекарств

Антитела (небольшие белки), вырабатываемые иммунной системой, могут прикрепляться к определенным частям вируса, чтобы нейтрализовать его. Поскольку ученые продолжают бороться с SARS-CoV-2 — вирусом, вызывающим Covid-19 — одним из возможных видов оружия является синтетическое антитело, которое связывается с шиповидными белками вируса, чтобы предотвратить проникновение вируса в клетку человека.

Чтобы разработать успешное синтетическое антитело, исследователи должны точно понять, как это произойдет. Белки с комковатыми трехмерными структурами, содержащими множество складок, могут склеиваться в миллионах комбинаций, поэтому поиск правильного белкового комплекса среди почти бесчисленного количества кандидатов требует чрезвычайно много времени.

Чтобы упростить процесс, исследователи Массачусетского технологического института создали модель машинного обучения, которая может напрямую предсказывать комплекс, образующийся при соединении двух белков. Их метод в 80–500 раз быстрее, чем современные программные методы, и часто предсказывает структуры белков, которые ближе к фактическим структурам, наблюдаемым экспериментально.

Этот метод может помочь ученым лучше понять некоторые биологические процессы, связанные с взаимодействием белков, такие как репликация и восстановление ДНК. Это также могло бы ускорить процесс разработки новых лекарств.

«Глубокое обучение очень хорошо фиксирует взаимодействия между различными белками, которые химикам или биологам трудно записать экспериментально. Некоторые из этих взаимодействий очень сложны, и люди не нашли хороших способов их выразить. Эта модель глубокого обучения может изучать эти типы взаимодействий на основе данных»

Октавиан-Юген Ганеа постдок Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL)

Разработанная исследователями модель под названием Equidock фокусируется на стыковке твердого тела, которая происходит, когда два белка соединяются путем вращения или перемещения в трехмерном пространстве, но их формы не сжимаются и не изгибаются.

Модель берет трехмерные структуры двух белков и преобразует эти структуры в трехмерные графики, которые могут обрабатываться нейронной сетью. Белки состоят из цепочек аминокислот, каждая из которых представлена ​​узлом на графике.

Исследователи включили в модель геометрические знания, поэтому она понимает, как объекты могут меняться, если их вращать или перемещать в трехмерном пространстве. В модель также встроены математические знания, которые гарантируют, что белки всегда прикрепляются одинаково, независимо от того, где они находятся в трехмерном пространстве. Так белки стыкуются в организме человека.

Используя эту информацию, система машинного обучения идентифицирует атомы двух белков, которые с наибольшей вероятностью будут взаимодействовать и образовывать химические реакции, известные как точки связывания. Затем она использует эти точки, чтобы объединить два белка в комплекс.

«Если мы сможем понять по белкам, какие отдельные части, вероятно, будут этими точками связывания, то это позволит получить всю информацию, необходимую для соединения двух белков вместе. Предполагая, что мы можем найти эти два набора точек, мы можем просто выяснить, как вращать и перемещать белки, чтобы один набор соответствовал другому набору»

Октавиан-Юген Ганеа постдок Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL)

Одной из самых больших проблем при построении этой модели было преодоление нехватки обучающих данных. По словам Ганеа, поскольку существует так мало экспериментальных трехмерных данных для белков, было особенно важно включить геометрические знания в Equidock. Без этих геометрических ограничений модель может выявить ложные корреляции в наборе данных.

После обучения модели исследователи сравнили ее с четырьмя программными методами. Equidock может предсказать конечный белковый комплекс всего за одну-пять секунд. Все базовые уровни заняли гораздо больше времени — от 10 минут до часа и более.

В показателях качества, которые подсчитывают, насколько точно предсказанный белковый комплекс соответствует фактическому белковому комплексу, Equidock часто был сопоставим с исходными уровнями, но иногда уступал им.

«Мы все еще отстаем от одного из базовых показателей. Наш метод все еще можно улучшить, и он все еще может быть полезен. Его можно использовать в очень большом виртуальном скрининге, где мы хотим понять, как тысячи белков могут взаимодействовать и образовывать комплексы. Наш метод можно было бы использовать для очень быстрого создания начального набора кандидатов, а затем их можно было бы точно настроить с помощью некоторых из более точных, но более медленных традиционных методов»

Октавиан-Юген Ганеа постдок Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL)

В дополнение к использованию этого метода с традиционными моделями команда хочет включить в Equidock специфические атомные взаимодействия, чтобы он мог делать более точные прогнозы. Например, иногда атомы в белках присоединяются посредством гидрофобных взаимодействий, в которых участвуют молекулы воды.

По словам Ганеа, их метод также может быть применен для разработки небольших молекул, подобных лекарствам. Эти молекулы особым образом связываются с поверхностью белка, поэтому быстрое определение того, как происходит это присоединение, может сократить сроки разработки лекарств.

В будущем они планируют улучшить Equidock, чтобы он мог прогнозировать гибкую стыковку белков. Самым большим препятствием является нехватка данных для обучения, поэтому Ганеа и его коллеги работают над созданием синтетических данных, которые они могли бы использовать для улучшения модели.