비회원이 작성한 글입니다!

글작성시 입력했던 비밀번호를 입력해주세요.

목록
게시글 내용
한국실험동물학회 뉴스레터 2023년 9월
[과학이슈] 생성 인공지능과 단백질의 만남 : 단백질 디자인

생성 인공지능과 단백질의 만남 : 단백질 디자인



남궁석

Secret Lab of Mad Scientist (SLMS)
suk.namgoong@gmail.com


서론

  오늘날 과학기술 분야에서 가장 많은 사람의 관심을 끌고 있는 것은 인공지능, 특히 생성 인공지능 (Generative AI) 이다. 스테이블 디퓨전 (Stable Diffusion) 이나 미드저니 (Midjourney) 와 같은 영상 생성 인공지능이나 ChatGPT로 대변되는 거대 언어 모델 기반의 문장 생성 인공지능은 이제 단순한 연구 차원을 떠나서 우리의 일상에 큰 파급효과를 불러오고 있다. 

 이러한 상황에서 생물학 분야에서 생성 인공지능은 어떤 것을 가능하게 할까? 생물학 관련 분야의 생성 인공지능의 가장 좋은 예라면 역시 단백질 디자인 (Protein Design) 과 생성 인공지능의 만남이 될 것이다. 본고에서는 단백질 디자인의 기본적인 원리와, 여기에 생성인공지능 기술이 만나 단백질 공학 분야에서 어떠한 일들이 일어났는지를 알아보도록 한다. 


단백질 디자인 (Protein Design) 

  사실 단백질 디자인이라는 용어는 극히 최근까지 해당 분야를 직접적으로 연구하는 연구자 이외에는 많은 생물학자들에게도 그리 익숙한 용어가 아니었다. 여기서 우선 단백질 디자인에 대해서 간략히 알아보도록 하자. 

  단백질 디자인을 이야기하기 위해서는 먼저 ‘단백질 구조 예측’ 에 대한 이야기를 하지 않을 수 없다. 최근의 ‘알파폴드’ 등의 인공지능 기반에 방법의 놀라운 발전에 의해서 한때는 세기의 난제로 여겨지던 아미노산 서열에서 단백질의 3차원 구조를 예측하는 것이 이제는 ‘BLAST’ 와 같은 서열 검색과 거의 비슷한 난이도로 누구나 쉽게 수행할 수 있는 일이 되어 버렸다. 어쩄든 단백질 구조 예측은 ‘어떤 주어진 아미노산 서열을 가지고 이들이 형성할 수 있는 3차원 구조를 예측하는 일’ 로 정의할 수 있다. 

  그렇다면 단백질 디자인이란 무엇인가? 단백질 디자인은 정확히 단백질 구조 예측과 ‘역함수’ 의 관계를 가지고 있다. 즉, 단백질 디자인은 ‘어떤 주어진 3차원 단백질 구조를 가지고 이 구조를 형성할 수 있는 아미노산 서열을 예측하는 것’ 이다.  

  원래 단백질 디자인은 1970년대 단백질 구조 예측 문제를 풀고자 하는 노력에서부터 유래되었다. 이전부터 매우 어려운 ‘세기의 난제’ 로 알려진 아미노산 서열이 어떤 단백질 구조를 형성할 수 있을지의 문제를 잠시 틀어, 이미 고정된 단백질 구조를 형성할 수 있는 아미노산 서열을 찾는 문제로 바꾼 셈이다. 1970년대 말 독일 막스 플랑크 연구소의 베른트 구테 (Bernd Gutte) 는 RNA 와 결합하는 성질을 가지는 약 34개의 아미노산으로 되어 있는 단백질을 만들어 보려고 시도했다. 그는 두 개의 베타 쉬트와 하나의 알파 나선으로 된 단백질을 디자인하고, 베타 쉬트에 있는 두 개의 글루타민과 쓰레오닌이 RNA 의 염기 CCA 에 결합하고, 알파 나선에 있는 라이신과 히스티딘이 핵산의 인산기에 결합하는 단백질을 구상했다. 그렇다면 어떻게 2차 구조를 형성하는 아미노산을 지정할 것인가? 그는 그 당시 결정된 몇 개 안되는 단백질 구조의 알파 나선과 베타 쉬트에 많이 분포하는 아미노산의 분포를 고려하여 아미노산을 배치하였다. 이렇게 만들어진 합성 펩타이드는 기대한 대로 RNA에 결합하는 능력을 가지고 있었으나, 이 단백질의 구조를 규명하려는 노력은 실패하여, 디자인된 서열이 예상한 구조를 형성하고 있는지를 확인하지는 못했다. 이러한 노력은 지속적으로 이어졌고, 2003년 미국 워싱턴 대학의 데이비드 베이커 (David Baker) 연구팀은 5개의 베타 쉬트와 2개의 알파 나선을 가진, 자연계에서는 아직 발견되지 않은 새로운 구조를 가진 단백질을 디자인하고, 이를 형성하는 아미노산을 찾은 후, 이렇게 형성된 단백질의 구조를 풀어, 실제로 디자인한 대로 단백질 구조가 형성된다는 것을 확인하였다. 

  그 당시 베이커 연구팀이 사용한 방법은 ‘로제타’ (Rosetta) 라는 방법인데, 이는 베이커 연구팀이 그 당시에 만든 단백질 구조 예측 방법을 단백질 디자인에 적용한 것이다. 로제타에 의한 단백질 구조 예측 방법은 예측하려는 아미노산 서열을 3-9 개 단위로 잘라서, 이미 실험적으로 알려진 단백질 구조의 조각과 유사한 서열을 찾은 다음, 이렇게 찾아진 단백질 구조 조각을 조립하여 가장 열역학적으로 안정된 구조를 찾는 방식이었다. 단백질 디자인 과정은 단백질 구조 예측의 ‘역반응’ 이므로, 디자인하려는 단백질 구조로부터 시작하여 단백질 구조의 조각 모음을 만들고, 이와 가장 유사한 실험적으로 알려진 단백질 구조 조각을 찾아 조립하고, 이 중에서 가장 열역학적으로 안정된 구조를 찾는 방식이었다. 

  이러한 작업을 위해서는 매우 다양한 구조를 만들고, 이의 에너지 계산을 수행해야 했으므로 매우 많은 컴퓨팅 파워가 드는 번거로운 작업이었다. 그 이후 연구자들은 다양한 인공 단백질을 디자인했고, 이중에는 자연계에 존재하는 구조와 흡사한 것도 있었으나, 자연계에서 볼 수 없는 새로운 모양을 가지는 것들도 있었다. 단백질 디자인 연구가 시작되었을 당시에는 ‘인공적으로 안정적인 3차원 구조를 형성하는 단백질의 서열을 찾을 수 있을까?’ 와 같은 의문에서 시작되었다면, 이제 이러한 것이 가능하다는 것이 알려진 이후 이렇게 만들어진 인공적인 단백질을 이용하여 뭔가 유용한 목적으로 사용할 수 없을까 하는 연구들이 진행되기 시작하였다.

  가령 바이러스의 단백질에 결합하여 바이러스의 감염을 억제하는 단백질을 디자인한다면 마치 바이러스에 감염된 이후 형성된 중화 항체가 바이러스의 감염을 억제하는 것과 비슷한 효과를 낼 것이다. 2011년 베이커 연구팀은 인플루엔자 바이러스의 표면에 있는 단백질인 헤마글루티닌 (Hemaglutinin) 에 결합하여 바이러스의 세포내 침투를 억제하는 인공 단백질을 만들었다. 2020년에는 SARS-CoV-2 바이러스의 스파이크 단백질에 결합하여 바이러스의 침투를 막아주는 인공 단백질도 개발되었다. 동물 대상의 실험에서 바이러스 감염을 억제해 준다는 결과를 얻었고, 호흡기 내에 분무하여 바이러스의 감염을 억제하는 약물 형식으로 개발이 진행중이다.

  단백질 디자인 기술은 백신 제작에도 이용되고 있다. 2016년 베이커 연구팀은 두 개의 단백질이 서로 대칭적으로 결합하여 120개가 결합하여 바이러스 크기의 거대한 단백질 입자를 스스로 형성할 수 있도록 단백질을 디자인하였다. 물론 이 ‘바이러스 유사 입자’ 는 크기와 모양만 바이러스일뿐, 단백질에 대한 유전 정보를 자체적으로 가지고 있지는 않으므로 바이러스처럼 역할하지는 않는다. 그러나 여기에 병을 유발하는 바이러스 유래의 단백질을 결합해 주면 몸 속에서 바이러스에 대한 면역을 유발하는 훌륭한 백신이 될 수 있는 것이다.

  2020년 워싱턴 대학의 단백질 디자인 연구소 (Institute for Protein Design, 베이커의 연구가 기반이 되어 2008년 설립되었다) 에서는 2016년에 개발된 ‘바이러스 유사 입자’ 에 SARS-CoV-2 바이러스의 스파이크 단백질의 일부를 결합하였다. 이렇게 코로나바이러스의 면역을 유도할 수 있는 입자가 결합된 바이러스 유사 입자는 실험동물에서 진짜 코로나바이러스에 대한 면역을 유도할 수 있는 항체를 만들 수 있게 한다는 것을 확인하였다. 이렇게 개발된 코로나바이러스 백신은 한국의 SK 바이오사이언스에 라이센스되었고, SK 바이오사이언스 주관에 의해서 진행된 인간 대상의 임상 시험을 통하여 기존의 바이러스 벡터 기반의 백신 (아스트라제네카 등의) 에 비해서 높은 예방 효과를 보인다는 것을 확인하였다. 2022년 6월 한국 식품의약품안전처는 SK 바이오사이언스의 백신을 ‘스카이코비원’ (SKYCovione) 이라는 이름으로 판매 허가하였다. 이것은 단백질 디자인으로 만들어진 인공 단백질이 최초로 인간에게 사용될 수 있는 의약품으로 허가가 난 사례이다. 

  이렇게 단백질 디자인이라는 개념이 등장하고 실제로 응용 사례가 하나둘씩 등장하기 시작하였으나, 극히 최근까지 단백질 디자인에는 많은 한계가 있었다. 그 주된 이유는 단백질을 디자인하여 원하는 대로 단백질이 만들어지는 성공률이 극히 낮았기 때문이다. 즉, 원하는 대로 디자인된 단백질을 얻기 위해서는 적어도 수백, 수천개의 유전자, 심지어는 수만 종류의 유전자를 합성하여 이 중에서 제대로 단백질이 만들어지는 것을 찾고, 원하는 특성을 가지는 것들을 다시 찾아내야 했기 때문이다. 한마디로 어떤 특정한 구조를 가진 단백질을 만들고자 여러가지 서열을 합성했지만, 그 서열이 목적하는 구조를 형성하는 확률이 낮았다는 것이다. 그 주된 이유는 역시 단백질 디자인의 근간이 되는 단백질 구조 예측의 방법이 매우 부정확했기 때문이다. 아미노산이 어떤 구조를 형성할지 정확히 예측하지 못하므로 어떤 구조를 형성하는 아미노산을 정확히 만들어 내는 것 역시 힘들었으므로 단백질 디자인의 성공율 역시 매우 낮았다. 즉, 디자인으로 형성된 대부분의 아미노산 서열은 원하는 구조를 형성하지 못하고 제대로 폴딩이 이루어지지 않았고, 이러한 상황에서 원하는 구조를 형성하는 단백질 디자인을 찾으려면 수많은 시행착오를 반복해야만 했다. 단백질 디자인은 가능성 자체는 입증되었지만, 이를 이용하여 실용적으로 자신이 원하는 성질을 가지는 단백질을 누구나 디자인하는 것은 매우 힘들었다는 이야기이다. 

  그러나 이러한 상황은 2020년 이후 알파폴드의 등장에 의해 크게 바뀌게 된다. 

알파폴드와 단백질 디자인의 혁신

  단백질 분야에 조금이라도 관심이 있는 사람은 2020년 딥마인드가 발표한 인공지능 기반의 단백질 구조 예측 알고리즘인 ‘알파폴드’ 에 의해서 단백질 구조 예측 분야가 획기적인 발전을 이루어다는 것을 이미 들었을 것이다. 즉, 오랜 시간동ㅇ안 ‘세기의 난제’ 로 알려졌던 단백질 3차원 구조 예측에서 아미노산 서열만 가지고 실험에 의한 구조 예측에 거의 근접하는 수준의 정확한 3차원 구조를 예측할 수 잇다는 것은 구조생물학 분야에 혁명적인 변화를 가져왔다. 그렇다면 알파폴드와 같은 단백질 구조 예측의 혁신은 어떻게 단백질 디자인에 영향을 미쳤을까? 

  기존에는 단백질을 직접 생물에서 만들어 보기 전까지는 어떤 서열이 제대로 단백질 구조를 형성하는지 확인할 방법이 없었으므로 실험 성공률이 낮아질 수 밖에 없었다. 그러나 알파폴드에 의해서 서열의 구조를 예측하고, 원하는 구조를 제대로 형성하는 서열을 선별할 수 있게 되었으므로 실험 성공율이 높아지게 되었다. 즉, 알파폴드와 같은 구조 예측 방법이 단백질 디자인의 ‘퀄리티 콘트롤’ 을 가능하게 한 것이다. 

  또한 단백질 구조 예측 과정을 통하여 단백질 디자인을 수행하는 방법들이 생겨났다. 즉, 무작위 서열로부터 시작하여 아마노산을 변경시켜가며 구조 예측을 수행하고 계속 구조 예측을 진행하여 제대로 단백질 구조를 형성하는 서열이 발견되면 여기서 다시 서열 변형과 구조 예측을 반복하는 방법이다. 이러한 방법은 영상 인식 알고리즘을 이용하여 만약 기존에 영상 인식 알고리즘과 유사한 패턴이 발견되면 이를 기반으로 사진으로부터 이미지를 형성하는 ‘딥 드림’ (Deep Dream) 이라는 영상 생성 알고리즘과 비슷한 방식으로 자연계에 없는 단백질을 형성하는 방법이었다. 이러한 방법은 ‘딥 네트워크 할루시네이션’ (Deep Network Hallucination)이라고 이름붙여졌고, 이를 통하여 자연계에 존재하지 않지만 자연계에 존재하는 단백질과 비슷한 방식으로 3차 구조를 형성하는 단백질 서열을 찾는 방법이 만들어졌다. 

  그러나 초기의 인공지능을 이용한 단백질 디자인 방법 역시 기존의 방법과 마찬가지로 실제로 생물 내에서 단백질을 만들려고 시도하면 성공율이 그다지 높지 않았다. 이것은 초기의 인공지능으로 디자인한 단백질 역시 자연계에 존재하는 단백질과는 다소 성질이 다르다는 것을 의미한다. 그렇다면 자연계에 존재하는 단백질과 성질이 유사한 단백질을 인공지능으로 디자인하려면 어떻게 해야 할까? 

ProteinMPNN과 성공확률 높은 단백질 디자인 

  이 와중에서 딥 러닝 기반의 이용한 새로운 방식의 단백질 디자인 방법이 등장했고, 이 방법은 할루시네이션 등에서 발생하던 실험 성공확률이 낮은 문제를 해결하는 계기가 되었다.

  ProteinMPNN (MPNN은 Message Passing Neural network의 의미이다) 은 단백질의 구조로부터 (보다 정확히 말하면 사이드체인을 제외한 단백질의 골격 부분) 여기에 맞는 아미노산의 서열을 찾아주는 네트워크이다. 딥러닝 분야에서 어떤 언어의 단어의 나열을 다른 언어의 단어의 나열로 바꾸는 것을 seq2seq (sequence to sequence) 이라고 부르거나 텍스트에 기반하여 이를 그림으로 바꾸어주는 네트워크를 txt2img 라고 칭하곤 하는데, ProteinMPNN은 단백질 구조를 아미노산 서열로 변환시켜 주므로 Struct2Seq 인 셈이다.
ProtteinMPNN이라는 네트워크는 단백질 구조에서 공간적으로 인접한 아미노산간의 거리 정보를 트랜스포머 기반의 인코더 (Encoder) 에 입력하고, 이 정보를 이용하여 아미노산을 예측해내는 디코더로 구성되어 있다. 사실 이렇게 단백질 구조를 서열로 변환해 주는 네트워크는 2019년에 처음 등장했지만, 이러한 디자인을 실험적으로 검증하지는 않았다. 단백질 디자인 분야의 선도 그룹인 워싱턴 대학교 베이커 연구팀에서는 이러한 선행 연구에 기반하여 네트워크의 성능을 개선시키기 위하여 몇 가지 요소를 수정하였고, 네트워크를 PDB에 등록되어 있는 단백질 구조와 서열을 이용하여 훈련한 후 이의 서열 디자인 능력을 실험적으로 검증하였다. 단백질 디자인 방법론, 즉 고정되어 있는 3차 구조를 형성하는 적절한 서열을 찾는 방법의 성능은 일반적으로 이미 구조가 알려져 있는 단백질의 구조에서 골격만을 취한 다음, 단백질 디자인으로 찾은 서열이 원래 단백질의 서열과 얼마나 유사한지를 보는 것이다. 자연계의 아미노산 서열은 진화과정을 통해서 특정한 구조를 형성하도록 오랜 세월을 거쳐 최적화되어 있는 상태이므로, 서열 정보가 없는 상황에서 원래 단백질의 서열에 최대한 근접하게 서열이 디자인되면 될수록 단백질 디자인 방법의 성능이 높다고 볼 수 있을 것이다. 이미 알려진 402개의 단백질 구조를 대상으로 서열을 다시 디자인을 할때 기존의 단백질 디자인으로 만들어진 서열은 원래 단백질 서열과 32.9% 일치한 반면 ProteinMPNN의 경우 원래의 서열과 52.9% 일치하는 서열이 나왔다. 즉, ProteinMPNN은 자연계에 원래 존재하는 단백질의 골격 구조로부터 원래의 단백질이 가진 아미노산을 정확히 예측하는 능력이 기존의 방법보다 훨씬 높다는 뜻이다.  아미노산 서열이 제대로 디자인되었는지를 알아보는 또 다른 방법은 서열로부터 구조를 예측해보고 이것을 디자인의 모체로 사용한 구조와 비교해 보는 것이다. 기존의 방법론으로 디자인된 단백질 서열의 경우 알파폴드로 다시 구조를 예측했을때 처음 디자인의 모체가 된 구조와 완벽히 일치하는 경우가 2.7% 밖에 없었다.
그러나 proteinMPNN으로 예측된 서열의 절반 이상인 57.3% 이 디자인의 모체가 되 구조와 완전히 같은 구조로 예측되었다. 이는 proteinMPNN이라는 네트워크가 원래의 단백질 구조를 더 잘 반영한 아미노산 디자인 능력을 가졌다는 것을 의미한다. 

  그렇다면 proteinMPNN으로 디자인된 서열은 과연 실험적으로도 잘 작동할까? 연구자들은 우선 할루시네이션을 통해서 디자인된 단백질과 이 구조를 바탕으로 proteinMPNN으로 서열을 다시 디자인한 단백질 유전자를 대장균에 넣어 단백질이 얼마나 만들어지는지를 관찰했다. 할루시네이션을 통해 디자인된 단백질들은 대개 제대로 만들어지지 않아 1리터의 대장균을 배양하여 얻는 단백질이 9mg 정도의 수율에 지나지 않았지만 proteinMPNN 에 의해 디자인된 단백질은 수십 배 증가한 리터당 평균 247mg의 수율을 기록하였다. 이렇게 만들어진 단백질의 구조를 실험적으로 결정하였고, 예상대로 원래 디자인의 표적 단백질과 구조가 일치하는 것을 확인하였다.

  연구팀은 이전에 다른 방법으로 단백질 디자인을 시도했지만 단백질이 제대로 만들어지지 않는 등의 문제로 연구가 진행되지 않았던 디자인을 proteinMPNN 으로 다시 디자인하여 아미노산 서열을 얻고 실험을 진행했고, 이중 상당수에서 원하는 대로 작동하는 디자인된 단백질을 얻을 수 있었다. 이들이 논문에서 보여준 예 중의 하나는 할루시네이션을 통하여 대칭적으로 결합하는 단백질 복합체를 디자인한 예이다. 이들은 알파폴드를 이용하여 원형으로 결합하는 복합체 단백질을 디자인했지만, 이 단백질은 대장균에서 제대로 만들어지지 않았다. 그러나 알파폴드로 얻어진 단백질 구조를 proteinMPNN 에 입력하여 아미노산 서열을 재 디자인했고, 이렇게 디자인된 단백질은 대장균에서 잘 만들어졌고, 구조를 결정해 본 결과 디자인한 구조와 거의 일치하는 것을 확인하였다.

  그렇다면 왜 proteinMPNN으로 디자인된 단백질이 다른 방법으로 디자인된 단백질보다 생물체 내에서 더 잘 발현되고 안정적으로 유지되는 것일까? 여기에는 여러가지 이유가 있을 수 있겠지만, proteinMPNN 네트워크를 학습할 때 사용된 데이터는 PDB에 올라와 있는 실험적으로 구조가 규명된 구조라는 것이 중요한 요소일 것이다. 즉, PDB에 올라와 있는 대부분의 구조는 단백질 결정학에 의해 풀린 구조들이고, 이 단백질들은 상당수 대장균에서 잘 발현되고 결정화가 잘된 단백질이다. proteinMPNN은 단백질의 구조 골격을 가지고 아미노산 서열을 예측하는 네트워크이므로 PDB에 올라와 있는 구조와 서열을 이용하여 학습한 네트워크에서 형성되는 단백질 아미노산 서열은 PDB에 존재하는 구조의 아미노산 서열의 특성과 유사한 특성을 띨 것이고 이러한 특성이 proteinMPNN으로 디자인된 단백질의 특성에 영향을 미치는 것일지도 모른다. 어쨌든 할루시네이션과 proteinMPNN 등 최근에 등장한 인공지능 기반의 단백질 디자인 방법론들은 인공지능이 단백질 구조 예측 뿐만 아니라 단백질 디자인의 발전도 급속히 가속시키고 있다는 것을 보여주는 좋은 예이다.


디퓨전 모델과 단백질 디자인

  오늘날 DALL E-2, 스태블 디퓨전 등 요즘 인기있는 텍스트로부터 영상을 생성하는 인공지능인 디퓨전 모델 (Diffusion Moel) 은 통계열역학의 확산 (Diffusion) 현상 이론을 인공지능에 적용시킨 방법이다. 

  디퓨전 모델은 초기 상태의 분자들이 시간에 따라서 확산되는 과정을 이미지 생성에 응용한 기법이다. 즉, 화상을 구성하는 픽셀이 점점 흩어지면서 노이즈로 변하는 과정을 일단 수식으로 표현하며 이것을 포워드 디퓨전 (Forward Diffusion) 이라고 한다. 포워드 디퓨전 과정에서는 이미지에 노이즈를 단계별로 추가하여 완전한 노이즈로 변환하는 과정을 수행하고, 이렇게 점진적으로 노이즈가 추가된 데이터는 노이즈를 복구하기 위한 훈련 데이터로 사용된다.  이제 노이즈가 섞인 데이터로부터 원래의 화상을 복구하는 과정이 필요하며, 이것을 리버스 디퓨전 (Reverse Diffusion) 이라고 한다. 이를 위해서 포워드 디퓨전에서 생성된 단계별로 노이즈가 증가하는 영상 데이터를 이용한다. 원본 이미지와 노이즈가 섞인 이미지를 이용하여 노이즈만을 인식할 수 있도록 네트워크를 학습하고, 이것을 단계별로 학습한다. 학습이 끝난 이후, 완전히 노이즈로만 구성된 데이터로부터 단계별로 화상을 복원한다. 노이즈를 제거할 수 있도록 학습된 네트워크에서는 노이즈를 인식하여 제거할 것이고, 이 과정을 계속 진행하면 결국 노이즈에서 화상이 형성된다. 만약 한 가지 이미지로만 학습된 네트워크라면 원래 학습된 이미지가 복원되는 것에 그칠 것이다. 그러나 수많은 다른 이미지로 학습된 네트워크라면 어떨까? 게다가 각각의 이미지에는 텍스트로 된 설명이 달려 있다. 이미지에 달려 있는 “말을 타고 있는 기사”, “초원을 달리는 토끼” 와 같은 식으로. 텍스트 데이터를 처리하여 각각의 이미지에 상응하는 키워드에 대한 정보를 이미지와 연결시키고, 이 이미지를 복원시키는 정보와 연결시킨다. 이제 이미지를 생성하기 위해서 “말을 타고 초원을 달리는 토끼” 라는 텍스트를 입력한다. 그러면 “말” “타고 있는” “초원” “달리는” “토끼” 를 복원하는 정보가 동시에 작용하면서 완전한 노이즈로부터 그림이 천천히 복원된다. 결국 “말을 타고 초원을 달리는 토끼” 의 화상이 나타난다. 

  아마도 AI가 인간의 직업을 빼앗을지도 모른다는 막연한 불안감을 현실화시킨 첫번째 예가 바로 최근에 등장한 화상 생성 인공지능일지도 모른다. 그런데 디퓨전 모델로 새로운 화상을 만들어 내는 것과 거의 동일한 원리로 자연계에 존재하지 않던 단백질을 만들어 내는 방법이 개발되었다 

   2023년 7월 베이커 연구팀은 네이처 (Nature)에 ‘디퓨전 모델’ 을 이용하여 단백질 디자인을 하는 논문을 발표하였다. 디퓨전 모델을 이용하여 단백질을 디자인하는 과정은 어떻게 될까? 이미지를 디퓨전 모델로 생성하기 위해서는 노이즈 신호가 있는 픽셀을 점차적으로 증가시키고 이 데이터를 이용하여 노이즈를 제거하는 네트워크를 트레이닝한다면, 단백질의 경우에는 PDB 의 단백질 좌표에서 아미노산의 골격 부분의 좌표 (아미노기의 질소, 탄소, 알파 탄소로 이루어지는 삼각형)에 노이즈를 더해 단백질의 구조를 흐트러트린다. 이렇게 노이즈를 넣어 흐트러진 단백질의 구조로부터 원래의 단백질 구조를 회복하는 과정을 베이커 연구팀이 만든 단백질 구조 예측 알고리즘인 로제타폴드의 네트워크을 이용하여 추가적으로 훈련시킨다. 

  이렇게 훈련된 네트워크를 이용하여 이제 임의의 단백질을 형성하기 위해서는 제대로 단백질 구조를 형성하지 못하는 노이즈 좌표로부터 시작하여 로제타폴드를 통하여 이를 제대로 된 단백질 구조로 회복시키는 과정을 거치게 된다. 로제타폴드나 알파폴드 역시 반복을 통하여 처음에는 엉망진창인 단백질 구조를 단백질답게 바꾸는 네트워크이기에 단백질 구조에서 노이즈를 제거하는 작업에 잘 아울리기 때문이다. 처음에 입력된 노이즈 신호는 로제타폴드를 거쳐도 제대로 된 단백질이 형성되지 않는다. 그러나 이렇게 예측된 구조에 노이즈를 넣어주고, 다시 예측하는 것을 계속 반복하면, 최종적으로 그럴듯한 형태의 단백질의 골격이 마술처럼 나타난다. 

  여기서 얻어진 단백질 구조는 아직 아미노산에 대한 정보는 가지지 않는 단백질의 골격 구조만이다. 이러한 단백질 골격 구조를 실제로 아미노산 서열로 만드는 데에는 앞에서 소개된 ProteinMPNN 이 사용되어 단백질 골격 구조에 상응하는 아미노산 서열을 만들어 내게 된다. 이렇게 최종적으로 얻어진 아미노산 서열은 알파폴드로 구조를 예측하여, 처음에 RFDiffusion을 통하여 형성된 구조와 동일한 구조가 나온다면 성공적으로 단백질 디자인이 된 것이다. 

연구팀은 이러한 단백질 구조 형성 및 서열 디자인 방법을 로제타폴드 (RoseTTAfold) 와 디퓨전 모델의 이름을 합쳐서 RFDiffusion 이라고 명명했다. 

  그렇다면 RfDiffusion 은 다른 딥러닝 기반 단백질 디자인 방법에 비해서 어떤 장점을 가지고 있을까? 벤치마킹을 해본 결과 일단 할루시네이션의 경우 아미노산이 100개 이상인 큰 단백질에 대해서는 구조 생성의 성공 확률이 급격히 떨어졌고, 생성되는 구조의 다양성도 부족했다. 그리고 하나의 단백질을 디자인하는데 드는 계산 시간도 상당히 높았다. 그러나 RFDiffusion은 아미노산 600개에 달하는 큰 단백질에 대해서도 높은 정확도로 단백질을 형성하는 서열을 만들 수 있었고, 노이즈의 패턴을 바꾸는 것만으로 얼마든지 다른 모양의 단백질을 만들 수 있었으며, 수행 속도도 할루시네이션에 비해서 몇 배 이상 빠르게 진행되었다. 그리고 형성되는 구조의 특성을 사용자가 지정하기 어려웠던 할루시네이션에 비해, RFDiffusion 에서는 원하는 2차 구조 등을 지정하여 특정한 접힘 형태를 가진 단백질 구조를 형성할 수도 있다. 

  그리고 기존에 시도되었던 여러 가지 단백질 디자인, 가령 대칭적으로 결합하는 거대 단백질 복합체 형성, 기능을 부여하기 위해서 단백질의 고정된 부분 외의 부분을 형성하는 일, 인공 효소를 만들기 위해서 활성자리에 있는 몇 개의 아미노산만을 고정하고 이 주변으로 단백질을 형성하는 일 등등 거의 모든 단백질 디자인이 가능하였다. 그리고 더 중요한 것은 컴퓨터 내에서만 단백질을 만든 것이 아니라, 이렇게 디자인된 단백질의 대부분은 기존의 방법에 비해서 훨씬 높은 성공률로 실험을 통해서 만들 수 있었다는 것이다.



그림. RFDiffusion에 의한 단백질 결합 단백질의 디자인. 기존에 알려진 MDM2-p53 단백질 결합에서 p53 (오렌지색) 을 연장한 새로운 단백질을 디자인하라는 명령을 통해 바로 기존의 단백질에 결합할 수 있는 가상의 단백질을 디자인하였다. 




그림
. RFDiffusion에 의한 액틴 (초록색) 결합 단백질의 디자인. 8개의 결합 단백질을 디자인하였고, 디자인된 단백질은
RFDiffusion에 의해서 형성된 구조와 알파폴드로 예측된 구조와의 차이(RMSD) 로 선별되었다.


  심지어 기존에는 현존하는 단백질 디자인 방법으로는 매우 어려운 일이라고 생각했던 표적 단백질에 높은 친화력으로 결합하는 단백질을 표적 단백질의 결합위치만 지정하면 알아서 만드는 것 역시 어렵지 않게 해 냈다. 기존에는 이런 단백질을 만들기 위해서는 이전에 알려진 단백질 결합 부위로부터 시작하여 수십만 개의 단백질을 모델링하고, 이중에서 수천-수만개의 단백질을 실험적으로 테스트해서 약하게 결합하는 단백질을 찾은 후, 이를 뜯어고쳐 실제로 응용에 사용할 수 있을 정도의 결합력을 얻기 위해 엔지니어링하는 작업을 거쳐야만 했다. 그러나 RfDiffusion을 통해 얻은 디자인의 경우 아미노산 서열 100종류 정도를 실험으로 선별하여 4종류의 다른 질환 관련 단백질에 nM 수준의 친화력으로 결합하는 단백질을 손쉽게 얻을 수 있었다. 

  물론 이전의 방법론으로도 이러한 단백질 디자인 중 몇 종류는 성공하기도 하였고, 이를 통해 실제로 상용 의약품 (SK 바이오사이언스의 코로나 백신 스카이코비원이 바로 단백질 디자인에 의해 탄생된 최초의 의약품이다) 으로 출시되기도 했다. 그러나 중요한 것은 단백질 디자인을 얼마나 효율적으로, 높은 퀄리티로 되느냐이다. 이전에는 단백질 디자인으로 만들어진 수천 개의 디자인에서 겨우 선별하여 이후의 후속 엔지니어링을 거쳐서 겨우 얻던 일들을 이전에 비해서 수십분의 1 정도의 노력과 비용으로도 빠르게 가능하게 된 것은 매우 큰 의미가 있다. 즉, 이전까지 개념증명 수준에 머물러 있던 단백질 디자인 기술이 본격적으로 보급될 수 있을 만큼 신뢰도가 높아지게 된 것이다. 

  RfDiffusion이나 ProteinMPNN 과 같은 단백질 구조를 기반으로 한 인공지능 기반의 단백질 디자인 기술은 CRISPR/Cas9 의 등장 이후에 유전자 가위에 의한 유전체 편집이 본격화된 것처럼 단백질 디자인의 대중화의 시발점이 될 것으로 보인다. 

  그렇다면 이러한 단백질 디자인은 과연 우리에게 어떤 미래를 가져올까? 이미 앞에서 설명한 것처럼 인공지능을 기반으로 한 단백질 디자인 방법이 등장하기 이전부터 단백질 디자인을 이용한 백신이나 약물 표적 단백질에 결합하는 단백질 의약품의 시도가 진행되고 있었다. 그러나 ‘훨씬 더 성공률이 높고 쉽게 누구나 수행해 볼 수 있는’ 단백질 디자인 방법의 등장은 단백질 디자인을 누구나 자신의 연구에 적용해 볼 수 있는 길을 열었다. 실제로 이전의 단백질 디자인 방법은 고사양의 컴퓨터 클러스터를 사용할 수 있는 사람에게나 가능했던 일이었지만 인공지능 기반의 RFDiffusion과 같은 방법은 누구나 쉽게 사용할 수 있다. 실제로 RFDiffusion은 구글 코랩 (Colab) 과 같이 구글의 서버에서 웹 인터페이스를 통하여 실행해 볼 수 있다. 이렇게 단백질 디자인에 대한 진입 장벽이 낮아진 상황에서 단백질 디자인은 이제 해당 분야의 전문가뿐만 아니라 모든 생물학자가 자신의 연구에 사용할 수 있는 도구가 되어가고 있는 셈이다.




  그림구글 Colab 을 이용한 RFDiffusion의 실행. RFDiffusion은 다음 링크에서 누구나 쉽게 사용할 수 있다

  단백질 디자인의 또 다른 응용분아라면 효소공학쪽의 적용이다. 이미 이전부터 특정한 효소의 기능을 강화시켜 기존의 효소가 가지지 못하는 성질을 가지게 하거나, 효소의 열 안정성 등의 능력을 향상시키려는 시도가 진행되어 왔다. 단백질 디자인, 특히 인공지능을 기반으로 하는 단백질 디자인 방법론은 이러한 것을 보다 간단하게 만들어 준다. 가령 ProteinMPNN을 이용하여 이미 알려진 단백질의 골격을 그대로 유지한 채, 새로운 단백질을 디자인하는 경우, 단백질의 열 안정성 향상되는 것이 관찰되어 왔다. 이를 이용하여 기존의 단백질의 기능을 향상시키려는 시도들이 진행되고 있다. 이러한 시도들은 대사공학 등과 접목되어 인류의 미래에 긴요한 역할을 할 것으로 보인다. 

  특히 지구온난화 문제로 탄소 배출 절감이 인류 생존을 결정하는 매우 시급히 해결해야 하는 문제가 된 현재 상황에서 인류가 지속적으로 문명을 유지하기 위해서는 에너지원과 각종 화학물질을 석유나 석탄와 같이 이산화탄소 배출을 유발하는 자원에의 의존 없이 만들어야 하는 상황에서 자연계에서 발견된 효소보다 효율이 좋거나 자연계에서 가능하지 않은 새로운 화학 반응을 촉매하는 효소가 필요하고, 이러한 효소의 개발 및 최적화에는 단백질 디자인이 중요한 역할을 할 것으로 보인다.  

  그리고 특정한 단백질과 결합하는 인공 단백질을 쉽게 디자인할 수 있게 됨에 따라서 세포 내에서 특정한 단백질과 결합하여 이를 조절하는 새로운 단백질을 만드는 것 역시 가능해졌고, 이를 통하여 수많은 다양한 응용이 생겨날 것으로 보인다. 가령 세포 내에서 신호 전달 과정은 특정한 단백질과 단백질이 만나서 인산화를 하거나, 단백질을 분해하는 등에 의해서 이루어진다. 이러한 과정을 인위적으로 조절할 수 있다면 어떻게 될까? 가령 세포 내에서 특정한 단백질이 분해되는 과정은 E3 유비퀴틴 라이게이즈 (E3 Ubiquitin ligase)가 표적 단백질을 인식하여 이를 유비퀴틴화한 후, 이것이 프로테아솜에 의해 인식되어 분해되며, 이를 위해서는 E3 유비퀴틴 라이게이즈가 특정한 조건에서 분해될 표적 단백질에 결합해야 한다. 만약 E3 유비퀴틴 라이게이즈와 분해될 표적 단백질을 연결해 주는 ‘어댑터’ 를 단백질 디자인을 통하여 설계할 수 있다면 어떻게 될까? 세포 내에서 특정한 단백질을 분해할 수 있는 임의의 ‘단백질’ 이 탄생하는 셈이다. (실제로 많은 바이러스들은 이렇게 세포 내에서 유비퀴틴 라이게이즈를 자신이 ‘해킹’ 하여 면역 반응을 억제하는 등의 일을 하고 있다) 이제 우리는 어떤 특정한 기능을 하는 단백질을 직접 만들 수 있는 경지에 서 있는 셈이다. 

  즉, 단백질 디자인의 보편화는 생명의 기본 부품인 단백질을 우리가 자유롭게 만들어 냄으로써 생명체의 기본 작동 방식을 ‘다시 쓸 수 있는’ 새로운 기회를 제공하는 셈이다. 지금까지의 생물학이 기존의 생명 활동이 어떻게 작동하는지를 읽는 ‘읽는 생물학’ 이었다면 앞으로의 생물학은 생명 활동을 수정하거나, 아예 새로 쓰는 ‘쓰는 생물학’ 이 될 것이며 단백질 디자인은 이러한 변화의 추세에서 핵심이 되는 기술이 될 것이다.


참고문헌

[1] Gutte, B., Däumigen, M., & Wittschieber, E. (1979). Design, synthesis and characterisation of a 34-residue polypeptide that interacts with nucleic acids. Nature, 281(5733), 650-655.

[2] Regan, L., & DeGrado, W. F. (1988). Characterization of a helical protein designed from first principles. Science, 241(4868), 976-978.

[3] Walsh, S. T., Cheng, H., Bryson, J. W., Roder, H., & DeGrado, W. F. (1999). Solution structure and dynamics of a de novo designed three-helix bundle protein. Proceedings of the National Academy of Sciences, 96(10), 5486-5491.

[4] Kuhlman, B., Dantas, G., Ireton, G. C., Varani, G., Stoddard, B. L., & Baker, D. (2003). Design of a novel globular protein fold with atomic-level accuracy. science, 302(5649), 1364-1368.

[5]  Bale, J. B., Gonen, S., Liu, Y., Sheffler, W., Ellis, D., Thomas, C., ... & Baker, D. (2016). Accurate design of megadalton-scale two-component icosahedral protein complexes. Science, 353(6297), 389-394.

[6] Boyoglu-Barnum, S., Ellis, D., Gillespie, R. A., Hutchinson, G. B., Park, Y. J., Moin, S. M., ... & Kanekiyo, M. (2021). Quadrivalent influenza nanoparticle vaccines induce broad protection. Nature, 592(7855), 623-628.
[7] Cao, L., Goreshnik, I., Coventry, B., Case, J. B., Miller, L., Kozodoy, L., ... & Baker, D. (2020). De novo design of picomolar SARS-CoV-2 miniprotein inhibitors. Science, 370(6515), 426-431.
[8] Silva, D. A., Yu, S., Ulge, U. Y., Spangler, J. B., Jude, K. M., Labão-Almeida, C., ... & Baker, D. (2019).
[9] De novo design of potent and selective mimics of IL-2 and IL-15. Nature565(7738), 186-191.

Walls, A. C., Miranda, M. C., Schäfer, A., Pham, M. N., Greaney, A., Arunachalam, P. S., ... & Veesler, D. (2021). Elicitation of broadly protective sarbecovirus immunity by receptor-binding domain nanoparticle vaccines. Cell, 184(21), 5432-5447.

[10] Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature596(7873), 583-589.

[11] Dauparas, J., Anishchenko, I., Bennett, N., Bai, H., Ragotte, R. J., Milles, L. F., ... & Baker, D. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science, 378(6615), 49-56.

[12] Watson, J.L., Juergens, D., Bennett, N.R. et al. (2023) De novo design of protein structure and function with RFdiffusion.Nature 620, 1089–1100 
[13] Yeh, A. H. W., Norn, C., Kipnis, Y., Tischer, D., Pellock, S. J., Evans, D., ... & Baker, D. (2023). De novo design of luciferases using deep learning. Nature, 614(7949), 774-780.
[14] Wick, E. T., Treadway, C. J., Li, Z., Nicely, N. I., Ren, Z., Baldwin, A. S., ... & Brown, N. G. (2022). Insight into viral hijacking of CRL4 ubiquitin ligase through structural analysis of the pUL145-DDB1 complex. Journal of Virology, 96(17), e00826-22