최근 수정 시각 : 2024-03-07 22:47:15

AlphaFold


1. 개요2. 알파폴드13. 알파폴드24. 알파폴드 멀티머5. 알파폴드 레이티스트

1. 개요

구글 딥마인드에서 개발중인 인공지능 프로그램이다.

단백질 접힘을 실험적으로 알아내기 위해서는 엑스선 결정학[1]의 도움을 빌리거나 극저온 현미경[2] 등을 활용하여야 하지만 이 방법들로 단백질 접힘구조를 밝히려면 비용이 많이 들며 소요되는 시간 역시 길어, 짧게는 몇 개월에서 길게는 몇 년이 걸리기도 한다. 어떤 단백질 구조는 십 수년이 걸려도 실마리를 잡지 못하는 경우도 있다. 알파폴드는 이런 단백질 접힘 연구에서의 난점을 돌파하기 위해 딥러닝 알고리즘을 활용하여 개발된 것이다.[3]

Alpha Fold 1 github repository
Alpha Fold 2 github repository

이를 기반으로 구글은 AlphaFold 기반 신약 개발사 아이소모픽 랩스를 설립했다. # 또한 대표이사 데미스 허사비스와 연구원 존 점퍼는 2022년 9월 알파폴드를 통한 인공지능 기반 3차원 단백질 구조 예측에 대한 공로로 생명과학 분야 브레이크스루상을 수상했다.

2. 알파폴드1

2018년 12월 멕시코 칸쿤에서 열린 ‘단백질 구조 예측 학술대회(CASP)’에 참여하였다.

CASP은 미국 메릴랜드대의 세포생물학 및 분자유전학과 교수인 존 몰트의 주도로 1994년부터 시작해 2년마다 열리는 단백질 구조 예측 대회이다.

CASP 조직위원회는 대회가 열리는 해 여름부터 매일 1~2개씩 아미노산 서열을 공개해 대회가 열리기 전까지 총 100개 정도의 문제를 낸다. 자동화 서버를 이용하는 참가자는 3일, 직접 예측하는 참가자는 2주 안에 단백질 구조를 예측해 제출해야 한다. 조직위원회는 10월 말쯤 참가자가 제출한 예측 정확도를 평가해 대회 기간 중 결과를 발표한다. 컴퓨터 예측이 90점 이상을 기록하면 실험과 대등한 결과로 간주했다.

당시 데미스 허사비스 CEO는 "바둑 AI인 알파고 알고리즘을 개발하는 것과는 차원이 다른 시도"라며 딥마인드의 연구결과가 알파고와는 달리 실용적인 목적에 적용되는 사례라는 데 큰 무게를 두는 듯한 발언을 하였다.

처음 개발될 당시에는 단백질 구조를 예측하는데 약 2주일정도가 소요되었으나 이 대회에 출전할 당시에는 불과 2~3시간만에 일련의 작업을 해내는 것으로 알려졌다.

결과적으로 대회에 참가한 전세계 98개의 연구그룹 중에서 압도적인 1위를 달성했다. 바로 직전에 열린 2016년 CASP12에서 최고 난이도 과제의 1등은 40점에 그쳤으며, 2018년 첫 출전한 CASP13의 알파폴드1은 이 분야에서 60점을 기록했다. 이 기록은 그 이전에 열린 CASP에서는 한 번도 달성된 적 없는 점수이다.

3. 알파폴드2

파일:alphafold2 CASP score.jpg
CASP14(2020)와 CASP13(2018)에서의 알파폴드 스코어 비교[4]

2020년 초 중국에서 코로나19의 유전정보를 공개하자마자 단백질 구조를 예측하는 데 성공했다고 발표했다. 이 버전이 CASP14에 참가한 알파폴드2와 같은 버전인지 아닌지에 대해서는 밝혀진 바가 없으나 18년에 선보인 알파폴드1보다는 개선된 알고리즘을 사용한 것으로 추측된다.

아무튼 딥마인드는 지난 번 CASP출전 때보다 개선된 알파폴드2를 가지고 다시 한 번 대회에 참가해 주어진 과제의 3분의 2에서 인간 과학자 수준의 정확도를 보였다. 정확하게는, 과학자들이 실험으로 사전에 밝힌 것과 90% 이상 일치하는 결과를 얻은 것이다.
이것은 지난 몇 십년간 한 번도 달성된 바 없는 점수일 뿐 아니라 CASP13에서 알파폴드1이 달성한 점수보다도 훨씬 높은 것으로서 일각에서는 "알파폴드2 쇼크"로 지칭할 정도로 큰 충격을 가져왔다.

그 과정에서 알파폴드2는 지난 10년동안 독일 막스 플랑크 연구소가 알아내려고 시도했지만 번번히 실패했던 박테리아 단백질 구조를 단 30분만에 알아내는 기염을 토하기도 하였다. 막스 플랑크 연구소에서 해당 연구를 진행했던 안드레이 루파스 박사는 영국 과학매체 뉴사이언티스트 인터뷰에서 “앞으로 단백질 구조 분석은 컴퓨터에 전적으로 의존하게 될 것”이라며 “의학의 운명을 완전히 바꿀 수 있다”고 말했다.

알파폴드2는 알파폴드1과 비교해서 알고리즘 측면에서 몇가지 변화가 있었다. CASP의 평가 위원 중 한 명인 석차옥 서울대 화학과 교수는이와 관련해 “알파폴드2는 알파폴드1 보다 많은 단백질 구조 데이터를 학습했고, 딥러닝 방식도 다르다”며 “딥마인드가 미리 제출한 3쪽 분량의 초록을 토대로 추측해 보면 알파폴드1이 아미노산 2개의 상호작용에 주목한 반면 알파폴드2는 좀 더 많은 아미노산의 상호작용에 초점을 맞춘 것 같다"고 설명했다.

물론 알파폴드2가 단백질 구조예측 문제를 완전히 해결한 것은 아니다. 알파폴드2는 작은 단백질과 도메인에서만 작동하며 많은 구조생물학자들이 현재 집중하고 있는 연구 주제와는 다소 차이가 있다. 실제 살아있는 유기체의 세계에서 발견되는 단백질 배열들은 CASP에서 제시되는 것들 보다 훨씬 더 풍부하고 다양하며 복잡하기 때문에, 이에 직면했을 때 알파폴드2가 얼마나 잘 작동할지 아직은 확신할 수 없는 것.
실제로 일부 구조생물학자들은 지나친 확대해석이나 과잉보도를 자제할 것을 촉구하기도 했다. 그러나 AI분야와 구조생물학분야를 막론하고 알파폴드2가 해당 연구 분야에서 대단한 혁신을 가져온 것은 인정하는 분위기. 적어도 알파폴드2 이후에 나오는 버전들이 분자생물학 분야에 큰 도약을 가져올 것은 분명하다.

특히나 인상적인 것은 불과 2년 전에 개발된 알파폴드1에 비교해서도 알파폴드2가 구조 예측에 있어서 훨씬 능률이 뛰어나다는 점이다. 관련 학계가 술렁인 까닭에는 알파폴드2 자체의 성능외에도 이토록 빠른 알파폴드 알고리즘의 발전 속도 또한 한 몫한 것으로 보인다.
적당한 시점에 개발에서 손을 뗀 알파고와는 달리 딥마인드 측에서도 계속 차기 버전을 계속 내놓으며 개선을 도모할 가능성이 점쳐진다.

2022년 7월 28일, 딥마인드는 알파폴드를 오픈소스로 공개함과 동시에 무려 2억개에 달하는 단백질 구조예측 결과를 인터넷으로 공개했는데, 동시기 단백질 아미노산 배열 데이터 베이스 규모가 2억 개를 조금 넘는 수준인걸 감안하면[5] 사실상 인류가 지금껏 알아낸 모든 단백질 구조를 예측한 셈이다.

4. 알파폴드 멀티머

다중쇄 단백질 구조예측까지 가능해진 모델. 알파폴드 1과 2는 단일사슬 단백질 구조예측만 가능해 사용처가 한정되어 있었는데 반해 다합체(멀티머)를 이룬 단백질 구조 예측이 가능하다는 점에서 개선된 모델이다.

5. 알파폴드 레이티스트

2023년 보고된 알파폴드 버전으로 일반에 공개되지 않은 버전이므로 정식 넘버링이 부여되지 않았다. 말 그대로 "최신 알파폴드". 성능 상 알파폴드2의 개선판인 알파폴드 멀티머나 알파폴드 2.3보다 확실한 비교우위를 가지고 있다고 보고되었다. 기존에 알파폴드가 구조생물학계에 일대 혁신을 몰고 왔음에도 그 동안 신약개발에 바로 적용되지 못한 까닭은 단백질의 구조가 정태적이지 않기 때문이다. 단백질은 생명활동에 사용될 때 각종 분자들과 결합하는데 그 때마다 구조가 약간씩 변하게 된다. 이를 적절히 예측하지 못하면 실질적으로 각종 응용분야에 사용되기가 어려운 것. 알파폴드 레이티스트는 리간드, 핵산 등과 결합할 때 단백질의 역동적인 구조변화를 예측하는 능력이 탁월하여 응용가능성 측면에서 진일보한 것으로 평가된다. 2024년 들어 알파벳의 자회사인 아이소모픽 랩스는 일라이 릴리 노바티스사와 신약개발과 관련해 전략적 협력체제를 구축하였는데 그 기반이 된 모델이 이것이다.
[1] 단백질 결정을 만들어 결정에 X선을 쏘는 방식으로 단백질 구조를 예측하는 방식 [2] 생화학 분자를 영하 200도 이하의 저온 상태로 급냉각시켜 정밀 관찰하는 방식 [3] 단백질은 세포, 효소, 호르몬 등의 주 성분이다. 즉 인간이 생명을 유지하기 위해서 반드시 필요하다. 단백질의 구조를 정확히 예측할 수 있다면, 여기에 결합하는 물질을 만들어 신약을 만들기 용이해지기 때문에 중요도가 높아지고 있다. [4] 그 전의 대회에서 10년간 1등팀들이 획득한 점수와 비교하면 그 차이가 더욱 확연하다. [5] Uniprot기준 2억 3천만개에 조금 못미친다.