068
새로운 AI가 단일세포의 유전자발현을 예측한다.
인공지능의 개발로 모든 분야에 큰 변화가 예상됩니다. 특히 앞으로 사회로 진출하기 위해 많은 것을 준비해야할 젊은 세대들에겐 인공지능에 영향을 받지 않을 직업이 무엇인지가 초미의 관심사 라고 합니다. 하지만 사실 어떤 전문가도 앞으로 AI가 어떤 방향으로 발전할지 예측하기는 어려울 것 같습니다.
저도 과학자로서 생물학에서 활용할 수 있는 AI에 대해 많은 관심과 공부를 하고 있지만 아직 모르는 것이 너무 많거나 아니면 AI분야의 발전 속도가 너무 빠른 것 같습니다. 다만 한 가지 분명한 것은 지금 인류는 마치 인간이 원자폭탄을 처음 만들어낸 후 원자폭탄이 없던 시절로 돌아가지는 못하는 것처럼 AI가 없는 시절로 돌아가는 것은 불가능하다는 점입니다. 다양한 AI의 능력을 이용하는 것이 앞으로 우리 인류가 발전하는데 중요한 역할을 할 것이고, 그 동안 풀지 못했던 난제들을 풀 수 있는 가능성이 열린 셈입니다. 그런데 만약 영화 로보캅이나 터미네이터에서 본 것처럼 AI를 탑재한 경찰이나 비밀요원 로봇이 거리를 돌아다니며 사람들을 체포, 살상한다면 어떨까요? 더나가서는 AI가 경쟁하여 또 다른 종류의 생물로 진화한다면 인류문명 전체를 위협할 수도 있을 것입니다. 전혀 불가능한 일은 아니기에 국제적인 규약과 실천을 통해 사전에 예방하는 것이 지금 필요하다고 과학자들은 주장하고 있습니다.
여기 소개한 AI는 세포를 특정한 유전자들을 발현하는 시스템으로 이해하고, 이들이 유전자 발현에 변화를 주었을 때 어떻게 반응하는지 자료를 분석하여, 그 세포의 종류(유전자 발현 패턴)을 파악하고 특정한 유전자를 없엤을 때 세포의 행동(유전자 발현)이 어떻게 변할지를 예측하고자 시도한 것입니다. 관심있는 분은 원 논문의 link(https://github.com/bowang-lab/scGPT)를 따라가면 사용해 볼 수 있습니다.
인공지능 도구(artificial intelligence tool)인 scGPT가 세포의 종류를 알아내고, 유전자들의 결손 시 나타날 결과를 예측하며 특정 유전자들 간에 상호작용을 잡아낼 수 있다.
과학자들은 질병을 연구하기 위해 전체 세포집단의 유전자 발현을 연구한다. 예를 들면, 암과 관련된 약 개발을 위한 단백질 표적을 찾고 알츠하이머병의 초기 진단을 위한 혈액내 바이오 마커를 찾기 위해 RNA 염기서열분석(시퀀싱, sequencing)을 실시한다.
최근에 과학자들은 단일 세포 RNA 시퀀싱(single cell RNA sequencing, scRNA-seq)을 통해 단일 세포들 간에 유전자 발현에 어떤 차이가 나는지도 알 수 있다. 과학자들은 특히 scRNA-seq의 데이타를 머신 러닝 프로그램을 이용해 시작부터 특정한 일들을 수행하는 데까지 활용하고 있다.
Bo Wang은 University of Toronto의 생물학자이자 컴퓨터 생물학자로 single cell generative pretrained transformer(scGPT)라고 부르는새로운 AI 도구를 만들었다. 이 모델은 scRNA-seq의 데이타를 미세하게 조정하여 다양한 일들을 수행할 수 있다. 여기에는 특정한 유전자를 조작했을 때 나타날 영향을 예측하거나 데이터들을 합해서 알기 어려운 세포의 종류를 감정해내는 것 등이 포함된다.
scGPT는 기초가 되는 AI 도구이다. 이 핵심 모델을 이용하여 새로 구축하고 변형하여 하위 작업들을 수행할 수 있기 때문이다. 날로 인기 상승중인 대화형 AI, ChatGPT와 같은 방식으로 작동한다. ChatGPT는 답을 문장으로 내놓는 반면 scGPT는 세포수준에서의 유전자 발현을 예측한다.
Wang에 따르면 하나의 기초 모델을 플렛폼으로 사용하는 것은 서로 다른 분석 결과를 비교할 때 여러 모델을 이용한 것에 비해 잘못될위험이 적기 때문에 유리하다고 한다. 각 컴퓨터 분석에서는 같은 데이터라도 생성된 구조에 따라 다른 가설을 만들기 때문에 정확치못한 결론에 다다를 수 있다.
최근의 출판전 논문에서, Wang의 연구진은 기존의 방법들에 비해 scGPT가 scRNA-seq을 잘 분석 한다는 것을 보여주었다. 그들은 최초 4일간 혈액과 골수 세포에서 얻은 일천삼십만개의 scRNA-seq 데이터를 입력하여 scGPT를 학습 시켰다. 여기에는 50개 이상의 세포 종류가 포함되어 있다. 이는 AI가 세포 안에서 또는 세포 간에 유전자 발현이 어떻게 근본적으로 연결되었는 지를 배울 수 있게 했다.
주어진 세포에서 모든 유전자가 발현되고 있는 것은 아니기 때문에 각 세포는 20,000개 유전자 중 수 천개에 대한 정보를 제공한다. 이들을 종합한 결과 유전체 내의 거의 모든 유전자에 대한 정보를 갖게 되었다. 이 연구진은 예전에 얻은 사람의 면역세포에서 얻은 10가지 서로 다른 scRNA-seq 데이터 덩어리를 통합해서 기초 모델을 세밀하게 조정할 수 있었다. 각 데이터의 일부를 이용하여 학습시켜 서로 다른 데이터에서 보다 일반화된 집단으로 같은 세포를 분류할 수 있도록 하였다. scGPT는 각 데이터군 간에 비생물학적인 요인에 의한 차이도 적용하도록 배웠다. 예를 들면 시행된 날자, 세포를 수획한 방법 등이다. 데이터군 통합(batch integration)으로 알려진 이 방식으로 데이터 베이스를 모아 거의 모든 세포 종류에 대해 다량의 데이터를 모을 수 있고, 이를 이용해 건강하거나 아플 때 관여하는 희귀한 세포들을 감지하고 밝힐 수 있게 해줄 것이다.
연구자들은 이렇게 미세조정된 scGPT와 가장 많이 사용되는 3 가지 방법이 합쳐져 감춰두었던 데이터를 얼마나 잘 다루는지 알아보았다. scGPT는 각기 다른 데이터 집단에서 표준 모델보다 약 5% 더 효율적으로 세포종류를 분류하였고 많이 이용되는 방법과 유사한 정도로 비생물학적인 영향을 고쳐낼 수 있었다.
연구진은 또 다른 잘 다듬어진 scGPT인, GEARS라고 부르는 표준 모델과 비교하여 80여개 유전자를 변동시켰을 때 단독 또는 쌍으로다른 유전자에 미치는 영향을 얼마나 잘 예측하는지 비교하였다. 각 유전자 조작에 따라 가장 영향을 많이 받는 20개 유전자들에 집중하였고, Wang과 동료들은 scGPT가 가장 앞선다는 것을 발견하였다.
“이런 진전이 정말 생물학적 지식을 더해주는 걸까요? 새로운 가설을 세우는데 유용할까요?” 이 연구에 직접 관여하지 않았던 네덜란드의 Leiden University Medical Center의 컴퓨터 생물학자인 Ahmed Mahfouz의 질문이다.
이런 발견은 분명해 보이지만 Mahfouz는 여기에는 수백만가지의 변수가 있고 훈련에는 엄청나게 많은 데이터가 필요하다고 조심스럽게 언급했다. 결과적으로 이들은 엄청난 양의 에너지를 소모해야하고 엄청난 양의 탄소 산물이 남기게 될 것이다. 이런 고에너지 요구량과 연구자들이 세밀한 조정을 위해 머신러닝과 친숙 해져야 한다는 점을 고려할 때, 세포생물학자 들에게 scGPT가 얼마나 사용될지는 의문이다.
그럼에도 불구하고 “미세조정은 아주 효울적입니다.” Wang의 말이다. “예를 들어 10,000 에서 20,000개의 세포에 대한 데이터를 처리하는 데는 약 5 내지 10분 정도 걸립니다.” 이들은 scGPT를 사용자들이 보다 쉽게 접근할 수 있게 만들기를 원한다. “우리는 모든 사람이 이용할 수 있는 code와 모델을 만들었고 교육용 web site를 만들기 위해 정말 열심히 일하고 있습니다. 이를 통해 수많은 사용법 교육과 이를 이용해 풀 수 있는 작업들에 대한 실질적인 예를 제공할 것입니다.”라고 말했다.
Wang의 연구팀은 계속 scGPT에 대한 작업을 계속할 예정이다. 이 모델의 첫 시도는 골수와 면역세포를 분석하는데 유용한 반면, 이팀이 최근에 발표한 scGPT 업그레이드 모델은 3천3백만 세포의 세포를 이용해 훈련이 이루어졌다. 여기에는 뇌, 혈액, 췌장, 폐, 심장,신장, 암 그리고 장의 세포들이 포함된다.
최근에는 scGPT와 비슷한 기초가 될 모델들이 발표되었고 어떤 것이 연구에 많이 활용될지 곧 알게 될 것이다. Mahfouz는 멀지 않은미래에 scGPT와 같은 모델들이 생물학의 중요한 질문들에 답을 줄 것이라고 예측하며, 이는 오직 시간이 입증해 줄 것이다. “지금은 흥미로운 시기입니다. 올해가 끝날 때쯤이면 지금과는 사뭇 다른 그림을 보게 될 것입니다.”
<이글은 아래의 기사를 번역한 것입니다.>
Carissa Wong, PhD., A new AI tool predicts gene expression in a single cell. The Scientist Aug 21, 2023.