구글의 연구개발 부문인 Google Reearch가, 암의 유전적 변이를 특정하기 위한 오픈소스 AI 도구 'DeepSomatic'을 샌타크루즈 캘리포니아대 등과 공동으로 개발했다고 밝혔다.
암 유전자 분석에서는, 부모로부터 물려받아 몸의 모든 세포에 존재하는 선천적인 변이와, 자외선이나 화학물질, DNA 복제 시 우연한 오류 등으로 인한 후천적인 변이를 정확하게 구분해야 한다.

DeepSomatic은, 선천적 변이를 발견하기 위한 도구 'Deep Variant'의 확장 기능으로, 암세포와 정상 세포의 게놈 배열 데이터를 이미지로 변환하고, 이를 중첩 신경망(CNN)으로 해석. 이 이미지 분석을 통해, 유전자 배열을 읽는 시퀀싱 과정에서 생기는 미세한 오류와 진짜 유전적 변이를 구별해, 암 특유의 체세포 변이를 고정밀로 검출한다.
이 기법을 통해, DeepSomatic은 기존의 해석 도구를 뛰어넘는 성능을 발휘. 특히 그동안 검출이 어려웠던, 유전자 코드의 일부가 삽입되거나 결실되는 '인델'이라 불리는 변이의 특정에서, 큰 폭의 정확도 향상을 실현했다고 연구팀은 보고했다.
DeepSomatic의 고성능을 지탱하고 있는 것은, 「CASTLE」라고 이름 붙여진 고품질의 학습용 데이터 세트로, 이 데이터 세트는 유방암과 폐암 샘플에 대해 세 가지 주요 시퀀싱 시스템의 데이터가 통합된 것으로, 각 플랫폼이 포함하고 있는 오류를 제거함으로써 매우 정확한 것으로 되어 있다고 한다.
실제로, 주요 시퀀싱 시스템인 Illumina의 데이터를 이용한 인델 변이의 검출에 있어서, 기존의 툴의 정밀도를 나타내는 F1 스코어가 대략 80%였던 것에 비해, DeepSomatic은 90%를 달성. 또 PacBio 데이터에서는, 기존 툴이 50% 미만의 점수였는데, DeepSomatic은 80% 이상이라는 높은 정확도를 기록하며, 그 우위를 보였다고 한다.
또한 DeepSomatic은, 포르말린으로 고정된 오래된 조직 샘플이나, 전체 게놈 중 단백질의 설계도가 되는 부분만을 해석하는 엑소임 시퀀싱 데이터 등, 해석이 어려운 조건하나 정보량이 적은 데이터에 대해서도 높은 성능을 유지할 수 있음이 확인되었다.
덧붙여, DeepSomatic는, 학습에 사용한 유방암이나 폐암 뿐만이 아니라, 전혀 다른 종류의 암에도 그 능력을 응용할 수 있다고 Google Research는 어필. 실제로 악성도가 높은 뇌종양인 교모종 샘플을 분석했더니, 원인이 되는 유전적 변이를 정확하게 파악하는 데 성공했다는 것.

또한, 소아에서 가장 많은 암인 소아 백혈병에 대한 분석도 실시되었는데, 백혈병은 혈액의 암이기 때문에, 비교 대상이 되는 정상적인 혈액 세포를 채취하는 것이 곤란하지만, 암세포의 데이터만을 이용하는 '종양만'의 해석으로도, 이미 알려져 있던 변이 외에, 새롭게 10개의 변이를 발견할 수 있었던 것.
Google Research는 「Google Research는, 사람들에게 진정한 구체적인 영향을 주는 기초적인 돌파를 일으키고 있습니다. 우리가 이 일을 하는 것은 미래로 가는 길은 사람들에게 현실을 더 좋게 만들 수 있는 연구에 기반을 두고 있기 때문입니다."라고 말하고 있다.
DeepSomatic은 BSD 라이선스 하에 GitHub에서 저장소가 공개되어 있다.