[전재표 기자/스포츠닷컴]
관련 연구문헌의 쉽고 빠른 검색으로 효율적인 암 연구 도와
국내 연구진이 암 관련 유전자를 보다 빠르고 정확하게 찾을 수 있는 특화된 검색엔진을 개발했다. 메드라인*에 탑재된 300만 건에 육박하는 암 관련 유전자에 대한 연구문헌에서 암-유전자 관련성에 대한 정보를 빨리 검색할 수 있어 암 연구를 위한 새로운 도구가 될 것으로 기대된다.
* 메드라인(Medline) : 생물학 및 의학 연구문헌을 저장하는 데이터베이스
암은 수천 개 이상 유전자의 비정상적 변화와 그에 따른 신호전달 체계 교란이 주요 원인으로 암의 원인을 이해하고 치료하기 위해서는 이들 유전자의 변화와 암과의 관련성을 이해하는 것이 중요하다.
이에 수많은 유전자 변화의 암 관련성에 관한 연구결과들을 바로 파악하고 수집하여 종합적으로 분석, 판단하는 것이 요구된다.
연구팀은 의학 및 생물학 연구문헌에서 유전자의 발현량 변화*와 유전자 변화에 따른 암 상태 변화를 기술하는 문장을 찾아내는 검색엔진 온코서치(OncoSearch, http://oncosearch.biopathway.org)를 개발했다.
* 유전자 발현량 변화 : 유전자의 발현이란 DNA가 RNA 및 단백질로 전사 및 번역되는 것으로 유전형이 표현형으로 반영되는 가장 기초적인 단계이다. 따라서 유전자 발현량의 변화는 유전자가 표현형을 조절하는 가장 기본적 도구가 된다.
카이스트(KAIST) 전산학과 박종철 교수 연구팀이 지스트(GIST) 이현주 교수와 함께 수행한 이번 연구는 언어학, 컴퓨터공학, 생물학 및 의학을 포괄적으로 연계하는 융합연구로 미래창조과학부가 추진하는 중견연구자지원사업의 지원으로 수행되었고 연구결과는 생물학 분야 학술지 핵산연구(Nucleic Acids Research) 온라인판 5월 9일자에 게재됐다. (논문명: OncoSearch: Cancer Gene Search Engine with Literature Evidence)
개발된 온코서치는 첨단 텍스트마이닝 기술인 사건 정보 추출 시스템과 최대 엔트로피* 분류기를 사용해 문장의 구조를 심도 있게 분석, 유전자 발현량의 증감 및 암의 진행상태 파악을 용이하도록 했다.
* 최대 엔트로피(maximum entropy) : 알려진 사전 정보를 기반으로 엔트로피가 최대가 되는 확률분포를 최적으로 선정하는 원리로 최대 엔트로피 분류기란 이러한 원리를 기반으로 확률모델을 만들어 이종데이터를 분류하는 분류기이다. 연구에 사용된 최대 엔트로피 분류기는 연구팀이 자체 연구, 개발한 말뭉치인 코맥씨(CoMAGC)를 기반으로 개발됐다.
특히 각 유전자가 암 진행에 기여하는 정도를 문장 구조 분석 및 추론을 통해 파악하기 때문에, 기존의 암 관련 유전자 정보 수집 기법들과는 달리 암 관련 유전자 역할에 대한 명시적인 표현(oncogene, tumor suppressor 등)이 없어도 관련된 정보를 파악할 수 있다는 점에서 수월성을 보인다.
또한 메드라인에 등재된 모든 논문에서 1,700종 이상의 악성종양과 7,500개 이상의 유전자에 관한 문헌정보를 빠르고 정확하게 검색, 대량의 정보를 쉽게 수집할 수 있게 됨에 따라 암 연구의 질적향상에 기여할 것으로 기대된다.
박 교수는 “온코서치가 첨단 텍스트마이닝 기술을 사용해 연구문헌에서 자동으로 수집한 암 관련 유전자에 대한 대량의 정보는 향후 자동 추론기술 등을 활용해 암 연구를 위한 새로운 도구로 활용될 수 있다”고 의의를 밝혔다.
www.newssports25.com
전재표 기자 su1359m@hanmail.net
기사 제보 및 보도자료/ 스포츠닷컴&추적사건25시