화학공학소재연구정보센터
학회 한국화학공학회
학술대회 2003년 가을 (10/24 ~ 10/25, 한양대학교)
권호 9권 2호, p.2112
발표분야 생물화공
제목 Suffix Tree를 이용한 DNA Sequences의 Multiple Alignment에 관한 연구
초록 생명공학이 발달함에 따라 생물체의 기반이 되는 DNA, RNA 및 단백질을 분석하는 기술도 발전을 이루었고, 그에 따른 유전정보들이 빠른 속도로 축적되었다. 실험에 의해 밝혀진 서열정보들은 텍스트 형태로 순차적으로 컴퓨터에 저장된다. 이러한 저장방법은 대용량 서열정보를 처리하는데 있어서 효율적이지 못하고, 데이터 엑세스 시간이 서열정보를 처리하는데 제한 요소가 되어가고 있다.
본 연구에서는 여러 개의 서열을 동시에 비교하고 위에서 제시한 문제점들을 해결하기 위해 문자열에 관련된 문제를 효율적으로 해결하는 자료 구조인 서픽스 트리(Suffix Tree)와 클러스터링 방법인 STC(Suffix Tree Clustering)을 도입하였다. 서픽스 트리는 String의 내부구조를 표현하는 자료 구조이며, STC는 서픽스 트리를 이용한 클러스터링 방법이다.
Suffix Tree를 구성하여 검색된 공통 염기 서열들을 바탕으로 클러스터들이 형성된다. 또한 염기 서열들은 특정 염기가 계속해서 반복되는 부분(-AAAAAAAAAA-)과 특정 염기 단위(-ATCATCATCATC-)가 반복되는 부분을 종종 포함한다. 클러스터링 할 때, 낮은 복잡도 지역은 국소 유사성을 발생시켜서, Bad Basic Cluster들을 생성시킬 수 있다. 따라서 낮은 복잡도 지역을 스크리닝(Screening)하여서 Bad Basic Cluster를 제거하는 절차도 수행하였다.
저자 한상일, 이성근, 안대명, 황규석
소속 부산대
키워드 Suffix Tree; 바이오인포매틱스; DNA;multiple alignment
E-Mail
원문파일 초록 보기