화학공학소재연구정보센터
학회 한국화학공학회
학술대회 2004년 봄 (04/23 ~ 04/24, 공주대학교)
권호 10권 1호, p.177
발표분야 공정시스템
제목 Suffix Tree를 이용한 EST(Expressed Sequence Tag)의 Clustering에 관한 연구
초록 생명공학이 발달함에 따라 생물체의 기반이 되는 DNA, RNA 및 단백질을 분석하는 기술도 발전을 이루었고, 그에 따른 유전정보들이 빠른 속도로 축적되었다. 전체 유전자(Whole genome)의 서열정보는 대용량 텍스트이며, 순차적으로 컴퓨터에 저장된다. 이러한 저장방법은 대용량 서열정보를 처리하는데 있어서 효율적이지 못하다. 또한 데이터 엑세스 시간이 서열정보를 처리하는데 제한 요소가 되어가고 있다. 이런 이유 때문에 효율적인 자료구조와 알고리즘이 필요하게 되었다.
문자열을 비교하는 방법에는 두 개를 비교하는 pair-wise alignment 와 여러 개의 서열을 동시에 비교하는 multiple alignment 방법이 있다. 본 연구에서는 여러 개의 서열을 동시에 비교하고 위에서 제시한 문제점들을 해결하기 위해 자료 구조인 서픽스 트리(Suffix Tree)와 클러스터링 방법인 STC(Suffix Tree Clustering)을 도입하였다. 서픽스 트리는 String의 내부구조(Internal Structure)를 표현하는 자료 구조이며, STC는 서픽스 트리를 이용한 클러스터링 방법이다. 서열들 사이의 공통된 염기 서열(Common Subsequence)을 효율적으로 찾아내기 위해 Suffix Tree를 형성한다. 검색된 공통 염기 서열들을 바탕으로 클러스터들이 형성된다.
위의 알고리즘의 효율성과 실제 적용 가능성을 비교하기 위해 EST 데이터베이스의 실제 염기서열들을 입력하여 결과를 검토하였다.
저자 한상일, 안대명, 이성근, 황규석
소속 부산대
키워드 suffix tree; DNA; multiple alignment; nucleic acid; EST
E-Mail
원문파일 초록 보기