초록 |
여러 생물에 관련된 genomic data가 급속히 증가하고, data를 빠르고 정확하게 분석할 수 있게 되었다. Multiple sequence alignment는 세 개 이상의 단백질이나 DNA 서열들을 배열하여서 유사하거나 같은 부분을 찾아낸다. 그러나 기존의 SP-method, CLUSTALW, PILEUP 을 비롯한 multiple sequence alignment 방법들은 pairwise comparison 을 하므로 서열의 개수가 증가할수록 검색 시간이 크게 증가하는 단점이 있다. 따라서 본 연구에서는 선형시간 Suffix Tree Clustering 알고리즘을 구현하였다.BLAST를 이용하여 gene 어노테이팅을 가능하게 하였다. 우리는 gene clustering의 6단계를 제시하였다. 1) Constructing suffix tree, 2)Searching and overlapping common subsequences, 3)Grouping subsequence pairs, 4)Masking cross-matching pairs, 5)Clustering pair groups, 6)annotating gene clusters by BLAST search. 우리의 시스템은 박테리아의 TCA cycle에서 가져온 42개의 gene을 모두 11개의 그룹으로 클러스터링 하였다. |