초록 |
본 연구에서는 DNA chip을 통한 암의 분류와 진단 방법에 있어서 새롭고,매우 효율적인 data mining 기술을 제안한다. 이 방법은 Principal Component Analysis (PCA), Generalized Squared Distance (GSD), Stepwise Discriminant Analysis (SDA)등으로 구성되어 있다. PCA는 많은 양의 변수를 압축해주어 분석이 용이하다. 한편 SDA는 암을 분류하는데 중요한 변수를 효율적으로 선택하여 주기에, 주요한 유전자 (drug target)를 알 수가 있다. 또한 GSD는 다양한 암을 정확하게 분류해주는 새로운 분석 방법이다.제안한 분류 방법은 classification power 면에서 100%라는 좋은 결과를 냈다. 또한 DNA chip data가 가진 많은 수의 변수를 기존 정보의 손실 없이 효과적으로 축소 시킴으로써 high-dimension 문제를 해결하였다. 그리고 최적의 discriminant를 위한 변수의 선정을 하는 SDA를 처음으로 제안 하였고 이 방법을 통해 특정 class마다의 고유한 특징을 나타내는 데 관여하는 PC축을 선택 할 수가 있었다. 앞으로 본 연구에서 제안한 방법을 통해서 우리는 각 암의 독특한 특징에 관여하는 유전자를 찾아낼 수가 있으며 이렇게 밝혀진 유전자는 새로운 drug target이 될 수가 있다. |