Ngày nhận bài: 22-10-2014
Ngày duyệt đăng: 20-12-2014
DOI:
Lượt xem
Download
Cách trích dẫn:
PHƯƠNG PHÁP LẤY MẪU THUỘC TÍNH MỚI TRONG RỪNG NGẪU NHIÊN CHO PHÂN TÍCH DỮ LIỆU SNP
Từ khóa
Genome-wide Association Study, học máy, khai phá dữ liệu, rừng ngẫu nhiên
Tóm tắt
Gần đây, các nghiên cứu liên kết mức toàn hệ gen (GWAS) đã đạt được thành công trong việc xác định một số biến thể di truyền có ảnh hưởng tương đối lớn tới một số bệnh phức tạp. Hầu hết các GWAS sử dụng các tiếp cận đơn SNP (đa hình đơn nucleotide) chỉ tập trung vào việc đánh giá sự liên hệ giữa từng SNP riêng biệt với bệnh. Tuy nhiên, trên thực tế, các bệnh phức tạp được cho là liên quan tới những nguyên nhân phức tạp bao gồm những tương tác rắc rối giữa nhiều SNPs. Do đó, cần có những cách tiếp cận khác để xác định sự ảnh hưởng của các SNP hoặc những tương tác phức tạp của các SNP tới bệnh. Phương pháp rừng ngẫu nhiên (Random Forest, RF) gần đây đã được ứng dụng thành công trong GWAS cho việc xác định một số nhân tố di truyền có ảnh hưởng lớn tới một số bệnh phức tạp. Mặc dù RF xử lý tốt trên khía cạnh chính xác dự đoán trên một số tập dữ liệu có kích cỡ trung bình, nhưng mô hình RF truyền thống có nhiều hạn chế trong việc xác định các SNPs có ý nghĩa và xây dựng các mô hình dự đoán chính xác. Trong bài báo này, chúng tôi đề xuất một phương pháp lấy mẫu hai bước để lựa chọn các đặc trưng có ý nghĩa trong việc huấn luyện mô hình rừng ngẫu nhiên. Phương pháp này cho phép chọn ra một tập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích (bệnh), do đó làm giảm số chiều và có thể xử lý tốt trên các tập dữ liệu có số chiều cao. Chúng tôi cũng tiến hành các thực nghiệm trên hai tập dữ liệu chuẩn SNP ở mức toàn bộ hệ gen để làm sáng tỏ hiệu quả của phương pháp đề xuất.
Tài liệu tham khảo
Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software. ISBN 978-0-412-04841-8.
BreimanL. (2001). Random forests. Machine Learning, 45(1): 5-32.
Bureau, A., Dupuis, J., Falls, K., Lunetta, K.L., Hayward, B., Keith, T.P., Van Eerdewegh, P. (2005). Identifying snpspredictive of phenotype using random forests. Genetic epidemiology, 28(2): 171-182.
Cordell, H.J. (2009). Detecting gene–gene interactions that underlie human diseases. Nature Reviews Genetics, 10(6): 392-404.
Easton, D. et al. (2007). Genome-wide association study identifies novel breast cancer susceptibility loci. Nature 447(7148): 1087-1093.
Easton, D. F., Eeles, R. A. (2008). Genome-wide association studies in cancer. Hum MolGenet, 17: R109-R115.
Fung, H.C., Scholz, S., Matarin, M., Sim ´ on-S ´ anchez, J., Hernandez, D., Britton, A., Gibbs, J.R., Langefeld, C., Stiegert, M.L., Schymick, J., et al. (2006). Genome-wide genotyping in Parkinson’s disease and neurologically normal controls: first stage analysis and public release of data. The Lancet Neurology, 5(11): 911-916.
Goldstein, B. A., Hubbard, A. E., Cutler, A.,Barcellos, L. F. (2010). An application of Random Forests to a genome-wide association dataset: Methodological considerations and new findings. BMC Genetics, 11: 49.
Goldstein, B. A.; Polley, E. C., Briggs, FarrenB. S. (2011).RndomForests for Genetic Association Studies. Statistical Applications in Genetics and Molecular Biology, 10(1): 32
LettreG., RiouxJ. D. (2008). Autoimmune diseases: insights from genome-wide association studies. Hum MolGenet, 17: R116-R121.
Lunetta, K.L., Hayward, L.B., Segal, J., Van Eerdewegh, P. (2004). Screening large-scale association study data: exploiting interactions using random forests. BMC genetics, 5(1): 32
Marchini, J., Donnelly, P., Cardon, L.R. (2005). Genome-wide strategies for detecting multiple loci that influence complex diseases. Nature genetics, 37(4): 413-417.
Mardis, E. R. (2011). A decade’s prespectiveon DNA sequencing technology. Nature, 470(7333): 198-203.
MohlkeK. L., BoehnkeM., AbecasisG. R. (2008). Metabolic and cardiovascular traits: an abundance of recently identified common genetic variants. Hum MolGenet, 17: R102-R108.
Moore, J. H. (2005). A global view of epistasis. Nature Genetic, 37(1): 13-14.
Schwarz, D.F., K”onig, I.R., Ziegler, A. (2010). On safari to Random Jungle: a fast implementation of Random Forests for high-dimensional data. Bioinformatics, 26(14): 1752.
Sladek, R. et al. (2007). A genome-wide association study identifies novel risk loci for type 2 diabetes. Nature, 445(7130): 881-885.
Webster, J.A., Gibbs, J.R., Clarke, J., Ray, M., Zhang, W., Holmans, P., Rohrer, K., Zhao, A., Marlowe, L., Kaleem, M., et al. (2009).Genetic control of human brain transcript expression in Alzheimer disease. The American Journal of Human Genetics, 84(4): 445-458.
WellcomeTrust (2007). Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls. Nature, 447(7145): 661-678
Winham, S.J., Colby, C. L., Freimuth, R., Wang, X., Andrade, M., Huebner, M., Biernacka, J. M. (2012). SNP interaction detection with Random Forests in high-dimensional genetic data. BMC Bioinformatics, 13:164.
Wu, Q., Ye, Y., Liu, Y., Ng, M.K. (2012). SPN selection and classification of genome-wide snpdata using stratified sampling random forests. NanoBioscience, IEEE Transactions on, 11(3): 216-227.
Xu, B., Huang, J.Z., Williams, G., Wang, Q., Ye, Y. (2012). Classifying very high-dimensional data with random forests built from small subspaces. International Journal of Data Warehousing and Mining (IJDWM), 8(2): 44-63.