Ngày nhận bài: 11-08-2015
Ngày duyệt đăng: 08-03-2016
DOI:
Lượt xem
Download
Cách trích dẫn:
ĐÁNH GIÁ CÁC KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG CHO BÀI TOÁN PHÂN LOẠI BIỂU HIỆN GEN
Từ khóa
Dữ liệu biểu hiện gen, lựa chọn đặc trưng, phân loại, rừng ngẫu nhiên, rừng ngẫu nhiên điều hòa, rừng ngẫu nhiên điều hòa có điều hướng, rừng ngẫu nhiên có điều hướng
Tóm tắt
Xác định các gen có khả năng gây bệnh là một thách thức lớn trong nghiên cứu về biểu hiện gen. Nhiều phương pháp lựa chọn gen chỉ tập trung vào việc đánh giá sự liên hệ của từng gen riêng biệt với bệnh. Thực tế, một trong những nguyên nhân gây ra các bệnh được cho là liên quan tới những tương tác phức tạp giữa các gen. Phương pháp rừng ngẫu nhiên (RF) gần đây đã được ứng dụng thành công trong việc xác định một số nhân tố di truyền có ảnh hưởng lớn tới một số bệnh. Tuy nhiên mô hình này chỉ hiệu quả đối với một số tập dữ liệu có cỡ trung bình nhưng lại hạn chế trong việc xác định các gen có ý nghĩa và xây dựng các mô hình dự đoán chính xác cho dữ liệu có số chiều lớn. Trong bài báo này chúng tôi tập trung vào các phương pháp rừng ngẫu nhiên cải tiến cho phép chọn ra một tập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích, do đó làm giảm số chiều và có thể xử lý tốt trên các tập dữ liệu có số chiều cao. Hiệu năng của các mô hình này được phân tích để tìm ra phương pháp phân lớp hiệu quả với từng mục tiêu như độ chính xác hay tập các gen có ý nghĩa dựa vào kết quả thử nghiệm trên 8 tập dữ liệu biểu hiện gen được lấy từ ngân hàng dữ liệu y sinh (Kent Ridge) và tin sinh (Bioinformatics).
Tài liệu tham khảo
Bioinformatics Research Group, http://eps.upo.es/bigs/ datasets.html.
Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software. ISBN 978-0-412-04841-8.
Breiman L. (2001). Random forests. Machine Learning, 45(1): 5-32.
Bureau, A., Dupuis, J., Falls, K., Lunetta, K.L., Hayward, B., Keith, T.P., Van Eerdewegh, P. (2005). Identifying snps predictive of phenotype using random forests. Genetic epidemiology, 28(2): 171-182.
Bø TH., Jonassen I. (2002). New feature subset selection procedures for classification of expression profiles. Genome Biology, 3(4): 0017.1-0017.11.
Deng H. and G. Runger (2013). Gene selection with guided regularized random forest. Journal of Pattern Recognition, 46: 3483-3489.
Deng H and G. Runger (2012). Feature selection via regularized trees. International Joint Conference on Neural Networks (IJCNN).
Deng H. (2013). Guided random forest in the RRF package, http://arxiv.org/abs/1306.0237.
Díaz-Uriarte R. (2005). Supervised methods with genomic data: a review and cautionary view. In Data analysis and visualization in genomics and proteomics. Edited by Azuaje F, Dopazo J. New York: Wiley, pp.193-214.
Dudoit S, Fridlyand J, Speed TP (2002). Comparison of discrimination methods for the classification of tumors suing gene expression data. J Am Stat Assoc., 97(457): 77-87.
Furlanello C, Serafini M, Merler S, Jurman G: An accelerated procedure for recursive feature ranking on microarray data. Neural Netw, 16: 641-648.
Goldstein B. A., Hubbard, A. E., Cutler, A., Barcellos, L. F. (2010). An application of Random Forests to a genome-wide association dataset: Methodological considerations and new findings.BMC Genetics, 11: 49.
Goldstein B. A., Polley, E. C. Briggs, Farren B. S. (2011). Random Forests for Genetic Association Studies. Statistical Applications in Genetics and Molecular Biology, 10(1): 32.
Hua J, Xiong Z, Lowey J, Suh E, Dougherty ER (2005). Optimal number of features as a function of sample size for various classification rules. Bioinformatics, 21: 1509-1515.
Kent Ridge Bio-medical Dataset, http://datam.i2r.a-star.edu.sg/datasets/krbd/
Jirapech-Umpai T, Aitken S (2005). Feature selection and classification for microarray data analysis: Evolutionary methods for identifying predictive genes. BMC Bioinformatics, 6: 148.
Lee JW, Lee JB, Park M, Song SH (2005). An extensive evaluation of recent classification tools applied to microarray data. Computation Statistics and Data Analysis, 48: 869-885.
Lunetta, K.L., Hayward, L.B., Segal, J., Van Eerdewegh, P. (2004). Screening large-scale association study data: exploiting interactions using random forests. BMC genetics, 5(1): 32.
Li Y, Campbell C, Tipping M (2002). Bayesian automatic relevance determination algorithms for classifying gene expression data. Bioinformatics, 18: 1332-1339.
Li T, Zhang C, Ogihara M (2004). A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression. Bioinformatics, 20: 2429-2437.
Roepman P, Wessels LF, Kettelarij N, Kemmeren P, Miles AJ, Lijnzaad P, Tilanus MG, Koole R, Hordijk GJ, van der Vliet PC, Reinders MJ, Slootweg PJ, Holstege FC (2005). An expression profile for diagnosis of lymph node metastases from primary head and neck squamous cell carcinomas. Nat Genet, 37: 182-186.
van't Veer LJ, Dai H, van de Vijver MJ, He YD, Hart AAM, Mao M, Peterse HL, van der Kooy K, Marton MJ, Witteveen AT, Schreiber GJ, Kerkhoven RM, Roberts C, Linsley PS, Bernards R, Friend SH (2002). Gene expression profiling predicts clinical outcome of breast cancer. Nature, 415: 530-536.
Yang Q. and X. Wu (2006). Challenging Problems in Data Mining Research. Journal of Information Technology and Decision Making 5(4): 597-604.
Yeung KY, Bumgarner RE, Raftery AE (2005). Bayesian model averaging: development of an improved multi-class, gene selection and classification tool for microarray data. Bioinformatics, 21: 2394-2402.
Wiener M. and A. Liaw (2002). "Classification and regression by randomforest," The Journal of R news, 2(3): 18-22.
Winham, S.J., Colby, C. L., Freimuth, R., Wang, X., Andrade, M., Huebner, M., Biernacka, J. M. (2012). SNP interaction detection with Random Forests in high-dimensional genetic data. BMC Bioinformatics, 13: 164.