ĐÁNH GIÁ HIỆU QUẢ PHÂN LỚP DỮ LIỆU GENE CHIỀU CAO DỰA TRÊN RỪNG NGẪU NHIÊN, SVM VÀ KẾT HỢP PHƯƠNG PHÁP CHỌN ĐẶC TRƯNG RỪNG NGẪU NHIÊN ĐIỀU HƯỚNG

Hoàng Thị Hà

ĐÁNH GIÁ HIỆU QUẢ PHÂN LỚP DỮ LIỆU GENE CHIỀU CAO DỰA TRÊN RỪNG NGẪU NHIÊN, SVM VÀ KẾT HỢP PHƯƠNG PHÁP CHỌN ĐẶC TRƯNG RỪNG NGẪU NHIÊN ĐIỀU HƯỚNG

Hoàng Thị Hà (*) ¹

¹ Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam

Từ khóa

Phân lớp dữ liệu, phân lớp dữ liệu chiều cao, rừng ngẫu nhiên, trích chọn đặc trưng

Tóm tắt

Phân lớp dữ liệu là phương pháp phổ biến được sử dụng để tìm kiếm các tri thức tiềm ẩn từ cơ sở dữ liệu lớn. Trong số nhiều mô hình phân lớp dữ liệu, các mô hình Rừng ngẫu nhiên và SVM nổi lên là những công cụ phân lớp rất hiệu quả với dữ liệu có số chiều cao. Hiện nay, có nhiều phiên bản của Rừng ngẫu nhiên đã được đề xuất. Tuy nhiên, khi phân tích dữ liệu gene cỡ hàng nghìn đặc trưng, các phương pháp dựa trên mô hình Rừng ngẫu nhiên và SVM vẫn hạn chế. Lý do là dữ liệu gene chứa rất nhiều nhiễu. Chính vì vậy, kết hợp phương pháp trích chọn đặc trưng với các thuật toán phân lớp dữ liệu sẽ cho kết quả cao hơn. Phương pháp lựa chọn đặc trưng của GRF dựa trên RF được đề xuất bởi Deng và Runger được đánh giá là phương pháp trích chọn đặc trưng cho độ chính xác cạnh tranh so với GRRF, RRF, varSelRF, LASSO. Bài báo này, chúng tôi tóm tắt các thuật toán phân lớp dữ liệu dựa trên mô hình Rừng ngẫu nhiên, SVM và đánh giá hiệu quả phân lớp dữ liệu chiều cao của các thuật toán này. Tiếp theo, chúng tôi kết hợp chọn đặc trưng của GRF với các bộ phân lớp RF, WSRF, RUF, SVM. 7 tập dữ liệu gene được sử dụng để đánh giá các thuật toán. Kết quả thực nghiệm cho thấy, việc kết hợp này không những làm tăng độ chính xác mà còn giảm thời gian thực hiện của các thuật toán.

Tài liệu tham khảo

Baoxun Xu, Joshua Zhexue Huang, Graham Williams, Qiang Wang and Yunming Ye (2012). Classifying very high-dimensional data with random forests built from small subspaces. International Journal of Data Warehousing and Mining (IJDWM), 8(2): 44-63.

Breiman, L. (2001). Random forests. Journal of Machine learning, 45(1): 5-32.

Ciss, S. (2015). Variable Importance in Random Uniform Forests. https://hal.archives-ouvertes.fr/hal-01104340/file/RandomUniform Forests.pdf.

Deng, H. (2013). Guided random forest in the rrf package. arXivpreprint arXiv:1306.0237.

Deng, H., & Runger, G. (2012). Feature selection via regularized trees. International Joint Conference on Neural Networks (IJCNN), pp. 1-8.

Deng, H., & Runger, G. (2013). Gene selection with guided regularized random forest. Journal of Pattern Recognition, 46: 3483-3489.

Đỗ Thanh Nghị, P. N. (2013). So sánh các mô hình dự báo lượng mưa cho thành phố Cần Thơ. Tạp chí Khoa học, Trường đại học Cần Thơ, tr. 80-90.

Manuel, F.-D., Eva, C., & Senén, B. (2014). Do we need hundreds of classifiers to solve.The Journal of Machine Learning Research, 15(1): 3133-3181.

Mardis, E. R. (2011). A decade's prespective on DNA sequencing technology. Nature, 470(7333): 198-203.

Rea, A. (1995). Data Mining - An Introduction. Nor of The Queen’s University of Belfast.

Vapnik, V. (1995). The Nature of Statistical Learning Theory. USA: Springer-Verlag.

ĐÁNH GIÁ HIỆU QUẢ PHÂN LỚP DỮ LIỆU GENE CHIỀU CAO DỰA TRÊN RỪNG NGẪU NHIÊN, SVM VÀ KẾT HỢP PHƯƠNG PHÁP CHỌN ĐẶC TRƯNG RỪNG NGẪU NHIÊN ĐIỀU HƯỚNG

Ngày nhận bài: 15-02-2017

Ngày duyệt đăng: 08-01-2018

DOI:

Lượt xem

Download

Số: Tập 15 Số 12 (2017)

Chuyên mục:

Cách trích dẫn: