Ngày nhận bài: 11-08-2015 / Ngày duyệt đăng: 08-03-2016
Xác định các gen có khả năng gây bệnh là một thách thức lớn trong nghiên cứu về biểu hiện gen. Nhiều phương pháp lựa chọn gen chỉ tập trung vào việc đánh giá sự liên hệ của từng gen riêng biệt với bệnh. Thực tế, một trong những nguyên nhân gây ra các bệnh được cho là liên quan tới những tương tác phức tạp giữa các gen. Phương pháp rừng ngẫu nhiên (RF) gần đây đã được ứng dụng thành công trong việc xác định một số nhân tố di truyền có ảnh hưởng lớn tới một số bệnh. Tuy nhiên mô hình này chỉ hiệu quả đối với một số tập dữ liệu có cỡ trung bình nhưng lại hạn chế trong việc xác định các gen có ý nghĩa và xây dựng các mô hình dự đoán chính xác cho dữ liệu có số chiều lớn. Trong bài báo này chúng tôi tập trung vào các phương pháp rừng ngẫu nhiên cải tiến cho phép chọn ra một tập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích, do đó làm giảm số chiều và có thể xử lý tốt trên các tập dữ liệu có số chiều cao. Hiệu năng của các mô hình này được phân tích để tìm ra phương pháp phân lớp hiệu quả với từng mục tiêu như độ chính xác hay tập các gen có ý nghĩa dựa vào kết quả thử nghiệm trên 8 tập dữ liệu biểu hiện gen được lấy từ ngân hàng dữ liệu y sinh (Kent Ridge) và tin sinh (Bioinformatics).