Ngày nhận bài: 22-10-2014 / Ngày duyệt đăng: 20-12-2014
Gần đây, các nghiên cứu liên kết mức toàn hệ gen (GWAS) đã đạt được thành công trong việc xác định một số biến thể di truyền có ảnh hưởng tương đối lớn tới một số bệnh phức tạp. Hầu hết các GWAS sử dụng các tiếp cận đơn SNP (đa hình đơn nucleotide) chỉ tập trung vào việc đánh giá sự liên hệ giữa từng SNP riêng biệt với bệnh. Tuy nhiên, trên thực tế, các bệnh phức tạp được cho là liên quan tới những nguyên nhân phức tạp bao gồm những tương tác rắc rối giữa nhiều SNPs. Do đó, cần có những cách tiếp cận khác để xác định sự ảnh hưởng của các SNP hoặc những tương tác phức tạp của các SNP tới bệnh. Phương pháp rừng ngẫu nhiên (Random Forest, RF) gần đây đã được ứng dụng thành công trong GWAS cho việc xác định một số nhân tố di truyền có ảnh hưởng lớn tới một số bệnh phức tạp. Mặc dù RF xử lý tốt trên khía cạnh chính xác dự đoán trên một số tập dữ liệu có kích cỡ trung bình, nhưng mô hình RF truyền thống có nhiều hạn chế trong việc xác định các SNPs có ý nghĩa và xây dựng các mô hình dự đoán chính xác. Trong bài báo này, chúng tôi đề xuất một phương pháp lấy mẫu hai bước để lựa chọn các đặc trưng có ý nghĩa trong việc huấn luyện mô hình rừng ngẫu nhiên. Phương pháp này cho phép chọn ra một tập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích (bệnh), do đó làm giảm số chiều và có thể xử lý tốt trên các tập dữ liệu có số chiều cao. Chúng tôi cũng tiến hành các thực nghiệm trên hai tập dữ liệu chuẩn SNP ở mức toàn bộ hệ gen để làm sáng tỏ hiệu quả của phương pháp đề xuất.