Ngày nhận bài: 06-10-2014 / Ngày duyệt đăng: 20-12-2014
Cũng giống như sự đa dạng sinh học, trong tự nhiên có quá nhiều loại protein để chúng ta có thể miêu tả chức năng của chúng (anotate) bằng các thí nghiệm khoa học. Do đó các phương pháp để dự đoán chức năng của các protein trở nên cần thiết. Trong bài báo này chúng tôi đề xuất một phương pháp sử dụng dữ liệu sinh học để phân lớp các protein vận chuyển trên màng tế bào dựa vào cơ chất mà chúng vận chuyển. Dựa trên ý tưởng của các Operon, chúng tôi sử dụng dữ liệu biểu hiện gene và các GO terms của các gene hàng xóm để tạo dữ liệu đầu vào cho máy vector hỗ trợ. Để nhanh chóng thu được kết quả, chúng tôi tích hợp LIBSVM (A Library for Support Vector Machines) vào công cụ xử lý dữ liệu và sử dụng công cụ này để huấn luyện cũng như kiểm tra các bộ phân loại. Với công cụ này, người dùng có thể phân loại các protein vận chuyển và cả các loại protein khác; cho phép người dùng thêm dữ liệu của các sinh vật mới ngoài các sinh vật được sử dụng để thử nghiệm.