Ngày nhận bài: 24-02-2022 / Ngày duyệt đăng: 20-12-2022
Ngày nay, hầu hết những người dùng các thiết bị di động thường xuyên bị làm phiền bởi một lượng lớn tin nhắn lừa đảo, tin nhắn quảng cáo ở các lĩnh vực khác nhau như: giải trí, mua sắm, tài chính, bất động sản... Trong đó, mỗi tin nhắn SMS có thể thuộc về một hoặc nhiều loại tin nhắn khác nhau cùng lúc. Chính vì vậy, việc sử dụng các phương pháp phân lớp đơn nhãn để phân loại tin nhắn sẽ là không phù hợp. Trong nghiên cứu này, chúng tôi đã xem xét các kỹ thuật phân lớp đa nhãn, thu thập tập dữ liệu tin nhắn SMS tiếng Việt (SMSVN) với 2.000 tin nhắn, cải thiện độ chính xác của các phương pháp phân lớp đa nhãn trên tập dữ liệu SMS tiếng Việt bằng cách sử dụng kỹ thuật tiền xử lý để chuẩn hóa và làm sạch dữ liệu. Ngoài ra, chúng tôi cũng đã áp dụng các thuật toán phân lớp đa nhãn để thử nghiệm trên tập dữ liệu này. Kết quả cho thấy, sau khi áp dụng các phương pháp tiền xử lý dữ liệu, hầu hết các kỹ thuật phân lớp đa nhãn cho độ chính xác cao hơn và tỉ lệnhãn bị phân lớp sai thấp hơnvàkỹ thuật Classifier Chains với mô hình Naïve Bayes (GNB) là phù hợp cho bài toán phân lớp dữ liệu SMS tiếng Việt.