MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VÀ ỨNG DỤNG PHÂN LOẠI TIN NHẮN SMS TIẾNG VIỆT

Ngày nhận bài: 24-02-2022

Ngày duyệt đăng: 20-12-2022

DOI:

Lượt xem

0

Download

0

Chuyên mục:

KỸ THUẬT VÀ CÔNG NGHỆ

Cách trích dẫn:

Hà, H., Dương, Đào, & Nhung, L. (2024). MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VÀ ỨNG DỤNG PHÂN LOẠI TIN NHẮN SMS TIẾNG VIỆT. Tạp Chí Khoa học Nông nghiệp Việt Nam, 20(12), 1672–1683. http://testtapchi.vnua.edu.vn/index.php/vjasvn/article/view/1083

MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VÀ ỨNG DỤNG PHÂN LOẠI TIN NHẮN SMS TIẾNG VIỆT

Hoàng Thị Hà (*) 1 , Đào Xuân Dương 2 , Lê Thị Nhung 1

  • 1 Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
  • 2 Công ty Cổ phần Tin học Viễn thông Bưu điện
  • Từ khóa

    Phân lớp đa nhãn, phân loại tin nhắn SMS, tin nhắn rác, các phương pháp thích nghi thuật toán, các phương pháp chuyển đổi bài toán

    Tóm tắt


    Ngày nay, hầu hết những người dùng các thiết bị di động thường xuyên bị làm phiền bởi một lượng lớn tin nhắn lừa đảo, tin nhắn quảng cáo ở các lĩnh vực khác nhau như: giải trí, mua sắm, tài chính, bất động sản... Trong đó, mỗi tin nhắn SMS có thể thuộc về một hoặc nhiều loại tin nhắn khác nhau cùng lúc. Chính vì vậy, việc sử dụng các phương pháp phân lớp đơn nhãn để phân loại tin nhắn sẽ là không phù hợp. Trong nghiên cứu này, chúng tôi đã xem xét các kỹ thuật phân lớp đa nhãn, thu thập tập dữ liệu tin nhắn SMS tiếng Việt (SMSVN) với 2.000 tin nhắn, cải thiện độ chính xác của các phương pháp phân lớp đa nhãn trên tập dữ liệu SMS tiếng Việt bằng cách sử dụng kỹ thuật tiền xử lý để chuẩn hóa và làm sạch dữ liệu. Ngoài ra, chúng tôi cũng đã áp dụng các thuật toán phân lớp đa nhãn để thử nghiệm trên tập dữ liệu này. Kết quả cho thấy, sau khi áp dụng các phương pháp tiền xử lý dữ liệu, hầu hết các kỹ thuật phân lớp đa nhãn cho độ chính xác cao hơn và tỉ lệnhãn bị phân lớp sai thấp hơnvàkỹ thuật Classifier Chains với mô hình Naïve Bayes (GNB) là phù hợp cho bài toán phân lớp dữ liệu SMS tiếng Việt.

    Tài liệu tham khảo

    Bkav (2015). Tổng kết tình hình an ninh mạng nửa đầu năm 2015. Truy cập từhttps://www.bkav.com.vn/ tin-tuc-noi-bat/-/view-content/141094/tong-ket-tinh -hinh-an-ninh-mang-nua-au-nam-2015ngày 20/11/2021

    Chính Phủ (2020). Chống tin nhắn rác, thư điện tử rác, cuộc gọi rác. Truy cập từhttps://vanban.chinhphu. vn/default.aspx?pageid=27160&docid=200773ngày20/11/2021.

    Cheng W. & H¨ullermeier E. (2009). Combining instance-based learning and logistic regression for multilabel classification. Machine Learning. 76(2-3): 211-225.

    Dembczy´nski K., ChengW. & H¨ullermeier E.(2010): Bayes optimal multilabel classification via probabilistic classifier chains. In: ICML 2010

    Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort, Vincent Michel & Bertrand Thirion (2011). Scikit-learn: Machine Learning in Python. Machine Learning Research. 12: 2825-2830.

    Grigorios Tsoumakas I.K. & Ioannis Vlahavas (2009). Mining Multi-label Data. In: Maimon O., Rokach L. (eds) Data Mining and Knowledge Discovery Handbook. https://doi.org/10.1007/978-0-387-09 823-4_34. Springer.

    Hoàng Xuân Huấn (2015). Giáo trình học máy. Nhà xuất Đại học Quốc gia, Hà Nội.

    Huu‑Thanh Duong T.A.N.T. (2021). A review: preprocessing techniques and data augmentation for sentiment analysis. Computational Social Networks. 8: 1.

    Jadon Mayurisingh Nareshpalsingh P. H. N. M. (2017). Multi-label Classification Methods: A Comparative Study. International Research Journal of Engineering and Technology (IRJET). 4: 8.

    Phạm Thị Thài, Huynh Chi Nghia, Pham Thuy Huynh & Pham Thị Huyen Trang. (2013). Thực trạng ngôn ngữ nhắn tin (SMS language) của sinh viên trường Đại học Cần Thơ và học sinh THPT Trần Đại Nghĩa. Tạp chí Khoa học Trường Đại học Cần Thơ, Phần C: Khoa học Xã hội, Nhân văn và Giáo dục. 26: 55-63.

    Tsoumakas G., Katakis I. & Vlahavas I.(2010). Mining multi-label data. In: Maimon, O., Rokach, L. (eds.) Data Mining and Knowledge Discovery Handbook. Springer, Heidelberg.

    Zhang M.L. & Zhou Z.H. (2007). ML-KNN: A Lazy Learning Approach to Multi-Label Learning. Pattern Recogn. 40: 2038-2048.