NHẬN DẠNG GIỌNG CHỮ CÁI TIẾNG VIỆT SỬ DỤNG DEEP BOLTZMANN MACHINES

Ngày nhận bài: 30-12-2019

Ngày duyệt đăng: 26-09-2020

DOI:

Lượt xem

1

Download

0

Chuyên mục:

KỸ THUẬT VÀ CÔNG NGHỆ

Cách trích dẫn:

Giang, H., Hạnh, N., & Kương, N. (2024). NHẬN DẠNG GIỌNG CHỮ CÁI TIẾNG VIỆT SỬ DỤNG DEEP BOLTZMANN MACHINES. Tạp Chí Khoa học Nông nghiệp Việt Nam, 19(4), 435–442. http://testtapchi.vnua.edu.vn/index.php/vjasvn/article/view/809

NHẬN DẠNG GIỌNG CHỮ CÁI TIẾNG VIỆT SỬ DỤNG DEEP BOLTZMANN MACHINES

Hoàng Thị Thanh Giang (*) 1 , Nguyễn Thị Thúy Hạnh 1 , Nguyễn Trọng Kương 1

  • 1 Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
  • Từ khóa

    Trí tuệ nhân tạo, học máy, mạng nơron, máy Boltzmann, học sâu

    Tóm tắt


    Nhận diện giọng nói là một bài toán thu hút được quan tâm rộng rãi của nhiều nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo trong những năm gần đây. Chẳng hạn như bài toán xây dựng chương trình để robot có khả năng nhận biết giọng nói của con người, hay các thiết bị có thể hiểu và đối thoại trực tiếp với người cùng nói chuyện. Trong nghiên cứu này, 37 sinh viên của Học viện Nông nghiệp Việt Nam tham gia để thu thập dữ liệu phát âm liên tục 29 chữ cái trong bảng chữ cái tiếng Việt. Qua bước tiền xử lý dữ liệu để trích xuất ra các mẫu âm thanh thuộc tính cho phân lớp, phương pháp nhận dạng chúng tôi sử dụng để nhận diện các mẫu giọng nói là deep Boltzmann machine (DBM), một mạng có khả năng học sâu với kiến trúc nhiều tầng ẩn. Để đánh giá khả năng nhận dạng của phương pháp đề xuất, chúng tôi so sánh DBM với mạng nơron truyền thống (NN) có cùng kiến trúc số tầng ẩn. Kết quả cho thấy khả năng nhận dạng các mẫu âm thanh chữ cái tốt hơn của DBM với khả năng học cho độ chính xác trung bình là 68% trên dữ liệu đào tạo và 51% khi thử với dữ liệu test, trong khi kết quả này của NN là 61% và 48% tương ứng.

    Tài liệu tham khảo

    Dhar V. (2015). Data science and prediction. Communications of the ACM.56 (12): 64-73.

    Hilton E.G. (2012). A practical guide to training restricted Boltzmann machines. Lecture Notesin Computer Science, Springer Berlin. 7700: 599-619.

    Hoàng Thị Châu (1999). Tiếng Việt trên các miền đất nước (Phương ngữ học). Nhà xuất bản Khoa học Xã hội, Hà Nội.

    Hoàng Phê (2010). Từ điển tiếng Việt.Nhà xuất bản Đà Nẵng.

    Hugo L., Michael M., Razvan P. & Yoshua B. (2012). Learning algorithms for the classification restricted Boltzmann machine. Machine Learning Research. 13(1): 643-669.

    James K. (2010). Dialect experience in Vietnamese tone perception. The Journal of the Acoustical Society of America. 127(6): 3749-3757.

    Kazuhiro N., Toru T., Hiroshi G.O.,Hirofumi N., Yuji H. & Hiroshi T. (2010). Design and implementation of robot audition system HARK - open source software for listening to three simultaneous speakers. Advanced Robotics. 24(5): 739-761.

    Kuong N.T., Uchino E. & Suetake N. (2017). IVUS tissue characterization of coronary plaque by classification restricted Boltzmann machine. Journal of Advanced Computational Intelligence and Intelligent Informatics. 21(1): 67-73.

    Kuong N.T., Uchino E. & Suetake N. (2018a). Recognition of coronary atherosclerotic plaque tissue on intravascular ultrasound images by using misclassification sensitive training of discriminative restricted boltzmann machine. Journal of Biomimetics, Biomaterials and Biomedical Engineering. 37: 85-93.

    Kuong N.T., Uchino E. & Suetake N. (2018b). Coronary plaque classification with accumulative training of deep Boltzmann machines. ICIC Express Letters. 12(9): 881-886.

    Lecun Y., Yoshua B. & Hinton E.G. (2015). Deep learning. Nature. 521(7553): 436-444.

    Orken M., Nurbapa M., Mussa T., Nurzhamal O., Tolga I.M. & Aigerim Y. (2019). Voice identification using classification algorithms. Intelligent system and computing. Book chapter, InTechOpen.

    Phuong P.A., Tao N.Q. & Mai L.C. (2008). An efficient model for isolated Vietnamese handwritten recognition. Proceedings of 2008 international conference on intelligent information hiding and multimedia signal processing. pp. 358-361.

    Samuel S., Huili C., Safinah A., Michael K. & Cynthia B. (2018). A social robot system for modeling children's Word pronunciation: socially interactive agents track. Proceedings of the 17th international conference on autonomous agents and multi-agent systems. pp. 1658-1666.

    Schmidhuber J. (2015). Deep Learning in neural networks: an overview. Neural Networks.61: 85-117.

    Thinh D.B, Dat T.T., Thuy T.N., Long Q.T. & Van D.N. (2018). Aerial Image Semantic Segmentation using Neural Search Network Architecture. In Proceedings of Multi-Disciplinary International Conference on Artificial Intelligence (MIWAI), Lecture Notes in Artificial Intelligence, Springer.