Intent classification for voice-based military information search on digital maps using integrated BiGRU-CNN network and speech recognition technology

Duc Thinh Dang; Nguyen Duc Vuong; Luong Dinh Ha; Nguyen Cong Thanh; Nguyen Chi Thanh; Như Hải Phùng

doi:10.54939/1859-1043.j.mst.CSCE8.2024.87-97

Phân loại ý định tìm kiếm thông tin trên bản đồ số sử dụng mô hình BiGRU-CNN và công nghệ nhận dạng giọng nói

Các tác giả

Dang Duc Thinh Viện Khoa học và Công nghệ quân sự
Nguyen Duc Vuong Viện Khoa học và Công nghệ quân sự
Luong Dinh Ha Viện Khoa học và Công nghệ quân sự
Nguyen Cong Thanh Cục Quân y
Nguyen Chi Thanh Viện Khoa học và Công nghệ quân sự
Phung Nhu Hai Viện Khoa học và Công nghệ quân sự

DOI:

https://doi.org/10.54939/1859-1043.j.mst.CSCE8.2024.87-97

Từ khóa:

Phân loại ý định tìm kiếm; Nhận dạng giọng nói; Mô hình BiGRU-CNN; Tác nghiệp văn kiện bản đồ.

Tóm tắt

Tìm kiếm thông tin là một trong những chức năng quan trọng nhất của một phần mềm hỗ trợ tác nghiệp văn kiện trên bản đồ số. Để nâng cao hiệu quả sử dụng và đáp ứng yêu cầu của tác chiến hiện đại, cần thiết phải tự động hóa chức năng tìm kiếm thông tin bằng giọng nói. Với một công cụ tìm kiếm bằng giọng nói duy nhất, việc hỗ trợ tìm kiếm nhiều loại thông tin khác nhau đòi hỏi phải trải qua bước phân loại ý định tìm kiếm. Bài báo này đề xuất xây dựng một quy trình phân loại ý định tìm kiếm thông tin sử dụng mô hình BiGRU-CNN và công nghệ nhận dạng giọng nói. Mô hình BiGRU-CNN tận dụng ưu thế của hai mô hình BiGRU và CNN trong việc nâng cao hiệu quả phân loại dữ liệu văn bản chuyển đổi từ giọng nói bằng mô hình Whisper. Bài báo đã so sánh phương pháp đề xuất với các phương pháp sử dụng mô hình học máy riêng biệt kết hợp với các phương pháp trích xuất đặc trưng là TF-IDF, N-gram và SVD. Trong khi mô hình nhận dạng giọng nói còn nhiều hạn chế, kết quả thử nghiệm cho thấy độ chính xác khi phân loại ý định tìm kiếm đạt tới 98,4%. Kết quả này cao hơn các phương pháp đã được so sánh sử dụng mô hình học máy đơn giản hơn, chứng minh hiệu quả của phương pháp được đề xuất.

Tài liệu tham khảo

[1]. Dang Duc Thinh et al., “A voice search engine for military symbols to enhance the drafting of operational plan documents on digital map,” Journal of Military Science and Technology, Vol.87, pp. 40-49, (2023), https://doi.org/10.54939/1859-1043.j.mst.87.2023.40-49. DOI: https://doi.org/10.54939/1859-1043.j.mst.87.2023.40-49

[2]. Nguyen Duc Dinh, Hoang Van Toan, “System Design Documentation of T3BD Sys-tem,” MITI, (2020).

[3]. Phung Nhu Hai et al., “Enhancing Whisper Model for Vietnamese Specific Domain with Data Blending and LoRA Fine-Tuning,” ICISN, LNNS 1077, pp. 1–11, (2024). DOI: https://doi.org/10.1007/978-981-97-5504-2_18

[4]. Radford, A., et al., “Robust Speech Recognition via Large-ScaleWeak Supervision,” arXiv, (2022), https://doi.org/10.48550/arXiv.2212.04356.

[5]. Monil Charola et al., “Whisper Encoder features for Infant Cry Classification,” Proc. INTERSPEECH, pp. 1773-1777, (2023), doi: 10.21437/Interspeech.2023-1916. DOI: https://doi.org/10.21437/Interspeech.2023-1916

[6]. Loren Lugosch et al., “Speech Model Pre-training for End-to-End Spoken Language Understanding,” arXiv, (2019), https://doi.org/10.48550/arXiv.1904.03670 DOI: https://doi.org/10.21437/Interspeech.2019-2396

[7]. J. W. Kim et al., “Improved Spoken Language Representation for Intent Understanding in a Task-Oriented Dialogue System,” Sensors, 22(4), 1509, (2022), https://doi.org/10.3390/s22041509. DOI: https://doi.org/10.3390/s22041509

[8]. S. Mansalis, “Natural language understanding for dialogue systems using n-best lists,” M.S. thesis, Department of Informatics, Athens University of Economics and Business, (2019).

[9]. Li X, Zhang Y, Jin J, Sun F, Li N, Liang S, “A model of integrating convolution and BiGRU dual-channel mechanism for Chinese medical text classifications,” PLoS ONE 18(3): e0282824. https://doi.org/10.1371/journal.pone.0282824. DOI: https://doi.org/10.1371/journal.pone.0282824

[10]. Wei Yan et al., “Sentiment Analysis of Student Texts Using the CNN-BiGRU-AT Model,” Scientific Programming, (2021), https://doi.org/10.1155/2021/8405623 DOI: https://doi.org/10.1155/2021/8405623

[11]. Shahzad Qaiser, Ramsha Ali, “Text Mining: Use of TF-IDF to Examine the Rele-vance of Words to Documents,” International Journal of Computer Applications, vol. 181, no. 1, (2018), https://doi.org/10.5120/ijca2018917395. DOI: https://doi.org/10.5120/ijca2018917395

[12]. William Cavnar, John M. Trenkle, “N-Gram-Based Text Categorization,” Environ-mental Research Institute of Michigan, (2001).

[13]. Serge Shishkin, Arkadi Shalaginov, Shaunak D. Bopardikar, “Fast approximate truncated SVD,” Numerical Linear Algebra with Applications, vol. 26, no. 1, (2019), https://doi.org/10.1002/nla.2246. DOI: https://doi.org/10.1002/nla.2246

[14]. Diederik P. Kingma, Jimmy Ba, “Adam: A Method for Stochastic Optimization,” arXiv, (2014), https://doi.org/10.48550/arXiv.1412.6980.

[15]. Anqi Mao et al., “Cross-Entropy Loss Functions: Theoretical Analysis and Applica-tions,” arXiv, (2023), https://doi.org/10.48550/arXiv.2304.07288.

Phân loại ý định tìm kiếm thông tin trên bản đồ số sử dụng mô hình BiGRU-CNN và công nghệ nhận dạng giọng nói

Phân loại ý định tìm kiếm thông tin trên bản đồ số sử dụng mô hình BiGRU-CNN và công nghệ nhận dạng giọng nói

Các tác giả

DOI:

Từ khóa:

Tóm tắt

Tài liệu tham khảo

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

Các bài báo được đọc nhiều nhất của cùng tác giả