Nâng cao hiệu năng của mô hình Whisper trên tập dữ liệu miền đặc thù thông qua phương pháp học chuyển giao hai giai đoạn và lựa chọn dữ liệu tăng cường bằng độ đo

Nâng cao hiệu năng của mô hình Whisper trên tập dữ liệu miền đặc thù thông qua phương pháp học chuyển giao hai giai đoạn và lựa chọn dữ liệu tăng cường bằng độ đo

Các tác giả

  • Dang Duc Thinh Viện Công nghệ thông tin và Điện tử, Viện Khoa học và Công nghệ quân sự
  • Hoang Hung Long Trường Đại học Giao thông vận tải
  • Phung Nhu Hai Viện Công nghệ thông tin và Điện tử, Viện Khoa học và Công nghệ quân sự

DOI:

https://doi.org/10.54939/1859-1043.j.mst.CSCE9.2025.51-60

Từ khóa:

Học chuyển giao hai bước; Mô hình nhận dạng giọng nói; Whisper; Dữ liệu miền đặc thù; Khoảng cách Fréchet DeepSpeech.

Tóm tắt

 Nhận dạng giọng nói tự động (ASR) trong các bối cảnh ngôn ngữ ít tài nguyên và chuyên biệt theo miền vẫn còn nhiều thách thức do hạn chế về dữ liệu gán nhãn và sự khác biệt miền. Nghiên cứu này đề xuất một khung phương pháp kết hợp giữa lựa chọn tập dữ liệu nguồn dựa trên độ đo và chiến lược tinh chỉnh hai giai đoạn nhằm thích ứng mô hình Whisper cho tác vụ ASR tiếng Việt trong lĩnh vực quân sự. Chỉ số Fréchet DeepSpeech Distance (FDSD) được sử dụng để xác định tập dữ liệu miền tổng quát có đặc trưng âm học và ngữ âm tương đồng nhất với tập dữ liệu mục tiêu là Military Information Retrieval (MIR). Bộ dữ liệu VN-SLU được lựa chọn cho Giai đoạn 1 tinh chỉnh nhằm thu hẹp khoảng cách miền trước khi thực hiện Giai đoạn 2 tinh chỉnh trên MIR để chuyên biệt hóa miền. Đánh giá thực nghiệm trên tập kiểm tra MIR cho thấy phương pháp đề xuất đạt tỷ lệ lỗi từ (WER) là 3,49% và tỷ lệ lỗi ký tự (CER) là 2,41%, vượt trội hơn so với các phương pháp tinh chỉnh trực tiếp và tinh chỉnh trên dữ liệu pha trộn. Phân tích đường cong mất mát cho thấy quá trình thích ứng ở Giai đoạn 1 giúp tăng tốc độ hội tụ và giảm thiểu hiện tượng quá khớp ở Giai đoạn 2. Kết quả này chứng minh rằng việc tích hợp lựa chọn tập dữ liệu miền tổng quát dựa trên độ đo với tinh chỉnh tuần tự là một phương pháp hiệu quả và có thể tái lập để nâng cao hiệu suất ASR trong các bối cảnh ít tài nguyên và chuyên biệt theo miền.

Tài liệu tham khảo

[1]. Radford et al., “Robust speech recognition via large-scale weak supervision”, arXiv, arXiv:2212.04356, (2022). doi:10.48550/arXiv.2212.04356.

[2]. Y. Zhang et al., “Google USM: Scaling automatic speech recognition beyond 100 languages”, arXiv, arXiv:2303.01037, (2023). doi:10.48550/arXiv.2303.01037.

[3]. V. Pratap et al., “Scaling speech technology to 1,000+ languages”, arXiv, arXiv:2305.13516, (2023). doi:10.48550/arXiv.2305.13516.

[4]. Arun Narayanan et al., “Toward domain-invariant speech recognition via large-scale training”, arXiv, (2018). doi:10.48550/arXiv.2305.13516.

[5]. Y. Liu et al., “Toward domain-invariant speech recognition via large-scale training”, arXiv, (2018). doi:10.48550/arXiv.2305.13516.

[6]. Phung Nhu Hai et al., “Enhancing Whisper model for Vietnamese specific domain with data blending and LoRA fine-tuning”, International Conference on Information and Communication Systems and Networks (ICISN), Lecture Notes in Networks and Systems, vol. 1077, pp. 1–11, (2024).

[7]. E. J. Hu et al., “LoRA: Low-rank adaptation of large language models”, arXiv, arXiv:2106.09685, (2021). doi:10.48550/arXiv.2106.09685.

[8]. Y. Liu et al., “Exploration of Whisper fine-tuning strategies for low-resource ASR”, EURASIP Journal on Audio, Speech, and Music Processing, (2024). doi:10.1186/s13636-024-00349-3.

[9]. Vin. Timmel et al., “Fine-tuning Whisper on low-resource languages for real-world applications”, arXiv, arXiv:2412.15726, (2024). doi:10.48550/arXiv.2412.15726.

[10]. Kum. Tripathi et al., “Enhancing Whisper’s accuracy and speed for Indian languages through prompt-tuning and tokenization”, arXiv, arXiv:2412.19785, (2024). doi:10.48550/arXiv.2412.19785.

[11]. K. Sharma et al., “Fine-tuning Whisper Tiny for Swahili ASR: Challenges and recommendations for low-resource speech recognition”, AfricaNLP Workshop, pp. 1–10, (2025).

[12]. D. K. Gete et al., “Whispering in Amharic: Fine-tuning Whisper for low-resource language”, arXiv, arXiv:2503.18485, (2024). doi:10.48550/arXiv.2503.18485.

[13]. S. Mitsumori et al., “Cross-lingual data selection using clip-level acoustic similarity for enhancing low-resource automatic speech recognition”, arXiv, arXiv:2506.22194, (2025).

[14]. J. Billa et al., “Improving low-resource ASR performance with untranscribed out-of-domain data”, arXiv, arXiv:2106.01227, (2021). doi:10.48550/arXiv.2106.01227.

[15]. M. Binkowski et al., “High fidelity speech synthesis with adversarial networks”, arXiv, arXiv:1909.11646, (2019). doi:10.48550/arXiv.1909.11646.

[16]. S. Kothawade et al., “DITTO: Data-efficient and fair targeted subset selection for ASR accent adaptation”, arXiv, arXiv:2110.04908, (2021). doi:10.48550/arXiv.2110.04908.

[17]. Jinpeng Li et al., “Improving Whisper’s recognition performance for under-represented language Kazakh leveraging unpaired speech and text”, arXiv, arXiv:2408.05554, (2024).

[18]. Tuyen Tran et al., “VN-SLU: A Vietnamese spoken language understanding dataset”, Proceedings of Interspeech, pp. 1–5, (2024). doi:10.21437/Interspeech.2024-1976.

[19]. R. Ardila et al., “Common Voice: A massively multilingual speech corpus”, arXiv, arXiv:1912.06670, (2019). doi:10.48550/arXiv.1912.06670.

[20]. “vivos: A Vietnamese speech corpus”, Hugging Face Datasets, (2023). Available: https://huggingface.co/datasets/vivos.

[21]. Conneau et al., “FLEURS: Few-shot learning evaluation of universal representations of speech”, arXiv, (2022). doi:10.48550/arXiv.2408.05554.

Tải xuống

Đã Xuất bản

2025-12-31

Cách trích dẫn

[1]
D. T. Dang, Hoang Hung Long, và N. H. Phung, “Nâng cao hiệu năng của mô hình Whisper trên tập dữ liệu miền đặc thù thông qua phương pháp học chuyển giao hai giai đoạn và lựa chọn dữ liệu tăng cường bằng độ đo”, JMST’s CSCE, số p.h CSCE9, tr 51–60, tháng 12 2025.

Số

Chuyên mục

Articles

Các bài báo được đọc nhiều nhất của cùng tác giả

Loading...