Biểu diễn văn bản dạng bảng cho tìm kiếm người dựa trên ngôn ngữ tiếng Việt
182 lượt xemDOI:
https://doi.org/10.54939/1859-1043.j.mst.93.2024.128-136Từ khóa:
Tìm kiếm người dựa trên truy vấn văn bản; Dữ liệu dạng bảng; TabTransformer; CNN; Bi-LSTM.Tóm tắt
Tìm kiếm người dựa trên văn bản tiếng Việt vẫn là một bài toán đầy thách thức với bộ dữ liệu mô tả tiếng Việt còn hạn chế. Cách tiếp cận phổ biến hiện nay cho vấn đề này là DNN và gần đây, mạng Transformer đã được ưa chuộng hơn vì hiệu suất vượt trội so với mạng CNN và RNN cho cả nhiệm vụ xử lý ngôn ngữ tự nhiên và thị giác máy tính. Tuy nhiên, DNN hoặc mạng Transformer yêu cầu một lượng lớn dữ liệu huấn luyện và năng lực tính toán để học hiệu quả các đặc trưng ảnh và ngôn ngữ. Điều này đặt ra gánh nặng cho việc triển khai tìm kiếm người dựa trên văn bản tiếng Việt bằng DNN hoặc Transformer. Hướng tới xây dựng hệ thống tìm kiếm người dựa trên văn bản tiếng Việt trên nguồn dữ liệu hạn chế gồm các câu mô tả tiếng Việt với chi phí tính toán thấp, trong bài báo này chúng tôi đề xuất áp dụng kiến trúc dựa trên Transformer có tên TabTransformer để nhúng ngữ cảnh các cụm danh từ được tách ra từ câu mô tả tiếng Việt. Đây là lần đầu tiên mạng TabTransformer được triển khai cùng với kiến trúc CNN và RNN cho việc tìm kiếm hình ảnh dựa trên câu mô tả tiếng Việt. Kết quả thử nghiệm trên tập dữ liệu hạn chế 3000VnPersonSearch cho thấy độ chính xác nhận dạng của phương pháp đề xuất tốt hơn so với phương pháp cơ sở khoảng 7.5% ở Rank 1. Ngoài ra, thời gian tính toán của phương pháp đề xuất hiệu quả hơn phương pháp cơ sở.
Tài liệu tham khảo
[1]. Li, Shuang, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, and Xiaogang Wang. "Person search with natural language description." In Proceedings of the IEEE conference on computer vision and pattern recognition, (2017). DOI: https://doi.org/10.1109/CVPR.2017.551
[2]. Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929, (2020).
[3]. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. Bert. “Pre-training of deep bidirectional transformers for language understanding”. arXiv preprint arXiv:1810.04805, (2018).
[4]. Huang, Xin, Ashish Khetan, Milan Cvitkovic, and Zohar Karnin. "Tabtransformer: Tabular data modeling using contextual embeddings. arXiv 2020." arXiv preprint arXiv:2012.06678, (2012).
[5]. Pham, Thi Thanh Thuy, et al. "Towards a large-scale person search by vietnamese natural language: dataset and methods." Multimedia Tools and Applications 81.19: 27569-27600, (2022). DOI: https://doi.org/10.1007/s11042-022-12138-1
[6]. Yan, Shuanglin, Neng Dong, Liyan Zhang, and Jinhui Tang. "Clip-driven fine-grained text-image person re-identification." arXiv preprint arXiv:2210.10276, (2022). DOI: https://doi.org/10.1109/TIP.2023.3327924
[7]. Jiang, Ding, and Mang Ye. "Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 2787-2797, (2023). DOI: https://doi.org/10.1109/CVPR52729.2023.00273