Một phương pháp dịch ảnh từ mô phỏng sang thực tế bằng mô hình khuếch tán cho nhận dạng phương tiện quân sự
DOI:
https://doi.org/10.54939/1859-1043.j.mst.CSCE9.2025.61-71Từ khóa:
Khuếch tán; Tổng hợp ảnh; Tăng cường dữ liệu; Phát hiện phương tiện quân sự.Tóm tắt
Việc nghiên cứu, phát triển hệ thống tự động nhận dạng phương tiện quân sự giúp cho người chỉ huy nắm chắc được tình hình địch là vấn đề cần thiết giúp nâng cao hiệu quả chiến đấu, hoàn thành nhiệm vụ, đáp ứng yêu cầu của quân đội. Để phát triển, ứng dụng các công nghệ của thị giác máy tính trong hệ thống tự động nhận dạng cần bộ dữ liệu huấn luyện với kích thước lớn, nội dung phong phú (hình ảnh đối tượng trong thời gian, không gian khác nhau). Tuy nhiên, trong thực tế, những dữ liệu hình ảnh phương tiện quân sự, đặc biệt là phương tiện của địch, rất khó thu thập, số lượng hạn chế và tiêu tốn nhiều thời gian, công sức. Trình mô phỏng và dữ liệu tổng hợp mang lại một lựa chọn thay thế hiệu quả về chi phí, nhưng khoảng cách thị giác giữa mô phỏng và thực tế lại cản trở hiệu suất của các mô hình khi triển khai trong môi trường thực. Trong bài báo này, chúng tôi giới thiệu một phương pháp sinh dữ liệu với mô hình khuyếch tán để thực hiện chuyển miền từ ảnh mô phỏng sang ảnh thực tế. Cụ thể chúng tôi xây dựng mô hình sinh ảnh bằng mô hình khuếch tán FLEX2 (lượng tử hóa với fp4), được điều khiển ảnh cạnh sử dụng bộ lọc canny. Phương pháp này cho phép tạo ra dữ liệu ảnh được gán nhãn một cách chân thực từ ảnh mô phỏng, phục vụ huấn luyện các mô hình nhận dạng phương tiện quân sự. Kết quả thực nghiệm trên bộ dữ liệu ảnh phương tiện quân sự được cho thấy độ đo chất lượng ảnh Fréchet (FID) cải thiện đáng kể so giữa tập ảnh mô phỏng và tập ảnh sinh bởi phương pháp đề xuất của chúng tôi, giảm từ 270 xuống 162 với cùng tập ảnh thật. Những kết quả này cho thấy giải pháp của chúng tôi mang đến một công cụ chuyển đổi ảnh từ mô phỏng sang ảnh thực có khả năng mở rộng và linh hoạt, cải thiện khả năng khái quát và độ tin cậy cho các mô hình nhận dạng phương tiện quân sự.
Tài liệu tham khảo
[1]. Vuong, Q., Levine, S., Walke, H. R., Pertsch, K., Singh, A., Doshi, R., Leal, I., “Open x-embodiment: Robotic learning datasets and RT-X models”, Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition @ CoRL, (2023).
[2]. Coicheci, S. and Filip, I., “Self-driving vehicles: Current status of development and technical challenges to overcome”, IEEE 14th International Symposium on Applied Computational Intelligence and Informatics (SACI), pp. 255–260, (2020).
[3]. Ho, D., Rao, K., Xu, Z., Jang, E., Khansari, M. and Bai, Y., “RetinaGAN: An object-aware approach to sim-to-real transfer”, IEEE International Conference on Robotics and Automation (ICRA), pp. 10920–10926, (2021).
[4]. Zhu, J. Y., Park, T., Isola, P. and Efros, A. A., “Unpaired image-to-image translation using cycle-consistent adversarial networks”, Proceedings of the IEEE International Conference on Computer Vision, pp. 2223–2232, (2017).
[5]. Liu, D., Chen, Y. and Wu, Z., “Digital twin (DT)-CycleGAN: Enabling zero-shot sim-to-real transfer of visual grasping models”, IEEE Robotics and Automation Letters, vol. 8, no. 5, pp. 2421–2428, (2023).
[6]. Choi, Y., Choi, M., Kim, M., Ha, J. W., Kim, S. and Choo, J., “StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8789–8797, (2018).
[7]. Ho, J., Jain, A. and Abbeel, P., “Denoising diffusion probabilistic models”, Advances in Neural Information Processing Systems, vol. 33, pp. 6840–6851, (2020).
[8]. ComfyUI Wiki, “FLUX”, ComfyUI Wiki, (2025).
[9]. Black Forest Lab, “FLUX”, GitHub Repository, (2024).
[10]. Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B. and Hochreiter, S., “GANs trained by a two-time-scale update rule converge to a local Nash equilibrium”, Advances in Neural Information Processing Systems, vol. 30, (2017).
[11]. Saharia, C., Chan, W., Chang, H., Lee, C., Ho, J., Salimans, T., … Norouzi, M., “Palette: Image-to-image diffusion models”, ACM SIGGRAPH Conference Proceedings, pp. 1–10, (2022).
[12]. Zhang, L., Rao, A. and Agrawala, M., “Adding conditional control to text-to-image diffusion models”, Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836–3847, (2023).
[13]. Brooks, T., Holynski, A. and Efros, A. A., “InstructPix2Pix: Learning to follow image editing instructions”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 18392–18402, (2023).
[14]. Sachenko, A., Derysh, B., Dubchak, L., Sachenko, S. and Chereshnyuk, O., “Real-time military vehicle classification via convolutional neural networks”, MoDaST, (2025).
[15]. Pichler, A. and Hueber, N., “Training embedded DNN-based military vehicle detectors for aerial applications with few images using multisource vehicle signatures, data augmentation, and generative models”, AI, vol. 26, (2024).
[16]. https://huggingface.co/google/gemma-3-4b-it.