Điều khiển tối ưu bám quỹ đạo cho USV có động lực học bất định và nhiễu biến thiên theo thời gian bằng thuật toán PI và IRL

Các tác giả

  • Tran Thanh Tuan Viện Tự động hóa, Viện Khoa học và Công nghệ quân sự
  • Vu Quoc Huy (Tác giả đại diện) Viện Tự động hóa, Viện Khoa học và Công nghệ quân sự https://orcid.org/0000-0001-9176-9891
  • Nguyen Quang Hung Trường Đại học Công nghệ Đông Á

DOI:

https://doi.org/10.54939/1859-1043.j.mst.208.2025.11-20

Từ khóa:

Học tăng cường tích phân; Lặp chính sách; Điều khiển tối ưu; HJB; USVs.

Tóm tắt

Bài báo trình bày một khung điều khiển tối ưu phi mô hình cho bài toán bám quỹ đạo của tàu mặt nước không người lái (USVs) hoạt động trong điều kiện động lực học chưa biết và nhiễu biến thiên theo thời gian, được phát triển thông qua thuật toán Học tăng cường tích phân (IRL) và lặp chính sách (PI). Bộ điều khiển IRL-PI được thiết kế dựa trên kỹ thuật giảm bậc và cấu trúc mạng nơ-ron Actor-Critic chính sách ngoại tuyến, cho phép xấp xỉ nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) trong thời gian thực mà không cần biết trước mô hình hệ thống. Kết quả mô phỏng trên mô hình USV ba bậc tự do (3-DOF) cho thấy phương pháp được đề xuất vượt trội hơn các bộ điều khiển truyền thống về cả độ chính xác bám quỹ đạo và tính bền vững. Những kết quả này khẳng định tiềm năng của bộ điều khiển IRL-PI trong việc phát triển các giải pháp điều khiển bền vững cho các hệ thống hàng hải phức tạp hoạt động trong môi trường bất định và biến động.

Tài liệu tham khảo

[1]. T. I. Fossen, “Handbook of marine craft hydrodynamics and motion control”, John Wiley & Sons Ltd., (2011).

[2]. X. Lin, H. Jiang, et al., “Adaptive sliding-mode trajectory tracking control for underactuated surface vessels based on NDO”, Proceedings of IEEE International Conference on Mechatronics and Automation (ICMA), pp. 1043–1049, (2018).

[3]. C. Liu et al., “Trajectory tracking of underactuated surface vessels based on neural network and hierarchical sliding mode”, Journal of Marine Science and Technology, vol. 20, pp. 322–330, (2015).

[4]. G. Wen et al., “Adaptive tracking control of surface vessel using optimized backstepping technique”, IEEE Transactions on Cybernetics, Vol. 49, No. 9, pp. 3420–3431, (2018).

[5]. G. Xiao, H. Zhang, Y. Luo, H. Jiang, “Data-driven optimal tracking control for a class of affine nonlinear continuous-time systems”, (2016).

[6]. V. T. Vu, T. L. Pham, Q. H. Tran, P. N. Dao, “Optimal control for fully-actuated surface vessel systems”, iRobotics, Vol. 4, No. 1, (2021).

[7]. C. Liu, et al., “Trajectory tracking control for underactuated surface vessels based on nonlinear model predictive control”, Lecture Notes in Computer Science (ICCL), Vol. 9335, pp. 166–180, (2015).

[8]. K. Kamalapurkar, W. E. Dixon, et al., “Model-based reinforcement learning for infinite-horizon approximate optimal tracking”, IEEE Transactions on Neural Networks and Learning Systems, vol. 28, pp. 753–758, (2016).

[9]. X. Guo, W. Yan, R. Cui, “Integral reinforcement learning-based adaptive neural network control for continuous-time nonlinear MIMO systems with unknown control directions”, IEEE Transactions on Systems, Man, and Cybernetics: Systems, Vol. 50, No. 11, pp. 4068–4077, (2019).

[10]. Z. Zheng, et al., “Reinforcement learning control for underactuated surface vessel with output error constraints and uncertainties”, Neurocomputing, Vol. 399, pp. 479–490, (2020).

[11]. X. Yang, et al., “Adaptive dynamic programming for robust neural control of unknown continuous-time nonlinear systems”, IET Control Theory & Applications, Vol. 11, pp. 2307–2316, (2017).

[12]. Y. Zhu, D. Zhao, X. Li, “Using reinforcement learning techniques to solve continuous-time nonlinear optimal tracking problem without system dynamics”, IET Control Theory & Applications, Vol. 10, pp. 1339–1347, (2016).

[13]. K. Dupree, P. M. Patre, Z. D. Wilcox, W. E. Dixon, “Asymptotic optimal control of uncertain nonlinear Euler–Lagrange systems”, Automatica, vol. 47, pp. 99–107, (2011).

[14]. J. Y. Lee, et al., “Integral reinforcement learning for continuous-time input-affine nonlinear systems with simultaneous invariant explorations”, IEEE Transactions on Neural Networks and Learning Systems, Vol. 26, pp. 916–932, (2014).

Tải xuống

Đã Xuất bản

25-12-2025

Cách trích dẫn

[1]
Tran Thanh Tuan, D. H. Vũ Quốc, và Nguyen Quang Hung, “Điều khiển tối ưu bám quỹ đạo cho USV có động lực học bất định và nhiễu biến thiên theo thời gian bằng thuật toán PI và IRL”, JMST, vol 108, số p.h 208, tr 11–20, tháng 12 2025.

Số

Chuyên mục

Kỹ thuật điều khiển & Điện tử