Các phương pháp phát hiện bất thường cho dữ liệu chứa nhiễu
372 lượt xemDOI:
https://doi.org/10.54939/1859-1043.j.mst.79.2022.41-51Từ khóa:
Phát hiện bất thường; Biểu diễn ẩn; Học một lớp; Sự nhiễm bẩn.Tóm tắt
Gần đây, các mô hình biểu diễn không gian ẩn, chẳng hạn như Shrink Autoencoder (SAE), đã thể hiện hiệu năng mạnh mẽ trong việc nâng cao hiệu suất của kỹ thuật phân loại một lớp trong phát hiện bất thường mạng. Tuy nhiên, tập dữ liệu bình thường được dùng để huấn luyện các mô hình đang được giả định là hoàn toàn sạch, không chứa nhiễu và dữ liệu bất thường nào, điều này là khó khả thi trong thực tế. Do đó, bài náo này nghiên cứu khả năng biểu diễn ẩn của SAE trong việc trích xuất dữ liệu có chứa nhiễu. Mục đích là để tìm ra với mức độ nhiễu nào biểu diễn ẩn của SAE có khả năng bị ảnh hưởng mạnh. Bài báo thiết kế một số thí nghiệm với các mức độ nhiễu khác nhau cùng với một số phương pháp sinh nhiễu khác nhau. Các phương pháp biểu diễn đặc trưng khác như Denoising Autoencoder (DAE) và Phân tích thành phần chính (PCA) cũng được sử dụng để so sánh với hiệu suất của SAE. Kết quả thử nghiệm trên bốn kịch bản CTU13 cho thấy rằng, biểu diễn tiềm ẩn của SAE thường hoạt động tốt hơn và ít bị ảnh hưởng bởi nhiễu hơn so với các mô hình biểu diễn đặc trưng khác.
Tài liệu tham khảo
[1]. A. Zimek, E. Schubert, and H.-P. Kriegel, “A survey on unsupervised outlier detection in high-dimensional numerical data,” Statistical Analysis and Data Mining, vol. 5, no. 5, pp. 363–387, 2012.
[2]. G. Pang, L. Cao, and C. Aggarwal, “Deep learning for anomaly detection: Challenges, methods, and opportunities,” in Proceedings of the 14th ACM International Conference on Web Search and Data Mining, pp. 1127–1130, 2021.
[3]. G. Pang, C. Shen, L. Cao, and A. V. D. Hengel, “Deep learning for anomaly detection: A review,” ACM Computing Surveys (CSUR), vol. 54, no. 2, pp. 1–38, 2021.
[4]. V. L. Cao, M. Nicolau, and J. McDermott, “Learning neural representations for network anomaly detection,” IEEE Transactions on Cybernetics, no. 99, pp. 1–14, 2018.
[5]. V. L. Cao, M. Nicolau, and J. McDermott, “A hybrid autoencoder and density estimation model for anomaly detection,” in Parallel Problem Solving from Nature, pp. 717–726, Springer, 2016.
[6]. S. M. Erfani, S. Rajasegarar, S. Karunasekera, and C. Leckie, “High-dimensional and large-scale anomaly detection using a linear one-class svm with deep learning,” in Pattern Recognition 58, p. 121–134, 2016.
[7]. H. N. Nguyen, V. C. Nguyen, N. N. Tran, and V. L. Cao, “Feature representation of autoencoders for unsupervised iot malware detection,” in International Conference on Future Data and Security Engineering, pp. 272–290, Springer, 2021.
[8]. A. S. Iliyasu, U. A. Abdurrahman, and L. Zheng, “Few-shot network intrusion detection using discriminative representation learning with supervised autoencoder,” Applied Sciences, vol. 12, no. 5, p. 2351, 2022.
[9]. G. Pang, L. Cao, L. Chen, and H. Liu, “Learning representations of ultrahigh-dimensional data for random distance-based outlier detection,” in Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining, pp. 2041–2050, 2018.
[10]. Y. Zhou, X. Song, Y. Zhang, F. Liu, C. Zhu, and L. Liu, “Feature encoding with autoencoders for weakly-supervised anomaly detection,” IEEE, 2021.
[11]. P. Guansong, S. Chunhua, J. Huidong, and v. d. H. Anton, “Deep weakly-supervised anomaly detection,” arXIV Computing Surveys (CSUR), vol. 54, no. 2, pp. 1–38, 2020.