ĐỀ XUẤT THUẬT TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT  SỬ DỤNG MẠNG LSTM VÀ WORD2VEC

Phát

Các tác giả

Nguyễn Hữu Phát (Tác giả đại diện) Viện Điện tử Viễn thông, Đại học Bách khoa Hà Nội

Từ khóa:

Phân loại văn bản; Xử lý ngôn ngữ tự nhiên; Xử lý dữ liệu; Long Short Term Memory; Word2vec.

Tóm tắt

Hiện nay, phân loại văn bản là một trong những ứng dụng cơ bản của xử lý ngôn ngữ tự nhiên. Đặc biệt, những thành tựu gần đây của các mạng học sâu cho thấy các phương pháp học sâu đang làm rất tốt trong việc phân loại văn bản. Các phương pháp này cho thấy hiệu quả trong việc phân loại văn bản với ngôn ngữ tiếng Anh. Tuy nhiên, hiện nay, trong phạm vi nghiên cứu của chúng tôi, không có nhiều nghiên cứu đối với văn bản tiếng Việt. Do đó, trong nghiên cứu này, chúng tôi sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC [1] đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế.

ĐỀ XUẤT THUẬT TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG MẠNG LSTM VÀ WORD2VEC

Các tác giả

Từ khóa:

Tóm tắt

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

ISSN: 1859-1043

Ngôn ngữ

Gửi bài mới

Indexed by

Thông tin

Visitors

GTM