Học phần: Khai phá văn bản
(Chương trình học và hướng dẫn thực hành)
Tài liệu tham khảo:
Nội dung học phần
Chủ đề 1: Dẫn nhập vào Khai phá văn bản
- Bài giảng: slide
- Phần mềm: (1) Java SDK; (2) Netbeans; (3) Weka; (4) Python; (5) PyCharm Community; (5) GATE framework
- Dữ liệu mẫu: (1) IMDB Movie review; (2) Movie Review data; (3) Stopwords datasets; (4) Quora question pairs; (5) UMB corpus; (6) Leipzig corpora; (7) UCI SMS Spam dataset; (8) Opinion Mining Dataset – ACL-IJCNLP 2009; (9) Sentiment Analysis – CS UIC; (10) Stanford Twitter Corpus; (11) SemEval-2013: Sentiment Analysis in Twitter;
- Hướng dẫn cài đặt: (1) Cài đặt Java SDK; (2) Cài đặt Netbeans; (3) Cài đặt Python – Anaconda; (4) Cài đặt gói NLTK; (5) Cài đặt GATE framework
Chủ đề 2: Tiền xử lý văn bản
- Bài giảng: slide
- Data set:
- Hướng dẫn thực hành: (1) Chuyển văn bản thành vector (tf-idf) ; (2) Chuyển tập văn (corpus) thành vector; (3) Định dạng dữ liệu thưa; (4) Một số kĩ thuật giảm chiều (loại bỏ từ thừa; LSA)
- Hướng dẫn lập trình:
Chủ đề 3: Một số kĩ thuật xử lý ngôn ngữ tự nhiên
- Bài giảng: NER; Stemming; Relation extraction; Dimension reduction (LSA, LSI)
- Data set:
- Hướng dẫn thực hành: (1) Giới thiệu GATE framework; (2) GATE: phương pháp tokenize; (3) GATE: stemming; (4) GATE: POS; (5) GATE: phrase recognition; (6) GATE: named entity recognition; (7) GATE: pipeline
- Hướng dẫn lập trình: (1) Lập trình sử dụng GATE pipeline; (2) Lập trình sử dụng GATE embedded rule; (3) Tạo vector thuộc tính dựa trên kết quả xử lý ngôn ngữ tự nhiên
Chủ đề 4: Phân lớp trong Khai phá văn bản
- Bài giảng: slide
- Data set: (1) Dữ liệu được tiền xử lý bởi StringToWordVector; (2) Dữ liệu được tiền xử lý bởi kĩ thuật xử lý ngôn ngữ tự nhiên
- Hướng dẫn thực hành: (1) Mô hình phân lớp: FilteredClassifier và MultiFilter; (2) Mô hình phân lớp: InputMappedClassifier; (3) Giới thiệu một số mô hình phân lớp văn bản.
- Hướng dẫn lập trình:
Chủ đề 5: Phân cụm trong Khai phá văn bản
- Bài giảng: slide
- Data set: (1) Dữ liệu được tiền xử lý bởi StringToWordVector; (2) Dữ liệu được tiền xử lý bởi kĩ thuật xử lý ngôn ngữ tự nhiên
- Hướng dẫn thực hành: (1) Mô hình phân cụm: FilteredClusterer (k-means);
- Hướng dẫn lập trình:
Chủ đề 6: Opinion Mining & Sentiment Analysis
- Bài giảng: slide
- Data set:
- Hướng dẫn thực hành:
- Hướng dẫn lập trình:
Chủ đề 7: Case studies
- Market Intelligence
- Tự động phân loại chủ đề cho bài báo
- Khai phá Social Media
- Hướng dẫn thực hành
- Hướng dẫn lập trình
Chủ đề 8: Một số vấn đề mở rộng
- Bài giảng: slide
Comments
Post a Comment