Skip to main content

Khai phá văn bản

Học phần: Khai phá văn bản
(Chương trình học và hướng dẫn thực hành)
Tài liệu tham khảo:
  1. Mining Text Data, 2012 (link)
  2. Fundamentals of Predictive Text Mining, 2nd edition (link)
  3. Bài giảng
Nội dung học phần
Chủ đề 1: Dẫn nhập vào Khai phá văn bản

Chủ đề 2: Tiền xử lý văn bản 

Chủ đề 3: Một số kĩ thuật xử lý ngôn ngữ tự nhiên
  • Bài giảng: NER; Stemming; Relation extraction; Dimension reduction (LSA, LSI)
  • Data set:
  • Hướng dẫn thực hành: (1) Giới thiệu GATE framework; (2) GATE: phương pháp tokenize; (3) GATE: stemming; (4) GATE: POS; (5) GATE: phrase recognition; (6) GATE: named entity recognition; (7) GATE: pipeline
  • Hướng dẫn lập trình: (1) Lập trình sử dụng GATE pipeline; (2) Lập trình sử dụng GATE embedded rule; (3) Tạo vector thuộc tính dựa trên kết quả xử lý ngôn ngữ tự nhiên

Chủ đề 4: Phân lớp trong Khai phá văn bản

Chủ đề 5: Phân cụm trong Khai phá văn bản
  • Bài giảng: slide
  • Data set: (1) Dữ liệu được tiền xử lý bởi StringToWordVector; (2) Dữ liệu được tiền xử lý bởi kĩ thuật xử lý ngôn ngữ tự nhiên
  • Hướng dẫn thực hành: (1) Mô hình phân cụm: FilteredClusterer (k-means);
  • Hướng dẫn lập trình:

Chủ đề 6: Opinion Mining & Sentiment Analysis
  • Bài giảng: slide
  • Data set:
  • Hướng dẫn thực hành:
  • Hướng dẫn lập trình:

Chủ đề 7: Case studies
  • Market Intelligence
  • Tự động phân loại chủ đề cho bài báo
  • Khai phá Social Media
  • Hướng dẫn thực hành
  • Hướng dẫn lập trình

Chủ đề 8: Một số vấn đề mở rộng
  • Bài giảng: slide

Comments

Popular posts from this blog

Hướng dẫn [KPDL N01 2017]

Hướng dẫn làm bài kiểm tra vẽ đường ROC của các mô hình ngày thứ 7 (02/12/2017) ở đây. Lưu ý: SV tự chọn mô hình kết hợp và các mô hình so sánh (tương tự như bài tập lớn).

Hướng dẫn [KPDL N01 2018]

Thứ 5 (1/3/2018) thầy sẽ kiểm tra về phần Khai phá luật kết hợp. Nội dung kiểm tra bao gồm: Kĩ năng khai phá luật kết hợp trên Weka Explorer, sử dụng 2 thuật toán phổ biến là Apriori và FP-Growth. Phân biệt điểm khác nhau giữa 2 thuật toán này? Sử dụng cơ sở dữ liệu mẫu supermarket của Weka, hãy tiến hành khai phá luật kết hợp và: Phân tích các luật thu được, từ đó quyết định chọn hay loại bỏ luật nào (có giải thích) Dựa trên các luật kết hợp thu được, hãy đề xuất các chiến lược kinh doanh mới cho siêu thị. CSDL supermarket chứa nhiều mặt hàng ở nhiều lĩnh vực khác nhau (thực phẩm, .v.v.), nên việc khai phá luật kết hợp (với thông số min_sup, min_conf) chung cho các mặt hàng này (như video hướng dẫn) là không hợp lý. Hãy nêu giải pháp của bạn để giải quyết vấn đề này? Để minh hoạ đơn giản, bài giảng thực hành video loại bỏ các trường department trong csdl supermarket, bạn hãy suy nghĩ và đề xuất hướng khai phá luật kết hợp có tính đến các trường department và phân tích kết quả...

Hướng dẫn [KPDL N01 2017]

Để vẽ đồ thị trong Weka (ví dụ đường ROC, scatter plot hay bar chart, .v.v.) được đẹp và sử dụng trong các báo cáo, chúng ta thường sử dụng gói jfreechart được cài đặt thêm thông qua Tools>Package Manager. Để vẽ đường ROC của các mô hình phân lớp khác nhau trên tập test set để so sánh hiệu năng của các mô hình này, chúng ta có thể tiến hành bằng một cách đơn giản sau: Dùng Explorer để tạo training set và test set (lưu vào thư mục trong máy) Dùng Explorer để xây dựng mô hình phân lớp (ví dụ: Naive Bayes, J48, .v.v.) với tập dữ liệu huấn luyện (training set) ở trên và lưu mô hình được huấn luyện vào thư mục trong máy. Dùng Knowledge Flow để: (i) tải test set vào bộ nhớ; (ii) chuyển dữ liệu test vào các mô hình (những mô hình này được tải lên từ file mô hình đã lưu ở bước 2); và (iii) xuất kết quả ra file. Các bạn có thể hoàn thành bài tập này thông qua hướng dẫn gợi ý ở đây .