Skip to main content

Khai phá dữ liệu

Học phần Khai phá dữ liệu
(Chương trình học và Hướng dẫn thực hành)
Tài liệu tham khảo
  • Data Mining: Concepts and Techniques, 3rd Edition, (link).
  • Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (link)
  • Giáo trình Khai Phá Dữ Liệu  của Nguyễn Hà Nam, Nguyễn Chí Thành, Hà Quang Thụy (link)
Nội dung học phần
Chủ đề 1: Dẫn nhập về Khai phá dữ liệu

Chủ đề 2: Khai phá luật kết hợp

Chủ đề 3: Phân lớp - các phương pháp chuẩn bị dữ liệu
 
Chủ đề 4: Phân lớp - Cây quyết định

Chủ đề 5: Phân lớp - Naive Bayes

Chủ đề 6: Phân lớp - Mạng nơ-ron
Chủ đề 7: Phân lớp - Support vector machines

Chủ đề 8: Phân lớp - phương pháp k-lân cận

Chủ đề 9: Phân lớp - phương pháp kết hợp (Ensemble methods)

Chủ đề 10: Phân lớp - đánh giá và lựa chọn mô hình phân lớp

Chủ đề 11: Phân cụm - Dẫn nhập

Chủ đề 12: Phân cụm - phương pháp k-means

Chủ đề 13: Phân cụm - phương pháp Expectation - Maximization

Chủ đề 14: Bài tập lớn
  • Bài toán
  • Dataset
  • Tham khảo

Comments

Popular posts from this blog

Hướng dẫn [KPDL N01 2017]

Hướng dẫn làm bài kiểm tra vẽ đường ROC của các mô hình ngày thứ 7 (02/12/2017) ở đây. Lưu ý: SV tự chọn mô hình kết hợp và các mô hình so sánh (tương tự như bài tập lớn).

Hướng dẫn [KPDL N01 2018]

Thứ 5 (1/3/2018) thầy sẽ kiểm tra về phần Khai phá luật kết hợp. Nội dung kiểm tra bao gồm: Kĩ năng khai phá luật kết hợp trên Weka Explorer, sử dụng 2 thuật toán phổ biến là Apriori và FP-Growth. Phân biệt điểm khác nhau giữa 2 thuật toán này? Sử dụng cơ sở dữ liệu mẫu supermarket của Weka, hãy tiến hành khai phá luật kết hợp và: Phân tích các luật thu được, từ đó quyết định chọn hay loại bỏ luật nào (có giải thích) Dựa trên các luật kết hợp thu được, hãy đề xuất các chiến lược kinh doanh mới cho siêu thị. CSDL supermarket chứa nhiều mặt hàng ở nhiều lĩnh vực khác nhau (thực phẩm, .v.v.), nên việc khai phá luật kết hợp (với thông số min_sup, min_conf) chung cho các mặt hàng này (như video hướng dẫn) là không hợp lý. Hãy nêu giải pháp của bạn để giải quyết vấn đề này? Để minh hoạ đơn giản, bài giảng thực hành video loại bỏ các trường department trong csdl supermarket, bạn hãy suy nghĩ và đề xuất hướng khai phá luật kết hợp có tính đến các trường department và phân tích kết quả...

Hướng dẫn [KPDL N01 2017]

Để vẽ đồ thị trong Weka (ví dụ đường ROC, scatter plot hay bar chart, .v.v.) được đẹp và sử dụng trong các báo cáo, chúng ta thường sử dụng gói jfreechart được cài đặt thêm thông qua Tools>Package Manager. Để vẽ đường ROC của các mô hình phân lớp khác nhau trên tập test set để so sánh hiệu năng của các mô hình này, chúng ta có thể tiến hành bằng một cách đơn giản sau: Dùng Explorer để tạo training set và test set (lưu vào thư mục trong máy) Dùng Explorer để xây dựng mô hình phân lớp (ví dụ: Naive Bayes, J48, .v.v.) với tập dữ liệu huấn luyện (training set) ở trên và lưu mô hình được huấn luyện vào thư mục trong máy. Dùng Knowledge Flow để: (i) tải test set vào bộ nhớ; (ii) chuyển dữ liệu test vào các mô hình (những mô hình này được tải lên từ file mô hình đã lưu ở bước 2); và (iii) xuất kết quả ra file. Các bạn có thể hoàn thành bài tập này thông qua hướng dẫn gợi ý ở đây .