Học phần Khai phá dữ liệu
(Chương trình học và Hướng dẫn thực hành)
Tài liệu tham khảo- Data Mining: Concepts and Techniques, 3rd Edition, (link).
- Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (link)
- Giáo trình Khai Phá Dữ Liệu của Nguyễn Hà Nam, Nguyễn Chí Thành, Hà Quang Thụy (link)
Chủ đề 1: Dẫn nhập về Khai phá dữ liệu
- Bài giảng: slide
- Phần mềm: (1) Java; (2) WEKA; và (3) Netbeans.
- Hướng dẫn thực hành: (1) Cài đặt Java & Weka & Netbeans; (2) Giới thiệu phần mềm WEKA; (3) Giới thiệu cấu trúc tập tin ARFF.
- Hướng dẫn lập trình: (1) Thiết lập dự án với Weka; (2) Xuất - Nhập và Chuyển đổi dữ liệu.
- Tài liệu tham khảo: Cẩm nang hướng dẫn sử dụng Weka.
Chủ đề 2: Khai phá luật kết hợp
- Bài giảng: slide
- Dataset: (1) Supermarket (link); (2) weather.numeric (link); (3) weather.nominal (link).
- Bài thực hành: (1) Khai phá luật kết hợp bằng thuật toán Apriori; (2) Khai phá luật kết hợp bằng thuật toán FP-Growth.
- Hướng dẫn lập trình: (1) Lập trình sử dụng Apriori trong WEKA; (2) Lập trình sử dụng FP-Growth.
Chủ đề 3: Phân lớp - các phương pháp chuẩn bị dữ liệu
- Bài giảng: slide
- Dataset: labor (link)
- Bài thực hành: (1) Chuẩn bị train set và test set ; (2) Phương pháp Holdout; (3) Phương pháp Cross validation.
- Hướng dẫn lập trình: (1) Lập trình tạo train set và test set.
Chủ đề 4: Phân lớp - Cây quyết định
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình cây quyết định bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình xây dựng mô hình cây quyết định bằng WEKA API; (2) Lập trình sử dụng mô hình cây quyết định để phân lớp.
Chủ đề 5: Phân lớp - Naive Bayes
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình Naive Bayes bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình Naive Bayes.
Chủ đề 6: Phân lớp - Mạng nơ-ron
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình Mạng nơ-ron bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình Mạng nơ-ron.
Chủ đề 7: Phân lớp - Support vector machines
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình SVM bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình SVM.
Chủ đề 8: Phân lớp - phương pháp k-lân cận
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình k-NN bằng phần mềm WEKA; (2) Lựa chọn thông số tối ưu cho mô hình phân lớp (tuning model).
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình k-NN.
Chủ đề 9: Phân lớp - phương pháp kết hợp (Ensemble methods)
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link); (3) iris-train (link); (4) iris-test (link).
- Bài thực hành: (1) Phương pháp Bagging; (2) Phương pháp Boosting; (3) Phương pháp Vote; (4) Phương pháp Blending (Stacking); (5) Phương pháp MultiClassClassifier.
- Hướng dẫn lập trình: (1) Lập trình - Bagging; (2) Lập trình - Boosting; (3) Lập trình - Voting; (4) Lập trình - Stacking.
Chủ đề 10: Phân lớp - đánh giá và lựa chọn mô hình phân lớp
- Bài giảng: xem slide chủ đề 3
- Bài đọc thêm: Hướng dẫn sử dụng Knowledge Flow của Weka.
- Data set: (1) labor-train (link); (2) diabetes (link).
- Bài thực hành: (1) Vẽ đường ROC; (2) Vẽ đường Precision - Recall; (3) So sánh các mô hình phân lớp bằng Experimenter; (4) Vẽ đường ROC bằng Knowledge Flow; (5) Vẽ đường ROC của nhiều bộ phân lớp bằng Knowledge Flow.
Chủ đề 11: Phân cụm - Dẫn nhập
- Bài giảng: slide
Chủ đề 12: Phân cụm - phương pháp k-means
- Bài giảng: slide
- Dataset: (1) diabetes (link); (2) credit (link).
- Bài thực hành: (1) Xây dựng mô hình k-means bằng phần mềm WEKA.
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình k-means.
Chủ đề 13: Phân cụm - phương pháp Expectation - Maximization
- Bài giảng: slide
- Dataset: (1) diabetes (link); (2) credit (link).
- Bài thực hành: (1) Xây dựng mô hình EM bằng phần mềm WEKA.
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình EM.
Chủ đề 14: Bài tập lớn
- Bài toán
- Dataset
- Tham khảo
Comments
Post a Comment