International Journal of Intelligent Information and Database Systems

K-means** — Thuật toán K-means nhanh và hiệu quả.

Nguyen Cuong Duc, and Trong Hai Duong.

DOI:

Từ khoá:

K-Means Clustering, Machine Learning, Algorithm, Data Mining

Hải Dương

Tóm tắt

10.1504/IJIIDS.2018.091595

K-means thường hội tụ về cực tiểu cục bộ. Trong các phiên bản cải tiến của K-means, k-means++ nổi tiếng với việc đạt được nghiệm khá tối ưu nhờ chiến lược khởi tạo cụm và hiệu quả tính toán cao. K-means gia tăng được công nhận vì hội tụ về cực tiểu toàn cục theo kinh nghiệm nhưng có độ phức tạp cao do việc bước qua số cụm K. Bài báo giới thiệu K-means** với chiến lược nhân đôi trên K. Các kỹ thuật bổ sung, bao gồm chỉ nhân đôi các cụm đủ lớn, bước K cho một vài giá trị cuối và tìm kiếm trên các ứng viên khác cho K cuối, được sử dụng để giúp K-means** có độ phức tạp O(K logK), thấp hơn độ phức tạp của K-means gia tăng, và vẫn hội tụ về cực tiểu toàn cục theo kinh nghiệm. Trên một tập dữ liệu tổng hợp và thực tế, K-means** đạt kết quả tối thiểu trong hầu hết các trường hợp kiểm thử. K-means** nhanh hơn nhiều so với K-means gia tăng và có tốc độ tương đương k-means++.

Nguyen Cuong Duc, and Trong Hai Duong. (2018), "K-means** — Thuật toán K-means nhanh và hiệu quả.", International Journal of Intelligent Information and Database Systems, 11, (1), pp. 27-45, DOI: 10.1504/IJIIDS.2018.091595