針對海量數(shù)據(jù)聚類過程中,經(jīng)典的K-均值聚類算法對其K個初始聚類中心點的選擇以及數(shù)據(jù)集噪聲十分敏感的問題,提出了一種針對海量數(shù)據(jù)考慮初始聚類中心點選擇的聚類算法.該算法首先采用冒泡排序法對數(shù)據(jù)集進行排序,獲取數(shù)據(jù)集的各維中心值組成第一個初始聚類中心點.其次,通過計算與第一個初始聚類中心點的歐式距離,對剩余候選初始聚類中心點進行優(yōu)化選擇,保證所有的聚類中心點均勻地分布在數(shù)據(jù)集密度較大的空間上,以此減少聚類過程中的迭代次數(shù)和提高聚類算法效率.最后,基于UCI(University of California,Irvine)中多個數(shù)據(jù)集,進行聚類算法對比實驗.結(jié)果表明,在不降低聚類效果的前提下,該聚類算法的迭代次數(shù)平均降低到50%,所需的時間降低平均達(dá)10%,由實驗結(jié)果還能推出,當(dāng)點集的數(shù)目越多時,該算法就能表現(xiàn)出越明顯的聚類優(yōu)勢效果.
展開▼