基于速度加速度的子空間聚類算法-數(shù)學(xué)分析論文
聚類分析是數(shù)據(jù)挖掘中非?;钴S的研究領(lǐng)域。聚類是將給定的數(shù)據(jù)集劃分成不同類別(或稱為一個(gè)聚類),使同一類別中個(gè)體的相似度盡可能大,而不同類別中個(gè)體的相似度盡可能小。聚類可以發(fā)現(xiàn)屬性之間所存在的聯(lián)系,從而找出數(shù)據(jù)分布的模式,目前它已經(jīng)廣泛應(yīng)用于模式識(shí)別、數(shù)據(jù)分析、圖象處理和市場(chǎng)分析。聚類分析所涉及的領(lǐng)域包括:數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)技術(shù)、生物學(xué)、市場(chǎng)學(xué)等。
隨著數(shù)據(jù)量的快速增大,數(shù)據(jù)往往是具有很多特征,即現(xiàn)實(shí)中的數(shù)據(jù)大多是高維度數(shù)據(jù)集,而高維度的數(shù)據(jù)往往是稀疏的(即不存在全部維度上都密集的聚類),又因?yàn)榫垲愃惴ǖ臅r(shí)間復(fù)雜度往往會(huì)隨著維度的增加而快速的增大,故而,高維度數(shù)據(jù)空間中的子空間聚類是很有效的一種獲取有用信息的方法。
3 算法實(shí)驗(yàn)結(jié)果及分析
評(píng)估一種邊界點(diǎn)檢測(cè)算法的標(biāo)準(zhǔn)主要有兩個(gè)方面:算法的有效性(正確性)和執(zhí)行效率。有效性意味著算法能夠準(zhǔn)確地檢測(cè)出聚類的邊界點(diǎn);執(zhí)行效率高意味著算法不僅可以應(yīng)用在小型數(shù)據(jù)集上,而且可以應(yīng)用到大型數(shù)據(jù)集上,有很好的擴(kuò)展性。下面,我們從這兩方面對(duì)算法做出評(píng)估。
3.1有效性分析
我們使用一個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果和一個(gè)數(shù)據(jù)集的理論分析來說明問題。
1、為了直觀地說明算法的有效性,本文使用二維數(shù)據(jù)集進(jìn)行測(cè)試。
原圖 CLIQUE BAS-CLIQUE
圖4 兩種算法實(shí)驗(yàn)結(jié)果比較
圖4為包含8486個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集,從實(shí)驗(yàn)結(jié)果可以看出來,CLIQUE把聚類邊界的很多數(shù)據(jù)點(diǎn)歸為噪聲,造成了精度的下降,這也是很多基于網(wǎng)格的聚類算法都存在的問題即邊界的檢測(cè)問題。而改進(jìn)后的BAS-CLIQUE算法,在聚類的邊界處使用間隔之間數(shù)據(jù)點(diǎn)個(gè)數(shù)變化的速度和加速度參數(shù),使聚類邊界得到了很好的柔化,能較好地避免邊界點(diǎn)的損失,提高聚類精度。
2、數(shù)據(jù)集理論分析。
我們從理論上的示例數(shù)據(jù)集來說明算法的效果。
圖5在示例數(shù)據(jù)集上進(jìn)行理論說明
如圖5,使用CLIQUE算法,如果設(shè)定的密度閾值過高,則兩個(gè)菱形中的稀薄區(qū)域?qū)⒉粫?huì)被包含在聚類中;如果密度閾值過低,則左右兩個(gè)菱形會(huì)被認(rèn)為是同一個(gè)聚類(因?yàn)殚g隔t2的數(shù)據(jù)點(diǎn)密度比較大,CLIQUE會(huì)認(rèn)為它與t1和t3同屬于一個(gè)聚類)。
而BAS-CLIQUE加入了速度和加速度參數(shù)來增加聚類邊界的精確度,由t1、t2到t3,密度變化的趨勢(shì)為先減后加,加速度會(huì)超過給定標(biāo)準(zhǔn)(因?yàn)樗俣鹊淖兓容^大),我們會(huì)認(rèn)為t2是聚類的邊界;同時(shí)在兩個(gè)菱形的稀薄區(qū)域,密度變化的趨勢(shì)都為逐漸減小,加速度不會(huì)超過給定標(biāo)準(zhǔn),我們會(huì)得到較CLIQUE更為精確的聚類形狀。
3.2 時(shí)間復(fù)雜度分析
本算法對(duì)CLIQUE算法主要做了兩點(diǎn)改進(jìn):
1、在每一維查找密集單元時(shí),通過間隔內(nèi)密度的速度和加速度進(jìn)行聚類。對(duì)每一個(gè)滿足密度閾值的密集單元進(jìn)行一次遍歷,計(jì)算速度和加速度并進(jìn)行合并,此項(xiàng)操作會(huì)增加密集單元的掃描次數(shù),只增加線性的時(shí)間復(fù)雜度,在總體算法時(shí)間復(fù)雜度方面沒有影響。但此項(xiàng)操作可以有效地減少密集單元的個(gè)數(shù)(因?yàn)樯闪俗赃m應(yīng)間隔,而自適應(yīng)間隔可能有固定間隔幾倍的跨度范圍),進(jìn)而減少在以后剪枝操作中的遍歷次數(shù),在最壞的情況下,即每一個(gè)密集間隔與其他密集間隔都不相鄰,將會(huì)產(chǎn)生與CLIQUE相同的時(shí)間復(fù)雜度。
2、在剪枝的操作過程中,考慮速度和加速度的因素,會(huì)增加線性的時(shí)間復(fù)雜度,在總體算法時(shí)間復(fù)雜度方面沒有影響。
綜上,BAS-CLIQUE相比CLIQUE,時(shí)間復(fù)雜度相同,通常情況下效率更高一點(diǎn)(最壞情況下與CLIQUE相同O(Cd+md) ,其中m是輸入數(shù)據(jù)點(diǎn)數(shù),C為常數(shù),d是數(shù)據(jù)空間的維度)。
4結(jié)論及進(jìn)一步工作
本文提出了基于速度加速度的子空間檢測(cè)算法,該算法基于CLIQUE,在尋找密集單元和剪枝的過程中利用速度和加速度進(jìn)行了優(yōu)化,能有效地提高CLIQUE的精確度和計(jì)算效率。但本算法增加了一個(gè)參數(shù)(在本文2.2中表述,加速度參數(shù)取速度參數(shù)的常數(shù)倍數(shù)),下一步我們將在更多數(shù)據(jù)集包括真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以證明算法的有效性,及采取有效措施減小參數(shù)對(duì)聚類結(jié)果的影響。
欄目分類
- 身體嚴(yán)肅性消解與舞蹈語言錯(cuò)位
- 新媒體視域下舞蹈美育的發(fā)展路徑研究
- 文化潤疆視角下基層舞臺(tái)藝術(shù)實(shí)踐研究 ——大型舞臺(tái)劇《十年》的當(dāng)代敘事
- 學(xué)前教育專業(yè)舞蹈創(chuàng)編教學(xué)模式的構(gòu)建研究
- 融合傳統(tǒng)與現(xiàn)代元素的高校舞蹈教學(xué)改革探索
- 跨學(xué)科視角下中學(xué)體育舞蹈教學(xué)的探析
- 風(fēng)格性在民間舞課堂教學(xué)中的重要性探討 ——以陸豐錢鼓舞教學(xué)為例
- 混合式教學(xué)模式下江西非遺舞蹈特色課程建設(shè)策略研究 ——以學(xué)前教育專業(yè)舞蹈課程為例
- 氣息在現(xiàn)代舞中的重要性與運(yùn)用
- 民族舞蹈作品選材角度探究
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?