面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)研究
1 大數(shù)據(jù)的發(fā)展挑戰(zhàn)
1.1 在技術(shù)架構(gòu)形式上
現(xiàn)階段,數(shù)據(jù)庫(kù)正在全球化,立足于該發(fā)展模式,分布式模式需要得以創(chuàng)建,除了需要龐大機(jī)器之外,還需要有效處理龐大的數(shù)據(jù)信息。但是面對(duì)大數(shù)據(jù)時(shí)代,針對(duì)飛速激增的數(shù)據(jù)量,傳統(tǒng)數(shù)據(jù)分析已經(jīng)不能滿足需求,在以下3個(gè)方面得到體現(xiàn):
1.1.1 數(shù)據(jù)處理的時(shí)效性
面對(duì)大數(shù)據(jù)不斷推行,為了符合現(xiàn)階段數(shù)據(jù)處理實(shí)際需求,數(shù)據(jù)實(shí)現(xiàn)在線處理。在此基礎(chǔ)上,無(wú)論是數(shù)據(jù)處理選擇,還是數(shù)據(jù)處理模式,都不斷改變,處理具有實(shí)時(shí)性,除了能夠?qū)崿F(xiàn)流處理之外,批處理也成功實(shí)現(xiàn)。立足于大數(shù)據(jù)實(shí)時(shí)性處理,無(wú)論是業(yè)務(wù)需求,還是根據(jù)應(yīng)用,都逐步發(fā)生改變。
1.1.2 實(shí)現(xiàn)了動(dòng)態(tài)變化環(huán)境中的索引形式
在索引形式的基礎(chǔ)上,關(guān)系數(shù)據(jù)庫(kù)查詢速度將不斷提升,可是使用傳統(tǒng)數(shù)據(jù)管理模式,索引形式并不可以產(chǎn)生變化,在此基礎(chǔ)上,無(wú)論是更新效率,還是創(chuàng)建方式,都不斷形成。針對(duì)大數(shù)據(jù)信息的變化特點(diǎn),除了需要具備設(shè)計(jì)簡(jiǎn)潔的特點(diǎn),創(chuàng)建索引方式還需要具有高效的特點(diǎn),由此針對(duì)大數(shù)據(jù)變化,無(wú)論是數(shù)據(jù)信息的需求調(diào)整,還是數(shù)據(jù)信息的處理,都可以良好使用。所以說(shuō),針對(duì)大數(shù)據(jù)變化,全新的索引形式需要成功設(shè)計(jì),在此基礎(chǔ)上確保查詢工作順利實(shí)施。
1.1.3 先驗(yàn)知識(shí)的缺失
立足于傳統(tǒng)數(shù)據(jù)分析結(jié)構(gòu),在關(guān)系型保存模式基礎(chǔ)上,無(wú)論是出現(xiàn)先驗(yàn)知識(shí),還是隱藏內(nèi)部關(guān)系,都早已出現(xiàn)。比如說(shuō),對(duì)信息屬性進(jìn)行分析過程中,可能存在的取值范圍需要確定,并且在實(shí)際分析之前,數(shù)據(jù)的了解就已經(jīng)形成。針對(duì)大數(shù)據(jù)分析,無(wú)論是非結(jié)構(gòu)化數(shù)據(jù),還是半結(jié)構(gòu)化數(shù)據(jù),都需要?jiǎng)?chuàng)建類似數(shù)據(jù),并且正式關(guān)系式需要實(shí)現(xiàn)。但是數(shù)據(jù)流的產(chǎn)生是不間斷進(jìn)行的,所以說(shuō)針對(duì)實(shí)時(shí)發(fā)生的數(shù)據(jù),先驗(yàn)知識(shí)并不會(huì)創(chuàng)建完善,在此情況下,對(duì)無(wú)先驗(yàn)知識(shí),需要及時(shí)發(fā)現(xiàn)并及時(shí)處置。
2 高維數(shù)據(jù)挖掘中的問題
2.1 高維數(shù)據(jù)簡(jiǎn)介
在大數(shù)據(jù)庫(kù)飛速增加的基礎(chǔ)上,維數(shù)同樣在急劇擴(kuò)大,一旦增長(zhǎng)到瓶頸出,數(shù)據(jù)處理將難以進(jìn)行,人們將該數(shù)據(jù)就叫做高維數(shù)據(jù)。相對(duì)于傳統(tǒng)數(shù)據(jù)挖掘而言,除了具有復(fù)雜性的特點(diǎn)之外,高維數(shù)據(jù)還具有多信息量性,由此成為數(shù)據(jù)挖掘的核心所在。
2.2 高維數(shù)據(jù)的特點(diǎn)
(1)稀疏性:實(shí)質(zhì)就是數(shù)據(jù)庫(kù)相對(duì)龐大時(shí),即便高維數(shù)據(jù)非常多,但是能夠符合使用要求的,相對(duì)較少。
(2)維度災(zāi)難:挖掘高維數(shù)據(jù)的過程中,往往存在較多的屬性變化,在此情況下,索引結(jié)構(gòu)性能將不斷降低,特別是無(wú)論最近鄰,還是最遠(yuǎn)鄰,和查詢點(diǎn)的距離往往都一樣,由此最近鄰?fù)菦]有意義的,為此數(shù)據(jù)挖掘難度將急劇增加。
2.3 高維數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘產(chǎn)生的影響
結(jié)合大數(shù)據(jù)特征,實(shí)際挖掘數(shù)據(jù)過程中,使用最近鄰法,在龐大數(shù)據(jù)中查詢效率將急劇提升,最近鄰法往往依賴索引結(jié)構(gòu)進(jìn)行的,可是針對(duì)高維數(shù)據(jù)存在維度災(zāi)難的特點(diǎn),最近鄰查詢往往被索引結(jié)構(gòu)支持度將不斷降低,甚至是使得最近鄰查詢無(wú)法有效進(jìn)行。
無(wú)論是進(jìn)行高維數(shù)據(jù)的分類聚類分析,還是進(jìn)行高維數(shù)據(jù)的異常檢測(cè),受制于索引結(jié)構(gòu)的制約,效果將大打折扣,甚至是失去效果,由此無(wú)論是異常檢測(cè)算法還是聚類分析性能將不斷降低;除此之外,針對(duì)同樣的數(shù)據(jù)點(diǎn)距離,使得分類聚類概念意義不斷消失,針對(duì)高??臻g數(shù)據(jù)具備的稀疏性,任何數(shù)據(jù)點(diǎn)都能夠視為異常點(diǎn),此時(shí)針對(duì)高維數(shù)據(jù)異常檢測(cè)將變得困難重重。
2.4 高維數(shù)據(jù)挖掘的研究方向
(1)距離函數(shù)或相似性度量函數(shù):無(wú)論是重新定義距離函數(shù),還是重新定義相似性度量函數(shù),都能夠成功避免“維度災(zāi)難”的制約。
(2)選維和降維:在不斷降低高維數(shù)據(jù)維度的基礎(chǔ)上,使得其成功形成低維數(shù)據(jù),由此進(jìn)行低維數(shù)據(jù)的數(shù)據(jù)挖掘。同時(shí)該方法最為人們所接受。
(3)高效的聚類算法和異常檢測(cè)算法:為成功解決算法效率不高的難題,存在三個(gè)方面的措施:第一,設(shè)計(jì)性能更好的索引結(jié)構(gòu);第二,增量算法;第三,并行算法。
3 大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)
3.1 大數(shù)據(jù)儲(chǔ)存的三維矩陣模型
針對(duì)不一樣來(lái)源的數(shù)據(jù),往往可以選取不一樣的數(shù)據(jù)處理方式。比如說(shuō),通常情況下,在分解數(shù)據(jù)種類的基礎(chǔ)上,能夠?qū)⒄{(diào)研數(shù)據(jù)分為三類:第一,單選;第二,多選;第三,排序。無(wú)論是傳統(tǒng)數(shù)據(jù)記錄,還是傳統(tǒng)數(shù)據(jù)分析過程中,都是立足于同樣數(shù)據(jù)庫(kù)開展的,由此增加維度的不一樣,無(wú)論是數(shù)據(jù)分析,還是數(shù)據(jù)處理,都將受到制約。
所以說(shuō),針對(duì)大數(shù)據(jù)時(shí)代,數(shù)據(jù)模型的創(chuàng)建除了需要具有內(nèi)容多的特征,還需要存在極強(qiáng)的通用性。同樣以上文例子為例,在數(shù)據(jù)調(diào)研過程中,無(wú)論是單選,還是多選,都能夠依據(jù)向量來(lái)有效表達(dá),對(duì)應(yīng)的題目排序可以利用矩陣來(lái)表現(xiàn),在社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)上進(jìn)行,并且結(jié)合關(guān)鍵性類別來(lái)實(shí)際代表選題方式,最后模型轉(zhuǎn)換則是建立在三維矩陣和傳統(tǒng)數(shù)據(jù)庫(kù)基礎(chǔ)之上的(如圖1),處理關(guān)鍵數(shù)據(jù),由此不一樣的空間形式將存在空間維度之上,此時(shí)三維矩陣將有全部數(shù)據(jù)來(lái)源構(gòu)成,進(jìn)行有效組合之后,形成立體式模型,如圖2。
3.2 關(guān)聯(lián)規(guī)則的三維矩陣挖掘
實(shí)際進(jìn)行大數(shù)據(jù)挖掘過程中,關(guān)聯(lián)規(guī)則挖掘是最受人們青睞的。無(wú)論是不一樣的屬性,還是項(xiàng)目關(guān)系,都是沒有辦法隱藏,同時(shí)也是沒有辦法預(yù)知的,只有在統(tǒng)計(jì)方法和數(shù)據(jù)庫(kù)的基礎(chǔ)上加以實(shí)現(xiàn)?,F(xiàn)階段,關(guān)聯(lián)規(guī)則挖掘技術(shù)憑借其良好的性能,成為了使用廣泛的技術(shù)之一,在關(guān)聯(lián)規(guī)則挖掘過程中存在以下核心要素:
(1)置信度:主要用于度量衡量強(qiáng)度以及準(zhǔn)確性;
(2)支持度:主要用于衡量度量重要性。
在日常生活和工作中,在關(guān)聯(lián)規(guī)則挖掘過程中,只有上訴核心因素?cái)?shù)值最小的時(shí)候,支持度同樣也對(duì)應(yīng)最小值,由此才得以成功處于關(guān)聯(lián)規(guī)則內(nèi)。假如需要使得關(guān)聯(lián)規(guī)則可靠性最低,此時(shí)置信度需要確保為最低。
想要使得多維數(shù)據(jù)成功在空間中表現(xiàn),立足于空間特種,能夠在多維儲(chǔ)存模型的基礎(chǔ)上成功表現(xiàn),由此無(wú)論是數(shù)據(jù)層次還是數(shù)據(jù)語(yǔ)言,都能夠有效表達(dá)。比如說(shuō):在檢測(cè)海洋數(shù)據(jù)過程中,氣象環(huán)境除了風(fēng)力之外,還有降水等等;海底環(huán)境處理重力之外,還有水深等等;水體環(huán)境除了有水溫計(jì)鹽度之外,還有潮流和水聲,因素眾多且相互交織,由此多維數(shù)據(jù)得以形成。在模型建立的基礎(chǔ)上,使得多維數(shù)據(jù)能夠在空間成功表達(dá),使得海洋多樣化的數(shù)據(jù)結(jié)構(gòu)得以呈現(xiàn)。
3.3 基于超圖的聚類算法
在原始數(shù)據(jù)相互關(guān)系的基礎(chǔ)上,結(jié)合超圖數(shù)據(jù)集,使得圖形劃分方法不斷得到優(yōu)化,此為超圖聚類算法。在三維矩陣之中,利用分割算法進(jìn)行圖像劃分,使用最為廣泛的即為HMETIS算法,存在如下步驟:
(1)首先是粗化階段,在最小超圖的基礎(chǔ)上,結(jié)合推進(jìn)超圖,進(jìn)行不斷壓縮。
(2)其次是初始劃分階段,在二次劃分超圖的基礎(chǔ)上,利用二次方法,來(lái)不斷強(qiáng)化超圖質(zhì)量,使得工作效率有效提升。
(3)最后遷移優(yōu)化階段,分解超圖之后,在投影基礎(chǔ)上,使得分解質(zhì)量不斷提升。
3.4 高維數(shù)據(jù)挖掘的工具
現(xiàn)階段,存在三種使用廣泛的高維數(shù)據(jù)挖掘工具:第一,SPSS;第二,Exterprise Miner;第三,SAS。存在如下特征:
(1)SAS:是建立在統(tǒng)計(jì)理論之上的,存在諸多功能,高維數(shù)據(jù)挖掘功能相對(duì)齊全,但是需要專業(yè)人士進(jìn)行操作,并且存在極高的運(yùn)用成本。
(2)Exterprise Miner:具有操作簡(jiǎn)便的優(yōu)勢(shì),高維數(shù)據(jù)的處理能力相對(duì)適中,但是不能進(jìn)行數(shù)據(jù)搜索。
(3)SPSS:和SAS具有類似功能,但是相對(duì)而言具有較高性價(jià)比,高維數(shù)據(jù)挖掘功能較為出眾,除此之外,立足于集成以及發(fā)布功能,工作人員能夠較好的掌握挖掘結(jié)果,并且理解挖掘結(jié)果。
本文來(lái)源:《企業(yè)科技與發(fā)展》:http://m.12-baidu.cn/w/kj/21223.html
欄目分類
- 1智能家居發(fā)展現(xiàn)狀及未來(lái)
- 2中國(guó)VR技術(shù)發(fā)展現(xiàn)狀、應(yīng)用前景與對(duì)策研究
- 3淺談霍爾效應(yīng)及其應(yīng)用
- 4收入確認(rèn)與計(jì)量的"五步法"模型實(shí)務(wù)探討
- 5趣味浮力探究實(shí)驗(yàn)
- 6智能溫度控制系統(tǒng)
- 7人工智能技術(shù)在傳播領(lǐng)域的應(yīng)用與展望
- 8基于OpenCV的車道線識(shí)別與跟蹤算法
- 9國(guó)內(nèi)外廢紙分類標(biāo)準(zhǔn)對(duì)比和分析
- 10共享汽車行業(yè)和諧發(fā)展的swot分析
- 高等師范院校中國(guó)古典舞課程體系的構(gòu)建與實(shí)施
- 美育視角下非遺舞蹈進(jìn)校園的價(jià)值探析 ——以棉北后溪英歌舞為例
- 談?dòng)變簣@舞蹈教學(xué)的意義和發(fā)展對(duì)策
- 新媒體背景下體育舞蹈短視頻傳播的現(xiàn)狀研究 ——以江西5所高校2019級(jí)體育舞蹈專業(yè)學(xué)生為例
- 論舞蹈教育心理學(xué)在舞蹈教育中的重要性
- 舞蹈在戲劇表演中的身體美學(xué)與情感表達(dá)研究
- 思政元素在舞蹈創(chuàng)作與表演中的滲透探索
- 從傳統(tǒng)邁向現(xiàn)代——中國(guó)紅色舞蹈的創(chuàng)作研究
- 朝鮮族舞蹈創(chuàng)作的發(fā)展研究 ——以《長(zhǎng)鼓舞》《殘春》《扇骨》為例
- 高校舞蹈形體課程教學(xué)創(chuàng)新研究
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來(lái)源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?