優(yōu)勝?gòu)倪x擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測(cè) 我要投稿 合法期刊查詢

面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)研究

作者:雷宇來(lái)源:《企業(yè)科技與發(fā)展》日期:2019-08-29人氣:2144

1  大數(shù)據(jù)的發(fā)展挑戰(zhàn)

1.1  在技術(shù)架構(gòu)形式上

現(xiàn)階段,數(shù)據(jù)庫(kù)正在全球化,立足于該發(fā)展模式,分布式模式需要得以創(chuàng)建,除了需要龐大機(jī)器之外,還需要有效處理龐大的數(shù)據(jù)信息。但是面對(duì)大數(shù)據(jù)時(shí)代,針對(duì)飛速激增的數(shù)據(jù)量,傳統(tǒng)數(shù)據(jù)分析已經(jīng)不能滿足需求,在以下3個(gè)方面得到體現(xiàn):

1.1.1  數(shù)據(jù)處理的時(shí)效性

面對(duì)大數(shù)據(jù)不斷推行,為了符合現(xiàn)階段數(shù)據(jù)處理實(shí)際需求,數(shù)據(jù)實(shí)現(xiàn)在線處理。在此基礎(chǔ)上,無(wú)論是數(shù)據(jù)處理選擇,還是數(shù)據(jù)處理模式,都不斷改變,處理具有實(shí)時(shí)性,除了能夠?qū)崿F(xiàn)流處理之外,批處理也成功實(shí)現(xiàn)。立足于大數(shù)據(jù)實(shí)時(shí)性處理,無(wú)論是業(yè)務(wù)需求,還是根據(jù)應(yīng)用,都逐步發(fā)生改變。

1.1.2  實(shí)現(xiàn)了動(dòng)態(tài)變化環(huán)境中的索引形式

在索引形式的基礎(chǔ)上,關(guān)系數(shù)據(jù)庫(kù)查詢速度將不斷提升,可是使用傳統(tǒng)數(shù)據(jù)管理模式,索引形式并不可以產(chǎn)生變化,在此基礎(chǔ)上,無(wú)論是更新效率,還是創(chuàng)建方式,都不斷形成。針對(duì)大數(shù)據(jù)信息的變化特點(diǎn),除了需要具備設(shè)計(jì)簡(jiǎn)潔的特點(diǎn),創(chuàng)建索引方式還需要具有高效的特點(diǎn),由此針對(duì)大數(shù)據(jù)變化,無(wú)論是數(shù)據(jù)信息的需求調(diào)整,還是數(shù)據(jù)信息的處理,都可以良好使用。所以說(shuō),針對(duì)大數(shù)據(jù)變化,全新的索引形式需要成功設(shè)計(jì),在此基礎(chǔ)上確保查詢工作順利實(shí)施。

1.1.3  先驗(yàn)知識(shí)的缺失

立足于傳統(tǒng)數(shù)據(jù)分析結(jié)構(gòu),在關(guān)系型保存模式基礎(chǔ)上,無(wú)論是出現(xiàn)先驗(yàn)知識(shí),還是隱藏內(nèi)部關(guān)系,都早已出現(xiàn)。比如說(shuō),對(duì)信息屬性進(jìn)行分析過程中,可能存在的取值范圍需要確定,并且在實(shí)際分析之前,數(shù)據(jù)的了解就已經(jīng)形成。針對(duì)大數(shù)據(jù)分析,無(wú)論是非結(jié)構(gòu)化數(shù)據(jù),還是半結(jié)構(gòu)化數(shù)據(jù),都需要?jiǎng)?chuàng)建類似數(shù)據(jù),并且正式關(guān)系式需要實(shí)現(xiàn)。但是數(shù)據(jù)流的產(chǎn)生是不間斷進(jìn)行的,所以說(shuō)針對(duì)實(shí)時(shí)發(fā)生的數(shù)據(jù),先驗(yàn)知識(shí)并不會(huì)創(chuàng)建完善,在此情況下,對(duì)無(wú)先驗(yàn)知識(shí),需要及時(shí)發(fā)現(xiàn)并及時(shí)處置。

2  高維數(shù)據(jù)挖掘中的問題

2.1  高維數(shù)據(jù)簡(jiǎn)介

在大數(shù)據(jù)庫(kù)飛速增加的基礎(chǔ)上,維數(shù)同樣在急劇擴(kuò)大,一旦增長(zhǎng)到瓶頸出,數(shù)據(jù)處理將難以進(jìn)行,人們將該數(shù)據(jù)就叫做高維數(shù)據(jù)。相對(duì)于傳統(tǒng)數(shù)據(jù)挖掘而言,除了具有復(fù)雜性的特點(diǎn)之外,高維數(shù)據(jù)還具有多信息量性,由此成為數(shù)據(jù)挖掘的核心所在。

2.2  高維數(shù)據(jù)的特點(diǎn)

(1)稀疏性:實(shí)質(zhì)就是數(shù)據(jù)庫(kù)相對(duì)龐大時(shí),即便高維數(shù)據(jù)非常多,但是能夠符合使用要求的,相對(duì)較少。

(2)維度災(zāi)難:挖掘高維數(shù)據(jù)的過程中,往往存在較多的屬性變化,在此情況下,索引結(jié)構(gòu)性能將不斷降低,特別是無(wú)論最近鄰,還是最遠(yuǎn)鄰,和查詢點(diǎn)的距離往往都一樣,由此最近鄰?fù)菦]有意義的,為此數(shù)據(jù)挖掘難度將急劇增加。

2.3  高維數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘產(chǎn)生的影響

結(jié)合大數(shù)據(jù)特征,實(shí)際挖掘數(shù)據(jù)過程中,使用最近鄰法,在龐大數(shù)據(jù)中查詢效率將急劇提升,最近鄰法往往依賴索引結(jié)構(gòu)進(jìn)行的,可是針對(duì)高維數(shù)據(jù)存在維度災(zāi)難的特點(diǎn),最近鄰查詢往往被索引結(jié)構(gòu)支持度將不斷降低,甚至是使得最近鄰查詢無(wú)法有效進(jìn)行。

無(wú)論是進(jìn)行高維數(shù)據(jù)的分類聚類分析,還是進(jìn)行高維數(shù)據(jù)的異常檢測(cè),受制于索引結(jié)構(gòu)的制約,效果將大打折扣,甚至是失去效果,由此無(wú)論是異常檢測(cè)算法還是聚類分析性能將不斷降低;除此之外,針對(duì)同樣的數(shù)據(jù)點(diǎn)距離,使得分類聚類概念意義不斷消失,針對(duì)高??臻g數(shù)據(jù)具備的稀疏性,任何數(shù)據(jù)點(diǎn)都能夠視為異常點(diǎn),此時(shí)針對(duì)高維數(shù)據(jù)異常檢測(cè)將變得困難重重。

2.4  高維數(shù)據(jù)挖掘的研究方向

(1)距離函數(shù)或相似性度量函數(shù):無(wú)論是重新定義距離函數(shù),還是重新定義相似性度量函數(shù),都能夠成功避免“維度災(zāi)難”的制約。

(2)選維和降維:在不斷降低高維數(shù)據(jù)維度的基礎(chǔ)上,使得其成功形成低維數(shù)據(jù),由此進(jìn)行低維數(shù)據(jù)的數(shù)據(jù)挖掘。同時(shí)該方法最為人們所接受。

(3)高效的聚類算法和異常檢測(cè)算法:為成功解決算法效率不高的難題,存在三個(gè)方面的措施:第一,設(shè)計(jì)性能更好的索引結(jié)構(gòu);第二,增量算法;第三,并行算法。

3  大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)

3.1  大數(shù)據(jù)儲(chǔ)存的三維矩陣模型

針對(duì)不一樣來(lái)源的數(shù)據(jù),往往可以選取不一樣的數(shù)據(jù)處理方式。比如說(shuō),通常情況下,在分解數(shù)據(jù)種類的基礎(chǔ)上,能夠?qū)⒄{(diào)研數(shù)據(jù)分為三類:第一,單選;第二,多選;第三,排序。無(wú)論是傳統(tǒng)數(shù)據(jù)記錄,還是傳統(tǒng)數(shù)據(jù)分析過程中,都是立足于同樣數(shù)據(jù)庫(kù)開展的,由此增加維度的不一樣,無(wú)論是數(shù)據(jù)分析,還是數(shù)據(jù)處理,都將受到制約。

所以說(shuō),針對(duì)大數(shù)據(jù)時(shí)代,數(shù)據(jù)模型的創(chuàng)建除了需要具有內(nèi)容多的特征,還需要存在極強(qiáng)的通用性。同樣以上文例子為例,在數(shù)據(jù)調(diào)研過程中,無(wú)論是單選,還是多選,都能夠依據(jù)向量來(lái)有效表達(dá),對(duì)應(yīng)的題目排序可以利用矩陣來(lái)表現(xiàn),在社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)上進(jìn)行,并且結(jié)合關(guān)鍵性類別來(lái)實(shí)際代表選題方式,最后模型轉(zhuǎn)換則是建立在三維矩陣和傳統(tǒng)數(shù)據(jù)庫(kù)基礎(chǔ)之上的(如圖1),處理關(guān)鍵數(shù)據(jù),由此不一樣的空間形式將存在空間維度之上,此時(shí)三維矩陣將有全部數(shù)據(jù)來(lái)源構(gòu)成,進(jìn)行有效組合之后,形成立體式模型,如圖2。

3.2  關(guān)聯(lián)規(guī)則的三維矩陣挖掘

實(shí)際進(jìn)行大數(shù)據(jù)挖掘過程中,關(guān)聯(lián)規(guī)則挖掘是最受人們青睞的。無(wú)論是不一樣的屬性,還是項(xiàng)目關(guān)系,都是沒有辦法隱藏,同時(shí)也是沒有辦法預(yù)知的,只有在統(tǒng)計(jì)方法和數(shù)據(jù)庫(kù)的基礎(chǔ)上加以實(shí)現(xiàn)?,F(xiàn)階段,關(guān)聯(lián)規(guī)則挖掘技術(shù)憑借其良好的性能,成為了使用廣泛的技術(shù)之一,在關(guān)聯(lián)規(guī)則挖掘過程中存在以下核心要素:

(1)置信度:主要用于度量衡量強(qiáng)度以及準(zhǔn)確性;

(2)支持度:主要用于衡量度量重要性。

在日常生活和工作中,在關(guān)聯(lián)規(guī)則挖掘過程中,只有上訴核心因素?cái)?shù)值最小的時(shí)候,支持度同樣也對(duì)應(yīng)最小值,由此才得以成功處于關(guān)聯(lián)規(guī)則內(nèi)。假如需要使得關(guān)聯(lián)規(guī)則可靠性最低,此時(shí)置信度需要確保為最低。

想要使得多維數(shù)據(jù)成功在空間中表現(xiàn),立足于空間特種,能夠在多維儲(chǔ)存模型的基礎(chǔ)上成功表現(xiàn),由此無(wú)論是數(shù)據(jù)層次還是數(shù)據(jù)語(yǔ)言,都能夠有效表達(dá)。比如說(shuō):在檢測(cè)海洋數(shù)據(jù)過程中,氣象環(huán)境除了風(fēng)力之外,還有降水等等;海底環(huán)境處理重力之外,還有水深等等;水體環(huán)境除了有水溫計(jì)鹽度之外,還有潮流和水聲,因素眾多且相互交織,由此多維數(shù)據(jù)得以形成。在模型建立的基礎(chǔ)上,使得多維數(shù)據(jù)能夠在空間成功表達(dá),使得海洋多樣化的數(shù)據(jù)結(jié)構(gòu)得以呈現(xiàn)。

3.3  基于超圖的聚類算法

在原始數(shù)據(jù)相互關(guān)系的基礎(chǔ)上,結(jié)合超圖數(shù)據(jù)集,使得圖形劃分方法不斷得到優(yōu)化,此為超圖聚類算法。在三維矩陣之中,利用分割算法進(jìn)行圖像劃分,使用最為廣泛的即為HMETIS算法,存在如下步驟:

(1)首先是粗化階段,在最小超圖的基礎(chǔ)上,結(jié)合推進(jìn)超圖,進(jìn)行不斷壓縮。

(2)其次是初始劃分階段,在二次劃分超圖的基礎(chǔ)上,利用二次方法,來(lái)不斷強(qiáng)化超圖質(zhì)量,使得工作效率有效提升。

(3)最后遷移優(yōu)化階段,分解超圖之后,在投影基礎(chǔ)上,使得分解質(zhì)量不斷提升。

3.4  高維數(shù)據(jù)挖掘的工具

現(xiàn)階段,存在三種使用廣泛的高維數(shù)據(jù)挖掘工具:第一,SPSS;第二,Exterprise Miner;第三,SAS。存在如下特征:

(1)SAS:是建立在統(tǒng)計(jì)理論之上的,存在諸多功能,高維數(shù)據(jù)挖掘功能相對(duì)齊全,但是需要專業(yè)人士進(jìn)行操作,并且存在極高的運(yùn)用成本。

(2)Exterprise Miner:具有操作簡(jiǎn)便的優(yōu)勢(shì),高維數(shù)據(jù)的處理能力相對(duì)適中,但是不能進(jìn)行數(shù)據(jù)搜索。

(3)SPSS:和SAS具有類似功能,但是相對(duì)而言具有較高性價(jià)比,高維數(shù)據(jù)挖掘功能較為出眾,除此之外,立足于集成以及發(fā)布功能,工作人員能夠較好的掌握挖掘結(jié)果,并且理解挖掘結(jié)果。


本文來(lái)源:《企業(yè)科技與發(fā)展》:http://m.12-baidu.cn/w/kj/21223.html

網(wǎng)絡(luò)客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號(hào)中州期刊聯(lián)盟 ICP備案號(hào):豫ICP備2020036848

【免責(zé)聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權(quán)、違規(guī),請(qǐng)及時(shí)告知。

版權(quán)所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關(guān)注”中州期刊聯(lián)盟”公眾號(hào)
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院?jiǎn)挝话l(fā)核心?

掃描關(guān)注公眾號(hào)

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言