基于熱擴散核密度確定密度峰值法的歷史工況識別
引 言
近年來,隨著物聯(lián)網、大數(shù)據和人工智能等技術的興起,數(shù)據驅動的方法在工業(yè)智能化的進程中扮演著重要角色。在實際生產過程中,原料性質、生產方案或操作條件等因素的變動將導致生產過程的多模態(tài)化[1],如發(fā)酵過程[2]、冶金過程和鍋爐燃燒過程等,對其過程進行數(shù)字化時往往存在著非線性、多模態(tài)和變量間的強相關性等問題[3-4]。因此,深入研究多模態(tài)過程的特點對實際生產有著重要作用。通過獲取歷史工況特征,不僅可以為當前裝置選擇合適的工況模型及參數(shù)進行優(yōu)化,也能為生產決策提供重要的數(shù)據參考,如污水處理裝置的智能優(yōu)化、管道泄漏的自動化檢測和生產運行狀況的有效評估[5-6]等。
在對多模態(tài)過程的研究中,由于不同工況間存在著較大的差異,研究者通常假設每種工況下的過程數(shù)據近似服從一種高斯分布,運用主成分分析(PCA)、偏最小二乘(PLS)、獨立成分分析(ICA)和支持向量數(shù)據描述(SVDD)模型等方法提取工況數(shù)據的特征,然后建立模型應用于過程故障檢測、過程控制和過程優(yōu)化等[7-10]。由于每種工況下的數(shù)據具有相似性,有學者將數(shù)據聚類的方法用于多模態(tài)過程的特征提取[11]。常用的聚類方法包括模糊C均值法[12]、K-均值法[13]、高斯混合模型(GMM)[14-15]和隱馬爾可夫模型(HMM)[16]等,這些方法在獲取數(shù)據特征時具有一定的有效性,但仍存在一些無法避免的缺陷。如K-均值法需要事先確定聚類數(shù)量,對數(shù)據中的噪聲點敏感;模糊C均值法存在聚類數(shù)量和參數(shù)選取的問題;HMM模型需要事先知道各種模態(tài)的概率且固定不變;GMM模型在使用期望最大法求解時,存在計算量較大、對模型參數(shù)的初值敏感和容易陷入局部極值等問題,這些缺點都將導致無法準確地識別工況[17-18]。有學者對GMM模型進行深入研究,提出了給定模型參數(shù)初值[19]和基于信息準則確定聚類數(shù)量[20]的方法,其中F-J的方法較為著名[21-22],它通過在迭代計算中不斷剔除冗余的高斯分量得出聚類結果,但是該方法需要一個較大的聚類數(shù)量導致計算量大且收斂困難,其結果的準確性也不能保證。
快速搜索發(fā)現(xiàn)密度峰[23](CFSFDP)是基于局部密度的一種聚類技術,它根據聚類中心點密度較大且與其他中心點距離較遠的特點,引入高斯核密度估計函數(shù)(KDE)計算數(shù)據點的密度,再通過歐氏距離計算數(shù)據點間的距離,從而完成數(shù)據聚類。但是該方法的聚類效果取決于截距參數(shù),為避免這一點,有學者對其進行改進并提出了無須事先確定截距參數(shù)的熱擴散核密度確定密度峰的技術[24](CFSFDP-HD)。本文提出將CFSFDP-HD技術與GMM模型結合的方法,首先通過CFSFDP-HD方法對多模態(tài)過程數(shù)據進行聚類,然后將聚類結果作為GMM模型的初值,從而對多模態(tài)過程的工況進行較準確的估計。
1 工況識別方法
1.1 高斯混合模型
過程數(shù)據 X n×d 是d維的n個樣本數(shù)據,且
其中,k為高斯模型的數(shù)量,τi 和
第i個高斯模型對應的高斯密度函數(shù)為:
模型的參數(shù)θi 常用EM法[25]求解,通過不斷地更新后驗概率和模型參數(shù),直到模型參數(shù)幾乎不變。針對數(shù)據
E步驟:
M步驟:
其中,
基于最短信息長度準則的F-J方法只需對
其中,
1.2 熱擴散核密度確定密度峰技術
基于熱擴散的高斯核函數(shù)為:
估算任意樣本點i的概率密度函數(shù)為:
最佳帶寬的選擇使用了改進的Sheather–Jones(ISJ)方法[26],其計算步驟如下:
其中,當l ≥ 5時,l的取值對
帶寬t的詳細求解步驟如下:
(1)設置一個較小的容差ε = 10-9,令yq=ε,q = 0;
(2)計算
(3)如果
計算每一樣本點i到最近的高密度點j的距離:
1.3 提出方法的計算步驟
本文提出的方法對近似服從高斯分布的未知多模態(tài)穩(wěn)態(tài)工況進行識別時,首先利用CFSFDP-HD技術對多模態(tài)過程數(shù)據進行聚類,確定聚類中心點及其個數(shù)(即工況個數(shù)),然后將每一類數(shù)據的平均值和協(xié)方差作為GMM模型的初值,迭代求出不同工況的特征參數(shù)。其計算過程如下:
(1)將數(shù)據標準化處理,求取參數(shù)αk;
(2)由參數(shù)αk 和式(11)~
(3)由
(4)將每一類的特征參數(shù)作為GMM模型初值,求出最終工況參數(shù)。
通過以上步驟即可完成對歷史工況的準確識別,下面通過第2節(jié)中的兩個例子對該方法進行驗證。
圖1
圖1 基于熱擴散核密度的工況識別方法流程圖
Fig.1 Flow chart of recognizing operating modes based on kernel density estimation of heat diffusion
2 方法驗證與結果分析
2.1 仿真數(shù)據
根據文獻[27]中的多模態(tài)仿真模型生成過程數(shù)據,然后分別用本文提出的方法、K-均值法和GMM(F-J)的方法進行工況識別,數(shù)據生成模型如
其中,e1~e3是服從[0,0.01]的高斯白噪聲分布,通過調整s1和s2的參數(shù),生成含3個變量(x1、x2和x3)的多模態(tài)過程數(shù)據。其中模態(tài)1是變量s1和s2分別服從高斯分布為[20,0.8]、[1,1.3]得到的300個數(shù)據;模態(tài)2是變量s1和s2分別服從高斯分布[5,0.6]、[20,0.7]得到的300個數(shù)據;模態(tài)3是變量s1和s2分別服從高斯分布[16,1.5]、[20,0.7]得到的300個數(shù)據;模態(tài)4是和模態(tài)2在相同參數(shù)(工況)下產生的300個數(shù)據,用于檢驗三種方法能否準確地獲取實際的工況狀態(tài)。
將生成數(shù)據用
圖2
圖2 仿真多模態(tài)過程數(shù)據標準化
Fig.2 Normalization of multi-modal process simulation data
圖3
圖3 仿真多模態(tài)過程數(shù)據的聚類中心決策圖
Fig.3 Clustering center decision diagram of process data for simulating multiple operating modes
表1 仿真多模態(tài)過程的工況識別結果
Table 1
項目 | 工況個數(shù) | 每種工況的先驗概率 | 每種工況下變量x1, x2, x3的平均值 | 相對偏差 |
---|---|---|---|---|
實際值 | 3 | 0.25 | 11.777,296.288,12.410 | — |
0.25 | 20.467,192.899,354.307 | — | ||
0.5 | 10.351,19.900,152.718 | — | ||
本文方法 | 3 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.5 | 10.351,19.900,152.718 | 0,0,0 | ||
K-均值法 (K = 3) | 3 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.5 | 10.351,19.900,152.718 | 0,0,0 | ||
K-均值法 (K = 4) | 4 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.136 | 21.4211,209.428,388.063 | 4.66,8.57,9.53 | ||
0.114 | 19.3326,173.233,314.144 | 5.54,10.2,11.34 | ||
0.5 | 10.3508,19.900,152.718 | 0,0,0 | ||
GMM(F-J)法 (K = 4) | 4 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.203 | 10.0372,15.8427,152.52 | -2.84,-19.7,0.01 | ||
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.297 | 10.5662,22.6857,152.853 | 1.88,13.03,-0.05 | ||
GMM(F-J)法 (K = 5) | 4 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.203 | 10.0372,15.8426,152.52 | -3.03,-20.39,-0.13 | ||
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.297 | 10.5662,22.6857,152.853 | 2.08,14,0.09 |
2.2 TE過程
Tennessee Eastman(TE)工業(yè)過程是由美國Eastman化學品公司開發(fā)的復雜工業(yè)過程的仿真平臺,它包括六種工作模態(tài),每種模態(tài)具有不同的產品比例(G/H),該流程包含12個操作變量、22個連續(xù)過程測量變量和19個組成測量變量[28-30]。本文選取TE過程中模態(tài)1~模態(tài)4作為多模態(tài)過程,選取41個測量變量作為工況識別的變量,其中每種模態(tài)取300個數(shù)據為1組,第5組和第3組為相同模態(tài)下的數(shù)據,具體模態(tài)選取情況見表2。
表2 TE過程的模態(tài)選取情況
Table 2
項目 | 模態(tài) | G/H比例 | 產品生產率 |
---|---|---|---|
第1組 | 1 | 50/50 | 7038 kg/h G和7038 kg/h H |
第2組 | 2 | 10/90 | 1048 kg/h G和12669 kg/h H |
第3組 | 3 | 90/10 | 10000 kg/h G 和1111 kg/h H |
第4組 | 4 | 50/50 | 最大生產率 |
第5組 | 3 | 90/10 | 10000 kg/h G 和1111 kg/h H |
將過程數(shù)據用
圖4
圖4 4個TE過程變量的標準化
Fig.4 Normalization of 4 TE process variables
圖5
圖5 TE多模態(tài)過程數(shù)據的聚類中心決策圖
Fig.5 Clustering center decision diagram of TE multi-modal process
表3 TE多模態(tài)過程的工況個數(shù)及先驗概率的識別結果
Table 3
項目 | 實際值 | 本文方法 | K-均值法(K = 4) | K-均值法(K = 5) | K-均值法(K = 6) | GMM(F-J)法(K ≥ 4) |
---|---|---|---|---|---|---|
工況個數(shù) | 4 | 4 | 4 | 5 | 6 | 無法得到參數(shù) |
每種工況的先驗概率 | 0.2 | 0.2 | 0.2 | 0.2 | 0.06 | 無法得到參數(shù) |
0.2 | 0.2 | 0.2 | 0.2 | 0.08 | ||
0.4 | 0.4 | 0.4 | 0.106 | 0.06 | ||
0.2 | 0.2 | 0.2 | 0.094 | 0.2 | ||
0.4 | 0.4 | |||||
0.2 |
表4 TE多模態(tài)過程變量的識別結果
Table 4
變量 | 本文方法 | K-均值法(K = 4) | ||||
---|---|---|---|---|---|---|
平均相對偏差 | 最大相對偏差 | 最小相對偏差 | 平均相對偏差 | 最大相對偏差 | 最小相對偏差 | |
D物料流量 | -0.081 | -0.4104 | -0.0225 | -0.0814 | -0.412 | -0.0225 |
回收流量 | 0.0912 | 0.2786 | 0.0062 | 0.0909 | 0.2778 | 0.0062 |
放空率 | -1.3681 | -4.748 | -0.9476 | -1.4371 | -4.9847 | -0.9567 |
反應器進料量 | 0.0645 | 0.1505 | 0.0357 | 0.0644 | 0.1503 | 0.0357 |
產品分離器壓力 | -0.0043 | -0.0148 | -0.0014 | -0.0043 | -0.0148 | -0.0014 |
汽提塔溫度 | 0.0189 | 0.2343 | 0.0613 | 0.0186 | 0.2337 | 0.0613 |
壓縮機工作功率 | 0.1075 | 0.3217 | 0.0441 | 0.1071 | 0.3207 | 0.0441 |
反應器組分B流量 | -0.1046 | -0.4776 | -0.1074 | -0.1054 | -0.4799 | -0.1075 |
放空氣體中G組分流量 | -0.0142 | -0.9356 | 0.1306 | -0.0173 | -0.9444 | 0.1305 |
產品中組分H流量 | -0.0424 | 0.4618 | 0.1825 | -0.0438 | 0.4597 | 0.1821 |
從表3可以看出本文方法得到的歷史工況的個數(shù)和先驗概率與實際值一致;K-均值法的結果則取決于設定的聚類數(shù)量K,當K與實際一致(K = 4)時也可以較準確獲取歷史工況的個數(shù)及先驗概率,但是當K = 5和K = 6時,其結果與實際相差較大。GMM(F-J)法則無法獲取到工況的參數(shù)。
三種方法過程變量的識別結果見表4,可以看出本文提出的方法識別結果的平均相對偏差在 -0.0043~-1.3681,最大相對偏差為-4.748,最小相對偏差為-0.0014;K-均值法識別結果的平均相對偏差在-0.0043~-1.4371,最大相對偏差為-4.9847,最小相對偏差為-0.0014。結合表3、表4可以看出GMM(F-J)法不適合本案例的工況識別,本文方法和給定準確聚類數(shù)量的K-均值法都可以較準確地識別出工況特征,但K-均值法的準確性依賴于聚類數(shù)量的選擇,而本文方法則沒有這種約束。
3 結 論
針對目前工況識別方法的不足,提出將人工智能領域的CFSFDP-HD技術與GMM模型結合用于對多模態(tài)過程的歷史工況進行識別的方法,避免了K-均值法需要預先提供準確聚類數(shù)量的缺點,并利用案例對本文所提方法進行了驗證,結果表明:GMM(F-J)法不能保證準確地識別工況,K-均值法只有在給定正確工況數(shù)量的前提下才能獲得較好的結果,而本文方法則可方便、有效地對歷史多工況進行準確識別,具有更強的實用性。
符 號 說 明
過程變量的個數(shù) | |
g(x | θi ) | 第i個高斯模型所對應的高斯密度函數(shù) |
聚類的數(shù)量,也是高斯模型的數(shù)量 | |
第k個高斯模型,也表示第k個數(shù)據 | |
P(s)(Ck|xj ) | 第j個樣本點第s次迭代屬于第k個高斯模型的概率 |
P(di,dj,t) | 樣本點i到j的轉移概率 |
p(x|θ) | 概率密度函數(shù) |
高斯核密度估計函數(shù)的帶寬 | |
樣本數(shù)據矩陣,n為樣本數(shù),d為變量數(shù) | |
變量i的第j個樣本數(shù)據 | |
變量i的最大樣本數(shù)據 | |
變量i的最小樣本數(shù)據 | |
樣本點到附近高密度點的距離 | |
第i個高斯模型的參數(shù) | |
第i個高斯分量的變量平均值 | |
樣本點的密度 | |
第i個高斯分量的方差 | |
第i個高斯分量的權重 |
- 官方認定!CSSCI南大核心首批191家“青年學者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據?還有哪些機構認可黨報?