工業數據分析的本質

最近的一點思考,記下來備忘。

工業數據分析過程的本質或許可以表述爲:通過發現相關關係,確認因果關係;在可能的情況下確定函數關係。

1、因果關係本質上都是通過相關關係來確認的。這是個哲學層面的觀點。

2、從事工業大數據分析時,常規的統計分析假設一般不成立。不成立的原因,往往可以歸結爲干擾。分析問題的過程,本質上是與識別和去除干擾的過程。

3、分析過程的困難,本質上往往可以歸結爲數據缺失等各種原因導致的數據質量問題。所以,解決數據分析困難的根本做法是提高數據質量。

4、相關關係未必容易發現。具有因果關係的變量之間,相關係數可能很小甚至接近0。相關關係往往體現爲間接關係。

5、有因果關係而相關關係小,往往可以歸結爲非線性關係或干擾。所以,發現相關關係本質就是識別非線性和干擾。

6、相關關係強,並不意味着有因果關係。從相關中確認因果,關鍵是識別干擾導致的假象。

7、數據質量不理想時,僅通過數據未必能夠發現相關或確定因果關係。

8、發現相關關係、確認因果關係,可能需要用到數據之外的知識;或者需要提供特殊的手段獲取新的數據。確認因果關係,往往需要多個角度的認證。包括採用數據分析之外的手段(如實驗驗證、機理分析)。換句話說,數據分析過程的手段不侷限於數據分析。

9、因果關係和相關關係分析,儘量以“最小顆粒度”概念爲基礎。也就是說,儘量把包含多個不同內涵的概念拆開。比如,分析導致故障原因時,“故障”可能有很多種。分析問題時應該按照可細分的故障進行分類。再如,N對強度有影響時,要把N分成固溶N、TIN兩種類型。

10、分析過程是不斷提出猜測和驗證的過程。專業知識的幫助包括:猜測可能的相關性;猜測確定因果性的路徑;給出“補足數據或證據”的建議。

11、如果跳過發現相關關係、確定因果關係直接建立函數,函數關係往往不穩定,在工業中個可能不實用。

12、函數關係的建立未必都是利用因果關係。也可能會利用相關關係穩定的相關關係。相關關係可以用來建立預測函數。但函數用於控制時,控制手段和控制目標之間,必須有因果關係。

13、長期看,數據分析的難易決定於數據條件。數據分析過程可以提示人們需要什麼樣的數據條件。

14、認識數據分析的本質,是爲了提高數據分析過程的效率、成功率和經濟性、減少分析過程的無效勞動。終極目標是促進智能分析、減少人類的參與。