新聞資訊

                              掌握前沿資訊,洞悉市場趨勢

                              從管、存、算、規、治看數據資產管理

                              日期:2022-09-20 分享:

                              微信掃一掃:分享

                              使用微信掃一掃

                              1.數據之“管”
                              數據之“管”指狹義的數據管理,是對不同類別的數據采取不同的數據管理模式。這里我們把數據分為四個層次:元數據、主數據、參考數據、一般數據(交易數據)。通過數據之“管”,來確保數據來源的可靠性、數據內容的準確性、數據安全性及數據粒度的精細性。
                              不同的數據,根據其特性在數據量、更新頻率、數據質量和生命周期上有不同的特點。從數據的作用及管理的方式上來講,我們把數據分為四個層次:元數據、主數據、參考數據、一般數據(交易數據)。這里提到的數據之“管”,即指管理好這四個層次數據。
                              元數據(Metadata):通俗地說就是描述數據的數據,比如數據的名稱、屬性、分類、字段信息、大小、標簽等等。要做好數據的管理,元數據起到了舉足輕重的作用。
                              參考數據(Reference Data):是用于將其他數據進行分類或目錄整編的數據,它定義了數據可能的取值范圍,可以理解為屬性值域,也就是數據字典。參考數據一方面有助于在TP(業務處理)側提升業務流程的準確性,另一方面在AP(數據分析)側規范數據的準確性,為多系統綜合分析提供有利的保障。
                              主數據(Master Data):指具有高業務價值的,關于關鍵業務實體的權威的、最準確的數據,被稱為“黃金”數據。通常用于建立與交易數據的關聯關系來進行多維度的分析。
                              一般數據:也就是交易數據。相對來說,我們可以認為元數據、參考數據、主數據為靜態數據,而一般數據則是動態數據。它一般隨著業務的發生而變化,比如資金交易流水。
                              2.數據之“存”
                              數據之“存”指數據存儲,指通過技術手段將數據存儲起來。涉及三個關鍵詞是“數據湖”、“數據倉庫”和“數據集市”。數據的有效性、及時性、相關性、一致性、安全性、準確性,其來源的可靠性、粒度的精細性,最終都會體現在“存”之上,具備上述條件的數據組合,幫助數據實現了其“豐富性”。
                              如果把數據比作是源源不斷的水,那么,數據湖可以比作湖泊,數據倉庫可以比作水庫,數據集便是超市。水在不斷的加工制造中,最后成為超市中的瓶裝水供人直接食用,就好比原始數據經過加工處理最終成為數據集市中直接可用于分析的數據。
                              數據湖、數據倉庫和數據集形成了數據存儲的三個層次,三者層層遞進,各自發揮著其不同的作用。數據湖為非結構化數據分析、機器學習、預測分析提供了豐富的數據土壤;數據倉庫通過規范化的管理,為企業、組織系統化的規范數據體系提供了支撐;數據集則將數據場景化,讓數據觸手可得,實現即席分析。
                              數據湖(Data Lake,DL),是指一個集中化存儲海量的、多個來源、多種類型數據,并可以對數據進行快速加工、分析的平臺。數據倉庫(Data Warehouse,簡稱DW或DWH),是為支持決策而產生的數據池,它是整個組織中的各級人員可能感興趣的、當前和歷史的所有類型數據的戰略集合。
                              數據集市(Data Mart,DM),是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,生成面向決策分析需求的數據集合。
                              3.數據之“算”
                              數據之“算”,指的是數據預處理之“算”。為了保證數據分析時數據可用、好用而對數據進行的加工。是指對數據的清洗和加工,包括簡單的清洗和處理,也包括通過智能手段如借助算法模型對數據的清洗和加工。
                              原始數據納入數據湖的管理,通常混雜著各種數據。要防止數據湖變為數據沼澤,就需要將數據碎片分門別類,將不可洞察的數據和無關數據歸類為數據噪聲,留下可洞察的數據和相關的數據,我們稱之為“信息元”。這類數據進一步通過數據加工形成整理后的數據,與可直接洞察的數據共同構成了可分析的數據。
                              4.數據之“規”
                              指數據規范,包括對數據規范的制定和數據管理上的規章制度。“規”是確保數據有效性、安全性的基石。
                              數據的規范,包括兩個層面。一方面針對數據本身,即數據標準;另一方面是數據管理上的規范和制度。我們可以通俗的理解為數據分析中的“法”。
                              數據標準
                              數據來源的多樣化帶來了數據的不一致性,多源系統數據整合的關鍵首先就是建立數據標準。數據標準的定義應遵循一定的原則,包括唯一性、統一性、通用性、穩定性、前瞻性、可行性“六大特性”和系列化、模塊化“兩化原則”。
                              數據規范
                              數據標準的執行,需要依賴制度的規范。無體系、無制度的管理無異于一般散沙。數據規范可以大致分為數據基礎規范、數據安全規范、數據質量規范三大類。 5.數據之“治” 數據之“治”指狹義的數據治理,實質上指數據治理相關的一套方法及體系,包括了實踐數據之“規”來確保數據質量的過程和方法。它不僅是技術上的治理工作,更是以有效滿足組織各層級管理訴求的有效手段,它應該是包括數據、應用、技術和組織的四位一體均衡的治理體系。數據治理,最重要的目標就是保證數據質量,即數據的一致性及準確性。


                              返回列表
                              http://www.sdjsmuye.com/news_detail.php?menuid=13&id=37

                                
                                

                                                          一二三四视频日本高清三