首頁/ 汽車/ 正文

企業如何進行資料治理?分享資料治理4個方面的經驗總結

在業界,大家都在為如何做好資料治理而感到困惑。資料治理工作一定要先摸清楚資料的家底,規劃好路線圖,再進行決策。

本文從

資料治理的誤區、元資料管理、資料質量管理、資料標準管理

等4個方面整理出資料治理的一套經驗總結,給予資料治理相關工作的同仁們一些借鑑參考。

本文有14351個字,閱讀時長約為15分鐘。

01 資料治理有哪些誤區?

大資料時代,資料成為社會和組織的寶貴資產,像工業時代的石油和電力一樣驅動萬物,然而如果石油的雜質太多,電流的電壓不穩,資料的價值豈不是大打折扣,甚至根本不可用,不敢用,因此,資料治理是大資料時代我們用好海量資料的必然選擇。

但大家都知道,資料治理是一項長期而繁雜的工作,可以說是大資料領域中的髒活累活,很多時候資料治理廠商做了很多工作,但客戶卻認為沒有看到什麼成果。大部分資料治理諮詢專案都能交上一份讓客戶足夠滿意的答卷,但是當把諮詢成果落地到實處的時候,因為種種原因,很可能是另一番截然不同的風景。如何避免這種情況發生,是每一個做資料治理的企業都值得深思的問題。

可以說在業界,大家都在為如何做好資料治理而感到困惑。

筆者涉獵大資料治理領域有6年多的時間,負責過政府、軍工、航空、大中型製造企業的資料治理專案。在實踐當中有過成功的經驗,當然也經歷過很多失敗的教訓,在這些過程中,筆者一直在思考大資料治理究竟是在治理什麼?要達到什麼樣的合理目標?中間應該怎麼避免走一些彎路?下面是筆者曾經趟過的坑,希望對大家有一些借鑑意義。

誤區一:客戶需求不明確

客戶既然請廠商來幫助自己做資料治理,必定是看到了自己的資料存在種種問題。但是做什麼,怎麼做,做多大的範圍,先做什麼後做什麼,達到什麼樣的目標,業務部門、技術部門、廠商之間如何配合做……很多客戶其實並沒有想清楚自己真正想解決的問題。資料治理,難在找到一個切入點。

以筆者的經驗來看,如果客戶暫時想不清楚需求,建議先請廠商幫助自己做一個小型的諮詢專案,透過專業的團隊,大家一起找到切入點。這個諮詢專案工作的重點應該是資料現狀的調研。透過調研資料架構、現有的資料標準和執行情況,資料質量的現狀和痛點,客戶目前已經具有的資料治理能力現狀等,來摸清楚資料的家底。

在摸清家底的基礎上,由專業的資料治理團隊幫助客戶設計切實可行的資料治理路線圖,在雙方取得一致的基礎上,按照路線圖來執行資料治理工作。

其實客戶很多時候並不是沒需求,只是需求相對比較籠統,模糊不清晰,雙方可以花費一定的時間和精力找到真正目標,磨刀不誤砍柴工,這樣才不致於後續花更多的錢來交學費。

總結:資料治理工作,一定要先摸清楚資料的家底,規劃好路線圖,切忌一上來就搭平臺。

誤區二:資料治理是技術部門的事

在大資料時代,很多組織認識到了資料的價值,也成立了專門的團隊來負責管理資料,有的叫資料管理處,有的叫大資料中心,有的叫資料應用處,名稱不一而足。這些機構往往由技術人員組成,本身的定位也屬於技術部門,它們的共同點是:強技術,弱業務。當資料治理專案需要實施的時候,往往就是由這些技術部門來牽頭。技術部門大多是以資料中心或者大資料平臺為出發點,受限於組織範圍,不希望擴大到業務系統,只希望把自已負責的範圍管好。

資料問題產生的原因,往往是業務>技術

。可以說大部分的資料質量問題,都是來自於業務,如:資料來源渠道多,責任不明確,導致同一份資料在不同的資訊系統有不同的表述;業務需求不清晰,資料填報不規範或缺失,等等。很多表面上的技術問題,如ETL過程中某代號變更導致資料加工出錯,影響報表中的資料正確性等,在本質上其實還是業務管理的不規範。

筆者在與很多客戶做資料治理交流的時候,發現大部分客戶認識不到資料質量問題發生的根本原因,只想從技術維度單方面來解決資料問題,這樣的思維方式導致客戶在規劃資料治理的時候,根本沒有考慮到建立一個涵蓋技術組、業務組的強有力的組織架構,能有效執行的制度流程,導致效果大打折扣。

總結:資料治理既是技術部門的事,更是業務部門的事,一定要建立多方共同參與的組織架構和制度流程,資料治理的工作才能真正落實到人,不至於浮在表面。

誤區三:大而全的資料治理

出於投資回報的考慮,客戶往往傾向於做一個覆蓋全業務和技術域的,大而全的資料治理專案。從資料的產生,到資料的加工,應用,銷燬,資料的整個生命週期他們希望都能管到。從業務系統,到資料中心,到資料應用,裡面的每個資料他們希望都能被納入到資料治理的範圍中來。

但殊不知廣義上的

資料治理

是一個很大的概念,包括很多內容,想在一個專案裡就做完通常是不可能的,而是

需要分期分批地實施

,所以廠商如果屈從於客戶的這種想法,很容易導致最後哪個也做不好,用不起來。所以,我們需要引導客戶,從最核心的系統,最重要的資料開始做資料治理。

怎麼引導客戶呢?這裡要引入一個眾所周知的概念:二八原則。實際上,

二八原則在資料治理中同樣適用:80%的資料業務,其實是靠20%的資料在支撐;同樣的,80%的資料質量問題,其實是由那20%的系統和人產生的。

在資料治理的過程中,如果能找出這20%的資料,和這20%的系統和人,毫無疑問,將會起到事半功倍的效果。

但如何說服客戶,從最重要的資料開始做起呢?這就是我們在誤區一中談到的:在沒有摸清楚資料的家底之前,切忌貿然動手開始做。透過調研,分析,找出那20%的資料和20%的系統和人,提供真實可靠的分析報告,才有可能打動客戶,讓客戶接受先從核心系統,核心資料開始做起,再漸漸覆蓋到其他領域。

總結:做資料治理,不要貪大求全,而要從核心系統,重要的資料開始做起。

誤區四:工具是萬能的

很多客戶都認為,資料治理就是花一些錢,買一些工具,認為工具就是一個過濾器,過濾器做好了,資料從中間一過,就沒問題了。結果是:一方面功能越做越多,另一方面實際上上線後,功能複雜,使用者不願意用。

其實上面的想法是一種簡單化的思維,

資料治理本身包含很多的內容,組織架構、制度流程、成熟工具、現場實施和運維,這四項缺一不可,工具只是其中一部分內容。

大家在做資料治理最容易忽視的就是組織架構和人員配置,但實際上所有的活動流程、制度規範都需要人來執行、落實和推動,沒有對人員的安排,後續工作很難得到保障。

一方面治理推廣工作沒人做,流程能否堅持執行得不到保障。另一方面沒有相關的資料治理培訓,導致大家對資料治理的工作不重視,認為與我無關,從而導致整個資料治理專案註定會失敗。建議大家在做資料治理的時候將組織架構放在第一位,有組織的存在,就會有人去思考這方面的工作,怎麼去推動,持續把事情做好,以人為中心的資料治理工作,才更容易推廣落地。

有一位國外的資料治理專家說得好,Data Governance is governance of people; Data behaves what people behave。翻譯過來就是:資料治理是對人的行為的治理。對於組織而言,無論是企業還是政府,資料治理實質上是一項覆蓋全員的、有關資料的“變革管理”,會涉及到組織架構,管理流程的變革。

當然,這是一種理想的狀態。話說回來,我們看看國內的情況,在金融業和一些大的企業,可能會建立專門的組織來負責資料治理工作,但是某些政府和中小型企業,他們出於成本的考慮,往往沒有這方面的預算。這種時候就需要折衷考慮,讓已有崗位上的人,兼職負責資料治理的某個流程或功能。這樣會加大現有崗位人員的工作負擔,但是不失為一種折衷的方式,重點是要責任到人。

現場的實施和運維也非常重要,儘管資料治理有向自動化的方向發展的趨勢,但是

到目前為止,資料治理更多還是一種服務工作,而不僅僅是一套產品。

因此,配置足夠強的實施顧問和實施人員,幫助客戶逐步打造自身的資料治理能力,是一項非常重要的工作。

總結:記住,做資料治理不是去逛逛shopping mall,選幾樣得心應手的工具回來就萬事大吉了。開展好資料治理不能迷信工具,組織架構、制度流程、現場的實施和運維也非常重要,缺一不可。

誤區五:資料標準很難落地

很多客戶一說到資料治理,馬上就說我們有很多資料標準,但是這些標準卻統統沒有落地,因此,我們要先做資料標準的落地。資料標準真正落地了,資料質量自然就好了。

但這種說法其實混淆了資料標準和資料標準化。首先要明白一個道理:

資料標準是一定要做的,但是資料標準化,也就是資料標準的落地,則需要分情況實施。

要做資料標準,我們首先需要全面梳理資料標準。而資料標準的全面梳理,範圍很大,包括國家標準,行業標準,組織內部的標準等等,需要花費很大的精力,甚至都可以單獨立一個專案來做。所以,首先需要讓客戶看到梳理資料標準的廣度和難度。

其次,就算是花很大精力梳理,也很難看到效果,結果往往是客戶只看到了一堆Word和Excel文件,時間一長,誰也不會再去關心這些陳舊的文件。這是最普遍的問題。

在金融業,或者像國家安全等一些特殊行業,資料標準的執行力度較好,而在普通企業,資料標準基本上就是一種擺設。

造成這種問題的原因有兩個:

一是大家對資料標準工作的不重視。

二是國內的企業做資料標準,動機往往不是為了做好資料治理,而是應付上級檢查,很多都是請諮詢公司,借鑑同行業企業的標準本地化修改而成,一旦諮詢公司撤離,企業本身是沒有資料標準落地的能力的。

但資料標準的落地,也就是資料標準化,其實一定要注意分情況進行,至少要分兩種情形:

一類是已經上線執行的系統,對於這部分資訊系統,由於歷史原因,很難進行資料標準的落地。因為改造已有系統,除了成本以外,往往還會帶來不可估計的巨大風險。

第二類是對於新上線的系統,是完全可以要求其資料項嚴格按照資料標準落地的。

當然,資料標準是否能順利落地,還與負責資料治理的部門所獲得的許可權直接相關,倘若沒有領導的授權和強力支援,你是無論如何無法推動“書同文車同軌”的,要做到這一點,請先確認你背後站著說一不二的秦始皇,或者你本身就是秦始皇。別抱怨,這就是每個做資料治理的團隊面臨的現狀。

總結:資料標準落地難是資料治理中的普遍性問題,實施過程中需要分遺留系統和新建系統,分別來執行不同的落地策略。

誤區六:資料質量問題找出來了,然後呢?

辛辛苦苦建立起來的平臺,業務和技術人員通力合作,配置好了資料質量的檢核規則,也找出來了一大堆的資料質量問題,然後呢?半年之後,一年之後,同樣的資料質量問題依舊存在。

發生這種問題的根源在於沒有形成資料質量問責的閉環。要做到資料質量問題的問責,首先需要做到資料質量問題的定責。定責的基本原則是:誰生產,誰負責。資料是從誰那裡出來的,誰負責處理資料質量問題。

這種閉環不一定非要走線上流程,但是一定要做到每一個問題都有人負責,每一個問題都必須反饋處理方案,處理的效果最好是能夠形成績效評估,如透過排名的方式,來督促各責任人和責任部門處理資料質量問題。

企業如何進行資料治理?分享資料治理4個方面的經驗總結

這其實還是要追溯到我們在誤區二里談到的:要建立組織架構和制度流程,否則資料治理工作中的種種事情,沒有人負責,沒有人去做。

總結:資料質量問題的解決,要形成每一個環節都有確定責任人的閉環機制和反饋機制。

誤區七:你們好像什麼也沒做?

很多資料治理的專案難驗收,客戶往往有疑問:你們做資料治理究竟幹了些啥?看你們彙報說幹了一大堆事情,我們怎麼什麼都看不到?發生這種情況,原因往往有前面誤區一所說的客戶需求不明確,誤區三所說的做了大而全的資料治理而難以收尾等,但還有一個原因不容忽視,那就是沒有讓客戶感知到資料治理的成果。使用者缺乏對資料治理成果的感知,導致資料治理缺乏存在感,特別是使用者方的領導決策層,自然不會痛快地對專案進行驗收。

遇到這種情況,一句“寶寶心裡苦,但寶寶不說”是無濟於事的。一個專案從銷售、售前、到組織團隊實施,多少人付出了辛勤的汗水。重要的是讓客戶認識到專案的重要價值,最終為所有人的付出買單啊。

在我看來,在資料治理的專案需求階段,就應該堅持業務價值導向,把資料治理的目的定位在有效地對資料資產進行管理,確保其準確、可信、可感知、可理解、易獲取,為大資料應用和領導決策提供資料支撐。並且

在這個過程中,一定要重視並設計資料治理的視覺化呈現效果

,諸如:

管理了多少元資料,是否應該用資料資產地圖漂亮地展示出來。

管理了多少資料資產,哪些來源,哪些主題,來自於什麼資料來源,是否應該用資料資產門戶的方式展示出來。

資料資產用什麼方式對上層應用提供服務,這些對外服務是如何管控的,誰使用了資料,用了多少資料,是否應該用圖形化的方式進行統計和展現。

建立了多少條清洗資料的規則,清洗了多少類資料,是否應該用圖表展示出來。

發現了多少條問題資料,處理了多少條問題資料,是否應該有一個不斷更新的統計數字來表示。

資料質量問題逐月減少的趨勢,是否應該用趨勢圖展現出來。

資料質量問題根據部門、系統的排名,是否應該加在資料質量報告中,提供給決策層,幫助客戶進行績效考核。

資料分析、報表等應用,因為資料問題而必須回溯來源和加工過程的次數,是否應該統計逐月下降的趨勢;之前的回溯方式,和現在透過血緣管理更清楚地定位問題資料產生的環節,這兩者之間進行對比,節省了客戶多少時間和精力,是否應該有一個公平的評估,並提交給客戶。

使用者之前找資料平均使用的時間,現在找資料平均需要的時間,是否能透過訪談的方式得到公平的結論,提交給客戶。

……

以上這些都是提升資料治理存在感的手段。

除了這些之外,時常組織交流和培訓,引導客戶認識到資料治理的重要性,讓客戶真正認識到資料治理工作對他們業務的促進作用,逐步轉移資料治理的能力給客戶等,這些都是平時需要注意的工作。

總結:傳統的資料治理工作不重視效果的呈現,我們做資料治理工作,一定要從需求開始,就想辦法讓客戶直觀地看到成果。

在激烈的市場競爭下,大資料廠商提出來資料治理的各種理念,有的提出覆蓋資料全生命週期的資料治理,有的提出以使用者為中心的自服務化資料治理,有的提出減少人工干預、節省成本的基於人工智慧的自動化資料治理,在面對這些概念的時候,我們一方面要對資料現狀有清晰的認識,對資料治理的目標有明確的訴求,另一方面還要知道資料治理中各種常見的誤區,跨越這些陷阱,才能把資料治理工作真正落到實處,專案取得成效,做到資料更準確,資料更好取,資料更好用,真正地用資料提升業務水平。

02 資料治理之元資料管理

從關於元資料的三個概念談起,講到元資料的分佈範圍和如何獲取元資料,最後從幾個常見的應用出發,談談元資料的一些實際應用場景。

一、元資料到底是個啥?

元資料是一個相當抽象、不易理解的概念,所以第一個章節,我們先把元資料是什麼搞懂。這一章節共提出三個概念。

1、元資料(Meta Data)是描述資料的資料。

這是元資料的標準定義,但這麼說有些抽象,技術同學能聽懂,倘若聽眾缺乏相應的技術背景,可能當場就懵逼了。產生這個問題的根源其實是一個知識的詛咒:我們知道某件事情,向不瞭解的人描述時卻很難講清楚。

企業如何進行資料治理?分享資料治理4個方面的經驗總結

要破解這個詛咒,我們不妨借用一個比喻來描述元資料:元資料是資料的戶口本。讓我們想想一個人的戶口本是什麼,是這個人的資訊登記冊:上面有這個人的姓名,年齡,性別、身份證號碼,住址、原籍、何時從何地遷入等等,除了這些基本的描述資訊之外,還有這個人和家人的血緣關係,比如說父子,兄妹等等。所有的這些資訊加起來,構成對這個人的全面描述。那麼所有的這些資訊,我們都可以稱之為這個人的元資料。

同樣的,如果我們要描述清楚一個實際的資料,以某張表為例,我們需要知道表名、表別名、表的所有者、資料儲存的物理位置、主鍵、索引、表中有哪些欄位、這張表與其他表之間的關係等等。所有的這些資訊加起來,就是這張表的元資料。

這麼一類比,我們對元資料的概念可能就清楚很多了:

元資料是資料的戶口本。

2、元資料管理,是資料治理的核心和基礎。

為什麼我們說元資料管理是資料治理的核心和基礎?為什麼在做資料治理的時候要先做元資料管理?它的地位為何如此特殊?

讓我們想象一下,一位將軍要去打仗,他必不可少,必須要掌握的資訊是什麼?對,是戰場的地圖。很難相信手裡沒有軍事地圖的一位將軍能打勝仗。而元資料就相當於是所有資料的一張地圖。

在這張關於資料的地圖中,我們可以知道:

我們有哪些資料?

資料分佈在哪裡?

這些資料分別是什麼型別?

資料之間有什麼關係?

哪些資料經常被引用?哪些資料無人光顧?

……

所有的這些資訊,都可以從元資料中找到。如果我們要做資料治理,但是手裡卻沒有掌握這張地圖,做資料治理就猶如是瞎子摸象。後續的文章中我們要講到的資料資產管理,知識圖譜,其實它們大部分也是建立在元資料之上的。所以我們說:元資料是一個組織內的資料地圖,它是資料治理的核心和基礎。

3、元資料是描述資料的資料,那麼有沒有描述元資料的資料?

有。描述元資料的資料叫元模型(Meta Model)。元模型、元資料、資料之間的關係,可以用下面這張圖來描述。

企業如何進行資料治理?分享資料治理4個方面的經驗總結

對於元模型的概念,我們不做深入的討論。我們只需要知道下面這些:

元資料本身的資料結構也是需要被定義和規範的,定義和規範元資料的就是元模型,國際上元模型的標準是CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元資料管理工具,需要支援CWM標準。

二、元資料是從哪裡來的?

在大資料平臺中,元資料貫穿大資料平臺數據流動的全過程,主要包括資料來源元資料、資料加工處理過程元資料、資料主題庫專題庫元資料、服務層元資料、應用層元資料等。下圖以一個數據中心為例,展示了元資料的分佈範圍:

企業如何進行資料治理?分享資料治理4個方面的經驗總結

業內通常把元資料分為以下型別:

技術元資料:庫表結構、欄位約束、資料模型、ETL程式、SQL程式等。

業務元資料:業務指標、業務程式碼、業務術語等。

管理元資料:資料所有者、資料質量定責、資料安全等級等。

元資料採集是指獲取資料生命週期中的元資料,對元資料進行組織,然後將元資料寫入資料庫中的過程。

要獲取到元資料,需要採取多種方式,在採集方式上,使用包括資料庫直連、介面、日誌檔案等技術手段,對結構化資料的資料字典、非結構化資料的元資料資訊、業務指標、程式碼、資料加工過程等元資料資訊進行自動化和手動採集。

元資料採集完成後,被組織成符合CWM模型的結構,儲存在關係型資料庫中。

三、有了元資料,我們能做些什麼?

這一章節我們主要講元資料的幾個典型的應用。

先看一張元資料管理的整體功能架構圖,有了元資料,我們能做些什麼,從這張圖裡一目瞭然:

企業如何進行資料治理?分享資料治理4個方面的經驗總結

1.元資料檢視

一般是以樹形結構組織元資料,按不同型別對元資料進行瀏覽和檢索。如我們可以瀏覽表的結構、欄位資訊、資料模型、指標資訊等。透過合理的許可權分配,元資料檢視可以大大提升資訊在組織內的共享。

2.資料血緣和影響性分析

資料血緣和影響性分析主要解決“資料之間有什麼關係”的問題。因其重要價值,有的廠商會從元資料管理中單獨提取出來,作為一個獨立的重要功能。但是筆者考慮到資料血緣和影響性分析其實是來自於元資料資訊,所以還是放在元資料管理中來描述。

血緣分析指的是取到資料的血緣關係,以歷史事實的方式記錄資料的來源,處理過程等。

以某張表的血緣關係為例,血緣分析展示如下資訊:

企業如何進行資料治理?分享資料治理4個方面的經驗總結

資料血緣分析對於使用者具有重要的價值,如:當在資料分析中發現問題資料的時候,可以依賴血緣關係,追根溯源,快速地定位到問題資料的來源和加工流程,減少分析的時間和難度。

資料血緣分析的典型應用場景:某業務人員發現“月度營銷分析”報表資料存在質量問題,於是向IT部門提出異議,技術人員透過元資料血緣分析發現“月度營銷分析”報表受到上游FDM層四張不同的資料表的影響,從而快速定位問題的源頭,低成本地解決問題。

除了血緣分析之外,還有一種影響性分析,它能分析出資料的下游流向。當系統進行升級改造的時候,如果修改了資料結構、ETL程式等元資料資訊,依賴資料的影響性分析,可以快速定位出元資料修改會影響到哪些下游系統,從而減少系統升級改造帶來的風險。從上面的描述可以知道:資料影響性分析和血緣分析正好相反,血緣分析指向資料的上游來源,影響性分析指向資料的下游。

影響性分析的典型應用場景:某機構因業務系統升級,在“FINAL_ZENT ”表中修改了欄位:TRADE_ACCORD長度由8修改為64,需要分析本次升級對後續相關係統的影響。對元資料“FINAL_ZENT”進行影響性分析,發現對下游DW層相關的表和ETL程式都有影響,IT部門定位到影響之後,及時修改下游的相應程式和表結構,避免了問題的發生。由此可見,資料的影響性分析有利於快速鎖定元資料變更帶來的影響,將可能發生的問題提前消滅在萌芽之中。

3.資料冷熱度分析

冷熱度分析主要是對資料表的被使用情況進行統計,如:表與ETL程式、表與分析應用、表與其他表的關係情況等,從訪問頻次和業務需求角度出發,進行資料冷熱度分析,用圖表的方式,展現表的重要性指數。

資料的冷熱度分析對於使用者有巨大的價值,典型應用場景:我們觀察到某些資料資源處於長期閒置,沒有被任何應用呼叫,也沒有別的程式去使用的狀態,這時候,使用者就可以參考資料的冷熱度報告,結合人工分析,對冷熱度不同的資料做分層儲存,以更好地利用HDFS資源,或者評估是否對失去價值的這部分資料做下線處理,以節省資料儲存空間。

4.資料資產地圖

透過對元資料的加工,可以形成資料資產地圖等應用。資料資產地圖一般用於在宏觀層面組織資訊,以全域性視角對資訊進行歸併、整理,展現資料量、資料變化情況、資料儲存情況、整體資料質量等資訊,為資料管理部門和決策者提供參考。

5.元資料管理的其他應用

元資料管理中還有其他一些重要功能,如:

元資料變更管理。對元資料的變更歷史進行查詢,對變更前後的版本進行比對等等。

元資料對比分析。對相似的元資料進行比對。

元資料統計分析。用於統計各類元資料的數量,如各類資料的種類,數量等,方便使用者掌握元資料的彙總資訊。

諸如此類的應用,限於篇幅,不一一列舉。

四、總結

元資料就相當於是資料的戶口本和地圖,是資料治理的核心和基礎。

元資料產生於從資料生產、資料接入、資料加工、資料服務到資料應用的各個環節,整體上可以分為三類:技術元資料、業務元資料和管理元資料。

元資料採集入庫後,可以產生冷熱度分析、血緣關係分析、影響性分析,資料資產地圖等應用。元資料管理可以讓資料被描述得更加清晰,更容易被理解,被追溯,更容易評估其價值和影響力。元資料管理還可以大大促進資訊在組織內外的共享。

03 資料治理之資料質量管理

資料治理的理論和實踐不斷向前發展,但資料質量管理始終是資料治理的初衷,也是最重要的目的。下面從資料質量管理的目標,質量問題產生的根源,質量評估標準,質量管理流程,質量管理的取與舍幾個方面進行闡述。

一、資料質量管理的目標

資料質量管理主要解決“資料質量現狀如何,誰來改進,如何提高,怎樣考核”的問題。

最開始的關係型資料庫時代,做資料治理最主要的目的,就是為了提升資料質量,讓報表、分析、應用更加準確。時至今日,雖然資料治理的範疇擴大了很多,我們開始講資料資產管理、知識圖譜、自動化的資料治理等等概念,但是提升資料的質量,依然是資料治理最重要的目標之一。

為什麼資料質量問題如此重要?

因為資料要能發揮其價值,關鍵在於其資料的質量的高低,

高質量的資料是一切資料應用的基礎。

如果一個組織根據劣質的資料分析業務、進行決策,那還不如沒有資料,因為透過錯誤的資料分析出的結果往往會帶來“精確的誤導”,對於任何組織來說,這種“精確誤導”都無異於一場災難。

根據統計,資料科學家和資料分析員每天有30%的時間浪費在了辨別資料是否是“壞資料”上,在資料質量不高的環境下,做資料分析可謂是戰戰兢兢。可見資料質量問題已經嚴重影響了組織業務的正常運營。透過科學的資料質量管理,持續地提升資料質量,已經成為組織內刻不容緩的優先任務。

二、資料質量問題產生的根源

做資料質量管理,首先要搞清楚資料質量問題產生的原因。原因有多方面,比如在技術、管理、流程方面都會碰到。但從根本上來時,資料質量問題產生的大部分原因在於業務上,也就是管理不善。許多表面上的技術問題,深究下去,其實還是業務問題。

筆者在給客戶做資料治理諮詢的時候,發現很多客戶認識不到資料質量問題產生的根本原因,侷限於只想從技術角度來解決問題,希望透過購買某個工具就能解決質量問題,這當然達不到理想的效果。經過和客戶交流以及雙方共同分析之後,大部分組織都能認識到資料質量問題產生的真正根源,從而開始從業務著手解決資料質量問題了。

從業務角度著手解決資料質量問題,重要的是建立一套科學、可行的資料質量評估標準和管理流程。

三、資料質量評估的標準

當我們談到資料質量管理的時候,我們必須要有一個數據質量評估的標準,有了這個標準,我們才能知道如何評估資料的質量,才能把資料質量量化,並知道改進的方向,比較改進後的效果。

目前業內認可的資料質量的標準有:

準確性: 描述資料是否與其對應的客觀實體的特徵相一致。

完整性: 描述資料是否存在缺失記錄或缺失欄位。

一致性: 描述同一實體的同一屬性的值在不同的系統是否一致。

有效性: 描述資料是否滿足使用者定義的條件或在一定的域值範圍內。

唯一性: 描述資料是否存在重複記錄。

及時性: 描述資料的產生和供應是否及時。

穩定性: 描述資料的波動是否是穩定的,是否在其有效範圍內

以上資料質量標準只是一些通用的規則,這些標準是可以根據資料的實際情況和業務要求進行擴充套件的,如交叉表校驗等。

四、資料質量管理的流程

要提升資料質量,需要以問題資料為切入點,注重問題的分析、解決、跟蹤、持續最佳化、知識積累,形成資料質量持續提升的閉環。

首先需要梳理和分析資料質量問題,摸清楚資料質量的現狀;然後針對不同的質量問題選擇適合的解決辦法,制定出詳細的解決方案;接著是問題的認責,追蹤方案執行的效果,監督檢查,持續最佳化;最後形成資料質量問題解決的知識庫,以供後來者參考。上述步驟不斷迭代,形成資料質量管理的閉環。

很顯然,要管理好資料質量,僅有工具支撐是遠遠不夠的,必須要組織架構、制度流程參與進來,做到資料的認責,資料的追責。

五、資料質量管理的取與舍

企業也好,政府也好,從來不是生活在真空之中,而是被社會緊緊地包裹。解決任何棘手的問題,都必須考慮到社會因素的影響,做適當的取捨。

第一個取捨:資料質量管理流程。

前面講到的資料質量管理流程,是一個相對理想的狀態,但是不同的組織內部,其實施的力度都是不同的,以資料追責為例:在企業內部推行還具有一定的可行性,但是在政府就很難適用。因為政府部門的大資料專案,牽頭單位無論是誰,很可能沒有相關的許可權。

遇到這種問題,我們只能迂迴地做些事情,儘量彌補某個環節缺失帶來的不利影響,比如和資料提供方一起建立起資料清洗的規則,對來源資料做清洗,儘量達到可用的標準。

第二個取捨:不同時間維度上的資料採取不同的處理方式。

從時間維度上劃分,資料主要有三類:未來資料、當前資料、歷史資料。在解決不同種類的資料質量問題時,需要考慮取捨之道,採取不同的處理方式。

1.歷史資料

當你拿著一堆歷史問題資料,找資訊系統的負責人給你整改,對方通常不會給你好臉色看,可能會以“當前的資料問題都處理不過來,哪有時間給你處理歷史資料的問題”為理由,拒你以千里之外。這時候你即便是找領導協調,一般也起不到太大的作用,因為這確實是現實情況:一個組織的歷史資料通常是經年累月的積累,已經是海量的規模,很難一一處理。

那麼難道就沒有更好的辦法了嗎?——對於歷史資料問題的處理,我們可以發揮技術人員的優勢,用資料清洗的辦法來解決,對於實在清洗不了的,我們要讓決策者判斷投入和產出的效益比,結果往往是需要接受這種現狀。

從另一個角度來看:資料的新鮮度不同,其價值往往也有所區分。一般來說,歷史資料的時間越久遠,其價值越低。所以,我們不應該把最重要的資源放在歷史資料質量的提升上,而是應該更多地著眼於當前產生和未來即將產生的資料。

2.當前資料

當前資料的問題,需要從我們透過前面第四個章節講過的梳理和發現問題,分析問題,解決問題,問題認責、跟蹤和評估等幾個流程環節來解決,管理過程中必須嚴格遵循流程,避免髒資料繼續流到資料分析和應用環節。

3.未來資料

管理未來的資料,一定要從資料規劃開始,從整個組織資訊化的角度出發,規劃組織統一的資料架構,制定出統一的資料標準。借業務系統新建、改造或重建的時機,在建立物理模型、建表、ETL開發、資料服務、資料使用等各個環節遵循統一的資料標準,從根本上提升資料質量。這也是最理想、效果最好的資料質量管理模式。

這樣,透過對不同時期資料的不同處理方式,能做到事前預防、事中監控、事後改善,從根本上解決資料質量問題。

總結

提升資料質量,是資料治理最重要的目標之一。做資料質量管理,首先要弄清楚資料質量問題產生的根源大部分在於業務管理出了問題。

其次,我們要根據組織架構,建立一套資料質量評估的標準和資料質量管理的流程。

最後,在做資料質量管理過程中,我們要充分考慮到現狀,對歷史資料、當前資料、未來資料分別制定不同的處理策略。

04 資料治理之資料標準管理

一、大資料標準體系

根據全國資訊科技標準化技術委員會大資料標準工作組制定的大資料標準體系,大資料的標準體系框架共由七個類別的標準組成,分別為:基礎標準、資料標準、技術標準、平臺和工具標準、管理標準、安全和隱私標準、行業應用標準。本文主要闡述其中的第二個類別:資料標準。

二、關於資料標準認識的幾個誤區

資料標準這個詞,最早是在金融行業,特別是銀行業的資料治理中開始使用的。資料標準工作一直是資料治理中的基礎性重要內容。但是對於資料標準,不同的人卻有不同的看法:

有人認為資料標準極其重要,只要制定好了資料標準,所有資料相關的工作依標進行,資料治理大部分目標就水到渠成了。

也有人認為資料標準幾乎沒什麼用,做了大量的梳理,建設了一整套全面的標準,最後還不是被束之高閣,被人遺忘,幾乎沒有發揮任何作用。

首先亮明作者的觀點:這兩種看法都是不對的,至少是片面的。實際上,資料標準工作是一項複雜的,涉及面廣的,系統性的,長期性的工作。它既不能快速地發揮作用,迅速解決掉資料治理中的大部分問題,同時也肯定不是完全沒有作用,最後只剩下一堆文件——如果資料標準工作的結局真是如此,那隻能說明這項工作沒有做好,沒有落到實處。本文主要的目的,就是分析為什麼會出現這種情況,以及如何應對。而首先需要做的是釐清資料標準的定義。

三、資料標準的定義

何為資料標準,各相關組織並沒有統一的,各方都認可的定義。結合各家對資料標準的闡述,從資料治理的角度出發,我嘗試著給資料標準做一個定義:資料標準是對資料的表達、格式及定義的一致約定,包含資料業務屬性、技術屬性和管理屬性的統一定義;資料標準的目的,是為了使組織內外部使用和交換的資料是一致的,準確的。

四、如何制定資料標準

一般來說,對於政府,會有國家或地方政府發文的資料標準管理辦法,其中會詳細規定相關的資料標準。所以在此主要講企業如何制定資料標準。

企業的資料標準來源非常豐富,有外部的監管要求,行業的通用標準,同時也必須考慮到企業內部資料的實際情況,梳理其中的業務指標、資料項、程式碼等,將以上的所有的來源都納入資料標準是沒有必要的,資料標準的範圍應該主要集中在企業業務最核心的資料部分,有的企業也稱作關鍵業務資料或核心資料,只要制定出這些核心資料的標準,就能夠支撐企業資料質量、主資料管理、資料分析等需要。

企業如何進行資料治理?分享資料治理4個方面的經驗總結

五、資料標準化的難題

資料標準好制定,但是資料標準落地相對就困難多了。國內的資料標準化工作發展了那麼多年,各個行業,各個組織都在建設自己的資料標準,但是你很少聽到哪個組織大張旗鼓地宣傳自己的資料標準工作多麼出色,換句話說,做資料標準取得顯著效果的案例並不多。為什麼會出現這種情況,主要有兩個原因:

一是制定的資料標準本身有問題。

有些標準一味地追求先進,向行業領先看齊,標準大而全,脫離實際的資料情況,導致很難落地。

第二個原因,是標準化推進過程中出了問題。

這是我們重點闡述的原因,主要有以下幾種情況:

對建設資料標準的目的不明確。某些組織建設資料標準,其目的不是為了指導資訊系統建設,提高資料質量,更容易地處理和交換資料,而是應付監管機構檢查,因此需要的就是一堆標準檔案和制度檔案,根本就沒有執行的計劃。

過分依賴諮詢公司。一些組織沒有建設資料標準的能力,因此請諮詢公司來幫忙規劃和執行。一旦諮詢公司撤離,組織依然缺乏將這些標準落地的能力和條件。

對資料標準化的難度估計不足。很多公司上來就說要做資料標準,卻不知道資料標準的範圍很大,很難以一個專案的方式都做完,而是一個持續化推進的長期過程,結果是客戶越做遇到的阻力越大,困難越多,最後自己都沒有信心了,轉而把前期梳理的一堆成果束之高閣,這是最普遍的問題。

缺乏落地的制度和流程規劃。資料標準的落地,需要多個系統、部門的配合才能完成。如果只梳理出資料標準,但是沒有規劃如何落地的具體方案,缺乏技術、業務部門、系統開發商的支援,尤其是缺乏領導層的支援,是無論如何也不可能落地的。

組織管理水平的不足:資料標準落地的長期性、複雜性、系統性的特點,決定了推動落地的組織機構的管理能力必須保持在很高的水平線上,且架構必須持續穩定,才能有序地不斷推進。以上這些原因,導致資料標準化工作很難開展,更難取得較好的成效。資料標準化難落地,是資料治理行業的現狀,不容迴避。

六、如何應對這些難題

應對以上這些難題,最經濟、最理想的模式當然是:做大資料建設,首先做標準,再做大資料平臺,資料倉庫等。但一般的不大可能有這樣的認識,很多時候大家都是先建設再治理。先把資訊系統、資料中心建好,然後標準有問題,質量不高,再建資料標準,但實際上這時候已經是回過頭來做一些亡羊補牢的事情,客戶的投資肯定有一部分是浪費。

正因為其太過理想化,所以這種模式幾乎是見不到的。在實踐中,我們往往還是需要更多地考慮如何把資料標準落地到已有的系統和大資料平臺中。

資料標準落地有三種形式:

源系統改造:對源系統的改造是資料標準落地最直接的方式,有助於控制未來資料的質量,但工作量與難度都較高,現實中往往不會選擇這種方式,例如有客戶編號這個欄位,涉及多個系統,範圍廣、重要程度高、影響大,一旦修改該欄位,會涉及到相關的系統都需要修改。但是也不是完全不可行,可以借系統改造,重新上線的機會,對相關源系統的資料進行部分的對標落地。

資料中心落地:根據資料標準要求建設資料中心(或資料倉庫),源系統資料與資料中心做好對映,保證傳輸到資料中心的資料為標準化後的資料。這種方式的可行性較高,是絕大多陣列織的選擇。

資料介面標準化:對已有的系統間的資料傳輸介面進行改造,讓資料在系統間進行傳輸的時候,全部遵循資料標準。這也是一種可行的方法。

在資料標準落地的過程中,需要做好6件事情,如下圖所示:

企業如何進行資料治理?分享資料治理4個方面的經驗總結

事先確定好落地的範圍:哪些資料標準需要落地,涉及到哪些IT系統,都是需要事先考慮好的。

事先做好差異分析:現有的資料和資料標準之間,究竟存在哪些差異,這些差異有多大,做好差異性分析。

事先做好影響性分析:如果這些資料標準落地了,會對哪些相關下游戲廳產生什麼樣的影響,這些影響是否可控。元資料管理中的影響性分析可以幫助使用者確定影響的範圍。

制定落地的執行方案:執行方案要側重於可落地性。不能落地的方案,最終只能被廢棄。一個可落地的方案,要有組織架構和人員分工,每個人負責什麼,如何考核,怎麼監管,都是必須納入執行方案中的內容。

具體地執行落地方案:根據執行方案,進行資料標準落地執行。

事後評估:事後需要跟蹤、評估資料落地的效果如何,做對了哪些事,哪些做得不足,如何改進。

七、總結

資料標準的建設大致可以分成兩個階段:

1、梳理和制定資料標準。

2、資料標準的落地和實施。

其中後者是公認的難題。本文分析了其中的原因,提供了一些如何讓資料標準更快更好落地的方法。

內容來源:資料學堂;本文來源:CDO之家

(如有侵權請聯絡小編刪除,謝謝)

相關文章

頂部