首頁/ 遊戲/ 正文

智慧的資料目錄-Watson Knowledge Catalog

資料治理已經發展了有20多年了,從最早的元資料管理,到後來的資料質量管理,很多企業多年前都建設了名為資料治理的專案。但是,如果你去問這些企業,資料治理專案做的怎麼樣?有沒有發揮什麼業務價值和效益?你得到的答案往往不盡人意。

很多企業建設好資料治理專案以後,就荒廢了沒有人使用。為什麼會造成這樣的情況呢?究其原因是,其資料治理專案只是面對IT人員的,並不是面對業務人員的。如果一個專案不是面對業務人員的,無法發揮業務價值,業務人員無法使用,往往是不可能得到成功的。因此,近年來,國外興起了建設

資料目錄

的熱潮,而不只是談資料治理,就是為了解決面向業務人員並體現業務價值的問題。資料目錄就是為了幫助業務人員以及資料科學家,解決尋找資料、瞭解資料、最佳化資料以及使用資料的難題。

什麼是資料目錄?

智慧的資料目錄-Watson Knowledge Catalog

圖1

很多人還不清楚什麼是資料目錄,我來打個比方,我們用書來比喻資料。

大家都知道圖書館的圖書目錄,我們過去進到圖書館借書,首先就要去查詢圖書目錄。

如果一個圖書館如圖1右下角那副照片的話,那麼亂就連圖書管理員也無法找到書的吧?

如果一個企業的資料庫管理的那麼亂,那麼就連資料庫管理員可能也無法找到資料了。

如果一個圖書館如圖1右上角的話,那說明這個圖書館的書已經擺放的很整齊了,分文別類的。

就像一個企業的資料,結構化的和非結構化的,都分別在資料庫裡或大資料平臺裡,放得整整齊齊的了。

但是,對於圖書館來說,他的主要任務是為讀者服務的,書擺放得整齊,需要借書的讀者就能借到他要的書嗎?我們都知道,那是不夠的,因為缺少了一個圖書目錄,就是圖1左邊的小抽屜。那個小抽屜裡放的是一張一張的書卡,書卡上寫了一些什麼呢?往往有書的名字、書的簡介、書的作者、書的出版年份,還有書的類別比如是物理類的還是化學類的?書的屬性比如是工具書類的還是文藝書類的?書適合的年級比如一年級還是三年級?最重要的是書的具體位置,它是在圖書館的哪一排的哪一層的哪一格里。有了這張書卡,我們就可以輕鬆的找到這本書並借到這本書了。

我曾經和一個大型企業的CIO聊天,這家企業20年前就建了資料倉庫,十年前又建了大資料平臺和資料湖,類似資料治理的專案都建設過好幾期了。我問CIO最近企業在IT方面開展什麼專案呢?CIO回答,最近招進了好幾個資料科學家,打算開展AI專案的建設,但是遇到了困難。資料科學家們在工作中,要花70%以上的時間在尋找資料,而不是AI 建模。CIO問,為什麼我們過去的資料治理專案,幫不了這些資料科學家呢?我就告訴這個CIO, 你們過去的資料治理專案,都是面向IT使用者的,不是面向業務人員的。如果你真的要幫助資料科學家能方便快捷的找到他們要的資料,你就要建設真正的資料目錄。

建立資料目錄的業務準備

智慧的資料目錄-Watson Knowledge Catalog

圖2

要建立真正的資料目錄,前期還是要做好一些業務方面的準備工作的,就像建一張書卡一樣,書卡上的內容,你先要準備好。資料目錄一般有這樣一系列的業務域的元素:

業務分類(Categories)

:這是從業務角度,對業務資料的分類。就像圖書館裡的書,按物理、化學、生物、醫學來分類一樣。企業裡可以按分公司或部門來分類,也可以按業務型別來分類,如:銷售類、生產類、財務類等等。

業務術語(Terms):

業務術語就有點像書卡上的書名了,讀者根據書名來找書,那麼資料科學家們往往也是根據業務術語來找他要的資料。比如:VIP客戶、日產量、月產量等。也可以是一些業務的指標和維度。

政策 (Policies):

大到國家小到企業,都有很多政策,會影響資料的性質和使用。比如:個人資料的隱私保護,歐盟有 GDPR,中國也出臺了《個人資訊保護法》,對個人資訊我們需要打上隱私標籤,進行保護,不能隨意洩露。

規則(Rules)

: 資料都有規則,有的是業務規則,有的是資料質量規則。比如:身份證號碼,它的規則是18位的數字,前6位代表地區,中間8位代表生日,後三位是序號,最後一位是校驗碼。有些物料的號碼,第一位是字母代表材質,後四位四數字代表序列等等。

參考資料(Reference Data):

企業的字典表,如區域 、幣種等,有些資料是程式碼,需要透過參考資料來知道真正的數值。

資料分級(Classification)

: 就像書卡上會告訴你這本書是給一年級用的還是給四年級用的,資料也是需要分級的。比如:第一級的資料屬於公開資料大家都可以看,第二級的資料只有部門經理才能看,第三級的資料是給高層領導看的,第四級資料只有董事會的成員才能看等等。

資料型別(Data Class):

我們可以從資料本身的資訊特徵分析出資料是哪種特定的種類,對資料進行分類,比如:姓名、地址、電話、身份證號碼,或者是產品程式碼、產品種類或是產量資訊等等。我們需要對Data Class的型別進行定義,比如透過正則表示式。Cloud Pak for Data 中的Watson Knowledge Catalog 將可以透過AI的方式,根據Data Class的定義,自動的進行資料的分類和識別。

建立資料目錄的技術難點

資料目錄的實現其實也不是那麼容易的,否則,為什麼那麼多年來,大多數的客戶還是在普通的資料治理層面,僅能夠面向技術人員,而不能面向業務人員呢?原因是:

一個企業的業務域元素可能有幾萬個,而技術域的元資料可能有幾十萬個,幾萬個對幾十萬個的對應關係,可比圖書館的書卡製作要複雜的多了。幾千本書你可以透過書卡,人工的一一對應。但幾萬個業務域元素和幾十萬個技術元資料的對應,全部要靠手工來實現,幾乎是不可能完成的任務。

這也是這麼多年來,資料目錄沒有很快發展的原因,直到最近AI技術和機器學習技術的引進,才幫助我們解決了這個問題。我們利用Cloud Pak for Data 的Watson Knowledge Catalog, 大家知道,Watson一直是IBM 響噹噹的AI名片,所以

Watson Knowledge Catalog裡,採用了大量的AI和機器學習的技術,來幫助我們實現從業務到技術的關聯。

智慧的資料目錄-Watson Knowledge Catalog

圖3

圖3展示了資料目錄各個元素之間的關係。其中,從業務術語到資料資產的那個紅色的箭頭,一直是資料目錄建設的難點。直到IBM採用了大量的AI和機器學習的方式,來幫助自動的關聯,才解決了這個問題。如果業務元資料或者Data Class定義了清晰的資料規則,那麼,Watson Knowledge Catalog 將可以應用AI的能力,進行自動的關聯。如果並沒有定義清晰的規則,那麼,我們可以用人工的方式,手工的進行關聯,同時

Watson Knowledge Catalog會進行機器學習,自動的建立規則。

當手工多關聯幾次,自動建立的規則越來越完善以後,系統就能透過AI實現自動關聯了。

建立資料目錄的技術準備

建立資料目錄,我們要了解企業內部都有哪些資料?

這些資料在哪裡?

資料質量狀況是如何的?

這些都可以使用Watson Knowledge Catalog的資料自動發現功能去實現。

Watson Knowledge Catalog 會自動的發現數據,自動的連線資料來源,並匯入元資料。

它還可以自動的分析資料的質量狀況,進行資料質量的打分,並形成資料質量的圖示或儀表盤。

資料質量的打分,可以利用已經定義的資料質量規則,也可以允許業務人員用拼圖的方式,自定義資料質量規則。

這種定義方式有點像拼圖遊戲,資料科學家可以用一些簡單的規則如大於、小於、等於、AND、OR、包含、不包含等,自己拼出資料質量規則, 並執行,幾分鐘就可以得到資料質量的報告。

過去,資料科學家拿到一批資料,為了要了解其資料質量,往往要把需求提給IT部門,IT部門還要請開發商來寫程式,從而分析這批資料的資料質量。從資料科學家提出需求,到拿到資料質量報告,有的時候要幾周的時間。這與我們目前的高效快節奏的社會完全不匹配。而如果資料科學家用拼圖方式,化五分鐘定義資料質量規則,然後執行它,15分鐘後,就能得到結果了。這種自助式的資料質量探索能力,往往是資料科學家最希望的。

智慧的資料目錄-Watson Knowledge Catalog

圖4

另外,元資料管理和血緣分析,也是資料目錄不可少的功能,他可以幫助資料科學家瞭解,每一個數據從哪裡來,到哪裡去,從而更好的理解業務。

資料目錄的使用

本文開頭就提到,資料目錄建設的目的,是為了解決業務人員和資料科學家們,發現數據和使用資料的困難。那麼,為資料科學家和業務人員提供一個介面友好的資料發現和使用的介面就尤為關鍵了。Watson Knowledge Catalog 可以將資料目錄,展示成一個知識圖譜。業務人員可以既透過類似google的方式,透過搜尋業務詞彙,找到他要的資料,也可以透過基於知識圖譜的發現和探索,很方便的圖形化的找到他要的資料,並且可以自助的獲取這些資料。

Watson Knowledge catalog自帶有資料隱私保護的功能。

如果某個資料已經被打上了隱私保護的標籤,那麼你就看不到這些資料了,這些資料會被打上星號或者漂白後再展示。資料科學家獲得了他要的資料後,還可以自助的最佳化這些資料或者利用Watson Knowledge Catalog自帶的資料視覺化工具,進行資料圖形化展示,這些功能都極大的方便了資料科學家對資料的處理和分析。如果資料科學家需要進行下一步的AI資料建模,還可以直接的將這些資料不落地的送到我們的自動化AI建模工具Auto AI 進行建模或者BI 平臺Cognos進行報表展現,真正的實現了資料目錄為業務人員服務的功能。

智慧的資料目錄-Watson Knowledge Catalog

後 記

智慧資料目錄的建設,可以使業務人員或者資料科學家,隨時找到他們要的資料,並且可以透過自助的方式,獲取這些資料。這個功能,是實現Data Fabric的第一步。建設好了智慧的資料目錄,就為今後Data Fabric的建設打下了堅實的基礎。

Data Fabric已經成為Gartner在2022年最熱的IT趨勢的第二名。企業實現Data Fabric的架構將是大勢所趨。

讓我們先從建設智慧的資料目錄開始吧。

相關文章

頂部