首頁/ 科技/ 正文

一臺計算機加一張表格,為何破不了洗錢案?

一臺計算機加一張表格,為何破不了洗錢案?

分散式圖計算:一場對演算法的升維革命

作者 | 青暮

編輯 | 岑峰

何謂洗錢?其實就是讓手裡非法來源的金錢,經過多重轉手,最後回到自己手上,並且最後一筆交易的性質是合法的。

一臺計算機加一張表格,為何破不了洗錢案?

我們把參與其中的人都看作一個點,每一筆交易都會透過一條邊連線兩個人,整個洗錢過程,就形成了一個閉環。

要在一群人的交易記錄中認出這樣的閉環,需要耗費多少資源?

我們假設監測物件的交易都記錄在一張表格上,事實上,給你一臺計算機,加上一個表格資料處理系統,也不一定能夠解決這個問題。

為什麼?

1

侷限:表格的低維性

網際網路時代的支付行為,早已不再侷限於一個幾十萬人口的小小城鎮,,而是跨越了城市、省份、國家,形成了擁有億級節點的巨大網路。很多黑產和犯罪行為,就隱蔽在複雜的支付鏈條背後。

一臺計算機加一張表格,為何破不了洗錢案?

為了在這張網路上找到涉嫌洗錢行為的閉環,我們需要把它進行切割,在大量伺服器組成的集群裡分別儲存,並高效地進行計算。為此我們需要大資料技術的支援,也就是將大量廉價計算機連線起來同時執行的能力。

但僅有這些還不夠,根源在於資料的表示形式——表格。

一臺計算機加一張表格,為何破不了洗錢案?

表格資料是一種關係型資料,其資料往往是同質的,一張僱員表記錄的就是所有僱員的資訊,一張裝置表記錄的就是所有裝置表的資訊。

這種資料形式的每一項資料如果都是獨立的,就能很好地儲存和表示。但如果涉及了資料項之間的相互作用,就會變得複雜。

比如在表格資料中,對於A的鄰居和A的鄰居的鄰居的查詢,就很可能需要非常不同的程式碼來實現,因為這裡面涉及到的鄰居、鄰居的鄰居等關係的表示,在表格形式上的呈現是非常不同的。同時隨著鄰居的增加,訪問資料量是指數增加的,其效能也指數級降低。

所以,在人員跨度很大的洗錢行為中,因為交易數量的劇增,表格計算很可能永遠檢測不出來。

其實在我們的思維中,從一個節點連續跳到其它節點時,每一步都是相同的過程。很自然地,我們也希望能有一種新的資料形式可以很直觀地表示這種過程。

圖,就是我們剛好需要的資料形式。

圖不是影象,而是由頂點和邊構成的數學物件。

針對圖的數學即圖論。圖論起源於18世紀尤拉對哥尼斯堡七橋問題的研究,當時尤拉在這些橋上散步的時候想到了一個數學問題:如何不重複地走過七座橋。

一臺計算機加一張表格,為何破不了洗錢案?

這個問題抽象出來,就成了下圖中的一筆畫問題。

一臺計算機加一張表格,為何破不了洗錢案?

此外,著名的四色問題其實也是一個圖論問題。

圖論經歷了兩百多年的發展,經由眾多數學家乃至計算機科學家不遺餘力的發展,成為了我們解決很多實際問題的強力武器。諸如計算機晶片設計、語言資料庫、分子計算、社交網路謠言傳播等問題,都可以建模為一個圖論問題。

反洗錢問題也不例外,正如前文所述,這些交易行為形成的網路,就是一個圖。

圖資料是一種非關係型資料,也就是說,其儲存物件也就是頂點可以是非同質的。對於反洗錢問題,我們不僅可以記錄人的資訊,還可以記錄企業的資訊,以及人與人、企業與企業、人與企業之間的關交易資訊。

一臺計算機加一張表格,為何破不了洗錢案?

相對於表格資料而言,圖資料的每個頂點包含的資訊通常維度高得多。

從根本上來說,圖資料是對錶格資料的升維。

在圖資料中,只需要用查詢A的鄰居的程式碼,再迭代一次,就可以查詢A的鄰居的鄰居。

這是一個典型的圖計算過程,圖計算是以圖作為資料模型來表達問題並予以解決的這一過程。以高效解決圖計算問題為目標的系統軟體稱為圖計算系統。

在數學形式上,圖計算也帶來了非常直觀簡潔的理解。由於圖和矩陣天然的對偶關係,因此線性代數自然地成為了圖計算的數學語言。

一臺計算機加一張表格,為何破不了洗錢案?

一臺計算機加一張表格,為何破不了洗錢案?

雲計算提供了分散式、大規模的計算機叢集能力,圖計算是在大資料上再提升了一層,處理的不再是二維的表格資料,而是一個複雜的圖。

就像深度學習可以直接處理影象資料一樣,圖計算正在引領一種新的計算正規化,甚至是新的數學、邏輯正規化,其飛躍性不亞於在多媒體時代,我們的交流從序列化語言到二維影象的轉變。

自18世紀的哥尼斯堡七橋問題以來,圖計算一直侷限於純人工的學術、理論研究,或在單機上的工程研究。

事實上,如果是簡單的反洗錢問題,確實可以用一臺計算機和一個表格資料處理系統來解決。

直到網際網路時代和大資料時代。

這裡有一個重要的節點,也就是谷歌在2003、2004年相繼發表了GFS、MapReduce論文。

透過這兩篇論文,人們知道了我們在處理大規模計算任務時,不是必須依靠單個昂貴的伺服器的技術升級,還可以用多個廉價的伺服器搭建出具有非常強大計算能力的分散式計算系統,進而用於處理海量資料。

這不僅支援了谷歌的核心業務即搜尋引擎的發展,後來基於這兩篇論文,人們還開發出了Hadoop開源資料庫系統。

如今,幾乎每一個網際網路企業,乃至許多開始大資料轉型的傳統企業,都用Hadoop支撐著他們的大資料處理系統。

一臺計算機加一張表格,為何破不了洗錢案?

同樣,在大型叢集的支撐下,圖計算也成為了一個極其龐大的系統,涉及的每一個領域:圖儲存、圖資料庫、圖計算、圖深度學習等等,都是一門大學問。

2

發現閉環:從圖儲存到圖計算

從被存放到計算機,到被檢測出洗錢閉環,一個支付圖網路經歷了什麼過程?

總體而言,一個圖要先透過圖儲存引擎寫入儲存在圖資料庫中,然後被在圖計算引擎中透過圖演算法模型讀取、計算,最後輸出計算結果。而這個圖演算法模型可能是人工程式設計的,也可能是透過資料訓練得到的圖深度學習模型。

我們以一個圖計算全棧系統GeaGraph來展開。螞蟻集團計算儲存首席架構師何昌華介紹道,“GeaGraph包含了7個元件,基本都由螞蟻集團自主研發,包括圖儲存引擎PhStore、圖資料庫GeaBase、圖計算引擎GeaFlow、圖深度學習系統GeaLearning,它們可以串聯起一個完整的技術鏈路。此外還有單機版本的圖資料庫GeaBase Lite,可以在單臺計算機上執行,用於離線圖計算的GeaComputing系統,以及圖研發平臺GeaMaker。”

當然,分散式+圖計算並不能一勞永逸地解決反洗錢問題。由於問題本身的大規模和動態屬性,我們將面臨幾個主要的難題。

事務性:金錢守恆

大規模問題必須採用分散式計算求解,而分散式儲存會導致事務性問題。

在一個圖裡面,某個人新增了一筆交易,會影響圖裡面的好多條邊。這種情況下,需要保證資料一致,包括如何保證資料的事務性。

所謂事務性是指,比如一個銀行賬戶裡本來有100元,不應該出現兩個人各來取走100元的情況,否則就違反了事務性。而取錢的兩個人的賬戶資訊可能分佈在不同的伺服器上,這就涉及到伺服器的通訊。

一臺計算機加一張表格,為何破不了洗錢案?

在將圖資料進行了大規模的分散式化以後,如何高效地進行圖資料的儲存和通訊,這是圖資料庫領域的一個普遍性難題。

具體來說,我們需要將一個大規模的圖分割成多段,也就是多個子圖,然後放到多臺計算機上,每臺計算機單獨只能對子圖進行計算,當要計算全圖的某些性質的時候,比如反洗錢分析,可能不止涉及一臺計算機上的子圖,這些子圖之間是需要通訊的。如果不能保證事務性,那麼計算結果出錯就在所難免。

“儘管還沒有完全上線,但我們基本上算是解決了這個問題,這個在業內我們是唯一的。”何昌華說道。

這得益於GeaBase的資料強一致性和分散式事務能力。GeaBase是一個金融級分散式圖資料庫,能夠實現對超大規模關係網路毫秒級的複雜查詢及變更,具有金融級高可用性。

GeaBase單叢集能支撐萬億邊規模的圖資料,寫入和查詢吞吐量超過每秒百萬次,99。9%查詢和寫入延時小於20ms。

GeaBase Lite則是GeaBase的單機版本,是一個支援事務處理和強隔離性的單機圖資料庫,可以單機支援百億邊的圖資料,而且集成了全圖迭代分析能力,可以同時滿足使用者對圖的複雜分析、快速查詢和視覺化的需求。

PhStore是GeaBase背後的儲存引擎。它基於完美雜湊(Perfect Hashing)技術,屬於業界首創,在圖的讀取效能上可以達到常數時間複雜度。單個叢集可儲存PB級別的資料,比業界通用的HBase 吞吐率提高5倍以上。

演變:分散式欺詐

反洗錢是一個博弈問題,道高一尺、魔高一丈,問題本身也是動態的,在不斷演變。

如果一個人的欺詐行為容易被發現,人們就會想到用團伙欺詐去提高隱蔽性和監測難度。

除了讓閉環的跨越性變大,甚至這些圖的頂點背後,有可能是正常使用者,從而極大提高了頂點的潛在數量。

“有很多洗錢團伙透過跑分平臺,租借一些合法賬戶,使得很多正常賬戶被動參與到這種黑灰產交易中。在這種情況下,反洗錢的難度更大。”

欺詐,也成了一種分散式行為,這種行為具有分散賬戶和長鏈條的特點。

一臺計算機加一張表格,為何破不了洗錢案?

團伙欺詐的特點不僅在於規模,它還會不停變化,針對這種問題的圖計算被稱為持續圖計算。

如果能把握演變規律,也能帶來好處。在觀察團夥演變的過程中,可以識別出團夥中的不變元素,也即是關鍵角色,從而可以快速精準地定位團伙核心,實現更有效的防範。

博弈永不停息,反洗錢問題在未來或許會經歷更大的演變。對於變化無窮的資料,資料學習的方式自然更合適。何昌華說,針對反洗錢問題的圖深度學習已有探索。支援圖深度學習的系統是GeaLearning。

GeaLearning是以圖為核心的超大規模分散式深度學習系統。其主要特點包括:支援多種靈活圖模型訓練方法(不限於global-batch和mini-batch),不限制圖神經網路層數和節點鄰居個數,以模型並行為核心的混合並行執行方式等。

深度:六度爆炸

分散式的欺詐行為,或者說分散賬戶和長鏈條的資金分散、聚集行為,使得洗錢行為涉及的頂點數大幅增加,為了檢測出不斷擴大的閉環,就勢必要增加圖計算的深度。

這個深度要如何理解呢?

六度空間是一個很知名的概念,也就是你可以透過平均六個人的聯絡鏈條認識世界上任何一個人。

在這個問題中,可以估算一下,每增加一個度,可聯絡的人會增長多少倍。當度為1的時候,這個數量範圍大概為從人類的鄧巴數(一個人維持緊密聯絡的上限)即150,到社交APP朋友數量即數千人。而只需增加到6度,這個人數就變成了78億(當前世界總人口)。因此,這個過程必然至少是指數級增長的。

“過去不基於圖來進行反欺詐、反洗錢的時候,挖掘的關係深度非常有限,計算也很低效。”

另外,有些團伙會在自己的大量正常交易中混入部分洗錢行為,比如藝術品拍賣等等。這些人可能有多重身份(大量賬號),同時違法交易也很低頻,交易路徑複雜。“障眼法”和稀疏性進一步增加了監測的難度。

“要實現這樣的檢測,需要非常深層的圖計算能力,傳統方法很難做到,或者策略過於複雜導致難以推廣。”

在GeaGraph上,部分圖計算問題能夠達到10度以上的深度,比如反洗錢問題。“然而,如果要採用圖深度學習方法,就會變得非常困難。目前幾乎所有的圖深度學習所探索的圖深度只達到了2度,能夠探索到3度的技術非常稀有。”何昌華說,螞蟻集團的圖技術目前已經可以做到10度下探,目標是無限制下探。

為了支援這樣的探索,螞蟻集團研發了GeaMaker平臺。GeaMaker是一站式圖計算研發探索平臺,融合了GeaGraph的底層系統的能力,為使用者提供了具備探索、模擬、效能評估等功能,集線上查詢,近線計算,離線分析和圖學習於一體。

實時:微積分思想

監測洗錢行為是為了防範,為了能夠及時遏制這類事件的發展,必須及時發現。因此,圖計算系統的實時性是不可或缺的。

但在大規模的圖計算場景中,延時問題是非常嚴苛的考驗。“同一個人如果要在短時間裡做兩筆交易,第一筆交易就必須非常快地完成,通常得是數十毫秒級別的響應水平。”

另外,如果最佳化做的不夠好,檢測到一個洗錢閉環通常需要一天的時間。“但在理想情況下,我們希望能夠實現秒級檢測。”

舉個更加簡單的例子,你在社交應用上做的一個簡單的互動行為,就涉及到了跨越伺服器的實時通訊。“比如在螞蟻森林中,收集了朋友的能量後,對方立刻就能實時看到,這對時效性以及資料一致性的要求非常高,但這兩個人的節點資訊原本很可能儲存在不同的伺服器上。”

要滿足這種實時性,流式計算是非常有效的方法,其基本思想和微積分相似。

在微積分中,y(x+Δx)-y(x)其實是一個無窮級數,但我們可以只保留第一個項,來近似地透過已知的y(x)的值,來計算y(x+Δx),即y(x+Δx)=y(x)+AΔx。

一臺計算機加一張表格,為何破不了洗錢案?

流式圖計算分為兩步,即流計算和增量圖計算。

流計算就是事件檢測,增量圖計算就是性質檢測。“比如在進行欺詐檢測的時候,我們不會對每一筆交易都做一次圖計算,這會造成極大浪費。而是會先檢測交易中的額度,當交易額超過一定範圍的時候,系統判斷存在可疑行為,就會引入欺詐檢測的圖計算模型,來看看涉及大交易額的幾個賬戶是否真的涉嫌欺詐行為。這需要將流計算和圖計算深度地融合才能做到。”

要使得流式圖計算能夠實時進行,還需要將全圖計算轉換成增量圖計算。也就是說,增量圖的計算結果對於全圖計算的改變也只是一個微小的增量。

支援流式圖計算的是GeaFlow,GeaFlow是螞蟻集團自研的流式圖計算引擎,支援秒級6度以上的流式子圖匹配和秒級全圖時序增量圖計算。

全圖計算需要較長時間,可以離線完成,增量計算因為涉及子圖的規模小很多,從而能夠實時進行。

這就要依賴於離線圖計算系統GeaComputing,GeaComputing是由螞蟻集團在清華大學研製的Gemini和ShenTu離線圖計算系統上進一步最佳化的分散式圖計算平臺,支援萬億級圖資料,能夠為使用者提供高效的複雜圖分析能力。

GeaComputing透過使用塊式劃分策略,流式訊息處理等手段降低記憶體需求。其效能優於業界通用的GraphX系統百倍以上,記憶體佔用僅為其十分之一。

要使得流式計算能夠實時進行,還需要將全圖計算轉換成增量子圖計算。也就是說,增量的計算結果對於全圖計算的改變也只是一個微小的增量。而全圖計算需要較長時間,可以離線完成,增量計算因為涉及子圖的規模小很多,也能夠實時進行。

然而,資料更新亦可能“牽一髮而動全身”,從而引發類似蝴蝶效應的現象。

蝴蝶效應是指在一個動態系統中,初始條件的微小變化,將能帶動整個系統長期且巨大的鏈式反應,是一種混沌的現象。

一臺計算機加一張表格,為何破不了洗錢案?

增量的影響本身也是非常難以把握的事情,可控性難以保證。“一個數據更新後,可能影響到圖裡的很多個頂點;或者多個數據同時更新時,還會互相影響,這時候在多個伺服器上如何保證資料一致是個難題,有時候我們甚至會以資料不一致作為妥協手段。”

從2018年開始,螞蟻集團在基於資金網路、中介網路上的典型欺詐檢測上已經能做到百萬吞吐量下的毫秒級響應,“相比之下,傳統方法可能需要幾個小時或一天才能輸出結果。”

到2019年,螞蟻集團在實現個體挖掘的基礎上,延伸到了欺詐團伙的檢測,而且是實時的。

權衡:成本是永恆主題

最後是權衡問題。

效能和速度的權衡是技術最佳化的一個永恆主題,不同的權衡適應了不同的應用場景,背後是成本的考慮。偏向效能的一般是專用技術,偏向速度的一般是通用技術。

圖計算偏重於記憶體和外存的權衡。

儘管記憶體載入的圖計算很快,但大規模的圖資料難以全部載入到昂貴的記憶體資源上,因此將圖資料載入到便宜的外存(比如SSD)上,就成了非常重要的探索方向。“當然,這也會帶來資料訪問上的速度限制問題(也就是吞吐量),以及圖計算邏輯的修改和最佳化方面的額外工作。”

另外一個權衡是適配性方面,典型的就是計算和通訊的權衡。如果圖的關聯比較強和密集,就不太適合做太細的分割,反之亦然。另外,如果需要更加靈活的可擴充套件性,則必須偏重通訊方面。

比如在反洗錢過程中,我們可以將全量資料存放在SSD上,只將頻繁訪問的資料儲存在記憶體裡,從而達到成本和效能的平衡;另外,對於記憶體需求量不大的圖演算法,我們就將它執行在單機上以提高效率,只有單機無法執行的演算法才使用分散式,這樣就達到規模和效能的平衡。

透過克服上述困難,螞蟻集團保證了反洗錢過程中的資料事務性和一致性,能夠識別團伙洗錢,並且不受深度問題帶來的計算量爆炸困擾,得以實時監測和防範洗錢行為。

2020年起,GeaStack應用於螞蟻集團支付業務,在已有策略模型的基礎上,透過引入圖模型,反欺詐稽核資金額增加了6%。

2021年,GeaStack應用於螞蟻集團反洗錢分析,覆蓋支付寶全部資金交易,每天計算8億客戶過去180天大約200億左右邊關係,將客戶資金流向和關係視覺化,對疑似團伙類犯罪風險識別能力提高94倍多,風險審理分析效率提升90%。

一臺計算機加一張表格,為何破不了洗錢案?

透過不同的權衡和多樣的演算法,螞蟻集團也得以適應不同型別的圖計算難題。

3

GeaGraph:百鍊成金

支付涉及到了每個人,以及人與人之間的關係,這些事件能很自然地構成一張張圖。螞蟻集團的核心業務是大資料金融,天然和圖計算有著密切聯絡。

螞蟻集團從2015年初開始組建圖資料庫團隊,2016年初發布第一個圖資料庫版本GeaBase。

2016年6月,新版支付寶上線,GeaBase迎來了第一筆流量。

接下來幾年,從支付寶大改版到新春紅包再到雙11,GeaBase迎來了業務的綻放期,到2019年雙11,GeaBase雙11主鏈路上單叢集規模突破萬億邊,點邊查詢突破800萬QPS,平均時延小於10毫秒,成為支付寶核心鏈路上非常重要的一環。

“在GeaBase的基礎上,透過全棧技術系統GeaGraph,螞蟻集團解決了圖資料分析面臨的大資料量、高吞吐率和低延遲等重大挑戰。”

GeaGraph支撐了螞蟻集團的支付、數金等眾多關鍵應用場景,單叢集達到百億個節點、萬億條邊的海量資料規模,為螞蟻集團的風險控制、反洗錢、反套現、金融案件審理、信用分數等業務提供穩定的決策能力。

一臺計算機加一張表格,為何破不了洗錢案?

搜尋推薦涉及社交網路的購買行為的關聯,比如可以根據你的朋友的購買喜好,推測出你的購買喜好,這類問題也有非常強的圖屬性,非常適合應用圖計算技術。

但螞蟻集團並沒有在這個領域佈局。為何要深耕金融,而不是先在搜尋推薦等應用上大規模落地?

何昌華表示:“這類問題通常涉及的深度不大,一般是1-2度。而在金融風控、電網規劃中,經常能遇到對深度要求非常高的問題。這對於我們的技術錘鍊是非常好的場景。同時,在這些“煉獄”場景錘鍊出來的技術,也能很容易地應用到簡單的場景裡去。”

如此高難度業務場景的考驗,正是螞蟻集團的圖計算擁有大資料量、高吞吐率、低延時的計算能力的秘密。其中在低延遲方面,GeaGraph一般能支援5、6度深度的毫秒級計算。

得益於這種攻關精神,螞蟻集團還在圖資料庫效能測試的LDBC基準上,以及斯坦福圖深度學習推理基準(OGB)上拿到了世界第一。

“到目前為止,可以說,無論在圖計算規模、圖資料庫規模,以及涉及的圖計算問題的複雜度,和在這之上支撐的業務量,GeaGraph都是世界第一水平的。”

在剛剛結束的2021世界網際網路大會上,螞蟻集團大規模圖計算系統GeaGraph獲得世界網際網路領先科技成果獎。這個獎項代表著世界範圍內最新科技的最高水平。

4

螞蟻集團:從點到圖

從點到圖,佈局圖計算的企業也形成了一張圖網路,已有百家爭鳴之勢,建立標準自然勢在必行。

工信部、國家標準化管理委員會透過全國標準資訊公共服務平臺公佈,《資訊科技圖資料庫系統技術要求》的國家標準正式立項,這也是國內首個圖資料庫方面的國家標準立項。

此國家標準由TC28(全國資訊科技標準化技術委員會)歸口,由螞蟻集團牽頭制定。

基於螞蟻集團的標準貢獻,在近日召開的全國信標委大資料標準工作組會議上,螞蟻集團當選為2019年優秀成員單位。

據瞭解,全國信標委大資料標準工作組由中國科學院院士梅宏擔任組長,負責全國大資料方面的國家標準制定。

除了本次立項的圖資料庫國家標準,基於自身在圖智慧領域的產業實踐經驗,螞蟻還在浙江網際網路金融聯合會牽頭制定和釋出了《網際網路金融分散式架構技術應用指南》的團體標準;在全國金融標準化技術委員會牽頭立項了《金融IT基礎設施 儲存應用實施指南》的行業標準;在CCSA TC601,參與信通院牽頭的《圖資料庫白皮書》和《大資料圖資料庫技術要求與測試方法》團體標準;在ISO/IEC JTC1 SC32參與《ISO/IEC 39075 : Graph Query Language》的國際標準。

螞蟻集團與LDBC也正在合作,將其認證範圍從社交網路領域擴充套件到金融領域。

何昌華介紹,“在中國,圖資料庫是一個正在蓬勃興起的非常熱門的領域,國家也已經開始制定各種各樣的技術標準,希望在統一的標準之下,促進技術交流和全面發展。”

谷歌用兩篇論文將分散式計算技術普及全世界,螞蟻集團也在透過企業合作,讓技術賦能社會。“我們跟國網全球能源網際網路研究院合作進行電網拓撲分析,來解決他們在電力規劃中碰到的技術問題,取得了比較好的效果。”

在當今的社會生活中,能源是必須品,穩定、持續、充沛的能源,是工作生活的保障。當遭遇裝置檢修、更換時,一定會採用波及方案。

國家電網的目標就是最大力度保障供能的穩定,但原有系統的分析效率很難快速分析出數億節點中任意單個或多個節點調整,對整體系統所帶來的影響。因此,每次哪怕微小的裝置檢修,都需要提前充足準備,影響工作效率。

後來,透過和螞蟻集團團隊合作,他們用圖計算技術來管理數億裝置節點,將每個供電裝置節點作為一個“頂點”繪製裝置關係圖,可以很容易的在圖上找到需要調整的裝置,並分析其節點關閉帶來的影響,從圖資料庫中預演,即可合理規劃裝置調整並提前預警,最大限度保持穩定持續的電力輸出,保障民生。

何昌華介紹,“目前。螞蟻集團圖計算技術已經規模應用於反欺詐、反洗錢等領域,保護金融安全。同時,也在能源、電信行業有廣泛應用前景。從螞蟻集團的角度,在支援好內部業務,不斷錘鍊技術的前提下,我們也會積極地把圖計算的技術開放出來,用到更加廣泛的領域中,尤其是對國計民生更有用的領域。這也是我們開放技術背後的思考。”

5

圖:下一代資料建模

從結繩記事、象形文字,到現代語言,經歷數千年的演變,人類的交流符號中包含的資訊越來越豐富,維度也越來越高。

一臺計算機加一張表格,為何破不了洗錢案?

從數字、表格,到圖資料、影象,機器的交流符號也在經歷著類似的演變過程。

這不禁令人懷疑,機器會不會比人類更早實現用感知資料直接交流?這或許激發了人類的好奇或嫉妒,成為急著尋找深度學習和圖深度學習可解釋性的心理動因之一。

一圖勝千言。任何資料都不是對真實世界的完整呈現,所以不可避免會出現天然的缺陷,使其不能很方便地呈現我們在現實世界中很自然的互動。

如今的時代注重資料的兩個方面,即資料量和資料維度。傳統方法適合低維、稀疏資料,大資料方法適合低維、稠密資料,深度學習方法適合高維、稠密資料,而圖深度學習、圖計算方法則非常適合高維、稀疏資料。因此,圖很可能是下一代的大資料。

圖資料相對於表格資料實現了一次世界表徵的飛躍,影象資料也從另一個層面藉助深度學習在進行著一場革命。

資料不再只是一張表格,要處理圖這樣的資料,很多底層的邏輯都要推倒重來,包括思維模式。

何昌華介紹,“過去30年的關係型資料庫給大家構建了這樣的思維模式,也就是表格思維。與外部進行協同推進圖計算技術的時候,如何進行思維上的“急轉彎”,也將是我們長期面臨的一大難題。”

理性質疑之外,技術革新亦不可避免帶來變革前夕的迷茫和擔憂,人們最先會從個人角度出發,質問使用者隱私問題。

螞蟻集團作為如此龐大的應用,必然涉及非常多的使用者個人資訊,在技術應用的過程中,團隊如何避免個人資訊的洩露呢?

何昌華迴應道,“我們所有資料經過了使用者授權,和資料脫敏,比如資料傳輸、計算過程中需要保障資料是加密的。同時,螞蟻集團的圖計算是建立在隱私保護基礎之上,有一套很前沿的隱私計算技術在底層做基礎。”

硬核技術讓變革一往無前,安全保障也讓團隊無需瞻前顧後,持續瞄準下一個難關。今年,螞蟻集團已不再滿足於被動的識別,而開始探索主動的做法,也就是預測——在一個欺詐行為實行之前檢測出來。

從觀察世界、理解世界開始,GeaGraph的下一步,是模擬世界。

相關文章

頂部