人工智慧系統訪問網頁以提升效能

資訊提取”系統有助於將純文字轉換為可進行統計分析的資料。

從網際網路上獲取的大量資訊中，大多數是純文字。回答各種問題所需的資料——例如，某些化學品的工業使用與患病之間的相關性，新聞報道模式與選民投票結果之間的聯絡等——這些資料都可能在網際網路中。但是從純文字中提取這些資料，並加以組織用於定量分析，可能非常耗時。

資訊提取，或者說是將純文字形式的資料項自動分類，是人工智慧研究的一個主要課題。上週，計算機語言協會（The Association for Computational Linguistics）的自然語言處理實驗方法會議上，麻省理工學院的計算機科學和人工智慧實驗室的研究人員提出了一種不同於傳統機器學習的新的資訊提取方法，並因此獲得了最佳論文獎。

大多數機器學習系統透過將訓練示例與尋找與人類標註類別相對應的模式相結合來工作。例如，人類可能手工標記部分文字，然後機器學習系統試著無歧義識別模式——如，“her”什麼時候作為直接賓語，什麼時候作為形容詞。

通常，計算機科學家為機器學習系統提供儘可能多的訓練資料，這樣可以增加系統處理複雜問題的機率。

與之相反，麻省理工學院的研究人員在論文中表示，他們利用稀疏資料訓練系統——因為在他們的調研中，稀疏資料常常是所有的可用資料。但是，之後他們發現資訊量有限這個問題很好解決。

“傳統上，自然語言處理中的資訊提取，即給一篇文章，從文章中提取出正確資訊。”臺達電子（Delta Electronics ）電氣工程與計算機科學教授，論文資深作者Regina Barzilay說。“這與我們的做法非常不同。遇到超出我們理解範圍的文章時，我們會上網查詢獲取一些易於理解的資訊。”

提升置信度

基本上來說，研究人員的新系統做著同樣的事。機器學習系統通常對每個類別分配一個置信度，置信度是分類（匹配訓練資料中的模式）正確的統計似然性的度量。新系統中，如果置信度太低，就會自動生成一個網路搜尋查詢，用於搜尋獲取可能包含待提取資料的文字。

然後，系統試著從新得到的第一項文字中提取相關資料，並將結果與初始提取結果相對照。如果置信度仍然太低，那就繼續從第二項文字中提取相關資料，以此類推。

“基本提取器並沒有變，”麻省理工學院電氣工程與計算機科學系（EECS）的研究生，新論文的合著者之一的Adam Yala說。“系統會找提取器更容易理解的文章。所以這是個弱提取器，系統只是自動從網上獲取更適合它的資料。” Karthik Narasimhan加入Yala和Barzilay，他是論文第一作者，目前也是EECS的研究生。

值得注意的是，系統做出的每個決策都源於機器學習。系統透過機器學習生成查詢語句，衡量新文字與其提取任務的相關性，以及決定如何融合多次提取的結果。

這就是事實

實驗中，研究人員用兩項資訊提取任務測試系統。一項是收集美國大規模槍擊事件資料，這是研究槍支管制的影響的重要資源。另一項是收集食品汙染的類似資料。系統針對兩項任務分別進行訓練。

第一項任務——大規模槍擊事件資料庫——系統需要提取射擊者姓名、射擊地點、受傷人數和死亡人數資訊。第二項任務中，系統提取食品型別、汙染物型別和地點資訊。每項任務，都大約用300份檔案對系統進行訓練。

系統從這些訓練文件中，學習了可能與其待提取資料項相關聯的搜尋術語集合。例如，槍擊事件的射擊者的名字與“警察”，“辨認”，“逮捕”和“控告”等術語相關。訓練中，對於每篇待分析的文章，系統平均從網路上另外再提取九到十篇新聞文章。

上圖：資訊提取，或者說是將純文字形式的資料項自動分類，是人工智慧研究的一個主要課題。NeuroscienceNews。com圖片由MIT提供。

研究人員對他們的系統的效能和使用更傳統的機器學習技術訓練的幾個提取器的效能進行了比較。對於兩個任務中每個資料項的提取，新系統效能比傳統系統性能高出約10%。

“自然語言的困難之一是，可以用許多不同的方式表達同一種意思，而捕獲所有這些不同的表達方式是構建綜合模型的挑戰之一，”賓夕法尼亞大學計算機和資訊科學助理教授Chris Callison-Burch說。“［Barzilay和她的同事］設計出了這個非常聰明的模型部分，這樣模型可以向外查詢更多易於處理的資訊。模型非常聰明，而且效能優良。”

Callison-Burch的團隊正將自然語言處理和人工審查相結合來建立一個關於槍支暴力的資訊資料庫，就像麻省理工學院的新系統利用訓練資料所生成的資料庫。“我們抓取了數百萬新聞文章，接著用文字分類器挑選出與槍支暴力相關的文章，然後人工手動提取相關資訊，”他說。“如果有個像Regina的模型，用模型預測一篇文章是否與我們手工標記的文章相關，這將大大節省時間。這是我未來非常感興趣的事情。”

百聞網

人工智慧系統訪問網頁以提升效能

相關文章