越真實的語音合成，越會面臨的問題是什麼？

聲音是一個人獨特的標識，而在人工智慧的快速發展下，這一獨特標識卻又有了越來越多可代替的選項——語音合成作為人工智慧的一個重要分支，旨在透過輸入文字，經由人工智慧的演算法，合成像真人語音一樣自然的音訊。

現在，機器已經可以輕鬆又準確地模仿人類講話，並被廣泛的應用於音影片創作場景中，甚至機器也可以克隆特定人的聲音。給演算法輸入某個人的一個聲音片段，演算法會學習這個人的方式，然後再把這種說話方式跟其他的人聲相結合，不過問題或許也隨之而來。

語音合成涉及建立特定的聲音模型，不僅可以將文字轉化成聲音，而且可以轉化為接近真人語調和節奏的聲音。語音合成雖然並不是一個新近的技術，甚至已經是一個廣泛應用於各行各業，以及出現在人們社會的生產和生活的技術，但語音合成能帶來的未來，實際上仍然超越人們的想象。

語音合成應用中最為人們所熟悉的就是人工智慧的語音電話、語音導航、語音助手以及配音等。

比如，配音方面，在過去的幾十年裡，許多經典的 TVB 影視片都離不開配音。並且，動漫等影視中最逼真的聲音合成，也大多透過配音演員的聲音錄製來實現的，然後將他們的聲音剪下成不同的片段，像做拼圖一樣，將這些聲音“拼接”在一起，形成一整段聲音。語音合成則讓昔日繁瑣且枯燥的配音工作有望被取代。配音將不再是專業人士的標配，任何人都可以自主且簡單地克隆自己的聲音，而克隆出來的聲音近乎逼真。

直到不久前，語音克隆，即過去所說的“語音銀行”，還只是個定製業務，為那些有可能因癌症或手術喪失語言能力的人服務。過去，模仿併合成語音耗時漫長，花費不菲。過程中要錄製許多短句，每一句都要以不同的情感側重及根據不同的語境（陳述、疑問、命令等）重複多次，為的是涵蓋所有可能的發音。比利時語音銀行公司阿卡貝拉集團（Acapela Group）對需耗時八小時的錄製過程收取3000歐元（3200美元）的費用。其他公司收費更高，還需要顧客在錄音室裡花上好幾天的時間。

現在，神經網路可以對目標聲音的未排序資料進行訓練，最終以簡單快速、容易的方式，生成一段完整的音訊。當人們將克隆的音訊從裝置中匯出時，音色和音質幾乎不會受到壓縮和影響。

不過，當前人們所應用或者預想的語音合成還只是語音合成的一部分場景，而放眼語音合成更廣闊的未來，還將成為人類一種全新的交流裝置。

當前，許多工程師都致力研發將人腦和電腦進行聯絡的精密系統，並且這項工作也在不斷地改進。儘管現在的系統主要是基於注視和視覺注意——這對於許多患者來說都很難做到，但是解碼聽覺注意和運動想象的系統也在不斷研發中。

未來，透過使用這樣的裝置，一位四肢癱瘓的患者可以成功地用思維控制機械手臂。如果將這種裝置植入大腦的語言區，或許有一天語音合成器就能把患者想說的話真實地傳遞出來。更進一步說，完全癱瘓了的中風患者或許能夠透過一部可以識別個體語言大腦模式的語音合成器“開口說話”。

2019年4月，加州大學舊金山分校的華裔教授愛德華·錢（Edward Chang）及同事開發出一種將腦活動轉為語音的解碼器，這套人類語音合成系統，透過解碼與人類下頜、喉頭、嘴唇和舌頭動作相關的腦訊號，合成被試想要表達的語音。

可以說，過去人類聲音所到達的地方，現在語音合成都在一步步到達，語音合成的應用越發深入地融入人們的生產和生活，也在不經意間改變著人們的生活。

現在，幾近成熟的語音合成已經可以輕鬆又準確地模仿人類講話，不過問題或許也隨之而來。

2014 年，電影《永遠的蝙蝠俠》中知名演員瓦爾·基爾默（Val Kilmer），因患喉癌被迫做氣管切開手術，導致聲音受損。至此，瓦爾·基爾默與許多優秀影片擦肩而過，演藝生涯近乎跌入谷底。而利用語音合成技術就能夠創造出了瓦爾·基爾默的“原聲”。2021年 8 月，一家名為奏鳴曲（Sonantic）的初創公司聲稱，他們已經透過人工智慧語音克隆技術創造出了瓦爾·基爾默的“原聲”。

這種聲音克隆技術使用起來並不複雜，人們只需要拿著事先準備好的臺詞，對著麥克風仔細錄製 30 分鐘左右，即可完成第一步克隆工序。錄製的過程中讀錯字，或者有發音沒有很清晰等情況，只要停下來重新錄製這部分即可。

全部錄製完之後，將生成的音訊檔案匯出並做一定的處理，幾個小時以後人們克隆的聲音就做好了。此刻，人們可以互動介面中輸入各種想表達話語，人工智慧克隆技術就可以在較短的時間內生成專屬自己的“逼真聲音”。

巴黎一家新公司CandyVoice開發了一款手機應用，只要對著它說出約160個法語或英語短語，程式就能將這些發音的片段重組，念出之後打字輸入的任何字句，聽起來和我們自己的聲音頗為神似。這個應用其實是克隆了我們的語音。拼合出的語音聽起來還是有點合成的味道，但CandyVoice的老闆讓·呂克·克萊伯（Jean-Luc Crébouw）認為，公司演算法的改進會令聲音變得越來越自然。

此外還有一款類似的軟體Festvox，由卡內基梅隆大學的語言技術研究所針對英語及四種廣泛使用的印度語言開發。而百度則表示，其開發的軟體僅憑50句話就可以模擬一個人的聲音。

不過，在越來越逼真的語音合成下，也出現了越來越多的擔憂和質疑——假的東西越真，辨別假的成本也越大。從語音合成到影片合成，其中一個嚴重後果，就是對於資訊的真實性形成的嚴峻挑戰。

自從攝影術、影片、射線掃描技術出現以來，視覺文字的客觀性就在法律、新聞以及其他社會領域被慢慢建立起來，成為真相的存在，或者說，是建構真相的最有力證據。“眼見為實”成為這一認識論權威的最通俗表達。在這個意義上，視覺客觀性產自一種特定的專業權威體制，聲音更是作為一個人獨特的標識存在。

然而，合成的技術優勢和遊獵特徵，使得這一專業權威體制遭遇前所未有的挑戰。藉助這一體制生產的視覺文字，深度造假者替換了不同乃至相反的文字內容和意涵，造成了文字的自我顛覆，也就從根本上顛覆了這一客觀性或者真相的生產體制。PS 發明後，有圖不再有真相；而深度偽造技術的出現，則讓影片也開始變得鏡花水月了起來，再加上聲音也不再可信，這對於本來就假訊息滿天飛的網際網路來說，這無疑會造成進一步的信任崩壞。

比如，2021年，一位銀行經理接到公司董事打來的電話：公司安排了一項收購，要從賬戶裡轉出鉅額資金，希望他批准這道流程，還附上了相關律師的電子郵件，以確認金額和轉入賬戶。

這次交易合法合規，流程也並無問題，況且還是老闆親自打的電話，他就按要求將3500萬美元如數轉出。直到轉完賬之後，這位迪拜高管也萬萬沒有想到，電話那頭熟悉的老闆的聲音，其實是用語音克隆技術合成的。這樁詐騙案由福布斯報道，但受害者的名字和其他更多細節沒有透露。據估計，這項精密的計劃至少涉及17人，自去年年初，騙取的資金已經發往全球各地的銀行賬戶。

總的來說，語音合成的可能性真實存在，也被人們清晰地看見，但語音合成的風險也需要人們重視——要知道，一個失去了“真實感”的世界，將會比沒有語音合成的世界更加可怕。

炒股開戶享福利，入金抽188元紅包，100%中獎！

開啟App看更多精彩內容

百聞網

越真實的語音合成，越會面臨的問題是什麼？

相關文章