原標(biāo)題:蘋果發(fā)布論文,揭示 Siri 的秘密 來源:雷鋒網(wǎng)
原標(biāo)題:蘋果發(fā)布論文,揭示 Siri 的秘密
蘋果公司的跨平臺(tái) Siri 虛擬助手在全球有著超過 5 億用戶,顯然,語音識(shí)別是蘋果感興趣的重要領(lǐng)域之一。
上周,蘋果公司發(fā)表了一系列預(yù)印本研究論文,就如何改進(jìn)語音觸發(fā)檢測(cè)和說話人驗(yàn)證,以及多說話人的語言識(shí)別技術(shù)進(jìn)行了研究。
揚(yáng)聲器驗(yàn)證和語音觸發(fā)檢測(cè)
在第一篇論文中,一組蘋果研究人員提出了一個(gè)訓(xùn)練過的人工智能模型,這個(gè)模型既能執(zhí)行自動(dòng)語音識(shí)別任務(wù),也能執(zhí)行說話人識(shí)別任務(wù)。
正如他們?cè)谡兴忉尩?,語音助手識(shí)別的命令通常以觸發(fā)短語(例如,“嘿,Siri”)為前綴,檢測(cè)這個(gè)觸發(fā)短語涉及兩個(gè)步驟。
首先,人工智能必須判斷輸入音頻中的語音內(nèi)容是否與觸發(fā)短語的語音內(nèi)容相匹配(語音觸發(fā)檢測(cè));其次,人工智能必須判斷說話者的語音是否與注冊(cè)用戶或用戶的語音相匹配(語音驗(yàn)證)。
通常情況下,這兩項(xiàng)任務(wù)都是被獨(dú)立考慮的。但有合著者假設(shè),對(duì)語音發(fā)起者的了解可能有助于推斷出聲音信號(hào)中的語音內(nèi)容,反之亦然,這將有助于對(duì)這兩種屬性進(jìn)行評(píng)估。
對(duì)此,研究人員設(shè)計(jì)了三套能夠?qū)W習(xí)語音和說話人信息的模型,并對(duì)一組數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)包含超過 16000 小時(shí)的帶注釋的樣本,其中 5000 小時(shí)的音頻有語音標(biāo)簽(其余的為說話人標(biāo)簽)。
不僅如此,還有超過 100 名受試者使用智能揚(yáng)聲器設(shè)備在一系列聲學(xué)設(shè)置中為語料庫做出貢獻(xiàn),包括安靜的房間、來自房間內(nèi)電視或廚房設(shè)備的外部噪音,以及錄音機(jī)以大音量播放音樂。
值得一提的是,來自電視、廣播和播客的 2000 小時(shí)不包含觸發(fā)短語的連續(xù)音頻記錄也被添加進(jìn)來,以此來測(cè)量“誤報(bào)”率。
這些模型顯示出了學(xué)習(xí)語音和說話人信息的能力,同時(shí)在相同數(shù)量的參數(shù)下(雷鋒網(wǎng)按,控制訓(xùn)練過程某些屬性的變量),每個(gè)任務(wù)的準(zhǔn)確性至少與基線模型相同。
事實(shí)上,在提出的三種模型中,有一種在“多重”設(shè)置下的表現(xiàn)優(yōu)于說話者驗(yàn)證基線,在文本無關(guān)的任務(wù)中相對(duì)于基線提高了 7.6%。
研究人員認(rèn)為,這樣的實(shí)驗(yàn)結(jié)果是十分有趣的,因?yàn)檫@些模型是使用不相關(guān)的數(shù)據(jù)集訓(xùn)練的,也就是說,每個(gè)音頻樣本要么有語音標(biāo)簽,要么有說話人標(biāo)簽,從來沒有兩者都有。
通過對(duì)結(jié)果的觀察,研究人員提出了一種靈活的設(shè)計(jì),通過連接不同的任務(wù)的訓(xùn)練數(shù)據(jù),而不是為每個(gè)訓(xùn)練示例獲取多個(gè)標(biāo)簽,從而在多個(gè)相關(guān)任務(wù)上訓(xùn)練模型。從實(shí)用的角度來看,這樣能夠在兩個(gè)任務(wù)之間共享計(jì)算可以節(jié)省設(shè)備內(nèi)存、計(jì)算時(shí)間或延遲,以及消耗的電量/電池。
錯(cuò)誤觸發(fā)緩解
在研究中,有一項(xiàng)補(bǔ)充研究減少了錯(cuò)誤觸發(fā)的發(fā)生,也就是說,語音助手有意地忽略了像 Siri 這樣的語音助手的語音。
研究人員表示,他們使用了圖形神經(jīng)網(wǎng)絡(luò)(GNN),這是一種操作在圖形結(jié)構(gòu)上的人工智能模型,其中每個(gè)節(jié)點(diǎn)都與一個(gè)標(biāo)簽相關(guān)聯(lián),目標(biāo)是在沒有基礎(chǔ)事實(shí)的情況下預(yù)測(cè)節(jié)點(diǎn)的標(biāo)簽。
在論文中,研究人員寫道:
語音觸發(fā)的智能助手通常在開始監(jiān)聽用戶請(qǐng)求之前就會(huì)檢測(cè)到一個(gè)觸發(fā)短語……錯(cuò)誤的觸發(fā)通常來自于背景噪音或聽起來類似于觸發(fā)短語的語音。因此,減少誤觸發(fā)是構(gòu)建以隱私為中心的非侵入性智能助手的一個(gè)重要方面。
在未來的工作中,該團(tuán)隊(duì)計(jì)劃將基于GNN 的處理擴(kuò)展到其他任務(wù),例如用戶意圖分類。
多語種說話人識(shí)別
在另一篇論文中,蘋果研究人員探索了一種針對(duì)多語言使用者量身定制的說話人語言識(shí)別系統(tǒng)。
他們表示,語音識(shí)別系統(tǒng)對(duì)大多數(shù)語言都有很高的準(zhǔn)確性。但是,當(dāng)有多重語言出現(xiàn)時(shí),這個(gè)語言識(shí)別系統(tǒng)的表現(xiàn)就不盡如人意了。因此,基于這樣的實(shí)施情況,研究人員決定開展說話人語言識(shí)別系統(tǒng)的工作。
值得注意的是,《華盛頓郵報(bào)》近期委托進(jìn)行的一項(xiàng)研究顯示,谷歌和亞馬遜生產(chǎn)的受歡迎的智能音箱聽懂本土用戶的語音比聽懂非美式口音的概率高出了 30%。
同時(shí),像 Switchboard 這樣的語料庫也已經(jīng)被證明對(duì)來自國內(nèi)特定地區(qū)的使用者存在可測(cè)量的傾斜,這個(gè)語料庫還是被 IBM 和微軟等公司用來衡量語音模型錯(cuò)誤率的數(shù)據(jù)集。
針對(duì)這種情況,合著者將有關(guān)使用模式的知識(shí)整合到一個(gè)聽寫系統(tǒng)中,該系統(tǒng)能夠?yàn)閬碜?60 多個(gè)地區(qū)的演講者做出決策。
其中,聲學(xué)子模型將根據(jù)語音信號(hào)所傳遞的證據(jù)進(jìn)行預(yù)測(cè),而上下文感知預(yù)測(cè)組件則考慮了各種交互上下文信號(hào),通過這兩方面的預(yù)測(cè),來選擇最優(yōu)的單語自動(dòng)語音識(shí)別系統(tǒng)。
據(jù)了解,上下文信號(hào)包含了有關(guān)發(fā)出聽寫請(qǐng)求的條件的信息,包括有關(guān)已安裝的聽寫區(qū)域、當(dāng)前選擇的聽寫區(qū)域以及用戶在發(fā)出請(qǐng)求之前是否切換了聽寫區(qū)域的信息。
重要的是,它們有助于在語音信號(hào)太短的情況下,依靠聲學(xué)模型產(chǎn)生一個(gè)可靠的預(yù)測(cè)。比如說,如果用戶同時(shí)安裝了英語和德語,像“naIn ”這樣的短而模糊的語句,在德語中可能是否定的“nein”,在英語中則是數(shù)字“nine”。
另外,為了評(píng)估該系統(tǒng),研究人員還開發(fā)了一種自定義指標(biāo),稱為“平均用戶準(zhǔn)確度”(雷鋒網(wǎng)按,AUA,Average User Accuracy),他們認(rèn)為這種指標(biāo)能更好地反映模型中的“人口水平”使用模式。
通過對(duì)多語言使用者的 128,000 個(gè)具有相應(yīng)交互上下文信息的聽寫話語的內(nèi)部語料庫進(jìn)行嚴(yán)格訓(xùn)練,它在所有語言組合中實(shí)現(xiàn)了平均 87% 的準(zhǔn)確性,同時(shí)將最差情況下的準(zhǔn)確性相對(duì)于基線提高了 60% 以上。
此外,在團(tuán)隊(duì)調(diào)整參數(shù)以平衡準(zhǔn)確性和延遲與在設(shè)備上運(yùn)行模型的計(jì)算負(fù)載之后,平均延遲從 2 秒減少到 1.2 秒,而對(duì) AUA 的影響不超過 0.05%。
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))注:本文編譯自 venturebeat