2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在Apple的《機器學習期刊》上的新帖子中,該公司解釋了“ Hey Siri”語音激活功能背后的個性化工作原理,以減少誤報次數(shù)。該期刊指向較早的條目,該條目描述了“ Hey Siri”檢測器的一般技術(shù)方法和實現(xiàn)細節(jié)以及更一般的,獨立于說話者的“關(guān)鍵短語檢測”問題,并以此作為基礎(chǔ)。最新論文重點介紹了蘋果公司在開發(fā)基本的說話人識別系統(tǒng)中所采用的機器學習技術(shù),以減少附近其他人觸發(fā)的聽起來像“嘿Siri”的誤報的數(shù)量。
蘋果在2014年的iPhone 6首次亮相時推出了“嘿Siri”,盡管該功能最初需要將iPhone連接到電源。直到一年后iPhone 6s首次亮相,“永遠在線的Hey Siri”才問世,這要歸功于新的低功耗協(xié)處理器,它可以提供連續(xù)的聆聽而不會消耗大量電池。同時,該功能還通過添加新的“培訓模式”在iOS 9中得到了進一步改進,以幫助在初始設(shè)置過程中使Siri適應特定iPhone用戶的聲音。
本文繼續(xù)說明,“ Hey Siri”一詞最初被選擇為盡可能自然,并補充說,即使在引入該功能之前,Apple發(fā)現(xiàn)許多用戶在使用了“ Hey Siri”之后自然會以“ Hey Siri”開始他們的Siri請求。主頁按鈕將其激活。但是,該短語的“簡潔明了”是一把雙刃劍,因為它也有可能導致更多的誤報。正如Apple解釋的那樣,早期的實驗表明,意外激活的數(shù)量過多,與正確調(diào)用的“合理速率”不成比例。因此,Apple的目標是利用機器學習技術(shù)來減少“錯誤接受”的數(shù)量,以確保Siri僅在主要用戶說“嘿Siri,
蘋果公司補充說,說話者識別技術(shù)的“總體目標”是通過語音確定一個人的身份,并提出了可能提供額外個性化甚至是身份驗證的長期計劃,尤其是考慮到蘋果HomePod等多用戶設(shè)備。目標是確定“誰在說話”,而不是簡單地說出什么。本文繼續(xù)說明“基于文本的說話者識別”之間的區(qū)別,其中識別基于已知短語(例如“ Hey Siri”),以及“文本無關(guān)”的說話人識別這一更具挑戰(zhàn)性的任務,即識別用戶而不管他們說什么。
也許最有趣的是,該期刊解釋了Siri如何繼續(xù)“隱式”訓練自己以識別用戶的聲音,即使在明確的注冊過程(要求用戶在初始設(shè)置過程中說出五個不同的“ Hey Siri”短語)完成后也是如此。在初始設(shè)置之后,隱式過程將繼續(xù)對Siri進行訓練,方法是分析其他“ Hey Siri”請求并將其添加到用戶的個人資料中,直到總共存儲了40個樣本(稱為“揚聲器矢量”)為止,其中包括原始的五個明確的培訓過程。然后,使用此說話人向量集合將其與將來的“ Hey Siri”請求進行比較,以確定其有效性。蘋果還注意到,每個發(fā)聲波形的“ Hey Siri”部分也本地存儲在iPhone上,因此,每當iOS更新中包含改進的轉(zhuǎn)換時,就可以使用這些存儲的波形來重建用戶配置文件。本文還提出了一個不需要明確的注冊步驟的未來,并且用戶可以從空的配置文件中開始使用“ Hey Siri”功能,該功能會不斷增長和更新。但是,目前看來,顯式訓練對于提供基線以確保以后的隱式訓練的準確性很有必要。
考慮到蘋果對隱私的態(tài)度,這并不奇怪,但仍然值得注意的是,所有這些計算和用戶語音配置文件的存儲僅發(fā)生在每個用戶的iPhone上,而不是在蘋果的任何服務器上進行,這表明此類配置文件當前未在設(shè)備。但是,隨著Apple改進其演講者識別技術(shù),似乎合理的做法是,將來可以使用某些安全同步方法(例如iCloud鑰匙串)來同步此數(shù)據(jù),不僅跨iOS設(shè)備,而且還可以與諸如Apple HomePod之類的揚聲器同步。 。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。