關(guān)于在機器學習期刊中解釋Hey Siri個性化

2022-06-27 18:51:01 編輯：支倫彪來源：

導讀在Apple的《機器學習期刊》上的新帖子中，該公司解釋了 Hey Siri語音激活功能背后的個性化工作原理，以減少誤報次數(shù)。該期刊指向較早

在Apple的《機器學習期刊》上的新帖子中，該公司解釋了“ Hey Siri”語音激活功能背后的個性化工作原理，以減少誤報次數(shù)。該期刊指向較早的條目，該條目描述了“ Hey Siri”檢測器的一般技術(shù)方法和實現(xiàn)細節(jié)以及更一般的，獨立于說話者的“關(guān)鍵短語檢測”問題，并以此作為基礎(chǔ)。最新論文重點介紹了蘋果公司在開發(fā)基本的說話人識別系統(tǒng)中所采用的機器學習技術(shù)，以減少附近其他人觸發(fā)的聽起來像“嘿Siri”的誤報的數(shù)量。

蘋果在2014年的iPhone 6首次亮相時推出了“嘿Siri”，盡管該功能最初需要將iPhone連接到電源。直到一年后iPhone 6s首次亮相，“永遠在線的Hey Siri”才問世，這要歸功于新的低功耗協(xié)處理器，它可以提供連續(xù)的聆聽而不會消耗大量電池。同時，該功能還通過添加新的“培訓模式”在iOS 9中得到了進一步改進，以幫助在初始設(shè)置過程中使Siri適應特定iPhone用戶的聲音。

本文繼續(xù)說明，“ Hey Siri”一詞最初被選擇為盡可能自然，并補充說，即使在引入該功能之前，Apple發(fā)現(xiàn)許多用戶在使用了“ Hey Siri”之后自然會以“ Hey Siri”開始他們的Siri請求。主頁按鈕將其激活。但是，該短語的“簡潔明了”是一把雙刃劍，因為它也有可能導致更多的誤報。正如Apple解釋的那樣，早期的實驗表明，意外激活的數(shù)量過多，與正確調(diào)用的“合理速率”不成比例。因此，Apple的目標是利用機器學習技術(shù)來減少“錯誤接受”的數(shù)量，以確保Siri僅在主要用戶說“嘿Siri，

蘋果公司補充說，說話者識別技術(shù)的“總體目標”是通過語音確定一個人的身份，并提出了可能提供額外個性化甚至是身份驗證的長期計劃，尤其是考慮到蘋果HomePod等多用戶設(shè)備。目標是確定“誰在說話”，而不是簡單地說出什么。本文繼續(xù)說明“基于文本的說話者識別”之間的區(qū)別，其中識別基于已知短語(例如“ Hey Siri”)，以及“文本無關(guān)”的說話人識別這一更具挑戰(zhàn)性的任務，即識別用戶而不管他們說什么。

也許最有趣的是，該期刊解釋了Siri如何繼續(xù)“隱式”訓練自己以識別用戶的聲音，即使在明確的注冊過程(要求用戶在初始設(shè)置過程中說出五個不同的“ Hey Siri”短語)完成后也是如此。在初始設(shè)置之后，隱式過程將繼續(xù)對Siri進行訓練，方法是分析其他“ Hey Siri”請求并將其添加到用戶的個人資料中，直到總共存儲了40個樣本(稱為“揚聲器矢量”)為止，其中包括原始的五個明確的培訓過程。然后，使用此說話人向量集合將其與將來的“ Hey Siri”請求進行比較，以確定其有效性。蘋果還注意到，每個發(fā)聲波形的“ Hey Siri”部分也本地存儲在iPhone上，因此，每當iOS更新中包含改進的轉(zhuǎn)換時，就可以使用這些存儲的波形來重建用戶配置文件。本文還提出了一個不需要明確的注冊步驟的未來，并且用戶可以從空的配置文件中開始使用“ Hey Siri”功能，該功能會不斷增長和更新。但是，目前看來，顯式訓練對于提供基線以確保以后的隱式訓練的準確性很有必要。

考慮到蘋果對隱私的態(tài)度，這并不奇怪，但仍然值得注意的是，所有這些計算和用戶語音配置文件的存儲僅發(fā)生在每個用戶的iPhone上，而不是在蘋果的任何服務器上進行，這表明此類配置文件當前未在設(shè)備。但是，隨著Apple改進其演講者識別技術(shù)，似乎合理的做法是，將來可以使用某些安全同步方法(例如iCloud鑰匙串)來同步此數(shù)據(jù)，不僅跨iOS設(shè)備，而且還可以與諸如Apple HomePod之類的揚聲器同步。。

標簽：

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！