如何使用AI將自然語言說明植根于智能手機應用程序操作

2020-07-14 08:40:04 編輯：來源：國際品牌資訊

導讀谷歌正在研究如何使用AI將自然語言說明植根于智能手機應用程序操作。在2020年計算語言學協(xié)會(ACL)會議接受的一項研究中，該公司的研究人員

谷歌正在研究如何使用AI將自然語言說明植根于智能手機應用程序操作。在2020年計算語言學協(xié)會(ACL)會議接受的一項研究中，該公司的研究人員提出了語料庫來訓練模型，以減輕需要通過應用進行操縱的需求，這可能對視力障礙者有用。

當協(xié)調(diào)工作并完成涉及一系列動作的任務(wù)時(例如，按照制作生日蛋糕的食譜)，人們會相互提供指示?？紤]到這一點，研究人員著手為可以幫助進行類似交互的AI代理建立基準。給定一組指令，這些代理將理想地預測一系列應用程序動作以及在應用程序從一個屏幕過渡到另一個屏幕時生成的屏幕和交互元素。

研究人員在論文中描述了一個兩步解決方案，包括一個動作短語提取步驟和一個接地步驟。動作短語提取使用Transformer模型從多步驟指令中識別操作，對象和參數(shù)描述。(模型中的“區(qū)域關(guān)注”模塊允許它整體上處理指令中的一組相鄰單詞，以對描述進行解碼。)接地將提取的操作和對象描述與屏幕上的UI對象進行匹配，再次使用一種Transformer模型，但可以在上下文中表示UI對象并為其基礎(chǔ)對象描述。

合著者創(chuàng)建了三個新的數(shù)據(jù)集來訓練和評估他們的動作短語提取和基礎(chǔ)模型：

第一個包含187條多步驟英文說明，用于操作Pixel手機及其相應的操作屏幕序列。

第二個包含來自網(wǎng)絡(luò)的英文“操作方法”說明以及描述每個動作的帶注釋短語。

第三個包含295,000個單步命令，這些命令用于UI動作，這些動作來自公共Android UI語料庫的25,000個移動UI屏幕上的178,000個UI對象。

他們報告說，關(guān)注區(qū)域的變壓器在預測與地面真實情況完全匹配的跨度序列時可達到85.56%的準確度。同時，在將語言指令端到端映射到更具挑戰(zhàn)性的任務(wù)時，短語提取器和基礎(chǔ)模型一起獲得89.21%的局部準確度和70.59%的完全準確度，以匹配地面真實動作序列。

研究人員斷言，數(shù)據(jù)集，模型和結(jié)果(所有這些數(shù)據(jù)集，模型和結(jié)果都可以從GitHub上的開放源代碼獲得)為解決將自然語言指令扎根于移動UI動作這一具有挑戰(zhàn)性的問題邁出了重要的第一步。

“這項研究以及總體上的語言基礎(chǔ)，是將多階段指令轉(zhuǎn)換為圖形用戶界面上的動作的重要一步。成功地將任務(wù)自動化應用于UI域有潛力顯著提高可訪問性，其中語言界面可以幫助視力障礙的人使用看得到的界面執(zhí)行任務(wù)。”“當人們在手頭的任務(wù)所困擾的情況下無法輕松訪問設(shè)備時，這對于情況損害也很重要。”