2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
谷歌目前正在對其核心搜索算法進行更改,該算法表示可以更改十分之一查詢中結(jié)果的排名。它基于Google研究人員開發(fā)的尖端自然語言處理(NLP)技術(shù),并在過去10個月中應用于其搜索產(chǎn)品。
本質(zhì)上,Google聲稱它通過更好地了解單詞在句子中的相互關(guān)系來改善結(jié)果。谷歌昨天在一次新聞發(fā)布會上討論了一個例子,其搜索算法能夠解析以下短語的含義:“你能為藥房買藥嗎?”
Google研究員兼搜索副總裁Pandu Nayak認為,舊的Google搜索算法將該句子視為“單詞袋”。因此,它查看了重要的詞,醫(yī)學和藥學,并簡單地返回了本地結(jié)果。新算法能夠理解“為某人”一詞的上下文,以意識到這是一個有關(guān)您是否可以接受他人處方的問題-并且返回了正確的結(jié)果。
以前,GOOGLE將查詢視為“一句話”
經(jīng)過調(diào)整的算法基于BERT,它代表“來自變壓器的雙向編碼器表示形式”。首字母縮略詞的每個單詞都是NLP中的一個術(shù)語,但要點是BERT看起來不像一袋單詞那樣對待句子整個句子中的所有單詞。這樣做可以使人們認識到“為某人”一詞不應該被丟棄,而是對句子含義必不可少的。
BERT認識到應該注意這些單詞的方式基本上是通過在《瘋狂的里伯斯》(Mad Libs)的泰坦尼克號游戲中進行自學而實現(xiàn)的。Google提取了一個英語句子集,并隨機刪除了15%的單詞,然后BERT的任務就是弄清楚這些單詞應該是什么。Google高級研究員兼研究高級副總裁Jeff Dean認為,隨著時間的流逝,這種培訓對于使NLP模型“理解”環(huán)境非常有效。
Google引用的另一個示例是“無路邊停車”。“ no”一詞對于此查詢至關(guān)重要,在搜索中實施BERT之前,Google的算法就忽略了這一點。
谷歌表示,在過去的幾天中,它一直在推出算法更改,而且,它再次影響了在用英語進行的搜索查詢的大約10%。其他語言和將在以后介紹。
搜索的所有更改均經(jīng)過一系列測試,以確保它們實際上在改善結(jié)果。其中一項測試涉及使用Google的人工審核人員隊伍,他們通過評估搜索結(jié)果的質(zhì)量來培訓該公司的算法-Google還會進行實時A / B實時測試。
并非每個查詢都會受到BERT的影響,它只是Google用于對搜索結(jié)果進行排名的許多不同工具中的最新工具。究竟如何將它們完美地結(jié)合在一起,這還是一個謎。Google故意將其中的某些過程神秘化,以防止垃圾郵件發(fā)送者玩弄其系統(tǒng)。但是由于另一個重要原因,它也很神秘:當計算機使用機器學習技術(shù)做出決策時,可能很難知道為什么要做出這些選擇。
BERT可能會影響所有GOOGLE搜索的10%
所謂的機器學習“黑匣子”是一個問題,因為如果結(jié)果在某種程度上是錯誤的,則可能很難診斷原因。谷歌表示,它已經(jīng)努力確保將BERT添加到其搜索算法中不會增加偏見-這是機器學習的一個普遍問題,其訓練模型本身是有偏見的。由于BERT受過龐大的英語句子的訓練,而這些句子本身也帶有偏見,因此需要密切注意。
該公司還表示,至少在大型發(fā)行商看來,它預計算法不會直接或間接影響流量。每當Google提出更改搜索算法的信號時,整個網(wǎng)絡就會出現(xiàn)并引起注意。谷歌搜索排名的變化使公司生死存亡。
每個在網(wǎng)絡流量上賺錢的人都應該引起注意。說到搜索結(jié)果的質(zhì)量,Payak說:“這是我們過去五年中最大,最積極的變化,也許是自開始以來最大的變化。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。