谷歌引入尖端NLP技術搜尋引擎查詢效果提高10%

發佈日期 2019-10-26 20:25:55

據外媒報導，谷歌目前正在對其核心搜尋演演算法進行調整，稱這可能會幫助搜尋查詢效果提高10%。谷歌引入了其研究人員開發的尖端自然語言處理(NLP)技術，並在過去10個月中將其應用於搜尋產品中。

本質上，谷歌聲稱其可透過更好地理解句子中單詞之間的關係來提高搜尋結果。谷歌研究員兼搜尋業務副總裁潘杜·納亞克(Pandu Nayak)表示，老版谷歌搜尋演演算法將句子分解成“一連串的單詞”，並分析重要單詞的意思，從而給出簡單的本地搜尋結果。而新的演演算法能夠理解上下文語境，進而給出更精確準確的結果。

谷歌調整後的搜尋演演算法基於語言表達模型BERT，即“Bidirectional Encoder Representations from Transformers”的縮寫，它將句子作為整體來看待，更注重句子的整體意義。谷歌高階研究員兼研究高階副總裁傑夫·迪恩(Jeff Dean)表示，隨著時間的推移，這種培訓在讓NLP模型“理解”上下文方面變得非常有效。

谷歌表示，它在過去幾天始終在推動演演算法改進，這應該會影響到美國約10%的英語搜尋查詢結果，其他語種的改進將在稍後討論。

對搜尋的所有改進都會經過一系列測試，以確保它們確實改善了查詢結果。其中一項測試涉及使用谷歌的核心人類評審員，他們透過對搜尋結果的質量進行評級來培訓公司的演演算法。此外，谷歌還會進行實時A/B測試。

當然，並不是每個查詢都會受到BERT的影響，這只是谷歌用來對搜尋結果進行排名的諸多不同工具中最新的一個。這些工具到底是如何相容工作的，這仍然是個謎。谷歌有意將其中某些過程保秘，以防止垃圾郵件傳送者對其系統進行欺騙。

除此之外，保密的另一個重要原因是：當計算機使用機器學習技術做出決定時，很難知道它做出這些選擇的原因。機器學習的所謂“黑匣子”是個棘手問題，因為如果結果在某種程度上是錯誤的，那麼很難診斷原因。

谷歌表示，該公司已經努力確保在搜尋演演算法中加入BERT後不會增加偏差，這是機器學習中的一個常見問題，機器學習的訓練模型本身也是存在偏差的。由於BERT是在巨大英語句子語料庫上訓練的，這些句子本身也是有偏見的，所以這是個需要密切關注的問題。

該公司還表示，預計其新演演算法在引導流量方面不會出現重大變化，至少對於大型出版商而言是這樣。每當谷歌發出改變其搜尋演演算法的訊號時，整個網路都會加以密切關注，畢竟谷歌搜尋排名的變化有時候決定了公司的生死存亡。

每個依靠網路流量賺錢的人絕對應該注意到這一點。當談到其搜尋結果的質量時，納亞克說：“這是我們在過去五年中經歷的最積極的變化，也可能是公司成立以來最大的變化之一。”