
可以說(shuō)PageRank成就了Google,與之類似的算法體系也成就了全球最出色的幾個(gè)搜索引擎。但是任何事物都會(huì)有其生命周期,PageRank也不例外。而且作為搜索巨頭的谷歌,它自己也在不斷反思研究,也許未來(lái)PageRank依然存在,但其實(shí)內(nèi)涵將徹底變化。
不是我危言聳聽(tīng),說(shuō)“PageRank過(guò)時(shí)”或者“不科學(xué)”,早就有相關(guān)的言論和分析了。具體大家可以參考一下題為“PageRank行將過(guò)時(shí)搜索引擎遭遇范式轉(zhuǎn)移”的文章,其中從技術(shù)的角度闡述了PageRank的種種局限。
在過(guò)去10多年,可以說(shuō)PageRank成就了Google,與之類似的算法體系也成就了全球最出色的幾個(gè)搜索引擎。但是任何事物都會(huì)有其生命周期,PageRank也不例外。而且作為搜索巨頭的谷歌,它自己也在不斷反思研究,也許未來(lái)PageRank依然存在,但其實(shí)內(nèi)涵將徹底變化。
為什么PageRank將越來(lái)越過(guò)時(shí)?
我們來(lái)看一下,PageRank算法的基本規(guī)則是:某個(gè)網(wǎng)頁(yè)被鏈接得越多,則該網(wǎng)頁(yè)的等級(jí)和重要性越大,從而在相關(guān)性排序中也就越靠前。當(dāng)然,傳統(tǒng)搜索還有很多排序規(guī)則來(lái)輔助PageRank,讓其精準(zhǔn)性得到進(jìn)一步提高。
我曾請(qǐng)教過(guò)搜狗的CEO王小川,他提到,為什么Google要做Chrome?拋開(kāi)云計(jì)算、操作系統(tǒng)等戰(zhàn)略考慮,其中一個(gè)很重要的原因在于,利用瀏覽器可以分析用戶對(duì)網(wǎng)站的訪問(wèn)行為,從而對(duì)PageRank規(guī)則形成補(bǔ)充。因?yàn)镻ageRank只管網(wǎng)頁(yè)鏈接的情況,卻不關(guān)心用戶的真正點(diǎn)擊行為。
這個(gè)小例子可以證明PageRank的過(guò)時(shí),或者說(shuō)起碼它不完善。但這并不是PageRank的致命傷,它的真正問(wèn)題在于——它只考慮了網(wǎng)站自身的權(quán)重,而不關(guān)心關(guān)鍵詞提交者的意圖和所處的狀況。
我舉個(gè)簡(jiǎn)單的例子:同樣檢索“非誠(chéng)勿擾”,PageRank會(huì)根據(jù)自己的算法給出網(wǎng)頁(yè)權(quán)威度的一個(gè)排序結(jié)果。但實(shí)際上網(wǎng)友的需求可能是檢索“費(fèi)城(非誠(chéng))勿擾”相親節(jié)目,也可能是電影??赡苡腥艘f(shuō),這應(yīng)該是語(yǔ)義分析應(yīng)該做的事,PageRank只是根據(jù)鏈接關(guān)系進(jìn)行排序,但兩者很難徹底割裂看來(lái),更合適是的是根據(jù)不同主題給出不同的重要度排序,現(xiàn)在也有這方面的改進(jìn)和嘗試。隨著人類對(duì)信息獲取需求的提高,搜索會(huì)越來(lái)越聰明,需要考慮更多越來(lái)越多的因素。
情境搜索的興起
最近Google第一次提到了“情境”這個(gè)詞,具體技術(shù)是“情境發(fā)現(xiàn)”(contextual discovery),據(jù)說(shuō)2011年會(huì)有應(yīng)用上線。 “情境發(fā)現(xiàn)”從本質(zhì)上,就是在搜索中,加入更多“人”的因素——用戶的瀏覽習(xí)慣、所處的地理位置等,搜索方式也會(huì)有新的變革,比如主動(dòng)推送。顯然,Google已意識(shí)到這個(gè)問(wèn)題。
Facebook興起后,被視為Google的顛覆者。顛覆Google,不是因?yàn)镕acebook流量已實(shí)現(xiàn)超越,而是Facebook對(duì)人的了解將遠(yuǎn)遠(yuǎn)超過(guò)Google。這對(duì)Google未來(lái)的搜索戰(zhàn)略是極大的障礙。所以Google十分重視社交網(wǎng)絡(luò),在我看來(lái),這并非Google覬覦社交網(wǎng)站,而更多是出于一種自衛(wèi)。
而中國(guó)的Facebook騰訊從2009年就提出了“情境搜索”概念,和Google的“情境發(fā)現(xiàn)”頗有異曲同工之妙。到目前,基于這一概念的應(yīng)用已經(jīng)上線了一些應(yīng)用,比如針對(duì)QQ表情的“表情搜索”,再比如你在和好友聊“非誠(chéng)勿擾2”,觸發(fā)搜索后即是電影介紹、預(yù)告片、影評(píng)、播放影院等,甚至還將包括在線預(yù)訂、購(gòu)買等后續(xù)服務(wù)。
這顯然和PageRank體系的核心有很大區(qū)別。決定搜索結(jié)果及排序的規(guī)則,多出了很多維度,比如上下文關(guān)聯(lián)、瀏覽習(xí)慣、搜索者所處