Google新PR:以鏈接距離爲基礎的頁面級別

Google PR是Google诞生以来最具知名度的概念,以至于很多人认为Google PR的意義更多在于公關炒作,而不是排名算法。2016年4月,Google取消了工具條輸出PR值的顯示,站長們再也看不到最新的PR值了,也有很多SEO認爲Google完全取消了PageRank算法。現在的Google排名算法中還有PageRank嗎?衆說紛纭。

Google從2006年就不再使用PageRank了

前天,一位自称的前 Google软件工程师在Hacker News的一个讨论Google替代品的帖子中透露,Google早在2006年就不再使用Google PR了:

The comments here that PageRank is Google’s secret sauce also aren’t really true – Google hasn’t used PageRank since 2006. The ones about the search & clickthrough data being important are closer…

翻譯過來的意思是:

评论里说PageRank是Google秘方的说法并不正确 — 从2006年Google就不再用 PageRank了。关于搜索和点击率数据很重要的说法还比较靠谱……

說得很明確,Google算法早就不再使用PageRank了。

另外,點擊率也是Google算法重要排名因素之一,但到目前爲止,真實有效的Google點擊器或Google快排這種東西還沒有誕生,而百度對百度快排貌似已經放棄治療了…這個是另一個話題,暫且不提。

這是真的嗎?

为了验证这位前Google员工身份,SEO们已经做了人肉分析,结论是大概率是真的。这位员工名字是Jonathan Tang,Twitter賬號在此,2009年至2014年在Google工作,他的Hacker News账号是2007年注册的,不大可能用这么老的账号来胡扯或造谣。

而且,這些年Google與SEO行業的官方溝通人JohnMu在Twitter上評論此事時並沒有否認,只是說:

SEO們應該知道,20年來Google工程師不可能沒有對搜索做出修改。

所以,虽然没有官方认证,但应该是真的。其实,Matt Cutts等人很早以前也表示过,Google算法肯定还是考虑链接的,而且链接依然是最重要的排名因素,PageRank以及Google排名的基本原理没有变化,但不可能这么多年原样不动地用PageRank的原始版本,肯定是修改过的了。

JohnMu去年也直接評論過PageRank的使用情況,表示現在的Google算法不可能還是一比一地原樣用PageRank的最初公式。

那麽2006年以後工具條顯示的PR是什麽鬼?

前面提到,Google是從2016年取消工具條顯示PR的,如果2006年就不再用PR了,那麽2006年到2016年工具條上顯示的PageRank是什麽東西?

而且Google的另一位发言人Gary Illyes在2017年还发推明确说:“你们不知道吗,Google在18年后依然在排名算法中使用PageRank(还有几百个其它信号)。”

所以到底是在用還是不用了?

Jonathan Tang后续又解释了一下:

他們2006年用另一個算法取代了PR,那個算法給出的結果大致和PR相似,但計算速度快得多。工具條顯示的宣稱是PR的數值就是這個替代算法的結果。這個替代算法的名字都和PageRank相似,所以Google這麽宣稱,在技術上也不能說是錯的。

所以,從2006年開始,Google算法中使用的、工具條所顯示的,都不是原始PageRank計算公式的結果,而是一個結果類似、名稱類似、計算速度快得多的算法。

我們姑且稱之爲Google新PageRank吧。

那么这个Google新PR的计算原理是什么?Jonathan Tang没说,连真实名称也没说,大家只能猜测了。

疑似Google新PageRank專利

Jonathan Tang的帖子后面,专门研究Google专利的大神Bill Slawski发了个回複:

Google的新版本PageRank專利2006年通過。巧合?

Bill Slawski去年发帖详细介绍过这个新版本PageRank专利,这两天又仔细读了一下專利原文和Bill Slawski的帖子,這裏介紹一下大意。

专利名称是Producing a ranking for pages using distances in a web-link graph – 基于链接距离的页面级别计算。

簡單說,新PageRank不再計算導入鏈接的總數,而是計算這個頁面與種子頁面之間的距離,距離越近,頁面質量越高,頁面級別、新PageRank越高。這個思路和Yahoo!的TrustRank是極爲相近的,基本假設都是:好網站不會鏈接向壞網站,但會鏈接向其它好網站。

種子頁面、鏈接長度、鏈接距離

这个专利涉及几个概念。种子页面(Seed Pages)、链接长度(Link Length)、链接距离(Link Distance)。

种子页面(Seed Pages)

如上面的簡單網絡鏈接圖所示,Google選出一部分頁面作爲種子頁面,如圖中上半部分的頁面106、108、110,下半部分的都是種子頁面集之外的、需要計算新PR值的。

關于種子頁面的幾個要點:

  • 種子頁面顯然是高質量的頁面,專利裏舉的例子是Google目錄(其實就是已經死了的開放目錄)和紐約時報。
  • 種子頁面需要與其它非種子頁面有很好的連通性,有比較多的導出鏈接指向其它高質量頁面。
  • 種子頁面需要穩定可靠,有多樣性,大範圍覆蓋各類主題。

链接长度(Link Length)

種子和非種子之間有的離得近,有的離得遠。如種子頁面106通過鏈接132直接連向非種子頁面112,非種子頁面118則沒有種子頁面直接連向它,要通過兩層鏈接。

鏈接距離並不是簡單地數鏈接層數。每個鏈接Google會計算一個鏈接長度,鏈接長度取決于鏈接本身的特征和鏈接所在頁面的特征,比如頁面上有多少鏈接,鏈接的位置,鏈接文字所用字體等等。

所以,同樣是一個鏈接,鏈接長度是不一樣的:

  • 頁面導出鏈接越多,鏈接長度越長。這和原始PageRank思路是一樣的,導出鏈接越多,每個鏈接分到的權重越少。
  • 鏈接所在位置越重要,比如正文中,正文靠前部分,鏈接長度越短。
  • 鏈接錨文字字號越大,或者在H1中,可能鏈接長度越短。

我记得Matt Cutts很久以前在谈到PageRank可能的修正时提到过,正文中的链接和页脚的链接被用户点击到的概率显然差距很大,所以不同位置的链接获得的PR和权重应该是不一样的。这种说法很符合这个专利的意思。

链接距离(Link Distance)

鏈接距離就是頁面與種子頁面集合之間的最短鏈接長度之和。種子頁面和非種子頁面之間通常不止一條鏈接通路,如示意圖中,頁面118可以通過鏈接132、136從種子頁面106到達,也可以通過鏈接134、142、140到達,還可以通過鏈接134、140到達,還可以通過其它鏈接從其它種子頁面到達,所有這些從種子集到頁面的鏈接通路中,鏈接長度之和最短的那個被定義爲鏈接距離。

如果一個頁面無法從任何種子頁面出發訪問到,也就是種子頁面集合到這個頁面完全沒有鏈接通路,那麽鏈接距離是無限大。

然後Google算法根據鏈接距離計算出一個頁面的排名能力分數,也就是新PR值,最後的排名算法中,這個新PR值作爲排名因素之一。也就是說,鏈接距離越短,離種子越近,Google認爲頁面越重要,排名能力越高。

鏈接距離的計算不需要叠代,所以比原版PageRank的計算要快得多,而在代表頁面重要性上,我相信Google做過對比,准確性差不多,所以就用來代替原來的PR了。

简化链接网络图(Reduced Link-Graph)

专利最后面提到了另一个概念:简化链接网络图(Reduced Link-Graph),不过没有再说明这个概念有什么用,用一个段落说了简化链接网络图这个概念后专利就结束了。不过简化链接网络图有可能和链接质量判断、Penguin算法更新等相關。

在前面示意圖中,所有頁面之間的所有鏈接組成一個完整的鏈接網絡圖,其中只由最短鏈接距離通路組成的鏈接被稱爲簡化鏈接網絡圖,也就是用來計算新PR值的那些鏈接。顯然,簡化鏈接網絡圖是完整鏈接網絡的一個子集,不過每個頁面的鏈接距離都已經保留在簡化鏈接網絡圖中了,去掉的那些鏈接對頁面鏈接距離和新PR值沒有影響。在簡化鏈接網絡圖中,每個頁面獲得的鏈接權重來源都是可以回溯到最近的種子頁面的。

如果一個頁面從種子集合完全沒有鏈接通路可以到達,也就是前面說的鏈接距離爲無限大,這個頁面將被排除在簡化鏈接網絡圖之外。如果一個頁面得到的鏈接都來自簡化鏈接網絡之外,雖然鏈接總數可能很大,但其鏈接距離依然是無限大。

换句话说,在简化链接网络之外的链接是被忽略掉的,无论有多少链接。联想到Penguin 4.0算法更新,其中一个特征就是,垃圾链接是被忽略掉的,不被计入链接的流动中,这和基于链接距离的页面级别非常相似。

作者: Zac@抢庄斗牛
版權屬于: 中新虛擬主機
版權所有。轉載時必須以鏈接形式注明作者和原始出處及本聲明。

33 条评论 “Google新PR:以鏈接距離爲基礎的頁面級別

  1. 可能還有更多我們不知道的修正算法,要不然新站與偏站恐怕很難納入其鏈接網絡。個人猜測,至少應該有一個“爛種子頁面”,以此界定不良網站。而與好種子與爛種子皆無聯系的站,可能會被納入下一輪算法判定。

    至于本機制,也不能直接刻畫內容原創性的重要性,就此猜測,在頁面整體評判的權重不甚高,或者並未貫穿整個網站發展生命線。

  2. 想問一下老師關于網站首選域的問題:
    網站首選域確定爲:https://www.zhisiedu.cn,那麽網站代碼的內部鏈接都用相對路徑(/XXX.html)有影響嗎?是否集權?

  3. 若如此,知道種子頁面的範圍後,就能很好針對性地優化鏈接。即將鏈接放到直接的種子頁面,或者種子頁面的出站鏈接域名上。

    想必,也不用費力不討好的去群發垃圾鏈接了。

  4. 我的網站www.xabbhr.com,在7月份所有排名掉完了,收錄也減少了一些,但是現在每天發的文章當天就收錄了,也不知道網站是怎麽了,有沒有誰能幫我看看網站是不是被降權了?

  5. Zac
    按道理新PR機制有效的話,那PBN系統應該就沒有效果了吧,PBN裏的站點不太可能比主站離種子站更近吧,那PBN不是被繞過去了嗎

留個言呗:

您的郵箱不會被顯示在頁面上。標有*的是必填項。