抢庄斗牛 Zac的SEO博客,堅持13年,優化成爲生活。唯一排名始終堅挺在百度、谷歌首頁的網站。需要SEO服務、顧問和培訓的公司歡迎找我。 Fri, 13 Sep 2019 11:51:13 +0000 en-US hourly 1 https://wordpress.org/?v=5.3.2 nofollow標簽的作用有重大變化 /seo-tips/nofollow-as-hint/ /seo-tips/nofollow-as-hint/#comments Tue, 10 Sep 2019 19:08:01 +0000 /?p=5714 幾個小時前,Google官方博客發了個帖子:Evolving “nofollow” – new ways to identify the nature of links (演变中的nofollow – 判断链接性质的新方法),公布从今天开始,nofollow标签的作用和Google处理nofollow的方法有了重大变化。

nofollow標簽的曆史

經典的nofollow標簽作用和使用方法以前的帖子寫過,詳情讀者可以參考以前帖子。

nofollow標簽(准確說是屬性,不過約定俗成,還是叫標簽吧)是Google和Yahoo等搜索引擎2005年推出的,目的是告訴搜索引擎不要跟蹤加了nofollow的鏈接,不要傳遞鏈接權重,不要在搜索算法中計算這個鏈接。百度也支持nofollow標簽。

nofollow最初的目的是加在論壇、博客留言之類的地方,因爲這些地方的鏈接是別的用戶加的,並不是站長對其它網站的一個投票。很快nofollow也被廣泛使用在廣告、贊助鏈接上,因爲這種鏈接也不應該被視爲一個投票。

既然搜索引擎基本上忽略nofollow鏈接,nofollow鏈接指向的頁面不會獲得權重,SEO們又開始用nofollow控制內部鏈接權重的流動。不過Google不建議這種用法,並明確告訴SEO們,nofollow標簽是會浪費權重的。用nofollow控制內部鏈接權重流动曾经很流行,但现在大部分英文网站不再这么做了。

目前百度對nofollow標簽的處理方法是否和Google一樣,並不確定。以前百度工程師表示過,nofollow標簽不會浪費權重,所以中文網站用nofollow控制內部權重更爲有效。目前是否依然成立?有機會我找百度的朋友確認一下。

這次nofollow標簽有什麽重大變化?

Google的帖子主要公布了兩個處理nofollow的重大變化:

一是增加了兩個新的屬性:

rel=”sponsored”: 这个新属性/标签用于标注广告、赞助商或其它因利益而存在的链接。

rel=”ugc”: 这个新属性/标签用于UGC(用户产生内容),如论坛帖子、博客评论之类的。

rel=”nofollow”: 这个老的属性/标签依然用于没有任何投票、背书意味的链接,也不传递排名权重。

換句話說,新公布的兩個標簽是爲廣告和UGC各新創了一個專用標簽。

第二個重大變化是,也是意義更重大的:這三個標簽將被Google搜索算法在決定鏈接是否應該被考慮時視爲一個暗示(Google用的詞是hint),更容易理解點的詞是一個建議,而不是指令。

以前的nofollow基本上是一個指令,Google會忽略加了nofollow的鏈接,在計算權重流動時根本不考慮這個鏈接。以後,Google只把這三個標簽當作建議,算法是否考慮這個鏈接,由Google自行綜合其它因素來做決定。

爲什麽要做這個變化?

用的好好的,爲什麽突然會有這麽個變化?Google的說法是爲了更好地分析、使用鏈接信號。鏈接中包含了很多可以提高搜索質量的信號,如錨文字。Google現在覺得考慮所有鏈接有利于Google更好理解不自然的鏈接模式。

把nofollow家族三個標簽當作建議,既能使Google不失去寶貴信息,又保留了站長表明鏈接不是投票的機制。

從今天開始,Google在搜索排名算法中立即把nofollow三標簽當作建議。Google的爬行、索引算法則從2020年3月2號開始把nofollow三標簽當作建議。看來nofollow標簽本來對Google排名就沒什麽影響,未來幾天做英文SEO的站長可以關注一下排名是否有明顯變化。而nofollow對爬行、抓取、索引應該有更明顯影響,畢竟會使鏈接權重流動産生變化。

在大部分情況下,即使Google處理方式改爲建議,也不會改變鏈接的性質和作用,因爲通常還是不會在算法中考慮這個鏈接,和以前一樣。Google應該會仔細評估怎樣使用新的鏈接數據。

目前,我覺得SEO們不必做任何改動,先觀察情況,很可能就沒什麽影響。對抓取、索引有潛在影響,但Google也挺謹慎,2020年3月前這幾個月肯定會收集更多數據,評估影響,不會讓搜索結果有大幅波動。

幾個問題

Google帖子特意解答了幾個站長可能會問的問題,這裏簡單介紹幾句。不是翻譯,只是挑幾個我覺得有意思的點,想看完整全文的請看Google的帖子。

需要修改現有的nofollow標簽嗎?

不用。無論是用于廣告還是帖子、留言,現有的nofollow標簽繼續有效,不用改。

不過,如果現有nofollow標簽是用于廣告鏈接的,Google還是說不用改,但建議有功夫的時候可以改爲rel=”sponsored”。看來Google對有利益交換的鏈接是很敏感的,也想挖到更多數據,部分鏈接改爲rel=”sponsored”能使Google大規模判斷廣告鏈接時更准確。

一個鏈接可以用多個屬性值嗎?

可以。比如rel=”ugc sponsored”可以表示链接是广告也是用户产生的内容,rel=”nofollow ugc”表示用户产生内容,链接不要跟踪。(注意,这都只有建议作用了)

屬性用錯了怎麽辦?

除了廣告,屬性用錯了不是什麽大事。比如把UGC或非廣告鏈接寫爲rel=”sponsored”沒什麽大關系,最多也就是不計算這個鏈接,和現在的nofollow效果是一樣的。

但如果是廣告鏈接的話,還是需要用rel=”sponsored”(如前所述,最好用這個),或者rel=”nofollow”(也可以)。廣告鏈接如果標爲ugc會怎樣呢?Google沒說,但顯然不建議。所以,現有的rel=”nofollow”可以不改,但不要把廣告性質的鏈接改錯爲rel=”ugc”。

對外部鏈接建設的影響

如前所說,自己網站上的鏈接並沒有必要去修改。但至少對英文網站來說,這次nofollow作用的改變可能會對外部鏈接建設的方式産生比較大影響。

一直以來,SEO們建設外鏈時對nofollow鏈接的熱情是遠遠小于dofollow鏈接的。但未來即使加了nofollow的鏈接也可能會被Google當作一個正常、傳遞權重的鏈接了,對部分人來說,這可能是個大好事。

比如在各個社交媒體網站傳播度高的網站,在wiki、百科、問答網站被推薦比較多的網站,在論壇參與時間長、留有很多簽名的網站,很多以前作用不大的nofollow鏈接可能一夜之間變得更有效。

當然,到底哪些nofollow鏈接被當作普通鏈接,我們將無法知道,那些把自己鏈接都加了nofollow的社交媒體網站、新聞網站自己也不會知道。做外鏈建設時,可以不用再考慮是否有nofollow,只考慮是否有利于吸引用戶了。

百度、必應是否會跟進?我們拭目以待吧。

13 Sep更新:正在日本开会的Google员工Gary Illyes回答問題时说,Google这次把nofollow改为一种建议,主要因为由于nofollow的使用,Google失去了很多有用的链接信号。绝大部分社交媒体网站、新闻网站,现在所有指向外部的链接都一律加nofollow了,如果忽略所有这些链接,那就没多少高质量链接可以参考了。所以现在Google会重新考虑这些NF链接的作用,链接信号和链接关系网络势必起不小变化,可能导致排名也会起很大变化。接下来SEO行业肯定会仔细观察。

另外,頁面meta標簽的nofollow也是被當作建議。沒有ugc或sponsored的meta標簽。

]]>
/seo-tips/nofollow-as-hint/feed/ 73
移動端網站SEO優化該怎樣做? /mobile-seo/mobile-seo-3-ways/ /mobile-seo/mobile-seo-3-ways/#comments Sat, 27 Jul 2019 18:24:32 +0000 /?p=5523 過去幾個月在問答社區回答了一些關于移動端網站優化問題,发现很多移动SEO的問題涉及到用哪种架构做移动站。不少SEO貌似对獨立移動站,也就是单独的m.domain站有不小的执念,认为獨立移動站才是效果最好的。

問答後台看到另一位讀者“一條愛做夢的鹹魚”,也是問“新網站做移動SEO,使用m站還是響應式?”:

您好,我在某個回答中看到了你的回答,有一些疑惑,您建議:“新網站,或者剛剛要做移動SEO的,最好就直接采取響應式了。”,爲什麽直接采取響應式呢,我自己的感覺是目前移動搜索排靠前的都是m站較多

翻看了一下以前写的關于移动SEO的帖子,才发现移动端SEO到底应该选哪种方式优化还没有仔细写过。今天的帖子就深入探讨一下怎样选择移動優化的三種方式。

移動優化的三種方式

移動網站大體上有三種方式可以選擇:

響應式設計(responsive design):

PC站和移動站的URL是完全一樣的(不管用什麽設備訪問都一樣),返回給浏覽器的HTML代碼也是一樣的,不同寬度的屏幕排版不同是通過CSS控制的。以前也經常稱爲自適應設計,就是因爲排版是根據屏幕寬度自動適應的。

動態服務(dynamic serving):

PC站和移動站的URL是完全一樣的,這點和響應式設計相同,但動態服務方式返回給浏覽器的HTML代碼(以及CSS)是不一樣的,PC設備得到的HTML代碼是PC版,移動設備得到的HTML代碼是專門做了移動優化的移動版本。

獨立移動站(separate m. site) :

移動站的URL和PC站是不一樣的,通常用單獨的子域名,比如PC站是www.seozac.com,移動站是m.seozac.com,當然移動站的HTML代碼(以及CSS)與PC站也是不一樣的,是專門做了移動優化的。換句話說,這種方式下,移動站就是個獨立的網站。

這三種方式各有各的特點。

響應式設計

既然URL一样,所有设备得到的 HTML代码也一样,好处显而易见:简单明了,搜索引擎不会被弄糊涂。搜索引擎抓取、索引一套页面就行了,提高索引效率,尤其对大网站,抓取份額浪费在多个URL上,就意味着降低深层页面被抓取的机会。自适应设计只有一个URL,链接、权重计算都集中在一个URL上,不会出問題。

用户也不会被弄糊涂,收藏书签、分享页面也不会因为URL的不同而出問題。

站長方面開發維護一套代碼就可以了,後端開發成本相對低一些。建設的外鏈也集中在一個URL上。不需要判斷設備、浏覽器類型,也不需要轉向,也就不會出錯。

當然也有壞處。比如,移動設備由于屏幕大小的關系,經常要隱藏一些內容和功能,但還是需要下載完整的HTML代碼,經常還包括圖片,所以會浪費帶寬。手機網速慢的話,多下載文件就意味著速度變慢。而且,同一套代碼要在所有設備顯示正常,還要盡快開始渲染,前端設計需要比較高的水平。

響應式設計的页面必须设置viewport,告诉浏览器按照屏幕宽度自动调整页面排版:

<meta name=”viewport” content=”width=device-width, initial-scale=1.0″>

虽然有缺点,但随着移动网速、手机性能的提高,响应式的缺点逐渐显得没那么致命,而它的简捷性就更显优势了。所以,響應式設計是今后的方向,是大势所趋。这也就是为什么我建议新网站,或者刚刚要做移动SEO的网站,肯定直接就做响应式了,不用考虑其它选项。(除非贵公司不差钱,可以考虑動態服務。)

獨立移動站

和響應式設計相比,獨立移動站显然开发成本要提高,要开发维护两套代码。随着国内人力成本提高,需要重复做的事情会越来越不划算。

獨立移動站的更大潜在麻烦是URL的不同可能造成混乱和各种出错。比如,既然移动和PC版本URL不同,搜索引擎就需要建立对应关系,必须判断PC页面对应的移动版本URL是什么,移动页面对应的PC版本URL是什么。网站需要在页面添加代码帮助搜索引擎判断:

PC頁面需要加下面代碼指明移動版本位置:

<link rel=”alternate” media=”only screen and (max-width: 640px)”?href=”https://m.seozac.com/”>

對應的移動頁面需要加下面代碼指明PC版本位置:

<link rel=”canonical” href=”/”>

在搜索引擎两个版本都抓取了、并且正确判断的情况下,PC和移动版本就建立了一一对应关系。但是,如果站长把标签加错了怎么办?搜索引擎只抓取了一个版本怎么办?搜索引擎没有准确解析<link ref>标签怎么办?

而且,要建立一一对应关系,需要PC版本和移动版本主体内容是一样的。很多时候m.移动版本页面内容精减或修改过多,搜索引擎认为内容不相符怎么办?甚至有的时候獨立移動站只建了部分页面,很多PC页面没有对应移动页面又怎么办?

網站有兩個版本,用戶在添加書簽、分享鏈接時,不可避免地會有一部分指向PC頁面URL,一部分指向移動URL,鏈接權重將分散。

通常,爲了用戶體驗和幫助搜索引擎判斷對應關系,網站需要做符合規則的轉向:

  • PC用戶由于某種原因訪問了移動URL的話,需要被自動301轉向到PC版本URL
  • 移動用戶由于某種原因訪問了PC頁面URL的話,需要被自動301轉向到移動URL

301轉向一般是服務器端做的,首先就需要根據浏覽器用戶代理匹配特征字符串判斷用戶設備和浏覽器類型,上網設備和浏覽器五花八門,程序100%檢測正確不是件容易的事。判斷出錯,用戶可能就只能看到一個排版錯誤的頁面,甚至某些功能都無法使用。搜索引擎蜘蛛也可能被判斷錯,導致不能建立兩個版本的對應關系。

大公司需要用子域名做多語言網站SEO的话,加上m.獨立移動站,就会使管理子域名更加复杂,因为网站又要增加:

  • sg.seozac.com
  • m.sg.seozac.com
  • cn.seozac.com
  • m.cn.seozac.com

等等。多语言hreflang标签和獨立移動站的<link ref>标签排列组合起来,哪个对应哪个不能弄错了。如果再加上Google AMP百度MIP頁面版本,所有版本之間的對應關系和標簽寫法,可能會把人繞暈倒。

動態服務

動態服務和獨立移動站一样,首先在服务器端判断设备和浏览器类型,然后在同样的URL上、根据浏览器屏幕宽度返回不同的HTML和CSS代码。

所以動態服務方法相当于把響應式設計和獨立移動站的优点结合起来了,即有URL统一的简洁明了,又有獨立移動站的代码优化,SEO效果是最好的。当然,代价是前后端成本都要提高。

对不差钱的公司来说,动态内容是最佳选择,比如amazon现在就是用動態服務做移动优化的,URL统一简单,不会出错,两个版本的代码还可以分别优化,据说,亚马逊移动版本节省了40%的文件下载量,对手机用户来说,页面打开速度的提升是至关重要的 。

是否使用動態服務要看公司情况。对大部分网站来说,页面内容、排版、功能没那么复杂,響應式設計已经满足需要,用高成本实现動態服務,节省的下载量没那么明显,比如抢庄斗牛这种博客,还有大量内容型网站,页面连个图片都没有,除了留言也没有别的交互,那是一点下载都节省不了,動態服務就没意义了。

搜索引擎蜘蛛访问動態服務的页面时,从HTML代码是无法自动知道不同浏览器得到的代码将会是不同的。比如PC蜘蛛访问时,得到的是PC版代码,但蜘蛛并不必然知道移动蜘蛛来访问的话会得到不同的代码,所以服务器端需要通过Vary HTTP头信息告诉搜索引擎蜘蛛,PC蜘蛛和移动蜘蛛得到的代码是不一样的,两个蜘蛛都要来访问一下。比如amazon.com页面的服务器头信息:

< Content-Type: text/html

< Content-Length: 6400

< Connection: keep-alive

< Server: Server

< Date: Sat, 27 Jul 2019 16:42:45 GMT

< Vary: Content-Type,Host,Cookie,Accept-Encoding,X-Amzn-CDN-Cache,X-Amzn-AX-Treatment,User-Agent

< Edge-Control: no-store

< x-amz-rid: KH589YRZC8QEW3QEWGKD

< X-Cache: Error from cloudfront

< Via: 1.1 1b52a5dd431f9e3c81753e61dfdf467a.cloudfront.net (CloudFront)

< X-Amz-Cf-Pop: SFO9

< X-Amz-Cf-Id: 0qtVw99a2_AustEZ-dxC_cs9hfVzyll-DmHnmWFDtBSWKtinpxhB2Q==

其中Vary那行就是通知浏览器/蜘蛛,根据后面列的情况不同,HTML代码是不同的,Vary: User-Agent指的就是根据浏览器用户代理的不同,HTML代码是不同的。

对獨立移動站的执念来自何处

很多公司和站长对獨立移動站情有独钟,认为m.移动站SEO效果是最好的,做新网站还要做独立m.站。这个执念可能来自两方面。

一是以前百度更建议獨立移動站,我在2015年廈門百度之夜的帖子中說明過這一點。但現在4年過去了,百度現在的正式官方態度我沒有看到,但兩年前百度搜索主任架構師譚待明確跟我說過,百度也认为響應式設計是未来趋势,百度也推荐转向響應式設計。我的观察是,百度现在对響應式設計的支持没有問題。

Google一直以来就是推荐響應式設計的。

当然,这里说的推荐,并不是说响应式比獨立移動站的SEO效果更好,而只是表明,百度和Google对三种方法是一视同仁的,排名上并不偏向哪一个,SEO效果是一样的。既然效果一样,当然推荐那个简单便宜的了。

第二个原因,就如开头读者说的,目前在百度移动搜索排名靠前的m站较多。这是个准确的观察,确实百度移动搜索结果中排名好的m站很多,在不少行业,m.站排在前面的占大部分。不过,这并不必然说明m.獨立移動站有SEO优势,我觉得这更多是采样偏差造成的。

舉個例子,數據表明,車禍發生大部分是男性司機造成的,不過這是否說明男司機開車有劣勢呢?恐怕不能這麽認爲,因爲必須考慮路上司機的男女比例,很可能開車的80%是男的,造成了70%的車禍,所以70%車禍是男司機造成,不能說明男司機開車水平比女司機差。

移动搜索排名也是同样道理。现在排名靠前的m.站居多,很可能这些站绝大部分是老站(所以才排名能力高嘛),而几乎所有老站当初开始做移动SEO时都是从m站入手的,不到万不得已,这些使用m站的老站不会去改为響應式設計,因为改动太大了,冒险,又没有明显好处(如前所说,三种方式SEO效果一样的),没有动力改。

所以,老站、大站排名好,而老站、大站又以m站爲主,所以我們就看見m站排名好了。但這不說明一個新站就要學著做m站啊。

]]>
/mobile-seo/mobile-seo-3-ways/feed/ 72
Google新PR:以鏈接距離爲基礎的頁面級別 /google/google-new-pr/ /google/google-new-pr/#comments Thu, 18 Jul 2019 17:07:51 +0000 /?p=5599 Google PR是Google诞生以来最具知名度的概念,以至于很多人认为Google PR的意義更多在于公關炒作,而不是排名算法。2016年4月,Google取消了工具條輸出PR值的顯示,站長們再也看不到最新的PR值了,也有很多SEO認爲Google完全取消了PageRank算法。現在的Google排名算法中還有PageRank嗎?衆說紛纭。

Google從2006年就不再使用PageRank了

前天,一位自称的前 Google软件工程师在Hacker News的一个讨论Google替代品的帖子中透露,Google早在2006年就不再使用Google PR了:

The comments here that PageRank is Google’s secret sauce also aren’t really true – Google hasn’t used PageRank since 2006. The ones about the search & clickthrough data being important are closer…

翻譯過來的意思是:

评论里说PageRank是Google秘方的说法并不正确 — 从2006年Google就不再用 PageRank了。關于搜索和点击率数据很重要的说法还比较靠谱……

說得很明確,Google算法早就不再使用PageRank了。

另外,點擊率也是Google算法重要排名因素之一,但到目前爲止,真實有效的Google點擊器或Google快排這種東西還沒有誕生,而百度對百度快排貌似已經放棄治療了…這個是另一個話題,暫且不提。

這是真的嗎?

为了验证这位前Google员工身份,SEO们已经做了人肉分析,结论是大概率是真的。这位员工名字是Jonathan Tang,Twitter賬號在此,2009年至2014年在Google工作,他的Hacker News账号是2007年注册的,不大可能用这么老的账号来胡扯或造谣。

而且,這些年Google與SEO行業的官方溝通人JohnMu在Twitter上評論此事時並沒有否認,只是說:

SEO們應該知道,20年來Google工程師不可能沒有對搜索做出修改。

所以,虽然没有官方认证,但应该是真的。其实,Matt Cutts等人很早以前也表示过,Google算法肯定还是考虑链接的,而且链接依然是最重要的排名因素,PageRank以及Google排名的基本原理没有变化,但不可能这么多年原样不动地用PageRank的原始版本,肯定是修改过的了。

JohnMu去年也直接評論過PageRank的使用情況,表示現在的Google算法不可能還是一比一地原樣用PageRank的最初公式。

那麽2006年以後工具條顯示的PR是什麽鬼?

前面提到,Google是從2016年取消工具條顯示PR的,如果2006年就不再用PR了,那麽2006年到2016年工具條上顯示的PageRank是什麽東西?

而且Google的另一位发言人Gary Illyes在2017年还发推明确说:“你们不知道吗,Google在18年后依然在排名算法中使用PageRank(还有几百个其它信号)。”

所以到底是在用還是不用了?

Jonathan Tang后续又解释了一下:

他們2006年用另一個算法取代了PR,那個算法給出的結果大致和PR相似,但計算速度快得多。工具條顯示的宣稱是PR的數值就是這個替代算法的結果。這個替代算法的名字都和PageRank相似,所以Google這麽宣稱,在技術上也不能說是錯的。

所以,從2006年開始,Google算法中使用的、工具條所顯示的,都不是原始PageRank計算公式的結果,而是一個結果類似、名稱類似、計算速度快得多的算法。

我們姑且稱之爲Google新PageRank吧。

那么这个Google新PR的计算原理是什么?Jonathan Tang没说,连真实名称也没说,大家只能猜测了。

疑似Google新PageRank專利

Jonathan Tang的帖子后面,专门研究Google专利的大神Bill Slawski发了个回复:

Google的新版本PageRank專利2006年通過。巧合?

Bill Slawski去年发帖详细介绍过这个新版本PageRank专利,这两天又仔细读了一下專利原文和Bill Slawski的帖子,這裏介紹一下大意。

专利名称是Producing a ranking for pages using distances in a web-link graph – 基于链接距离的页面级别计算。

簡單說,新PageRank不再計算導入鏈接的總數,而是計算這個頁面與種子頁面之間的距離,距離越近,頁面質量越高,頁面級別、新PageRank越高。這個思路和Yahoo!的TrustRank是極爲相近的,基本假設都是:好網站不會鏈接向壞網站,但會鏈接向其它好網站。

種子頁面、鏈接長度、鏈接距離

这个专利涉及几个概念。种子页面(Seed Pages)、链接长度(Link Length)、链接距离(Link Distance)。

种子页面(Seed Pages)

如上面的簡單網絡鏈接圖所示,Google選出一部分頁面作爲種子頁面,如圖中上半部分的頁面106、108、110,下半部分的都是種子頁面集之外的、需要計算新PR值的。

關于种子页面的几个要点:

  • 種子頁面顯然是高質量的頁面,專利裏舉的例子是Google目錄(其實就是已經死了的開放目錄)和紐約時報。
  • 種子頁面需要與其它非種子頁面有很好的連通性,有比較多的導出鏈接指向其它高質量頁面。
  • 種子頁面需要穩定可靠,有多樣性,大範圍覆蓋各類主題。

链接长度(Link Length)

種子和非種子之間有的離得近,有的離得遠。如種子頁面106通過鏈接132直接連向非種子頁面112,非種子頁面118則沒有種子頁面直接連向它,要通過兩層鏈接。

鏈接距離並不是簡單地數鏈接層數。每個鏈接Google會計算一個鏈接長度,鏈接長度取決于鏈接本身的特征和鏈接所在頁面的特征,比如頁面上有多少鏈接,鏈接的位置,鏈接文字所用字體等等。

所以,同樣是一個鏈接,鏈接長度是不一樣的:

  • 頁面導出鏈接越多,鏈接長度越長。這和原始PageRank思路是一樣的,導出鏈接越多,每個鏈接分到的權重越少。
  • 鏈接所在位置越重要,比如正文中,正文靠前部分,鏈接長度越短。
  • 鏈接錨文字字號越大,或者在H1中,可能鏈接長度越短。

我记得Matt Cutts很久以前在谈到PageRank可能的修正时提到过,正文中的链接和页脚的链接被用户点击到的概率显然差距很大,所以不同位置的链接获得的PR和权重应该是不一样的。这种说法很符合这个专利的意思。

链接距离(Link Distance)

鏈接距離就是頁面與種子頁面集合之間的最短鏈接長度之和。種子頁面和非種子頁面之間通常不止一條鏈接通路,如示意圖中,頁面118可以通過鏈接132、136從種子頁面106到達,也可以通過鏈接134、142、140到達,還可以通過鏈接134、140到達,還可以通過其它鏈接從其它種子頁面到達,所有這些從種子集到頁面的鏈接通路中,鏈接長度之和最短的那個被定義爲鏈接距離。

如果一個頁面無法從任何種子頁面出發訪問到,也就是種子頁面集合到這個頁面完全沒有鏈接通路,那麽鏈接距離是無限大。

然後Google算法根據鏈接距離計算出一個頁面的排名能力分數,也就是新PR值,最後的排名算法中,這個新PR值作爲排名因素之一。也就是說,鏈接距離越短,離種子越近,Google認爲頁面越重要,排名能力越高。

鏈接距離的計算不需要叠代,所以比原版PageRank的計算要快得多,而在代表頁面重要性上,我相信Google做過對比,准確性差不多,所以就用來代替原來的PR了。

简化链接网络图(Reduced Link-Graph)

专利最后面提到了另一个概念:简化链接网络图(Reduced Link-Graph),不过没有再说明这个概念有什么用,用一个段落说了简化链接网络图这个概念后专利就结束了。不过简化链接网络图有可能和链接质量判断、Penguin算法更新等相關。

在前面示意圖中,所有頁面之間的所有鏈接組成一個完整的鏈接網絡圖,其中只由最短鏈接距離通路組成的鏈接被稱爲簡化鏈接網絡圖,也就是用來計算新PR值的那些鏈接。顯然,簡化鏈接網絡圖是完整鏈接網絡的一個子集,不過每個頁面的鏈接距離都已經保留在簡化鏈接網絡圖中了,去掉的那些鏈接對頁面鏈接距離和新PR值沒有影響。在簡化鏈接網絡圖中,每個頁面獲得的鏈接權重來源都是可以回溯到最近的種子頁面的。

如果一個頁面從種子集合完全沒有鏈接通路可以到達,也就是前面說的鏈接距離爲無限大,這個頁面將被排除在簡化鏈接網絡圖之外。如果一個頁面得到的鏈接都來自簡化鏈接網絡之外,雖然鏈接總數可能很大,但其鏈接距離依然是無限大。

换句话说,在简化链接网络之外的链接是被忽略掉的,无论有多少链接。联想到Penguin 4.0算法更新,其中一个特征就是,垃圾链接是被忽略掉的,不被计入链接的流动中,这和基于链接距离的页面级别非常相似。

]]>
/google/google-new-pr/feed/ 33
外貿SEO應該怎樣做?(策略篇) /en-seo/seo-for-international-trading/ /en-seo/seo-for-international-trading/#comments Wed, 22 May 2019 11:57:41 +0000 /?p=5408 這幾年做外貿SEO的越來越多,背後原因很複雜,不去探討了。今天就自己SEO服務客戶情況所見,聊一點外貿網站SEO該怎麽做的感想。

我所遇到的英文外貿網站,大部分是賣産品的,産品各種各樣,從單一軟件或産品小網站,到規模不等的2B企業,到巨型2C電商平台。賣服務的不多,當然也有,甚至有非常有創意、有價值的服務,不過總體上來說還是占很少數。中國是制造大國,論産品能力,在世界上少有對手。但服務類,需要的是另一種技能,國內企業走向世界可能還需要一段時間。所以,這裏說的外貿SEO以賣産品的網站爲主。

外貿SEO的策略考慮

今天先說策略方面的考慮,以後有機會再聊技術方面的細節。

對英文産品類、交易型搜索結果頁面真正關注的SEO應該都會看到一個明顯規律,排名在前面的頁面絕大部分是兩類:

  • 垂直領域專業購物網站。比如,買假發大概率會看到wigs.com頁面,買婚禮裝的大概率會看到davidsbridal.com、herworld.com之類的,買女童裙的大概率會看到next、zara等網站。
  • 電商巨頭網站。包括Amazon、ebay、阿裏,也包括傳統線下巨頭如macys、walmart、bestbuy、target等等。

其中,有些行業的垂直領域專業網站競爭者比較多,比如服裝行業。

一般來說,大部分産品搜索,垂直專業網站排名又比電商巨頭要好。總體搜索流量,那肯定是亞馬遜最高,但那更多是因爲亞馬遜品類齊全、規模巨大,總體排名都不錯。具體到某一個行業的産品,大部分情況下排名在前面的會是垂直專業網站,然後才是亞馬遜等綜合電商跟在後面。

所以,要想在外貿領域獲得SEO流量,要麽做成專業垂直網站,要麽在電商巨頭沒有完全覆蓋到的查詢詞縫隙中獲得排名。

SEO技术上的問題可以后面再考虑,首先要思考的是策略問題,要做成这两类网站,那么网站应该是什么样的?或者要解决的最大問題是什么?

排名好的垂直專業網站是什麽樣的?

一張圖片勝過千言萬語,看一下優秀的垂直領域專業網站産品分類頁面是什麽樣的:

垂直专业网站的SEO

尤其是注意看第一屏的樣子:

垂直专业网站第一屏

而國內網站風格是有很顯著中國特色的,國內外貿公司做出的外貿網站也大部分沿襲了這一風格:

看著眼熟吧?倒不必糾結這是哪個網站,因爲大部分國內做的外貿電商網站分類頁面都是這個樣子的:

  • 左側給出進一步過濾的導航,通常下面還有熱銷産品
  • 産品列表最上面是一堆品牌、價格、排序、顯示方式等的選擇
  • 除了産品名稱,産品列表本身盡量列出可能吸引用戶的賣點:現價、原價、免運費、rating等
  • 姑且不論産品圖片的質量

上圖已經算簡潔的了,有時候列表上方的選擇可能更多:

国内电商网站分类页面

産品列表本身包含的信息也經常更多:

国内电商网站产品列表

然後再回頭看一遍國外垂直專業網站的産品列表頁面:

垂直专业网站第一屏

感受到差別了嗎?簡單說,優化得當的分類頁面不是按照産品列表頁面來做的,是按照著陸頁面的要求做的,看著就像雜志的一頁,簡潔、美觀、重點突出:

  • 大幅高質量題圖,或視頻
  • 字體、顔色都經過設計的tagline
  • 産品分類說明,注意不是放在頁面最下面,是在最上面
  • 有限的排序選擇
  • 簡潔的産品列表,除了圖片,很多網站只列出産品名稱和價格,連評星都沒有

結論,産品不多的網站,要做成垂直專業網站,首先不是考慮SEO細節,而是想想網站該長成什麽樣子。

综合电商又该首先解决什么問題?

前面提到過的,除了做成垂直專業網站,另一條出路是在綜合電商巨頭沒覆蓋到的縫隙中生存。

說是縫隙,貌似很狹窄,其實也沒那麽難。雖然Amazon、ebay體量那麽大,什麽産品都有,再加上阿裏系和walmart等的競爭,但依然存在很多查詢詞,新站是有機會在這些巨頭中搶下個排名的。原因還是那個長尾理論,而且在互聯網世界,長尾真的是太長了,用戶會搜索的詞五花八門,總有一些查詢詞是巨頭網站占不完前兩頁的,Google只好暫時拿一些質量不怎麽樣的頁面湊數,這就是機會,而且這個數量並不小。

这种情况下要解决的主要問題是什么?是你得有足够的产品页面被收录。长尾词的查询量经常小到没办法做關鍵詞研究,所以幾乎無法預計哪些産品能鑽出巨頭網站的縫隙,那就要靠有足夠的量,再加上一點運氣,總有一定百分比的頁面或獲得排名。

那麽除了公司真的有這麽多産品,SEO方面要解決的就是收錄:

  • 要有精心設計的導航結構、內部鏈接結構,使盡量多的産品頁面獲得抓取途徑和最基本的收錄權重
  • 在複雜的導航系統中,還要盡量減少分類、過濾條件頁面造成的複制內容
  • 産品描述內容質量怎麽解決?靠供應商提供的産品說明?那網上恐怕是有很多同樣內容的頁面了。這時候,UGC、用戶評論、數據挖掘、高質量的信息聚合能力、甚至AI的使用,很可能會是核心競爭力了。
]]>
/en-seo/seo-for-international-trading/feed/ 64
怎樣利用XSS漏洞在其它網站注入鏈接? /blackhat/xss-attack-google/ /blackhat/xss-attack-google/#comments Sun, 05 May 2019 12:19:35 +0000 /?p=5322 前兩天英國的SEO老手Tom Anthony曝出一个 Google蜘蛛存在的漏洞,可能被黑帽SEO利用XSS漏洞在別人網站注入鏈接,而且這些鏈接確定會被Google蜘蛛抓取。這個漏洞如果被大規模利用,顯然是會影響權重流動和搜索排名的。

Tom去年11月就把这个漏洞汇报给Google了,不过到目前为止Google并没有解决这个漏洞的意思,他们的说法是“Google的现有保护机制应该能预防这种滥用,不过相关团队正在检查验证”。另外Google在回复Tom时提到了有些“内部沟通上的困难”,公司大了是不是都会有这种問題?

既然Google過了5個月都沒有采取措施,Tom決定把漏洞公布出來,站長們好檢查自己網站是否有XSS漏洞,提取采取預防措施,以防自己網站被注入鏈接。Google同意Tom公布相關信息,看來還是挺自信的。

什麽是XSS攻擊

XSS攻击是Cross Site Scripting的缩写,跨站脚本攻击的意思。按说Cross Site Scripting的缩写应该是CSS,但就和页面样式表那个CSS重复了,所以跨站脚本攻击这个改成了XSS。

XSS是一种代码注入攻击。大部分网站都会有某些功能脚本是可以任意修改URL的,比如搜索功能,UGC用户贡献内容网站的提交功能,用脚本实现的转向等等。比如搜索概念,URL经常就是domain.com/search.php?keyword,或者domain.com/?s=keyword之类的(抢庄斗牛的搜索功能就是这个URL格式),其中的keyword是可以替换成任意字符的。

那麽keyword部分被替換成腳本會發生什麽?比如domain.com/?s=<script>alert(‘XSS’)</script>。有這種漏洞的網站就是在URL中注入惡意腳本時,沒有進行安全過濾,而浏覽器也沒有分辨出是惡意腳本,所以執行了惡意腳本。

XSS可以被用來獲取用戶敏感信息,可以用來冒充用戶向網站發出請求等等,還可以執行腳本,在生成的HTML代碼中插入內容,這就是黑帽SEO可以利用來注入鏈接的漏洞。

怎樣利用XSS漏洞在別人網站注入鏈接

修改URL中的參數,替換爲腳本,浏覽器執行腳本,在HTML中插入內容,所以也可以插入鏈接。當然如果只是訪問用戶的浏覽器上顯示鏈接,搜索引擎不抓取這個URL的話,黑帽SEO也就不感兴趣了。問題就是 Google蜘蛛可以抓取被注入脚本的URL,也可以执行JS,所以也就可以看到被注入的链接。

防止XSS攻擊,一是服務器端的程序要做安全過濾,最基本的是HTML轉義,把<script>alert(‘XSS’)</script>當作被搜索的字符串,而不是要執行的腳本。二是浏覽器端的XSS識別,現在的很多浏覽器(如Chrome)看到URL中有可疑字符如script之類的,會直接拒絕打開頁面。

如果Google蜘蛛和Google自己的Chrome浏览器一样能够识别XSS攻击,带有注入脚本的URL根本不抓取,就没有事情了。但根据Google官方文件说明,到目前为止,Google蜘蛛使用的是比较老的Chrome 41版本,而Chrome 41是没有XSS识别功能的。所以,有XSS程序漏洞的网站,有可能被Google蜘蛛抓取到被注入链接的URL。

Tom做了實驗。某新銀行(Revolut)網站有XSS漏洞(天哪,銀行網站有XSS漏洞。不過現在已經補上了),Tom在Revolut域名上構造了個帶有注入腳本的URL,浏覽器執行後會在頁面頂部放上個鏈接。Google蜘蛛會怎樣處理這種URL呢?Tom用Google的頁面移動友好性測試工具验证了一下,因为这个工具会按照 Google蜘蛛的方式渲染页面。结果是这样:

XSS攻击注入链接

顯然,Google能夠抓取URL,執行注入的腳本,生成的頁面頂部是有那個被注入的鏈接的。這可是來自銀行域名的一個外部鏈接。

爲了進一步驗證,Tom把實驗URL提交給Google,結果說明,Google索引了這個URL,快照顯示,通過JS腳本注入的鏈接也正常出現在頁面上:

Google索引了被XSS注入的链接

Tom還發現,通過XSS注入,也可以添加、修改HTML中的標簽,比如canonical標簽,這個也是挺危險啊。不過這個和本帖XSS注入鏈接關系不大,就不細說了。

XSS攻擊注入的鏈接有效果嗎?

仅仅能索引不一定说明問題,如果如某些垃圾链接一样被Google忽略,没有链接的效果,那也不能利用来操控外部链接。为了验证这种URL上的链接是否有链接效果,Tom进一步做了实验。

Tom在Revolut域名的URL上注入一個鏈接,指向自己實驗網站上以前不存在、剛剛創建的一個頁面,提交Revolut的URL,沒多久,Google就抓取了Tom自己實驗網站上的新頁面,而且索引了這個頁面,出現在搜索結果中:

這說明,被注入的鏈接,至少是能起到吸引蜘蛛抓取的作用的。對權重流動和排名有沒有普通鏈接一樣的作用呢?Tom顧慮到可能會對正常搜索結果的影響而沒有進一步試驗了。

這裏不得不說,國外很多SEO是很有情懷的。我在想,如果是國內SEO們發現這個等級的漏洞,會報告給搜索引擎補上漏洞嗎?大概會把這個漏洞爲己所用,運用到死吧。

對搜索結果的潛在影響有多大?

如果這種方式注入的鏈接有正常鏈接的效果,對權重、排名有效,那麽只要被黑帽SEO使用,對操控權重、排名顯然有很大幫助,對搜索結果有多大潛在影響呢?

https://www.openbugbounty.org/ 網站上列出了12萬5千多有XSS漏洞的網站,其中包括260個.gov政府網站,971個.edu域名網站,包括了前500個鏈接最多網站中的195個,想象一下潛在的影響會有多大。

当然,Google很自信,他们的防御机制应该可以鉴别出这种黑帽方法,我猜想Google内部调查说明,这种方法到目前为止没有被利用。不过,这是 Tom发布信息之前,现在呢?我估计有很多人已经在疯狂实验这个方法的有效性了。我这篇帖子发出来,国内肯定也会有SEO去尝试。那么,大规模滥用这种注入方法的情况下,Google的预防机制还会有效吗?

另一方面,几乎可以肯定, Tom的帖子发出来,会迫使Google必须要积极采取措施,补上这个漏洞,不能让XSS攻击注入链接真的成为有效的SEO作弊方法。想尝试的,尽快吧,很快就会没用的。

5月8号更新:Google在7号的Google I/O开发大会上宣布,Google蜘蛛将使用最新版的Chrome引擎,目前版本是74,以后都会保持使用最新版本。看来Google早就做了准备,所以这么有信心。

]]>
/blackhat/xss-attack-google/feed/ 48
以人工智能爲基礎的搜索算法是什麽樣的? /topic/ai-based-algorithm/ /topic/ai-based-algorithm/#comments Sat, 27 Apr 2019 18:31:31 +0000 /?p=5060 三年前,Googled的AlphaGo橫空出世時,我寫了《AlphaGo、深度學習及SEO》這篇帖子,在那之後,我一直非常關注人工智能與搜索算法的進展。

人工智能与搜索算法

我不知道搜索算法什麽時候會大規模以AI爲基礎,也不知道目前AI技術在搜索算法中應用到了什麽程度。由于目前人工智能技術的不可解釋性,搜索引擎以AI作爲算法基礎會是非常謹慎的,不然很不容易debug。

不過算法中的一些模塊應用AI是肯定的,以前介紹過百度的DNN模型和Google的RankBrain算法,都是AI在搜索算法中的應用。

那么完全以人工智能爲基礎的搜索算法是什麽樣的?工作原理和流程是什么?简单说一下我的理解。

人工智能的優勢與搜索

目前實現人工智能的主流方法是機器學習中的深度學習分支,在這篇帖子裏就不加嚴格區分了。

簡單說,人工智能是給予系統大量訓練數據,人工智能自己從中尋找模式和規律。給予AI系統的數據是打了標簽的,或者說是告訴了AI系統結果。比如,在圍棋中,AI系統有了大量曆史棋局數據(後來的Alpha連曆史棋局都不需要了,自我對局的數據就行了),以及這些棋局的輸贏結果,這個結果就是標簽。然後AI系統自我學習棋局盤面與結果(輸贏)之間的關系。

在搜索中,AI系統有了頁面的大量數據,也就是搜索引擎本身的索引庫,還需要標簽,也就是要知道哪些頁面是高質量的?針對一個查詢詞,哪些搜索結果是用戶滿意的?然後AI算法自己學習頁面特征(也就是排名因素)和排名之間的關系。

傳統的搜索算法是搜索工程師人工選擇排名因素,人工給予排名因素一定的權重,根據給定公式,計算出排名。這種方法的弊端是,當數據量大了,排名因素多了的時候,調整排名因素的權重是件很困難的事。最初的權重很可能就是根據常識,再加上拍腦袋,具有很大的主觀隨意性。當有幾百個因素,這些因素又互相影響時,調整這些因素的權重就變成混亂、無法預見結果的事了。

而從海量數據中找模式正是AI的擅長。AI可以快速尋找可能的排名因素,調整排名因素權重,自動叠代計算,擬合出排名因素和用戶滿意的搜索結果之間的計算公式。

通過訓練數據訓練出來的計算公式就是AI搜索算法,可以應用于用戶更多的搜索了。

誰來打標簽?

既然訓練AI搜索算法時需要打了標簽的數據,那麽這些標簽數據是從哪來的?這就是搜索引擎質量評估員的作用了。

前不久Google質量評估指南帖子裏詳細介紹了質量評估員的工作。這些真實用戶(他們不是Google員工),在學習質量評估指南後,Google在評估系統中給評估員真實網站、真實查詢詞數據,評估員進行相關評估,最主要的就是:

  • 給頁面質量打分
  • 給特定查詢詞的搜索結果打分

Google的質量評估員很早就存在了,應該不是爲了開發AI算法招募的,而是用來評估傳統算法質量的。但他們的評估數據剛好可以被人工智能系統有效使用。

這樣,AI系統就知道,針對某個查詢詞,用戶滿意的搜索結果是哪些頁面,是按什麽順序排名的。

現在,AI系統有了海量頁面特征數據,也知道什麽樣的搜索結果是真實用戶滿意的,下一步就是訓練系統,尋找頁面特征和搜索排名之間的關系。

訓練人工智能搜索算法

搜索引擎可以把打了標簽的搜索結果數據分成兩組。一組訓練用,一組驗證用。

AI算法檢查訓練組搜索結果中的頁面有哪些特征,這些特征又應該給予什麽樣的權重,根據什麽樣的計算公式,才能計算出用戶滿意的(打過標簽的)搜索結果。

與傳統算法不同的是,需要哪些特征(排名因素),這些特征給予多少權重,不是工程師決定的,是AI系統自己尋找和評估的。這些因素也許是工程師想得到、早就在用的,比如:

  • 頁面的關鍵詞密度
  • 頁面內容長度
  • 頁面上有沒有廣告
  • 頁面有多少外部鏈接
  • 頁面有多少內部鏈接
  • 頁面有多少以查詢詞爲錨文字的鏈接
  • 頁面所在域名有多少外鏈
  • 頁面打開速度多快
  • 等等等等,可能有幾百上千個

也許是工程師壓根兒沒想過的,也許有些是表面上看起來毫無關系、毫無道理的,比如:

  • 頁面正文用的幾號字
  • 文章作者名字是三個字
  • 頁面第一次被抓取是星期幾
  • 頁面外鏈數是單數偶數

以上只是舉例,爲了說明,AI尋找的不是因果關系,而是相關關系。只要AI看到排名好的頁面有哪些特征就夠了,至于把這些特征與排名聯系起來是不是看著有道理,並不是AI關心的,也是不必要關心的。

當然,有些因素可能是負面的,比如域名長度,很可能與高排名是負相關的。

AI系統被訓練的過程就是找到這些排名因素(無論人類看著是否有道理),給予這些因素一定權重,擬合出一個計算公式,剛好能排出用戶滿意的那個搜索結果。這個擬合過程應該是叠代的,一個權重數值、一個公式不行,自動調整,再次計算,直到比較完美擬合出評估員打過標簽的搜索結果。這個訓練過程也許要幾天,也許幾個星期,要看數據量。

AI搜索算法驗證

被訓練過的AI搜索算法就可以應用于其它沒在訓練數據裏的查詢詞了。

首先用前面提到的驗證組數據驗證一下,如果新訓練出來的算法給出的搜索結果與驗證組數據(同樣是評估員打過標簽的)吻合,說明算法不錯,可以上線了。如果AI算法給出的搜索結果與驗證組搜索結果裏的頁面不同,或者頁面基本相同但排序差別很大,可能就要重新訓練AI系統了。

當然,要做到所有查詢詞,AI算法給出的搜索結果與評估員打過最滿意標簽的搜索結果完全一樣,是不大可能的。估計只要排在前面,比如前20名的頁面順序差異在一定的容錯範圍內就可以了。排在越前面,需要越低的容錯率,比如排在第一第二的頁面不對,比排在第三頁之後的頁面不對嚴重多了。

驗證過的算法就可以上線,接受真實用戶的檢驗了。這裏很可能牽扯到一個SEO們普遍認爲與排名有關、但搜索引擎一直否認的排名因素:用戶體驗數據是否是排名因素?

很多SEO排名因素統計表明,頁面點擊率、跳出率、用戶停留時間、訪問深度與排名有很高的相關性,但Google一直明確否認這些數據是排名因素。當然,對百度來說,點擊率顯然是排名因素。

原因很可能就是,搜索引擎需要用这些用户体验数据验证搜索算法质量,如果用户普遍点击率降低、跳出率提高,说明新上线的算法有問題,需要调整。虽然搜索引擎没有直接使用用户数据来排名,但算法的目标就是提高用户数据,使得这两者之间高度相关。

新的AI算法上線後,搜索引擎監控的用戶數據說明用戶滿意,算法就成功了,等待下一輪的優化。

以上純屬猜測。

]]>
/topic/ai-based-algorithm/feed/ 26
Tag標簽頁面如何優化? /seo-tips/how-to-optimize-tag-page/ /seo-tips/how-to-optimize-tag-page/#comments Thu, 18 Apr 2019 17:37:34 +0000 /?p=5229 讀者“會飛的雨”問:tag標簽頁面如何優化?

Tag页面很常用,用得好的话SEO效果不错,但很多网站的tag页面使用并不恰当,甚至可能会有负效果,所以这是个很好的問題。不过这个問題一两句话很难说清,而且在抢庄斗牛没有讨论过这个话题,所以单独写个帖子聊一下tag标签页面怎样SEO。

什麽是tag頁面?

tag頁面,或者標簽頁面,是組織網站內容的一種分類方式。站長根據每篇文章的內容給文章打個標簽,既然是根據內容打的,通常標簽也就是與文章內容最相關的關鍵詞。比如這篇帖子是討論標簽頁面如何優化的,可以打上“標簽頁面”、“優化”之類的標簽。如果文章是談996的,可能會打上“996”、“馬雲”之類的tag。

然後網站爲每個標簽建立一個標簽頁面,把包含這個標簽的所有文章列在標簽頁面上。所以,tag頁面可以理解爲一個按關鍵詞分類的內容聚合頁面。

最常见的tag页面就体现在博客上。WordPress等博客CMS会把tag链接以tag cloud(标签云)的形式显示在侧栏中,tag的尺寸代表了这个tag里内容的多少:

抢庄斗牛没有启用tag功能,所以看不到标签云。没有启用的原因看完这个帖子就清楚了。

Tag頁面與分類頁面的區別

分类页面(Category Page),也可以称为栏目页面,产品列表页等等,总之,就是网站主导航里面那些页面。

Tag頁面和分類頁面都是組織內容的分類方式,各有特點和用途。

分類頁面一般是有從屬關系的,比如本帖子是在SEO技術這個分類之下。稍大點的網站分類從屬關系就更明顯,分類本身就有從屬,比如一雙男旅遊鞋可能是在這個分類結構下:

鞋帽 – 鞋 – 男鞋 – 休闲男鞋 – 男旅游鞋

上面的各個分類本身也是有從屬關系的,是會體現在URL的目錄結構中的。這種從屬關系都是有邏輯的,在目錄結構、面包屑導航等的協助下,用戶可以清晰判斷當前頁面在網站的什麽位置。

而tag页面没有这种从属关系,各个tag页面是并列关系,其URL也没有层级目录,通常所有tag页面的URL都是 /tag/标签名称/ 而已。

分類頁面一般是固定的,沒有改版時不會增加或減少。Tag頁面可以隨時增加,尤其是有突發事件、話題時,分類系統中有“程序員”或者“互聯網”甚至“馬雲”都是可能的,但不大可能有“996”這個分類。而標簽就可以有“996”。

Tag頁面的SEO特點

由于Tag頁面就是針對關鍵詞的內容聚合頁面,所以tag頁面與關鍵詞的相關度通常是很高的,也所以tag頁面排名經常是不錯的。

而且tag的使用更靈活。如前面提到的,有熱點話題時,關鍵詞經常是新創的,如果有多篇跟進文章,用標簽聚合在一起是最合適的。

一般來說,標簽應該是編輯人工打的。有的網站也會從文章中自動提取關鍵詞,或者利用詞庫,生成tag頁面,所以tag頁面也經常被用來自動生成大量頁面,意圖覆蓋更多關鍵詞。這個方法要十分慎重使用。

Tag頁面使用時要注意什麽?

雖然tag頁面相關度高,但用不好也容易有負面作用。

比如前面提到的自动生成大量页面,这必须是在内容数量足够、而且生成页面相关性够高的情况下。一个只有几千个产品的网站,如果生成几千个tag页面,组合来组合去也都是那些产品,恐怕会造成大量低质、重复的页面。一个“黑连衣裙”tag页面如果夹杂很多白色衣服,用户体验恐怕也是个問題。

即使有足夠內容保證,相關度也夠高(比如標簽是編輯人工打的),也要避免一個很多網站在犯的錯誤:tag頁面不應該與現有分類頁面重複。比如一個新聞網站,把所有和財經有個的新聞打上“財經”這個標簽是毫無意義的,“財經”這個tag頁面與“財經”欄目內容必然高度相似,對搜索引擎來說是重複內容,對網站來說,到底優化哪個頁面將失去焦點。

Tag關鍵詞應該是分類名稱沒有的、又有一定關注度的詞,比如“中美貿易戰”,而不是“財經”。很多時候,這種不會出現在分類導航系統中的詞,是有不小的查詢量的,除了前面提到的突發新聞,還有保持穩定的人名、公司名,都不大會出現在分類名稱中,但名人、大公司名字,搜索量是很大的。

Tag與分類名稱重複,也可以理解爲標簽打得太寬泛,要避免。另一方面,標簽也不能打得太細,比如我見過把文章標題打成標簽的,結果是一個tag頁面上就一篇文章,這頁面質量也太低了。最好一個Tag頁面上至少有5篇10篇相關文章,才生成這個Tag頁面。

最後,我沒有啓用Tag功能是因爲,我沒辦法想出那麽多與分類名稱不同、又有一定關注度的關鍵詞。

]]>
/seo-tips/how-to-optimize-tag-page/feed/ 56
未来SEO也许不用再操心爬行、抓取問題? /msn/bing-reduce-crawling/ /msn/bing-reduce-crawling/#comments Thu, 11 Apr 2019 16:46:25 +0000 /?p=5029 抢庄斗牛很少写關于必应Bing或雅虎Yahoo!的事,原因显而易见:他们那可怜的市场份额真不大值得写。

微軟雖然一直對搜索不離不棄,投入重金和時間,但到目前爲止,Bing在搜索市場從來都是個陪襯。Yahoo!就更甭提了,在收購了除Google、Bing以外的所有搜索引擎之後,Yahoo!竟然自廢武功,把自己多年积累、收购的所有搜索技术彻底放弃了,雅虎网站的搜索功能转为使用Bing的技术 – – 不禁让人心里嘀咕:确定不是Google卧底干的吗?一个最重要的对手就这么没了?

不过Bing对SEO们一直都是挺友好的,而且Bing工程师们给SEO行业不少很有建设性的意见。比如,關于外链建设,我觉得最精彩的一句话就是某位必应工程师说的,大意是,最好的外链是那些你根本不知道其存在的外链。

必應大幅提高URL提交限額

一月底Bing站長博客發了一篇帖子,表示Bing站長工具URL提交工具做了升級,大幅提高站長可以提交的URL數目上限,從原來的每天只能提交10個,每個月最多50個,增長1000倍,現在每天可以提交10,000個,沒有月上限。唯一的限制是,網站需要在Bing站長工具注冊驗證180天以上:

Bing提高URL提交上限

帖子还说了很有意思的一段话,如果以后搜索引擎按这个方向发展的话,SEO们未来可能不用再操心页面爬行、抓取的問題了:

We believe that enabling this change will trigger a fundamental shift in the way that search engines, such as Bing, retreive and are notified of new and updated content across the web. Instead of Bing monitoring often RSS and similar feeds or frequently crawling websites to check for new pages, discover content changes and/or new outbound links, websites will notify the Bing directly about relevant URLs changing on their website. This means that eventually search engines can reduce crawling frequency of sites to detect changes and refresh the indexed content. 

翻譯過來大意是:

我們相信這個變化會引發搜索引擎發現及抓取新內容(包括新建或更新的內容)方式的根本性變革。站長將可以直接通知Bing網站上有了URL變化,而不需要Bing通過監控RSS或頻繁爬行來發現新頁面。這實際上意味著搜索引擎在發現、更新索引內容時,可以降低對網站的爬行頻率。

內容索引不再依靠爬行?

一直以来,我觉得SEO有三大难点:内容、內部鏈接結構、外链建设。其中,网站內部鏈接結構就是要解決搜索引擎有效爬行、抓取的難題,既要抓得全,抓得快,又要避免抓取不必要的内容,还得合理分配权重。越是大站,这个問題越难完美解决。做过大站的SEO一定都深有体会,不管怎样调整网站结构,都无法做到页面100%被索引。

必应的这篇帖子在告诉SEO们,以后很可能不用担心抓取的問題了,有了新页面,或者旧页面有了更新,直接提交URL就行了(通过站长工具或API),不必依靠Bing蜘蛛爬行抓取,实际上,Bing蜘蛛会大大减少爬行,却不耽误索引新内容。

後續SearchEngineLand對Bing搜索工程師的訪談證實,減少爬行,確實是Bing的目標。他們希望未來幾年內,Bing不再依靠爬行來發現新內容。Bing認爲,對網站爬行的方法低效、費資源,不如站長直接提交內容。Bing表示,提交URL是頁面抓取的“很強”的信號,要想內容被快速索引,就趕緊用提交工具吧。

確實,大型網站,頁面被抓取一遍,可能需要幾個星期,甚至更長時間,那麽網站上有新頁面,或老頁面內容有更新,要被抓取,也可能會有幾個星期的延遲。提交URL是個更快的方法。

其實百度早就在做類似的事,在百度資源平台提交內容是快速抓取新頁面的很好方法,小時級收錄確實可以在幾小時內收錄,有時幾分鍾就收錄。不過百度資源平台提交好像不支持老的但有更新的頁面。

對SEO行業的潛在影響

如果Google以後也跟進采取這個方法,可能會對SEO行業産生不小的影響。搜索引擎發現、抓取、索引新內容的方式變得更加簡單直接,SEO們調整網站結構的必要性和難度將大大降低。

不过也有潜在問題。比如,黑帽SEO们显然不会放过这个机会。以前垃圾内容靠爬行被抓取越来越困难,因为从一个页面到另一个页面的爬行就是个鉴别、过滤的过程。大量主动提交垃圾页面成为可能后,搜索引擎该怎么处理?

再比如,搜索引擎減少爬行,倒是節省資源了,但老的、不更新的頁面被重新抓取的次數將大大減少,這會不會導致鏈接關系計算的不准確、不及時?順便提一句,不知道爲什麽總是有人說鏈接對排名已經不重要了,其實依然很重要。

SEO的基本方法過去十多年沒有大變化,但SEO依然是個不斷變化的行業。

]]>
/msn/bing-reduce-crawling/feed/ 35
搜索引擎自己怎麽做SEO? /topic/how-se-do-seo/ /topic/how-se-do-seo/#comments Tue, 26 Mar 2019 17:18:57 +0000 /?p=4691 和其他網站一樣,搜索引擎本身也需要做SEO。以前本博客上就替朋友發過雅虎、微軟招聘SEO人員的帖子。

Google也是一樣。前幾天Google工程師在Think with Google博客上发了一篇帖子,講述谷歌自己怎樣做SEO。雖然是Google自己做網站SEO的經驗,對百度也一樣適用。

Google自己擁有7000多個網站,由全世界數百個産品和營銷團隊運營。對這些網站來說,seo也是他們流量來源的核心。雖然近年來搜索流量比例在下降中,但目前還是大約占網站總流量的一半左右,還是第一大來源。

搜索算法對所有網站一視同仁

Google搜索算法對自己的網站和其它網站是平等對待的,沒有特殊照顧。運營團隊也必須遵守Google發布的網站質量規範。

与外界想象可能不同的是,Google内部员工不一定就了解Google搜索算法,这几百个运营网站的团队和普通SEO一样,对算法的了解很可能并不比我们多多少。Google自己的网站以前多次被自己的算法所惩罚,甚至要解除惩罚也需要和其它站长一样,在Google Search Console里提交审核申请。

Google与SEO社区沟通的官方代表也不一定完全了解搜索算法。就在前几天,近年代替Matt Cutts出席世界各地SEO行业大会的Gary Illyes,刚刚发现Google不再使用rel=prev/next标签了,而过去几年谷歌在线帮助文档、对外沟通和回答問題时都一再推荐使用这个标签。搜索算法负责抓取的团队几年前就放弃使用这个标签,其它团队的人并不知道。Gary Illyes大概是很偶然地发现了这个事,所以撤下了相关的帮助文档。有SEO注意到文档被撤,另一位Google官方SEO联系人JohnMu在Twitter回答問題时提到,Google根本不用rel=prev/next标签了。

这个话题这几天在SEO行业掀起不小的波动。Gary Illyes和JohnMu他们对算法已经算是非常熟悉了,不然没办法回答SEO们的問題。即使他们也不一定了解很多算法细节。

所以,Google運營網站的團隊和普通SEO們大致是站在相同的起跑線上。

小處著手

很多有效果的优化并不一定是多高大上的,而是从小處著手,看似基础、细节的地方,常常有明显的优化效果。

比如,Google My Business(我的商家)营销团队在自己的网站上执行了很基础的技术优化,如加上正确的canonical標簽,提示搜索引擎哪個URL是規範化的、應該被返回的版本,結果搜索流量上漲了兩倍:

圖中四個時間節點:

  • 新版Google My Business上线
  • 添加canonical標簽
  • 上傳帶有hreflang標簽的sitemap.xml文件
  • 修改meta標簽(標題標簽、說明標簽之類)

這幾個確實都是基礎優化。

擁抱變化

隨著內容的豐富、用戶行爲的變化等,搜索算法和搜索概念也一直變化。比如,現在移動查詢量已經超過PC搜索,Google算法也必須適應這個新形勢,産生相應的變化,比如Google AMP的提出和發展。

虽然有的时候各种变化、新技术令人眼花缭乱,但Google内部负责网站的团队得到的经验是,越积极擁抱變化,不断尝试,SEO效果就越好。

比如,Think with Google团队去年集中精力解决Google Search Console中显示的各种错误,增加结构化数据,添加AMP页面。在解决了一些AMP页面错误信息后,页面展示增长了200%:

圖中黃色時間點就是修正AMP錯誤的時間,之後展現量直線上升。

整合,而不是分散

很多公司和站長都肯定有這種體會,公司出于各種目的,比如爲了針對不同客戶群、不同地區,或者不同産品線,經常用差不多的內容建出多個網站。這一點我是深有感觸,我的客戶中極少只有一個網站的,經常是一大堆網站,內容雷同,我在診斷客戶網站時經常發現怎麽這些網站這麽像呢?然後客戶告訴我,都是他們的網站……

Google也是如此,多年累計下來,Google內部檢查發現,自己有大量近乎重複內容的網站。重複內容不僅讓用戶犯迷糊,也讓搜索引擎算法犯迷糊。集中力量建一個高質量網站,而不是建多個小網站,才是得到搜索流量的最好方法。

比如,在内部检查后,他们把Google Retail有关的6个营销网站清理、整合内容为一个,结果是自然搜索流量增长了64%。

我想,整合不僅是多個網站整合爲一個,也存在于網站內部。在《SEO實戰密碼》第一版中,我也有過網站越大越好的觀點,但第三版中我已經做個修正,現在的觀點是網站越強越好,而不是越大越好。同一個話題,最好是在一篇文章中寫清、寫透,而不是分成幾個小文章,哪個都不深入。

]]>
/topic/how-se-do-seo/feed/ 30
Google 2019年3月核心算法更新 /gg/march-2019-update/ /gg/march-2019-update/#comments Fri, 15 Mar 2019 17:16:57 +0000 /?p=5046 本來不想談Google的這次2019年3月核心算法更新,因爲昨天在 Google算法更新大全帖子里已经加上了这次更新的内容。但读者ailly问了这个問題:

哈罗 Zac 您好!3.12这次的Google算法对于网站有什么影响呢。还是持续去年8月份的更新,更多的应该专注于构建优质内容上面吗?我们公司做软件的,主要市场是国外,对于这次更新,面向西语、英语等欧美国家网站排名有很大影响、但是对于面向日本的网站并没有收什么影响。这个是说明我们日本方面的网站没有触及这次更新的点吗?还是说日本这边的更新和欧美不是同步进行的呢?

看来还是有SEO关注Google SEO方面的新闻的,所以写个帖子聊一下。

當然,另一個發帖子的原因是,發現已經4個多月沒更新博客了……

谷歌2019年3月核心算法更新

2019年3月12號開始,SEO相關論壇就有人發現Google排名大幅度變化,應該是有比較大的算法更新。

雖然現在Google很少確認算法更新了,但這次還真在Twitter發文確認了:

Google的说法是,和去年8月的Medic更新一样,这次也是所谓核心算法更新,3月12号上线。全球同时上线。(所以回答读者ailly的問題,不是因为没有同步上线,可能是日语网站做得比较好?建议看看日语网站有什么特殊的地方。)

Google也再次强调,这种核心算法更新,SEO是没有办法采取针对性措施的,被影响的网站也不一定有什么要修改的,Google的原话是“no fix”,没法修正,只能关注高质量内容,提高网站整体质量。和以前對核心算法更新的建議沒有任何差別。

Google没有明说,但有人得到的消息是,这次Google 2019年3月的核心算法更新,是近年最大的更新之一。

爲什麽取名爲2019年3月核心更新

Danny Sullivan发推把这次更新命名为:March 2019 Core Update(2019年3月核心更新)。为什么取个这么没特色的名字呢?

在Google给这次更新命名之前,webmasterworld的Brett Tabke,在长达15年后又一次为Google算法更新命名了,把这次更新称为:佛罗里达2更新。

Google早期的算法更新都是webmasterworld命名的,是效仿台風命名方法,按字母排序,男名女名間隔,這其間的曆史淵源詳見Google算法更新大全帖子。其中webmasterworld命名的最有名的一次更新就是2003年11月的佛罗里达更新(Florida Update),因为webmasterworld当时马上要在佛罗里达开 PubCon大会。

而这次核心算法更新的时间,是Brett Tabke他们刚好在佛罗里达刚开完PubCon大会,所以Brett Tabke一时兴起,长达15年后又给Google更新命了个名。

但佛羅裏達2更新與2003年的佛羅裏達更新,除了名字成個系列,別的就沒有任何關系了。Google官方爲了怕站長們混淆,以爲這兩次更新有什麽技術上的關系,所以出來說明,還是叫“2019年3月核心更新“吧,更新類型和時間都清楚了,多好。

哪些網站受到了影響?

索性我自己的和客戶的英文網站,到目前爲止,都沒有被影響。不過,這種核心算法更新通常需要1個多星期才能上線完成,現在還不能高興得太早。因此,我個人對這次更新還沒有感受,也無從分析。

從網上看到的帖子,各種說法都有,幾乎看不出規律。有說是鏈接相關的,有說還是針對醫藥行業的,有說是美容行業的,有說是E-A-T相關的,有說是去年8月Medic核心算法更新回調的,總之,五花八門,沒什麽特殊幫助。

不過從論壇、twitter等地方的動靜看,這個2019年3月核心算法更新影響是比較大的,但實際影響沒有達到像Google所說的是過去幾年最大的一次。

3月17號更新:

SEO行业的初步结论是回调。据Brett Tabke说,他在这次更新上线之前就得到了消息,他的观察是,很多被上次核心算法更新影响的网站这次恢复了,很像是以前核心算法更新的回调。

另外,一家流量監測公司Sistrix分析部分英國網站的結論是,這次更新得益、排名流量提升的網站中,75%是去年受負面影響,排名流量下降的網站。這次受負面影響的網站中,70%是以前就受負面影響的。所以,受影響的基本是同一群網站,有的以前被誤判,這次回升,有的是進一步下降。

]]>
/gg/march-2019-update/feed/ 22