過去 Blogger 要提交網站地圖到「Google / Bing 網站管理員」時,其實有點小小的麻煩,因為 Blogger 提供的兩種格式 Atom/Rss,無法儲存太多資料,一個 sitemap 網址最多能存放 500 篇文章,超過時只能手動分開提交。
現在 Blogger 提供了一勞永逸的方法,無論部落格有多少文章,就算有數千、甚至上萬篇,都只需要提交一次網站地圖就好,不必再為這件事操心,無論是否自訂網域都適用。
1. Sitemap 格式
有提交過網站地圖的站長,應該都知道 Blogger 提交的格式長的類似像這樣:
將以上 www.wfublog.com 置換成自己的網址即可看到內容。分別說明一下以上格式──
2. 索引更新原理
Sitemap 網址之中,每篇文章的資料之中包含一個標記,註記該篇文章的更新日期、時間。例如 RSS 的標記為 <pubDate>,ATOM 的標記為 <updated>。
只要有文章更新過內容,Sitemap 之中該篇文章就會更新這個標記,記錄最後的更新時間。搜尋引擎蜘蛛定期爬 Sitemap 發現這件事後,就會去重新索引該篇文章,讓搜尋結果保有最新的資料。
3. 無法更新的文章
瞭解以上原理後,我們可以知道:
RSS:根據前面的網址格式,只有最新的 25 篇文章,當文章內容修改過時,搜尋引擎才會知道、並過來更新。每當網站有新的文章,從第 26 篇起,搜尋引擎就比較難發現文章的更新狀態。
ATOM:依上述網址格式,最新的 500 篇文章會持續更新。不過只要勤勞一點,分批將所有文章都提交出去,搜尋引擎就能知道所有文章的更新狀態。
補充說明一下,RSS 的 sitemap 網址後面,加上跟 ATOM 一樣的參數 (?redirect=false&start-index=1&max-results=500),就可有一樣的效果。
1. 一般網站
根據這篇「XML Sitemap for Blogger」,Blogger 在 2013 中提供了新的網站地圖格式:
在網址後面加上 "sitemap.xml" 就是可以提交的新格式。這個網址格式的特點如下:
來看一下實例,這是 Google 官方網站的 sitemap 網址:
實際上 Google 官網有數千篇文章,但 sitemap 的內容卻不多:
原來這個索引網頁記錄了 sitemap 的分頁資訊,如此搜尋引擎就可從這個 sitemap 網址的索引資料,繼續爬第 1 頁到 第 5 頁的內容。這個機制很聰明,不必再像 ATOM 一樣,得手動另外提交超過 500 篇的頁面。
2. 自訂網域
這麼棒的 sitemap 格式,其實一開始只適用 blogspot.com 網域的 Blogger,也就是說「自訂網域」的 Blogger 不支援。不過原文提到,最近 2014 年底,這個功能已經悄悄支援所有 Blogger了,例如本站就能提交以下的網址:
因此,如果你使用 Blogger 自訂網域的話,現在可以開始提交 sitemap.xml 這個格式了。
1. 官方建議
然而提交 sitemap 之前,需要瞭解一下 Google 官方說明「Best practices for XML sitemaps & RSS/Atom feeds」:
1.「sitemap.xml」的內容比較多(全部);「ATOM/RSS」較少,只列出最近更新的文章
2. 「sitemap.xml」更新頻率比較慢;「ATOM/RSS」更新的速度比較快
因此官方建議提交網站地圖時,兩種都一起提交,才能確保「網站所有文章都被索引」,以及「讓搜尋引擎以最快速度索引」。
2. 最方便的搭配
根據以上的結論,WFU 認為提交網站地圖時,這是較佳的組合:
以上 www.wfublog.com 置換成自己的網址即可。
提交兩組網站地圖的意思是:
3. 補充說明
以上官方文章提到一件事 "submitting sitemaps or feeds does not guarantee the indexing of those URLs." → 不保證提交的文章都會被搜尋引擎索引。
這是因為 Google 會另外審核文章,如果是重複、不當、垃圾、版權內容等等,可能就不會被收錄了。
最後是提交的步驟,如果不熟悉的話,可參考這篇「Blogger 部落格提交網站地圖」,分別向兩大搜尋引擎「Google 網站管理員」以及「Bing 網站管理員」提交即可。如果需要向別的地區提交、來增加文章的能見度,也可參考該篇文章進行。
現在 Blogger 提供了一勞永逸的方法,無論部落格有多少文章,就算有數千、甚至上萬篇,都只需要提交一次網站地圖就好,不必再為這件事操心,無論是否自訂網域都適用。
一、Blogger 舊版網站地圖
1. Sitemap 格式
有提交過網站地圖的站長,應該都知道 Blogger 提交的格式長的類似像這樣:
RSS:http://www.wfublog.com/rss.xml
ATOM:http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500
將以上 www.wfublog.com 置換成自己的網址即可看到內容。分別說明一下以上格式──
- RSS:根據以上網址格式,只能儲存最新的 25篇文章
- ATOM:根據以上的網址格式,會儲存最新的 500篇文章;當文章超過此數目時,必須提交另一個網址,例如將參數改為 start-index=501&max-results=500,代表第 501 ~ 1000 篇的文章,其餘以此類推。
2. 索引更新原理
Sitemap 網址之中,每篇文章的資料之中包含一個標記,註記該篇文章的更新日期、時間。例如 RSS 的標記為 <pubDate>,ATOM 的標記為 <updated>。
只要有文章更新過內容,Sitemap 之中該篇文章就會更新這個標記,記錄最後的更新時間。搜尋引擎蜘蛛定期爬 Sitemap 發現這件事後,就會去重新索引該篇文章,讓搜尋結果保有最新的資料。
3. 無法更新的文章
瞭解以上原理後,我們可以知道:
RSS:根據前面的網址格式,只有最新的 25 篇文章,當文章內容修改過時,搜尋引擎才會知道、並過來更新。每當網站有新的文章,從第 26 篇起,搜尋引擎就比較難發現文章的更新狀態。
ATOM:依上述網址格式,最新的 500 篇文章會持續更新。不過只要勤勞一點,分批將所有文章都提交出去,搜尋引擎就能知道所有文章的更新狀態。
補充說明一下,RSS 的 sitemap 網址後面,加上跟 ATOM 一樣的參數 (?redirect=false&start-index=1&max-results=500),就可有一樣的效果。
二、Blogger 新版網站地圖
1. 一般網站
根據這篇「XML Sitemap for Blogger」,Blogger 在 2013 中提供了新的網站地圖格式:
http://wayne-fu.blogspot.com/sitemap.xml
在網址後面加上 "sitemap.xml" 就是可以提交的新格式。這個網址格式的特點如下:
- 包含網站的所有文章更新狀況,無論多少篇都能處理。
- 提交網站地圖時只需一次即可,每超過 500 篇也不再需要分批提交,是一勞永逸的方法。
- 實際上 sitemap.xml 一次最多只能存放 1000 篇文章,但超過 1000 篇後,內容會自動化處理,sitemap.xml 自動成為索引檔。
來看一下實例,這是 Google 官方網站的 sitemap 網址:
http://googleblog.blogspot.tw/sitemap.xml
實際上 Google 官網有數千篇文章,但 sitemap 的內容卻不多:
<?xml version='1.0' encoding='UTF-8'?><sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=1</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=2</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=3</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=4</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=5</loc></sitemap></sitemapindex>
原來這個索引網頁記錄了 sitemap 的分頁資訊,如此搜尋引擎就可從這個 sitemap 網址的索引資料,繼續爬第 1 頁到 第 5 頁的內容。這個機制很聰明,不必再像 ATOM 一樣,得手動另外提交超過 500 篇的頁面。
2. 自訂網域
這麼棒的 sitemap 格式,其實一開始只適用 blogspot.com 網域的 Blogger,也就是說「自訂網域」的 Blogger 不支援。不過原文提到,最近 2014 年底,這個功能已經悄悄支援所有 Blogger了,例如本站就能提交以下的網址:
http://www.wfublog.com/sitemap.xml
因此,如果你使用 Blogger 自訂網域的話,現在可以開始提交 sitemap.xml 這個格式了。
三、不同網站地圖格式的特點
1. 官方建議
然而提交 sitemap 之前,需要瞭解一下 Google 官方說明「Best practices for XML sitemaps & RSS/Atom feeds」:
1.「sitemap.xml」的內容比較多(全部);「ATOM/RSS」較少,只列出最近更新的文章
2. 「sitemap.xml」更新頻率比較慢;「ATOM/RSS」更新的速度比較快
因此官方建議提交網站地圖時,兩種都一起提交,才能確保「網站所有文章都被索引」,以及「讓搜尋引擎以最快速度索引」。
2. 最方便的搭配
根據以上的結論,WFU 認為提交網站地圖時,這是較佳的組合:
http://www.wfublog.com/sitemap.xml
http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500
以上 www.wfublog.com 置換成自己的網址即可。
提交兩組網站地圖的意思是:
- 提交 sitemap.xml 可確保所有文章都被收錄
- 提交 ATOM 的 1~500 篇文章,可確保最新的文章能以最快速度被收錄,第 1~500 篇文章 有更新時能被搜尋引擎快速知道。
- ATOM 從 501 篇之後的文章可不必提交,因為 sitemap.xml 已經有這些資料,只是更新頻率稍微慢一些而已。
- 可省去以後操作的麻煩,也就是說網站地圖只需提交這麼一次即可。
3. 補充說明
以上官方文章提到一件事 "submitting sitemaps or feeds does not guarantee the indexing of those URLs." → 不保證提交的文章都會被搜尋引擎索引。
這是因為 Google 會另外審核文章,如果是重複、不當、垃圾、版權內容等等,可能就不會被收錄了。
四、提交網站地圖
最後是提交的步驟,如果不熟悉的話,可參考這篇「Blogger 部落格提交網站地圖」,分別向兩大搜尋引擎「Google 網站管理員」以及「Bing 網站管理員」提交即可。如果需要向別的地區提交、來增加文章的能見度,也可參考該篇文章進行。
更多 Blogger 相關主題: