機器人怎麼起點抓取網站?
在搜尋引擎的世界裡,機器人(也叫爬蟲)就像是「網路探險家」一樣,它們會先決定從哪個地方開始,然後慢慢往更深處走。這篇教學會帶你一步步了解:
- 起點是什麼? 機器人需要一份「路線圖」,才能知道要去哪裡。
- 怎樣寫好起點? 透過 sitemap、robots.txt 與內部連結,讓機器人更容易找到你想曝光的頁面。
接下來,我們就用最常見的範例說明整個流程。
1. 起點:Sitemap.xml 是機器人的「行程表」
- 什麼是 sitemap? 它是一份 XML 檔,列出網站上所有重要的 URL、最後更新時間與優先權。
- 範例內容:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/</loc>
<lastmod>2024-08-15</lastmod>
<changefreq>daily</changefreq>
<priority>1.00</priority>
</url>
<url>
<loc>https://example.com/about</loc>
<lastmod>2024-07-10</lastmod>
<changefreq>monthly</changefreq>
<priority>0.80</priority>
</url>
</urlset>
- 如何放進網站? 把 sitemap.xml 放在網域根目錄(例如 https://example.com/sitemap.xml),並在 robots.txt 裡加上
<Sitemap>標籤,告訴機器人去那裡找。
2. 再確認:robots.txt 是「安全規則」
- 目的:限制哪些頁面不被抓取,或讓機器人知道要先等待多久。
- 範例內容:
robots.txt for https://example.com
User-agent: *
Disallow:
不允許抓取 /private 內的所有頁面
Disallow: /private/
建議等待 10 秒後再抓取下一個 URL
Crawl-delay: 10
指向 sitemap.xml
Sitemap: https://example.com/sitemap.xml
- 小提醒:
User-agent: *表示所有機器人都適用。若你只想針對 Google 的爬蟲(Googlebot)設定,改成User-agent: Googlebot就可以了。
3. 內部連結:像是「朋友介紹」
- 機器人會從已知 URL 開始,然後依照頁面上的連結往更深處探索。
- 實作技巧:在首頁或重要文章中放入對其他關鍵頁面的連結,讓機器人更容易被發現。
舉例來說,首頁(https://example.com/)裡有一個「最新活動」按鈕指向 https://example.com/events,這樣 Googlebot 就能在抓取首頁後自動發現活動頁面。
4. 檢查與測試:用搜尋控制台確認起點是否正確
- 操作步驟:登入 Google 搜尋控制台,選擇「覆寫抓取」或「URL 檢查工具」,輸入你的 sitemap 或首頁 URL。
- 檢視結果:如果機器人能成功下載並解析,畫面就會顯示「已索引」。若出錯,則會說明是哪裡的設定有問題(例如 robots.txt 被拒絕、連結失效)。
這樣你可以馬上知道起點是否設置妥當,並做調整。
5. 常見小問題與解決辦法
- 404 錯誤:若 sitemap 裡有已不存在的 URL,機器人會發現失敗。記得定期更新 sitemap。
- 重複內容:同一篇文章多個 URL 可能導致重複索引,建議使用 canonical 標籤或在 robots.txt 禁止其中一個。
- 速度過快:若網站負載高,可調整
Crawl-delay或在 robots.txt 加上Noindex指令讓機器人暫停抓取。
小結:把起點做好,就是讓機器人更順利的關鍵。
- 先寫好 sitemap,列出所有重要頁面與更新頻率。
- 再設定 robots.txt,告訴機器人哪些要抓、哪些不要抓,以及抓取節奏。
- 最後在網站內部連結上多下功夫,讓機器人在起點之後能順利探索更多內容。
只要這三件事做到位,你就能大幅提升搜尋引擎對你網站的「好感」與收錄速度。
