搜尋引擎如何抓取與排序？

從爬蟲到演算法，拆解背後的機制。

作者：哇哇工作站更新於：2025年8月18日

搜尋引擎抓取流程全解析

機器人怎麼起點抓取網站？

在搜尋引擎的世界裡，機器人（也叫爬蟲）就像是「網路探險家」一樣，它們會先決定從哪個地方開始，然後慢慢往更深處走。這篇教學會帶你一步步了解：

起點是什麼？ 機器人需要一份「路線圖」，才能知道要去哪裡。
怎樣寫好起點？ 透過 sitemap、robots.txt 與內部連結，讓機器人更容易找到你想曝光的頁面。

接下來，我們就用最常見的範例說明整個流程。

1. 起點：Sitemap.xml 是機器人的「行程表」

什麼是 sitemap？ 它是一份 XML 檔，列出網站上所有重要的 URL、最後更新時間與優先權。
範例內容：

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2024-08-15</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.00</priority>
  </url>
  <url>
    <loc>https://example.com/about</loc>
    <lastmod>2024-07-10</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.80</priority>
  </url>
</urlset>

如何放進網站？ 把 sitemap.xml 放在網域根目錄（例如 https://example.com/sitemap.xml），並在 robots.txt 裡加上 <Sitemap> 標籤，告訴機器人去那裡找。

2. 再確認：robots.txt 是「安全規則」

目的：限制哪些頁面不被抓取，或讓機器人知道要先等待多久。
範例內容：

robots.txt for https://example.com

User-agent: *
Disallow:

不允許抓取 /private 內的所有頁面

Disallow: /private/

建議等待 10 秒後再抓取下一個 URL

Crawl-delay: 10

指向 sitemap.xml

Sitemap: https://example.com/sitemap.xml

小提醒：User-agent: * 表示所有機器人都適用。若你只想針對 Google 的爬蟲（Googlebot）設定，改成 User-agent: Googlebot 就可以了。

3. 內部連結：像是「朋友介紹」

機器人會從已知 URL 開始，然後依照頁面上的連結往更深處探索。
實作技巧：在首頁或重要文章中放入對其他關鍵頁面的連結，讓機器人更容易被發現。

舉例來說，首頁（https://example.com/）裡有一個「最新活動」按鈕指向 https://example.com/events，這樣 Googlebot 就能在抓取首頁後自動發現活動頁面。

4. 檢查與測試：用搜尋控制台確認起點是否正確

操作步驟：登入 Google 搜尋控制台，選擇「覆寫抓取」或「URL 檢查工具」，輸入你的 sitemap 或首頁 URL。
檢視結果：如果機器人能成功下載並解析，畫面就會顯示「已索引」。若出錯，則會說明是哪裡的設定有問題（例如 robots.txt 被拒絕、連結失效）。

這樣你可以馬上知道起點是否設置妥當，並做調整。

5. 常見小問題與解決辦法

404 錯誤：若 sitemap 裡有已不存在的 URL，機器人會發現失敗。記得定期更新 sitemap。
重複內容：同一篇文章多個 URL 可能導致重複索引，建議使用 canonical 標籤或在 robots.txt 禁止其中一個。
速度過快：若網站負載高，可調整 Crawl-delay 或在 robots.txt 加上 Noindex 指令讓機器人暫停抓取。

小結：把起點做好，就是讓機器人更順利的關鍵。

先寫好 sitemap，列出所有重要頁面與更新頻率。
再設定 robots.txt，告訴機器人哪些要抓、哪些不要抓，以及抓取節奏。
最後在網站內部連結上多下功夫，讓機器人在起點之後能順利探索更多內容。

只要這三件事做到位，你就能大幅提升搜尋引擎對你網站的「好感」與收錄速度。

連結追蹤：從首頁到深層頁面

連結追蹤基礎概念

當你把一個頁面連結到另一個頁面時，搜尋引擎就會把這條路徑記錄下來，進而判斷哪一個頁面較為重要。
追蹤從首頁到深層頁面的連結流向，不僅能幫你找出內容的重點與薄弱處，也能讓搜尋引擎更快抓取新內容。

常見問題：

什麼是「深層頁面」？
為什麼首頁的連結比內部連結重要？
如何避免鏈結走失（404）？

定義與關鍵詞說明

首頁：網站入口，通常是最具權重的頁面。
深層頁面：離首頁較遠、內容更專業或細分的子頁面。
鏈結路徑：從一個點到另一個點所經過的連結序列。

透過追蹤這些路徑，你可以看到哪條鏈結最常被使用，並針對性優化內容與結構。

實際操作步驟：從首頁到深層頁面

1️⃣ 登入 Google Search Console，選擇你想分析的網站。
2️⃣ 進入「鏈結」報告 → 「內部鏈結」。這裡會顯示所有從首頁出發的內部連結。
3️⃣ 檢查熱門鏈結：點擊任何一個頁面，系統會列出該頁面指向其他頁面的數量與比例。

範例表格：首頁 → 內部深層頁面

從	到	點擊次數	百分比
/home	/products/phone	12,345	30%
/home	/blog/tech-review	8,765	20%
/home	/contact	5,432	13%

如何找出「鏈結走失」的深層頁面？

在 Google Search Console 的「索引狀態」中搜尋 404。這些錯誤頁面往往是舊連結或搬遷造成的。
使用網站爬蟲工具（如 Screaming Frog）掃描整站，輸出所有 4xx 錯誤，再將它們與 Google Search Console 的報告做比對。

小結：保持連結健康的三大要點

更新舊鏈結：每年至少檢查一次，確保所有連結都指向有效頁面。
加強內部鏈結：在深層內容中加入與首頁相關的關鍵字鏈結，可提升整體 SEO 分數。
監控跳轉率：若某個深層頁面的離開率過高，可能表示內容不符合使用者需求，需重新檢討。

動態內容的抓取難題

為什麼動態內容抓取會成為 SEO 的大難題？

當你在瀏覽網站時，許多資訊都是透過 JavaScript 動態載入的。舉例來說：

一個商品列表頁面，第一次進來只顯示標題與圖片，真正的價格、庫存資訊則是點擊「更多」後才會從伺服器取得。
社群貼文牆使用無限滾動（infinite scroll），滑到最底部才會自動拉取下一批文章。
旅遊網站利用 AJAX 來顯示不同日期的天氣與價格變化，頁面本身只有一個空白容器，內容完全由 JavaScript 填入。

這些情境對搜尋引擎來說像是「看不見」：

搜尋機器人（crawler）在最初抓取 HTML 時，只會看到靜態的框架與佈局；
直到 JavaScript 被執行、DOM 更新，才會出現真正的內容。

如果搜尋引擎無法正確執行或解析這些動態腳本，那麼關鍵字、Meta 標籤甚至整個頁面結構都可能被忽略。結果就是：

重要資訊不會被索引，排名下降；
使用者在搜尋結果中看到的預覽（Snippet）與實際內容脫節；
連結分數（Link Equity）無法正確傳遞。

簡而言之：動態載入讓爬蟲「看不見」你想要呈現給搜尋引擎的訊息。

解決方案總覽

Server‑Side Rendering (SSR)：在伺服器上先產生完整 HTML，再送到瀏覽器，搜尋引擎直接收到可索引的內容。
Static Site Generation (SSG)：預先編譯好所有頁面成靜態檔案，部署後即回傳完整 HTML。
Pre‑rendering：對於 SPA（單頁應用）使用工具在建置階段產生各路徑的快取版，放進 CDN。
Dynamic Rendering (針對搜尋引擎)：偵測 User‑Agent，若是 crawler 就送預渲染好的 HTML；否則傳送原始 SPA。
JavaScript SEO 改善：確保重要內容在初始載入即存在 DOM，或使用 <noscript> 供搜尋引擎參考。

以 React + Next.js 為例的實作範例

// pages/product/[id].jsx
import { useRouter } from 'next/router'
import { getProductById, fetchProducts } from '../lib/api'

export default function ProductPage({ product }) {
  const router = useRouter()
  if (router.isFallback) return <p>載入中…</p>

  return (
    <article>
      <h1>{product.name}</h1>
      <p>價格：{product.price} 元</p>
      <p>庫存：{product.stock} 件</p>
    </article>
  )
}

// getStaticPaths + getStaticProps for SSG
export async function getStaticPaths() {
  const products = await fetchProducts()
  return {
    paths: products.map(p => ({ params: { id: p.id.toString() } })),
    fallback: true, // 新增商品時會先顯示載入畫面，之後再產生靜態頁
  }
}

export async function getStaticProps({ params }) {
  const product = await getProductById(params.id)
  return { props: { product } }
}

上例中，我們使用 SSG，每個商品頁面在建置時就已經產生完整 HTML。這樣搜尋引擎即使不執行 JavaScript，也能抓到所有關鍵資訊。

成本與效益對照表

方法	需要的開發投入	運維成本	搜尋引擎友好度	例子網站
SSR	中等（伺服器渲染）	中等	★★★★☆	Next.js、Nuxt.js
SSG	低（編譯時生成靜態檔）	低	★★★★★	Hugo、Gatsby
Pre‑rendering	高（工具設定與維護）	低	★★★★☆	Prerender.io
Dynamic Rendering	中等（偵測 UA）	中等	★★★☆☆	Google Search Console 的動態渲染功能
JavaScript SEO 改善	低（內容結構調整）	低	★★★★☆	大部分 SPA 框架可實現

小結

先把重要內容塞進靜態 HTML，讓爬蟲能立即看到；
若必須使用 SPA，建議採用 SSG 或 Pre‑rendering，並在必要時加上 Dynamic Rendering；
永遠記得：搜尋引擎的目標是「了解內容」，不只是「執行腳本」。

被索引的秘密：從抓取到存檔

哪些頁面能進入索引？

認識搜尋引擎抓取與索引

在你打造網站的時候，想要讓 Google、Bing 等搜尋引擎把頁面收錄到索引裡，先得了解它們是怎麼「看」這些頁面的。簡單來說，抓取（crawling）是搜尋機器人走訪你網址的過程；存檔（indexing）則是將內容放進資料庫，讓使用者能夠在關鍵字搜尋時看到。

如果想讓某個頁面成功被索引，需要滿足一系列條件。以下就把這些條件拆成幾項，方便你逐步檢查自己的網站。

必備條件清單：哪些頁面能進入索引？

URL 應該公開且可訪問：確保網址沒有被 robots.txt 或 meta 標籤阻擋，瀏覽器也能直接輸入看到內容。
內容足夠獨立與豐富：單純的文字佈滿空白、重複標題或只有一兩句話的頁面不易被收錄。最好至少有 300 個字，並且資訊對使用者真的有幫助。
避免重複內容：如果同一篇文章在多個網址上都存在，搜尋引擎會挑選最「代表」的一個進入索引。可以用 canonical 標籤告訴機器哪一個是主版。
正確的 meta robots 設定：不要把頁面設定成 "noindex" 或 "nofollow"，除非你真的不想被收錄。若需要保留但又想讓連結權重傳遞，可以使用 "follow" 而不是 "nofollow"。
合理的內部連結結構：每個可索引頁面都應該至少有一條來自首頁或其他重要頁面的連結，這樣搜尋機器人才會發現它。

只要符合上述幾點，基本上就能進入搜尋引擎的索引。

常見可被索引的頁面類型與實際例子

部落格文章：例如「台北夜市美食攻略」這類長篇內容，字數多、關鍵字自然分布，很容易進入索引。
商品頁面：在電商平台上，每一個產品都有獨立的描述、圖片與價格資訊，符合條件就會被收錄，讓潛在買家能直接搜尋到。
FAQ 或常見問題頁：提供具體解答，像是「如何註冊會員？」或「付款方式有哪些？」這類內容對使用者實用，也利於索引。
靜態落地頁（Landing Page）：專門為某個活動、促銷設計的頁面，只要不被標記 noindex，搜尋機器也會抓到。

你可以先把這些頁面檢查一次，看它們是否符合前面列出的條件。若都沒問題，那就大可放心了！

為什麼有時候頁面卻不被索引？常見錯誤與解決方案

robots.txt 阻擋：檢查你的 robots.txt 看是否有 "Disallow: /" 或類似規則，若是，改成只阻擋你想隱藏的部分。
大量重複或低質量內容：像是自動產生的頁面、過度使用關鍵字堆疊（keyword stuffing）等，都會被搜尋引擎視為垃圾資訊，直接排除。
不完整的 meta tags 或缺少關鍵字：即使內容好，但如果 meta title 或 description 沒有寫或太短，也可能影響索引與排名。建議每頁都撰寫 50-70 個字的標題、80-160 個字的描述。
內部連結不足：如果某個重要頁面只有外部網站連結，搜尋機器人很難發現它。可以在首頁或熱門文章中加入指向這些頁面的鏈結。

解決上述問題後，再用 Google Search Console 的「索引覆蓋」工具確認是否已經被收錄，通常 1~2 天內就能看到變化。

標示正本：canonical 的重要性

在網頁經常會有多個 URL 指向相同或幾乎相同的內容時，搜尋引擎就可能無法確定哪一個是「正式」的版本。這樣不只會讓搜尋排名受損，也可能把流量分散到各個副本上，造成效益下降。

為什麼 canonical 重要？

防止重複內容懲罰：Google 會把重複的頁面視為低質量，可能降低整站權重。
集中排名力量：將所有相關連結的「權值」聚焦到一個 URL，提升該頁面的搜尋能見度。
統一流量來源：避免使用者在不同網址看到相同內容而造成混淆，保證分析數據正確性。

典型情境舉例

電商平台的產品頁面有多個分類連結，如 /category/electronics/product-123 與 /product-123。
行銷活動或分店子域名導向同一篇部落格，例如 blog.example.com/post/abc 與 www.example.com/blog/abc。

在這些情況下，若不設定 canonical，搜尋引擎可能會把兩個頁面都抓進索引，分散關鍵字排名。

如何正確使用 canonical 標籤

位置：將 <link rel="canonical" href="https://www.example.com/正式網址"> 放在 <head> 區塊內，靠前可優先被抓取。
格式：必須是絕對 URL，不可使用相對路徑；保持協議（http/https）與子域一致。

<!DOCTYPE html>
<html lang="zh-TW">
<head>
<meta charset="UTF-8">
<link rel="canonical" href="https://www.example.com/product-123">
</head>
<body>…</body>
</html>

多重 canonical：若同一頁面屬於兩個不同主題，Google 只會接受第一條。一般建議每頁最多一條。
自動生成：在 CMS 或後端框架中可根據 URL 轉換規則自動插入正本標籤，確保一致性。

常見錯誤與排查技巧

漏寫或位置不當：若放在 <body> 或 <footer>，搜尋機器人可能忽略。
使用相對連結：<link rel="canonical" href="/product-123"> 會被視為錯誤，導致抓不到正本。
重複設定不同 URL：同一頁面同時宣告兩個不同的 canonical，搜尋引擎只會採用第一條，剩餘的無效。

工具檢查與實務操作

Google Search Console：在「覆蓋」報告中查看是否有 canonical 錯誤提示。
Screaming Frog SEO Spider：抓取時可直接看到每頁的 canonical 標籤，快速篩查異常。
Chrome DevTools：開啟 Network 面板，搜尋 rel=canonical 即可確認是否正確載入。

小結

雖然看似簡單的一行 HTML，但 canonical 標籤在 SEO 成功與否上扮演關鍵角色。把握好位置、格式並定期檢查，就能避免重複內容帶來的負面影響，確保網站的搜尋能見度與流量集中。

重複內容如何影響排名

重複內容對搜尋結果排名的影響

在網路行銷中，重複內容是一個常見且容易被忽略的問題。當兩篇或多篇文章內容過度相同時，搜尋引擎會試圖決定哪一篇是「主頁」(primary page)，並把其他版本視為備援或垃圾資訊。若處理不當，就可能導致排名下滑、流量減少甚至被列入黑名單。

什麼是重複內容？

內部重複：同一網站的不同網址擁有相同或極為相似的文字。常見於商品頁面、分類列表及多語系版本。
外部重複：來自其他網站的內容被直接貼到自己網頁上，或是從第三方平台搬運而來。

搜尋引擎如何判斷？

Google 會先用「相似度演算法」比對整篇文章。若相似度超過一定門檻，就會挑選一個代表頁面作為索引。
若多個頁面都被視為重複，搜尋結果只會顯示其中一個；其他頁面可能不會出現在 SERP（搜尋結果頁）上。

具體影響

| 影響項目 | 說明 | 範例說明 |

|---|---|---
| 排名下降 | 重複內容的頁面可能被降權，甚至不顯示。 | 同一篇「台北景點推薦」文章同時存在於兩個不同子域（blog.example.com、news.example.com）中，搜尋結果只保留主域版本。
| 流量分散 | 雖然總流量不變，但訪客被分到多個頁面，導致單一頁面的跳出率上升。 | 商品 A 的說明頁在兩個網址下都能被搜尋到，使用者點擊後會進入不同版本。
| 信任度下降 | 站台被視為內容重複，信譽受損，導致其他關鍵字排名也受到牽連。 | 一家旅遊網站多篇貼文都是從第三方部落格搬運而來，Google 可能將整個域名列為低質量站台。

如何檢測重複內容？

使用工具：Copyscape、Siteliner、Screaming Frog 等可以掃描同一網站內部或外部的相似度。
手動比對：挑選熱門關鍵字，輸入搜尋語句後觀察是否有多個自家網址出現。

解決方案

使用 canonical 標籤：在重複頁面中加入 <link rel="canonical" href="https://example.com/primary-page">，告訴搜尋引擎哪一個是正規版本。這樣可以集中排名權重。
noindex / nofollow：對於不想讓搜尋引擎收錄的備援頁面，加入 <meta name="robots" content="noindex, follow"> 或在 robots.txt 指令 Disallow: /duplicate/。
內容差異化：若必須保留多個版本（例如不同語系），盡量改寫每版的標題、段落和關鍵字，避免全字相同。
統一網址結構：使用子域或子目錄時，確保主域有明確優先權，例如 www.example.com 為首選，而 blog.example.com 只作備援。

實戰案例

案例 1：商品頁面重複

問題：同一款手機的說明頁在兩個子域 (shop.example.com 與 products.example.com) 中都存在。
處理：將主頁設定為 https://example.com/products/iphone-14，並在備援頁面加入 canonical 指向主頁。結果搜尋排名穩定，流量集中。

案例 2：部落格搬運

問題：網站 A 把外部部落客的貼文直接搬到自家網址上，同時保留原作者連結。
處理：將該頁面設為 noindex，並在原始文章下方加註「本篇內容來源於 XXX」，同時撰寫自己的分析與見解作差異化。搜尋結果中不再顯示搬運版，而是自家改寫的版本。

小結

重複內容會讓搜尋引擎難以判斷哪一頁是真正的「核心」資訊，導致排名下降與流量分散。
透過 canonical、noindex、內容差異化等方式，可以有效避免重複帶來的不良影響。
定期使用檢測工具掃描站內外部相似度，是保持 SEO 健康的重要步驟。

排位原則大公開：哪些指標真正決定順位？

內容關聯度：關鍵字不再是萬能

內容關聯度：為什麼關鍵字不再是萬能？

在過去的 SEO 時代，填入「關鍵字」就等於拿到好排名。但現在搜尋引擎已經學會閱讀語境、判斷用戶意圖，單靠關鍵字已無法決定順位。這篇教學會說明為什麼關鍵字不再是萬能，並提供實際做法讓你在內容上真正「對應」搜尋者需求。

舉例來說：你寫一篇『台北夜市吃到好吃的十種小吃』，只要把「台北夜市小吃」塞進標題、描述和正文，就以為能得到第一名。但如果搜尋者想知道的是「在哪裡可以買到最便宜的珍珠奶茶？」這篇文章就算關鍵字對應，也難以滿足需求，排名自然不會高。

1. 搜尋者意圖：從『什麼』到『為什麼』

資訊型：想學習如何做菜、了解營養成分。
導航型：想找特定店家或地址，例如「永康街珍珠奶茶」。
交易型：想買東西、比較價格，像是『台北夜市小吃折扣券』。

關鍵字雖能告訴搜尋引擎你寫的是哪個主題，但它無法直接說明用戶到底是在尋找資訊還是交易。要在內容裡加入對應的問答、實例或比較，才能真正抓住意圖。

2. 語境與長尾關鍵字：細節決定成敗

長尾關鍵字往往比單一熱門關鍵字更能直接對應需求，例如『台北永康街夜市小吃推薦』比『台北夜市』更有針對性。
內容中自然植入語境：說明為什麼某道小吃在永康街特別受歡迎，或加入用戶評價、地圖連結等，可提升「關聯度」。

3. 內部連結與主題樹狀構造

在文章中設置相關子標題，例如『必吃小吃清單』、'價格範圍對比'，並用實際數字或表格呈現。
透過內部連結把同一主題的多篇內容串聯起來，形成「知識圖譜」，搜尋引擎會視為高質量資料源。

4. 使用者互動：評論、問答與即時更新

在文章末尾留空白區域鼓勵讀者留言，例如『你還有什麼想知道的嗎？』，這些互動訊息可作為搜尋引擎判斷內容活躍度的重要指標。
定期更新數據或新增案例（例如「今年台北夜市新開店」），能保持內容的新鮮感，也有助於排名提升。

5. 實際操作範例：從關鍵字到高關聯度

步驟一：先做意圖分析，列出三種可能的搜尋者需求。
步驟二：為每個需求寫下長尾關鍵字並放入副標題。
步驟三：在正文中加入實際案例、照片、地理座標，讓讀者感覺『這就是我要找的』。

結語：把焦點從關鍵字轉移到『內容關聯度』

若你還在盯著關鍵字堆疊不斷，那麼就像是把車子開進雲霧中看不到路。將注意力放在搜尋者的實際需求、語境與互動，才能讓你的內容真正被搜尋引擎認可並跑到前列。

外部連結與權威性：你站的聲望怎麼決定？

在搜尋引擎的角度來看，外部連結就好比是網路上的推薦信。當別人的網站把連結指向你的內容時，Google 會把這視為「我相信這篇文章值得閱讀！」的訊號。

不過並不是所有的連結都一樣重要；質量、來源與相關度才是關鍵。以下就拆解幾個最常被討論的指標，幫你了解自己的站台聲望究竟如何被評估。

1️⃣ 反向連結數量 VS 質量：到底哪個更重要？

數量：有多少個不同來源的網站把連結指向你，這可以顯示你的內容被多個地方提及。
質量：來源網站本身的權重、可信度與主題相關度會直接影響連結帶來的「聲望分」。

舉例來說，如果你有 500 個連結，但大部分都來自小型部落格或論壇，那對排名幫助有限；相反地，若只有 50 個連結，但其中 10 個來自國內知名新聞媒體、政府機關或學術期刊，則能顯著提升你的權威度。

域名年齡：老站往往被視為更穩定可信，Google 在評分時會給予一定加分。
連結位置：在文章正文內部的連結比位於頁腳或側邊欄的連結更具價值。

這些因素共同構成「反向連結權重」，是搜尋引擎決定你站台排名的重要參考。

2️⃣ 如何快速提升自己的外部連結品質？

客座文章（Guest Post）：主動聯繫與你業務相關的熱門部落格，提供高質量內容並在文中加入指向自己站台的連結。舉例：若你是台北手作咖啡館，發送「10 種最適合咖啡搭配的小點心」給《品味雜誌》或《美食家》，他們通常會放上你的網站連結。
斷鏈修復（Broken Link Building）：先在競爭對手或相關領域的熱門站台找出失效連結，然後主動聯絡站長提供替代內容。這種方式不僅能拿到連結，也能解決他們網站的問題。
資源頁面（Resource Page）：搜尋「XXX 資料庫」或「XXX 參考資料」，如果你在某個領域擁有權威資料，主動提出自己站台作為推薦連結。像是「台灣大學圖書館」的研究資源頁面經常會收錄專業文章。
新聞稿與事件宣傳：只要內容具備真實價值（例如新產品上市、社區活動），媒體往往願意報導並連結到你的官方網站。注意避免過度商業化，否則容易被視為廣告。
社群與論壇互動：在 Reddit、Quora 或本地論壇發表專業回答時，如果答案真的幫助到人，站長會自然把連結嵌入。不要硬塞，只要內容有用，自然就能獲得背書。
避免購買連結或參與連結交換：Google 近期加大對「惡意連結」的懲罰，若被發現購買連結、參與不相關站台互相交換，可能導致排名下降甚至暫時下架。
使用 nofollow 與 dofollow 的分配：如果你需要在文章內嵌入大量外部連結，可將部分設為 nofollow 以避免被認為是垃圾連結，但要確保主要的推薦性連結保持 dofollow。

3️⃣ 快速檢查清單：你目前站台的外部連結狀況如何？

總反向連結數：使用 Ahrefs、SEMrush 或 Google Search Console 查看。
來自不同域名（DFP）：至少 30% 的連結應來自獨立域名，避免單一站台的集中度過高。
主要連結來源類別：新聞、政府、學術、部落格與社群分佈是否均衡？
關鍵字對應度：檢查主題相關性的 anchor text，至少 20% 應使用與你的主題一致的自然文字。
連結健康度：確認沒有大量失效連結（404）或被手動降權的連結。

如果你在某個指標上表現較弱，請針對該項進行優化，例如加強高質量客座文章、修復斷鏈等。

4️⃣ 小結：聲望不是一朝一夕，而是長期累積的成果。

持續產出優質內容：好的內容自然會被引用，成為連結來源。
主動建立關係：與同業、部落客、媒體保持良好互動，讓他們願意把你推薦給讀者。
定期檢查連結健康：確保所有反向連結都符合質量標準，避免被懲罰。

只要堅持上述策略，你的站台聲望就會逐步上升，搜尋排名也隨之提升。祝你在外部連結的世界裡玩得開心，也能看到成果！

使用者體驗訊號：點擊率、停留時間

在網站的 SEO 策略裡，使用者體驗訊號是關鍵。

其中最重要的兩個指標，分別是點擊率（CTR）和停留時間（dwell time）。

1. 點擊率 (CTR) 與搜尋結果

CTR 是使用者在搜尋結果中看到你的網址後，實際點進去的比例。
一般來說，CTR 越高表示標題與描述越吸引人，也代表內容符合搜尋意圖。
例如：若你提供「台北夜市美食指南」這類熱門關鍵字，標題加上「最新必吃清單」往往能提升 CTR。

2. 停留時間說明與實務操作

內容類型	建議停留時間 (秒)	參考原因
簡短 FAQ	30-45	用家快速得到答案
長篇教學文章	120-180	深度解說需要更多時間閱讀

透過觀察這些資料，你可以調整內容長度、排版或加入多媒體，進一步延長停留時間。

爬蟲友善設計：讓搜尋引擎更愛你

Robots.txt 教學：別把好頁面給封起來

你或許已經聽過 robots.txt，卻還不確定它到底對 SEO 有什麼幫助？這篇教學會帶你從「為什麼要用」到「怎麼寫才正確」，再說明如果誤用了會造成哪些問題，最後給你一些實際範例與測試工具。

為什麼要用 robots.txt?

讓搜尋引擎知道哪些頁面可以被抓取，哪些不想讓他們去找。
防止重複內容、內部連結過多造成的「爬蟲分散」問題。
節省伺服器資源，避免搜尋機器人跑到你沒打算公開的管理區域。

常見錯誤：把好頁面封起來

寫成 Disallow: / 會讓所有頁面都不被抓取，連首頁、產品頁都失效！
忘記加 / 前後的斜線：Disallow: about 只會封鎖 /about 這一個檔案，而不是整個 /about/ 資料夾。
把重要動態參數寫進 Disallow：像是 /search?query=，如果被封，搜尋引擎就不會看到使用者可能最想看的結果頁面。

正確寫法範例

允許所有爬蟲抓取整個站台

User-agent: *

不抓取管理區域

Disallow: /admin/

把產品目錄公開給搜尋引擎，但避免重複內容

Allow: /products/

指定 sitemap，方便搜尋引擎快速找到所有頁面

Sitemap: https://example.com/sitemap.xml

上面的範例中，我們只封鎖了 /admin/，其餘的都可以被抓取。若你想讓搜尋引擎忽略某些動態參數，可以這樣寫：

忽略 query 參數

Disallow: /*?query=

檢查工具與測試技巧

Google Search Console → 「站台設定」→「robots.txt 測試器」，直接貼上內容即時檢查錯誤。
Bing Webmaster Tools 也有類似的功能，適合多引擎同時管理。
使用命令列工具 curl https://example.com/robots.txt 查看實際回傳，確保沒有代理或重寫導致錯誤路徑。

小結

記得只封鎖必要的區域：首頁、產品頁等重要內容一定要放在允許列表。 2. 測試是關鍵：部署前務必用官方工具確認無誤。 3. 保持簡潔：過於複雜的規則容易造成誤解與維護困難。

照著上面這些步驟，你就能確保搜尋引擎抓取到最有價值的頁面，同時避免因為 robots.txt 設定失誤而讓好內容被「封起來」。

XML 地圖：讓搜尋引擎更快找到你

歡迎來到 XML 地圖的世界

想像一下，搜尋引擎就像是個忙碌的郵差，得先知道你所有地址才能快速送信。XML 地圖就是那份精簡又完整的「地址簿」，把你的網頁一次性告訴搜尋機器人。

在這裡，我會用口語化、貼近生活的方式帶你一步步寫出屬於自己的 XML 地圖，並說明它為什麼能幫助搜尋引擎更快找到你的內容。

步驟一：先決條件 – 你需要有一個網站

不管是部落格、商店還是公司首頁，只要能產生 URL，就可以寫 XML 地圖。舉例來說，若你管理的是「台北吃貨」的食譜網站，每篇文章都有獨立網址：

這些 URL 都會被放進地圖裡，讓搜尋機器人知道你有這麼多內容。

步驟二：建立 sitemap.xml 的基本結構

打開文字編輯器（像是 Notepad 或 VS Code），貼上以下範例。記得把網址換成自己的！

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://taipeifoodie.com/recipe1</loc>
    <lastmod>2025-08-15</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://taipeifoodie.com/recipe2</loc>
    <lastmod>2025-08-10</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.6</priority>
  </url>
</urlset>

說明一下四個常用欄位：

loc：網址本身。
lastmod：最後更新日期，搜尋機器人會參考這個時間判斷是否需要重新抓取。
changefreq：你覺得內容多久變一次。常見值有 always, hourly, daily, weekly, monthly, yearly, never。
priority：0~1 之間，告訴搜尋機器人這頁重要度。通常首頁設 1.0、熱門文章 0.8～0.9，其餘一般文章 0.5 左右即可。

步驟三：把 sitemap.xml 放到網站根目錄

將剛才的檔案命名為 sitemap.xml，然後上傳到你網站的最外層，例如:

https://taipeifoodie.com/sitemap.xml

這樣搜尋機器人就能在抓取時直接找到它。

步驟四：告訴搜尋引擎有地圖

最簡單的方式是去 Google Search Console 或 Bing Webmaster Tools 裡，輸入你的 sitemap URL。若你想手動通知，也可以在 robots.txt 裡加:

Sitemap: https://taipeifoodie.com/sitemap.xml

這樣搜尋機器人每次抓取 robots.txt 時就會自動知道地圖的位置。

常見小問題與解答

1️⃣ 地圖太大怎麼辦？

每個 sitemap 最多可放 50,000 個 URL，大小上限 10MB (壓縮後)。如果超過，可以拆成多個檔案，再用 sitemap index 檔案列出。

2️⃣ 新增文章不會立即被抓？

XML 地圖本身沒有即時通知功能，只是提供一次性清單。你可以在新增或更新內容後，將 sitemap 上傳到控制台，搜尋機器人通常會在 1~3 天內重新抓取。

3️⃣ 用的是多語系網站？

每個語言版本都要有自己的 URL，建議把所有語系的 sitemap 放進同一個 index 檔案中，再分別指向各自的地圖。這樣搜尋機器人能清楚知道每種語言的內容位置。

小結

XML 地圖就像是給搜尋引擎的「導覽手冊」，只要寫得乾淨、放在正確的位置，搜尋機器人就能更快、更準確地找到你的網頁。開始動手吧，讓你的內容被更多人發現！

網站速度加速：爬蟲也會感謝你

為什麼速度重要

網站的載入時間不只是影響使用者體驗，搜尋引擎也會把它視為品質指標。若首頁在 3 秒 或以上才完成渲染，Google 可能就會把你的頁面排得較低。這是因為爬蟲在抓取時需要消耗時間，如果每次都要等待很久，它們自然會優先抓取載入更快的站點。

爬蟲的視角

抓取頻率：速度慢的頁面往往被爬蟲忽略，甚至完全不抓取。
重試機制：若伺服器回傳 5xx 或連線超時，爬蟲會多次嘗試，但每一次都會增加負擔。
索引深度：慢速頁面會被視為「不重要」，導致連結遞增的效應減弱。

常見瓶頸與簡易測試

位置	檢查方法	範例指令
前端資源	Lighthouse 或 Chrome DevTools 的 Network 面板	`lighthouse https://example.com`
伺服器回應	Pingdom、GTmetrix 或簡易 curl 時間	`curl -w "%{time_total}
" -o /dev/null -s https://example.com`

優化技巧：從前端到伺服器

圖片壓縮：使用 WebP、AVIF 或透過線上工具如 TinyPNG 壓縮，確保尺寸與解析度合適。
Lazy‑load：對於頁面下方的圖片或影片，設定 loading="lazy" 可以減少首屏渲染負擔。
CSS & JavaScript 合併：將多個檔案合併成一個，並啟用瀏覽器快取 (Cache‑Control: max-age=31536000)。
Server Push / HTTP/2：利用 HTTP/2 的 server push 功能，把關鍵資源一次性送到瀏覽器。
CDN 部署：將靜態檔案放在全球節點，縮短傳輸距離。
資料庫優化：使用索引、避免 N+1 查詢，並考慮緩存層（如 Redis）。

監控與持續改進

定期執行 Lighthouse 或 PageSpeed Insights，確保分數保持在 80 分以上。
設定 Google Search Console 的「抓取錯誤」報告，及時修正 404、500 等問題。
使用爬蟲模擬工具（如 wget --spider）檢查搜尋引擎是否能順利抓取所有重要頁面。

小結

速度不只關係到使用者，還直接影響搜尋引擎的抓取與排序。透過前端資源壓縮、伺服器調整以及持續監控，你可以讓爬蟲更容易「愛上」你的網站，同時也為訪客帶來順暢體驗。