ADBest 部落格

Home
ADBest 部落格
Robots.txt新手教學包：搞懂用途、語法實例，3步驟完整拆解！

Robots.txt新手教學包：搞懂用途、語法實例，3步驟完整拆解！

ADB_EDIT_Ricky
SEO, SEO技術

robots.txt是幫助搜尋引擎釐清網站結構的工具。本文將說明robots.txt對SEO的重要性，並教會你如何設定、提醒常見錯誤，再分享5種網站的設定建議及4種測試方法，幫助你限制搜尋引擎爬蟲，提升網站收錄效率！

文章最後修改於 2025-10-29

Robots.txt 是什麼？分享 robots.txt 對 SEO 的 4 大重要性！

robots.txt 一個存放在網站根目錄的純文字檔案，用來對搜尋引擎爬蟲表明網站中「哪些地方該檢索、哪些地方不用浪費時間」，避免爬蟲把不必要的頁面抓取進索引。

若是網站沒有設定 robots.txt，搜尋引擎預設會認為整個網站的所有頁面都可以自由爬取；若有加上 robots.txt 的設定，則會根據你的規則爬取頁面。

在開始理解 robots.txt 前，我們先搞懂兩個搜尋引擎的基本動作：

🔍 Crawl（檢索）：搜尋引擎爬蟲會像小蟲一樣，到處「爬取」你的網站，把看到的內容一一記錄下來。

📂 Index（索引）：將爬蟲看過的內容整理放進搜尋引擎的資料庫，之後在使用者搜尋時才能出現在搜尋結果裡中。

而 robots.txt 就是在檢索「找到網頁」的步驟中，直接向引擎爬蟲說明哪些頁面可以看、哪些不能看，幫助網站更有條理地分配有限的抓取資源。

可以想像你家門口貼著告示牌，寫著「訪客請走大門，後門不開放」，但這個告示只是個沒有強制力的提醒，並不是真正的門鎖。

所以像 Googlebot 這類守規矩的爬蟲會照做，但壞心眼的爬蟲卻不一定會聽話，甚至可能故意闖進你不想讓人進入的區域。

需要注意的是，robots.txt 的名稱必須使用全小寫，如果寫成大寫（像 Robots.txt 或 ROBOTS.TXT），錯誤的名稱會導致搜尋引擎無法讀取。

Google 官方也說明：robots.txt 主要是用來減少爬蟲對網站的壓力，以免伺服器被太多請求拖慢速度，但不是讓特定網頁從 SERP（搜尋結果頁）中消失。

因此，robots.txt 雖然不是強制必備，但卻能幫網站：

提升網站收錄與排名：在 robots.txt 裡放上 Sitemap，讓搜尋引擎更快把重要頁面收錄進資料庫。
避免爬蟲浪費資源：robots.txt 讓爬蟲馬上知道哪些地方可以爬取，讓搜尋引擎在處理網站內容時可以更有效率
避免重複內容影響 SEO：有時網站會有不同網址卻顯示一樣的內容（像商品頁分尺寸），使用 robots.txt 就可以幫忙擋掉這些頁面，避免重複收錄。

（一）為什麼 robots.txt 重要？

你可能會想：「SEO 不是就應該讓網頁被多多收錄，提升自然流量嗎？為什麼還需要限制爬蟲？」

更精確的解釋，robots.txt 不是拿來「阻止」搜尋引擎收錄所有內容，而是幫忙「指路」，讓爬蟲知道哪些地方值得看，哪些地方別浪費時間，而這麼做的好處主要有四個：

📝 原因 1：管理爬蟲檢索預算

每個網站每天能被搜尋引擎爬蟲花費的「爬取資源」是有限的，如果爬蟲把時間都花在購物車、後台或重複的網址頁面，真正重要的文章和產品頁反而可能延遲被索引。

運用 robots.txt，就可以讓爬蟲把檢索預算放在更應該曝光的內容，提升內容被收錄的效率。

📝 原因 2：網站後台不需要曝光

你的網站後台（像是 /admin/ 或 /login/）是給管理員用的，不需要開放所有人都能看見，當然不用出現被爬蟲給爬取。

📝 原因 3：某些資料夾根本沒用

網站裡可能有些技術性的檔案、程式碼，或臨時檔案（像 /tmp/、/scripts/），對搜尋引擎來說沒意義，反會佔用爬蟲抓取預算，導致真正重要的頁面沒被優先收錄。

📝 原因 4：測試網站不該被搜尋引擎發現

有時候網站會有一個測試版，例如 test.example.com，是開發人員用來試驗新功能的地方，裡面的內容可能是假的或還沒調整好。

如果搜尋引擎不小心把這些內容收錄進去，不只影響正式網站的 SEO，還可能讓使用者誤闖測試網站，看到錯誤的資訊造成混亂。

（二）robots.txt vs. meta robots：主要差異

除了 robots.txt，還有另一種與搜尋引擎溝通的方式，那就是 meta robots。

📝 meta robots 是什麼？

meta robots 是一段放在網頁內的 HTML 標籤，用來告訴搜尋引擎「這個頁面能不能被收錄？能不能跟別的連結傳遞權重？」

meta robots 的語法舉例：
<meta name=”robots” content=”noindex, nofollow“>
這段程式的意思是：
noindex → noindex 代表這個頁面不要收錄，不出現在搜尋結果裡。
nofollow → nofollow 表示這個頁面中的連結不要傳遞權重給別的網站。

📝 什麼時候會用 meta robots？

不希望特定頁面出現在搜尋結果（像隱私政策、感謝頁、重複內容）

不想讓搜尋引擎追蹤某些連結（如付費廣告、會員登入按鈕）

不想讓搜尋引擎建立快取頁（像頁面更新很快，不想讓使用者看到過期內容時）

📝 robots.txt vs. meta robots 差異比較

robots.txt vs. meta robots 比較表格
	robots.txt	meta robots
位置	放在網站根目錄下	放在網頁內
檔案類型	一個獨立的文字檔案	使用 <meta> HTML 標籤設定
主要功能	告訴搜尋引擎「不要來爬這個頁面」	告訴搜尋引擎「即使你爬到了，也不要收錄」
影響範圍	影響整個網站或特定目錄	只影響單一頁面

簡單來說：

robots.txt 是一開始就告訴爬蟲「不要來」，但並沒有實質阻擋能力。

meta robots 則是讓搜尋引擎「就算爬到了，也不要放進搜尋結果裡」。

Robots.txt 運作指南！新手必看的運作 3 步驟＋4 個組成元素！

爬蟲讀取 robots.txt 的過程大約可以分為三個階段：

🔹 Step.1：爬蟲來訪

當搜尋引擎的爬蟲來到你的網站時，第一件事是先檢查 robots.txt，它會去確認檔案裡有沒有對它的指引。

🔹 Step.2：讀取規則

爬蟲會根據 robots.txt 裡的內容，決定哪些頁面可以爬、哪些不能收錄。

爬蟲會根據 robots.txt 裡的內容，決定哪些頁面可以爬、哪些不能收錄。例如：

User-agent: *
Disallow: /blog/
Allow: /blog/popular-post.html
Sitemap: https://www.example.com/sitemap.xml

這份 robots.txt 表示所有爬蟲都不能進入 /blog/ 這個資料夾；但 /blog/popular-post.html 這一頁可以例外。

以及提供一份地圖（Sitemap），請爬蟲按照這張地圖去爬取。

在接下來的段落，我們也會一一解釋組成 robots.txt 的元素。

🔹 Step.3：決定爬取內容

如果 robots.txt 允許爬取，爬蟲就會開始收集網站內容，並加入搜尋索引。

如果 robots.txt 說「不行」，守規矩的爬蟲就會跳過那些頁面。

（一）什麼是 User-agent？

User-agent 這個指令指明規則適用哪些爬蟲，也就是「這條規則是給誰看的」。

每個搜尋引擎的爬蟲都有自己的「名字」，像 Googlebot（Google 的爬蟲）、Bingbot（Bing 的爬蟲）、Baiduspider（百度的爬蟲）等。

網站可以針對不同的爬蟲設定不同的規則，決定哪些內容誰可以爬。

📝 User-agent：針對所有爬蟲的情況

如果你想讓所有搜尋引擎的爬蟲都遵守相同規則，可以用星號（*）代表「全部」。

User-agent: *
Disallow: /private/

這段 robots.txt 內容：意思就是：「所有的爬蟲（* 表示全部），請不要爬 /private/ 這個資料夾。」這樣任何爬蟲看到這個規則時，理論上都會遵守，不會去爬取。

📝 User-agent：針對特定爬蟲

有時候，你可能希望 Google 能看某些內容，但 Bing 不能看，那該怎麼辦？

這時候，你可以針對特定爬蟲寫不同的 User-agent 設定，像這樣：

User-agent: Googlebot
Disallow: /no-google/
User-agent: Bingbot
Disallow: /no-bing/

這樣設定後，Googlebot 就不能爬 /no-google/，Bingbot 不能爬 /no-bing/，而其他爬蟲則不受影響。

📝 User-agent：常見的搜尋引擎爬蟲名稱

常見的搜尋引擎爬蟲名稱（User-agent）
User-agent 名稱	作用
Googlebot	Google 的主要爬蟲，負責一般網站索引
Googlebot-Image	Google 專門用來抓取圖片的爬蟲
Googlebot-Video	Google 影片搜尋專用的爬蟲
Googlebot-Mobile	Google 用來爬行手機版網站的爬蟲
AdsBot-Google	Google Ads 用來檢查廣告目標頁面的爬蟲
Bingbot	Bing（微軟搜尋引擎）的主要爬蟲
Slurp	Yahoo 搜尋的爬蟲，負責網站索引
Baiduspider	百度的主要網站爬蟲
YandexBot	Yandex （俄羅斯搜尋引擎）的主要網站爬蟲
Applebot	Apple 搜尋引擎（Siri、Spotlight）用的爬蟲
Facebot	Facebook 用來抓取連結內容的爬蟲

（二）什麼是 Disallow、Allow？

📝 Disallow 是什麼？

Disallow 就是告訴爬蟲「這些頁面不要來爬取」的指令。

舉個例子，假設你的 robots.txt 這樣寫：

User-agent: *
Disallow: /admin/
Disallow: /private/

代表 /admin/ 以及 /private/ 兩個資料夾不允許被爬取。

但這些被 Disallow 擋住的頁面不代表它們完全隱藏，只是搜尋引擎不會主動去爬，如果別的網站連結到這些頁面，搜尋引擎還是可能會知道它們的存在。

📝 Allow 是什麼？

Allow 則是告訴爬蟲「這些頁面可以爬」的指令。

常用在「某個資料夾不給爬，但裡面有部分頁面可以爬」的情況。

舉個例子，假設你的 robots.txt 這樣寫：

User-agent: *
Disallow: /private/
Allow: /private/public-info.html

這表示整個 /private/ 資料夾都不給爬，但是 /private/public-info.html 這一頁例外，可以讓爬蟲看得到。

📝 Disallow、Allow 常見使用舉例

阻擋整個網站：如果你的網站還在開發中，希望完全禁止搜尋引擎爬取你的網站的話，可以在 Disallow 後加上斜線。

User-agent: *Disallow: /

允許爬取所有內容：如果你希望搜尋引擎可以爬取整個網站，不做任何限制，那麼在 Disallow 後直接留空即可。

User-agent: *Disallow:

阻擋特定檔案類型：網站上特定檔案（例如 PDF、圖片、影片等）不希望被搜尋引擎索引

User-agent: *
Allow 則是告訴爬蟲「這些頁面可以爬」的指令，常用在「大範圍禁止，但局部開放」的情況。
Disallow: /*.pdf
Disallow: /*.jpg
Disallow: /*.mp4

阻擋特定 URL 參數：如果網站有動態網址參數（例如 ?sessionid=123），可能會產生重複內容。

User-agent: *Disallow: /*?*

（三）什麼是 Sitemap 指令？

除了用 Disallow 或 Allow 控制爬蟲行為，robots.txt 也能放 Sitemap 指令，就像一張「網站地圖」列出網站的重要頁面，讓搜尋引擎更快、更完整地認識網站。

在 robots.txt 裡加上 Sitemap 時，就等於直接把地圖交給爬蟲，告訴它：「這些頁面是重點，請優先檢索。」，主要有三個影響：

1.加快收錄速度：就算你的網站頁面很多、層級很深，利用 Sitemap，讓爬蟲直接知道有哪些頁面要檢索，提升收錄效率。

2.補足沒有內部連結的頁面：有些頁面可能沒有被其他頁面連結到（孤島頁），導致爬蟲難以發現。只要把這些頁面放進 Sitemap，搜尋引擎依然能找到。

3.不會覆蓋 robots.txt 的規則：Sitemap 只是提供「路線圖」，但不會影響 robots.txt 的規則。也就是說若某些頁面被 Disallow 禁止，就算它們在 Sitemap 中，爬蟲還是不會爬取。

robots txt 教學懶人包：一次教你搞懂語法、格式與位置！

（一）robots.txt 的基本語法與格式

Google 說明編寫 robots.txt 的流程：建立 robots.txt 檔案 ⭢ 新增規則 ⭢ 上傳至根目錄 ⭢ 檔案測試。

從上個段落中，我們說明了組成 robots.txt 的元素該如何使用，接著我們將解釋 robots.txt 的基本語法與格式：

User-agent：這條規則是給誰看的？

設定爬蟲規則：分開管理不同的爬蟲

Disallow：這裡不准進入！

Allow：這裡可以進！

Sitemap：來來來，這裡有地圖給你！

除了這五點組成之外，我們還可以額外加上「Crawl-delay」指令，告訴爬蟲每次請求之間要間隔多少秒數，以免網站負擔過重。

Crawl-delay：你下次來訪時間，請至少間隔多久再來！

💡Crawl-delay 小提醒

需要注意並不是所有的爬蟲都支援 Crawl-delay 指令，像 Bingbot 和 Yandex 可能會遵守，但 Googlebot 從一開始就不支援。

雖然過去網站管理員可以利用 Google Search Console 手動調整 Googlebot 爬取速度，不過在 2024 年初，Google 官方也移除了這個功能。

因為 Google 認為系統自動調整會比人為設限更準確有效，但你仍然可在 GSC 的「檢索統計資料」報告中觀察：

Googlebot 每天爬取多少頁面

爬取過程花了多少時間

如果數字異常高、網站也因此變慢，那就該考慮升級伺服器或優化網站效能了。

（二）robots.txt 範例

綜合剛剛學到的語法，舉例一個完整的 robots.txt ：

# robots.txt for https://adbest.com.tw/

# 針對所有爬蟲的基本規則User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /private/public-info.html
Sitemap: https://www.example.com/sitemap.xml

# 針對 Googlebot 設定
User-agent: Googlebot
Disallow: /test-pages/
Allow: /test-pages/google-only.html

# 針對 Bingbot 設定
User-agent: Bingbot
Disallow: /*.pdf
Crawl-delay: 5

Sitemap: https://adbest.com.tw/sitemap.xml

🔎 通用規則（適用所有爬蟲）：

禁止爬取 /admin/ 和 /private/

但允許 /private/public-info.html 這頁例外開放

提供 Sitemap 讓爬蟲加速找到重要內容

🔎 針對 Googlebot 的特別規則：

Disallow: /test-pages/ 👉 Googlebot 不能爬取 /test-pages/

Allow: /test-pages/google-only.html 👉 但 Googlebot 可以爬取這份檔案

🔎 針對 Bingbot 的特別規則：

Disallow: /*.pdf 👉 整個網站內 pdf 類型的檔案都不讓 Bingbot 爬取

Crawl-delay: 5 👉 Bingbot 每次請求之間必須間隔 5 秒，減少伺服器負擔

這份 robots.txt 範例的設定方式可以作為通用模板參考，但不同類型的網站會有不同的需求，因此需要根據你的網站特性、SEO 目標、伺服器負載調整。

（三）robots.txt 位置與存取方式

📝 robots.txt 位置

robots.txt 的位置應該放在網站的根目錄，網址必須是：

https://www.你的網站/robots.txt

如果放錯位置，搜尋引擎爬蟲不會讀取。

📝 robots.txt 存取方式

robots.txt 的存取方式很簡單，只要在瀏覽器或任何工具裡輸入：

https://想存取的網站.com/robots.txt

就能直接看見 robots.txt 檔案的內容，我們也可以用這種方式檢查你的 robots.txt 設定狀態。

（在後面的段落，我們也會詳細介紹四種測試方法）

我們以 Apple 官網的 robots.txt 舉例：在瀏覽器輸入「https://apple.com/robots.txt」就會出現下圖。

（圖片來源：apple.com）

有趣的是，許多品牌會在 robots.txt 裡加上彩蛋，讓品牌形象不只出現在頁面上，連 SEO 技術層面也充滿風格。

robots.txt 的彩蛋內容並不會影響網站運作，但對於喜歡挖寶、愛觀察網站細節的人來說，加上彩蛋就像不經意的小驚喜，讓人會心一笑。

（圖片來源：nike.com）

cloudflare在robots.txt向機器人喊話「be nice」展現玩味

（圖片來源：cloudflare.com）

robots.txt 怎麼寫？5 種網站 robots txt 實戰教學！

不同網站在設定 robots.txt 時，會有不同的重點，像企業在意的是品牌內容能不能被快速收錄；而電商網站則需要避免購物車、結帳頁等頁面被收錄，才不會浪費爬蟲資源，也能讓 SEO 佈局更乾淨有效。

接下來，我們針對五種常見的網站類型，分享各自適合的 robots.txt 實際設定範例與操作重點，讓你可以直接套用在自己的網站上：

（一）企業網站 robots.txt 範例

User-agent: *Disallow: /admin/ # 禁止爬取後台
Disallow: /login/ # 禁止爬取登入頁面
Disallow: /tmp/ # 禁止爬取暫存檔案
Disallow: /test/ # 禁止爬取測試頁面
Disallow: /private/ # 禁止內部文件

Sitemap: https://www.example.com/sitemap.xml

🔹 企業網站設定重點

適合擋掉內部後台、內部文件、測試頁面，減少搜尋引擎爬取不必要的內容

加上 Sitemap，讓搜尋引擎更快找到品牌主頁、服務介紹、新聞稿等重點內容。

（二）電商網站 robots.txt 範例

User-agent: *Disallow: /cart/ # 禁止爬取購物車
Disallow: /checkout/ # 禁止爬取結帳頁面
Disallow: /account/ # 禁止爬取會員中心
Disallow: /admin/ # 禁止爬取後台
Disallow: /search/ # 禁止內部搜尋結果頁
Disallow: /*?sessionid=
Disallow: /*?filter=Disallow: /*?sort=

Allow: /products/
Allow: /categories/
Allow: /blog/

Sitemap: https://www.example.com/sitemap.xml

🔹 電商網站設定重點

應該擋掉購物車、結帳頁、會員頁、內部搜尋結果。

阻擋帶有 sessionid、filter、sort 等動態參數的網址，避免重複內容。

保留產品頁、分類頁、部落格文章的爬取權限，搭配 Sitemap 提升商品曝光。

💡小提醒

如果你是使用 91APP、Cyberbiz、Shopline 這類電商系統，要注意平台不一定能自由設定 robots.txt。

首先可以確認電商系統有沒有 robots.txt 設定功能，若是平台不支援，也可以評估使用 meta robots 標籤（例如設定 noindex、nofollow），阻擋搜尋引擎收錄特定頁面！

像是產品頁，有時候平台會預設支援 meta robots，但若是部落格文章、活動頁的內容型頁面，就不一定能手動加入，因為平台通常不開放修改 <head> 區塊，甚至找不到可以插入標籤的位置。

這時你還可以：

直接尋問平台客服能不能「封鎖特定頁面索引」、或請他們技術協助。

利用 canonical 標籤（若平台有支援），引導集中權重到主要頁面。

（三）新聞網站 robots.txt 範例

User-agent: *Disallow: /admin/ # 禁止後台
Disallow: /login/ # 禁止登入頁面
Disallow: /drafts/ # 禁止草稿文章
Disallow: /preview/ # 禁止尚未公開的新聞預覽頁
Disallow: /test/ # 禁止測試環境頁面

Sitemap: https://www.news-example.com/sitemap.xmlCrawl-delay: 2 # 爬蟲請求間隔 2 秒，避免伺服器過載

🔹 新聞網站設定重點

擋住後台、登入頁、草稿文章與預覽頁，避免半成品或內部內容出現在搜尋結果中。

可以適度使用 Crawl-delay，因為新聞網站流量大、更新快，這樣能減少伺服器壓力。

加上 Sitemap，讓搜尋引擎快速找到最新新聞內容，提升時效性。

（四）部落格 robots.txt 範例

User-agent: *Disallow: /drafts/ # 禁止爬取草稿文章
Disallow: /test-pages/ # 禁止爬取測試文章
Disallow: /admin/ # 禁止爬取後台
Disallow: /login/ # 禁止爬取登入頁面

Allow: /blog/ # 允許部落格正式文章被收錄Sitemap: https://www.example.com/sitemap.xml

🔹 部落格設定重點

擋住草稿與測試頁，避免半成品或尚未完成的文章被收錄，影響專業度。

擋住後台與登入頁等沒有 SEO 價值的頁面。

開放正式內容頁，讓部落格文章、主題分類頁能被完整收錄，增加曝光機會。

加上 Sitemap 幫助搜尋引擎快速找到新文章，縮短從發文到收錄的時間。

（五）會員制網站 robots.txt 範例

User-agent: *Disallow: /members/ # 禁止爬取會員專區
Disallow: /dashboard/ # 禁止爬取會員後台
Disallow: /account/ # 禁止爬取個人帳號頁
Disallow: /checkout/ # 禁止爬取結帳頁面
Disallow: /private/ # 禁止內部文件或隱私內容
Disallow: /search/ # 禁止內部搜尋結果

Allow: /public/ # 允許公開內容（例如免費文章或試閱頁面）Sitemap: https://www.example.com/sitemap.xml

🔹 會員制網站設定重點

擋住會員專屬區域，像 /members/、/dashboard/、/account/ 等私人內容，不應該出現在搜尋結果。

擋住內部流程頁，如結帳頁、內部搜尋結果頁不具 SEO 價值，也可能浪費爬蟲資源。

果有試閱文章、免費資源，可以設定 Allow 來開放，讓搜尋引擎幫忙曝光。

加上 Sitemap 集中收錄重點公開內容，幫助搜尋引擎快速找到文章。

4 個方法檢查 robots txt！Google Search Console 測試流程一次看！

（一）robots.txt 測試工具

1️⃣ 測試方法：直接在瀏覽器輸入想測試的網址

最簡單的方法就是輸入網址手動打開 robots.txt，看看內容是否正確。

如果 robots.txt 存在，會直接顯示出設定的內容；如果顯示 404 Not Found，代表這個檔案不存在，需要重新確認放置的位置！

Step.1：先找到網站首頁的正確網址，例如 Muji 台灣官網 https://shop.muji.tw/
Step.2：在網址最後面直接加上 /robots.txt，就會變成：https://shop.muji.tw/r obots.txt
Step.3：在瀏覽器輸入並打開，若網站有 robots.txt，你就會看到一個純文字檔寫著網站的爬蟲規則

直接在瀏覽器輸入想測試 robots.txt 的網址，舉例 Muji 無印良品官網

2️⃣ 測試方法：使用 Chrome 擴充功能測試

如果不想每次都手動輸入網址檢查 robots.txt，或想要快速檢查多個網站爬取規則，最快的方法就是安裝 Chrome 外掛測試，例如：

Robots Exclusion Checker

SEO Minion

Step.1：打開 Chrome 線上應用程式商店，安裝擴充功能

Step.2：打開你要測試的網站頁面

Step.3：點擊擴充功能圖示

如果是 Robots Exclusion Checker → 會顯示頁面是否被 robots.txt 擋掉

如果是 SEO Minion → 除了檢查 robots.txt，還會顯示 meta robots 標籤設定（像 noindex、nofollow）

測試時，記得不只要看首頁，還要點進「產品頁」、「分類頁」、「搜尋頁」這類不同類型的頁面，因為有些網站只限制部分區域。

使用 Chrome 擴充功能（Robots Exclusion Checker）檢查robots.txt

3️⃣ 測試方法：透過「爬蟲模擬工具」測試

如果你想要更全面地檢查整個網站，而不是只看單一頁面，可以用專業 SEO 工具來模擬爬蟲行為。

Step.1：下載或登入工具

安裝 Screaming Frog SEO Spider（免費版可測 500 頁）

或登入 Ahrefs、SEMrush，使用它們的 Site Audit 功能

Step.2：在工具的輸入框中填入要測試的網址，開始模擬搜尋引擎爬蟲抓取內容
Step.3：查看 robots.txt 測試結果

4️⃣ 測試方法：Google Search Console

Google Search Console（GSC）是 Google 官方提供的工具，能讓你直接測試 robots.txt 是否有擋住該擋的頁面。

接下來我們將介紹 Google Search Console 的測試流程！

（二）Google Search Console（GSC）測試工具流程

GSC 是網站的後台管理中心，因此它只能用來測試你已經完成驗證、擁有管理權限的網站，而不能隨意檢查別人的網站。

Step.1：進入 Google Search Console（GSC），找到左側欄位的「設定」
Step.2：點擊進入檢索中的「robots.txt」

Step.3：在面頁中確認你設定的 robots.txt 狀態是否正確

以 ADBest 官網（https://adbest.com.tw/robots.txt）為例，狀態正常的話會顯示「已擷取」。

除了已擷取的正常狀態外，其他可能出現的顯示包括：

未擷取 – 找不到 (404)

未擷取 – 其他原因

詳細的說明可以參考 Google 官方說明！

Robots.txt 進階技巧！讓爬蟲乖乖聽話，保護隱私資料！

（一）如何封鎖特定爬蟲（如壞爬蟲、惡意爬蟲）？

因為 robots.txt 只是「建議」爬蟲怎麼做，但如果真的要阻擋壞爬蟲存取，更有效的做法是使用 .htaccess（Apache）、Nginx 設定或 Cloudflare 來封鎖惡意 User-agent。

🚧 使用 .htaccess 封鎖特定 User-agent（適用 Apache 伺服器）

在 Apache 伺服器使用 .htaccess的設定會直接拒絕惡意爬蟲訪問，比 robots.txt 更有效：

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^BadBot [NC,OR]RewriteCond %{HTTP_USER_AGENT} ^EvilScraper [NC]RewriteRule .* – [F,L]

🚧 在 Nginx 伺服器封鎖惡意爬蟲

如果你的網站使用 Nginx，可以這樣設定：

if ($http_user_agent ~* (BadBot|EvilScraper) ) { return 403;}

🚧 使用 Cloudflare 防火牆

如果你使用 Cloudflare，可以在防火牆規則（Firewall Rules）裡設定「封鎖特定 User-agent」：

Step.1：進入 Cloudflare 儀表板

Step.2：點選「安全性」 > 「WAF」

Step.3：建立新的防火牆規則

條件（Condition）：User-Agent 包含 BadBot 或 EvilScraper

行動（Action）：Block（封鎖）或 Challenge（驗證）

（二）如何設定 robots.txt 來保護敏感資料？

robots.txt 不是一個安全機制，但它可以用來減少搜尋引擎爬取敏感資料（像隱私資料）的機會。
如果想防止自己的網頁出現在搜尋結果，建議使用 meta robots noindex 指令，或加上密碼保護網頁安全。

robots.txt 只是 SEO 的開始！ADBest 提供完整方案，讓網站排名穩步上升！

robots.txt 設定錯誤，可能會影響網站的 SEO 收錄與排名，甚至讓 Google 忽略你的重要頁面！

讓該擋的頁面沒擋好，搜尋引擎又可能抓到重複內容、內部搜尋結果，影響網站品質…

🚀 別讓 SEO 問題影響你的業績！ADBest 幫你解決！

ADBest 提供專業 SEO 優化服務，不只是設定 robots.txt，還會全面檢查你的網站 SEO，讓搜尋引擎能正確爬取、索引、排名！

不論你是企業官網還是電商網站，ADBest 都能提供量身訂製的 SEO 優化方案，讓你的網站被 Google 喜歡，更被客戶看見！

讓品牌網站主動出現在受眾眼前

👉 透過關鍵字研究與競爭分析，讓品牌瞬間出現在搜尋引擎首頁

👉 設計可持續的內容與技術策略，確保網站長期保持高排名

👉 從網站優化到內容撰寫，助力品牌提高自然流量與轉化提升

分類選單