如何提高企業級爬取和索引效率
已發表: 2023-07-13企業搜索引擎優化遵循不同的規則。
適用於小型或利基網站的策略並不總是適用於大規模網站。
那麼當企業 SEO 規模太大時到底會發生什麼?
在這篇文章中,我將分享三個現實生活中的例子。 然後,您將學習一種潛在的解藥,可以更有效地大規模管理 SEO。
面臨索引困境
小型網站傾向於一次增加一頁,使用關鍵字作為 SEO 策略的構建塊。
大型網站通常採用更複雜的方法,嚴重依賴系統、規則和自動化。
將 SEO 與業務目標保持一致至關重要。 根據關鍵詞排名或流量來衡量 SEO 成功與否會因過度索引而產生負面後果。
沒有一個神奇的公式可以確定索引 URL 的最佳數量。 谷歌沒有設定上限。
然而,一個好的起點是考慮 SEO 漏斗的整體健康狀況。 如果一個網站...
- 向 Google 推送數千萬、數億、甚至數十億的 URL
- 僅對幾百萬個關鍵字進行排名
- 接收數千個頁面的訪問量
- 轉換其中的一小部分(如果有的話)
…那麼這是一個很好的跡象,表明您需要解決一些嚴重的 SEO 健康需求。
現在解決任何網站衛生問題應該可以防止以後出現更大的 SEO 問題。
讓我們看三個現實的企業 SEO 示例,說明為什麼這如此重要。
案例 1:對低質量內容過度索引的後果
谷歌用於網絡抓取和處理的資源有限。 他們優先考慮對用戶有價值的內容。
Google 可能會抓取它認為薄弱、重複或低質量的頁面,但不會對其編制索引。
如果只有幾頁,那不是問題。 但如果它很普遍,谷歌可能會忽略整個頁麵類型或網站的大部分內容。
在一個例子中,一個電子商務市場發現其數千萬個列表頁面受到選擇性爬行和索引的影響。
在抓取了數百萬個薄弱的、近乎重複的列表頁面並且沒有將它們編入索引之後,谷歌最終縮減了對網站的抓取,使許多頁面處於“已發現 - 目前未編入索引”的困境。
該市場嚴重依賴搜索引擎向用戶推廣新列表。 不再發現新內容,這構成了重大的業務挑戰。
我們立即採取了一些措施,例如改進內部鏈接和部署動態 XML 站點地圖。 最終,這些嘗試都是徒勞的。
真正的解決方案需要控制可索引內容的數量和質量。
案例2:爬行停止的不可預見的後果
當抓取停止時,不需要的內容將保留在 Google 索引中 - 即使它被更改、重定向或刪除。
許多網站對刪除的內容使用重定向而不是 404 錯誤來維護權威。 這種策略可以從幽靈頁面中擠出額外的流量數月甚至數年。
然而,這有時可能會出現嚴重錯誤。
例如,一個銷售手工製品的知名全球市場無意中在其列表頁面的本地化版本上洩露了賣家的私人信息(例如姓名、地址、電子郵件、電話號碼)。 其中一些頁面被谷歌索引和緩存,在搜索結果中顯示個人身份信息(PII),危及用戶安全和隱私。
由於 Google 不會重新抓取這些頁面,因此刪除或更新它們不會將它們從索引中刪除。 即使在刪除幾個月後,緩存的內容和用戶 PII 數據仍然存在於 Google 索引中。
在這種情況下,市場有責任修復錯誤並直接與 Google 合作從搜索中刪除敏感內容。
案例3:過度索引搜索結果頁面的風險
對大量薄弱的低質量頁面進行不受控制的索引可能會適得其反,但是對搜索結果頁面進行索引又如何呢?
Google 不支持對內部搜索結果建立索引,許多經驗豐富的 SEO 強烈建議不要採用這種策略。 然而,許多大型網站嚴重依賴內部搜索作為主要的 SEO 驅動力,通常會產生可觀的回報。
如果用戶參與度指標、頁面體驗和內容質量足夠高,谷歌就可以視而不見。 事實上,有足夠的證據表明谷歌甚至可能更喜歡高質量的內部搜索結果頁面而不是精簡的列表頁面。
然而,這種策略也可能出錯。
我曾經看到一家本地拍賣網站一夜之間失去了很大一部分搜索頁面排名以及超過三分之一的 SEO 流量。
20/80 規則適用,因為一小部分核心詞佔對索引搜索結果的大多數 SEO 訪問。 然而,長尾通常佔據了 URL 數量的大部分,並且擁有最高的轉化率。
因此,在使用這種策略的網站中,很少有對搜索頁面的索引施加硬性限製或規則。
這帶來了兩個主要問題:
- 任何搜索查詢都可以生成有效頁面,這意味著可以自動生成無限數量的頁面。
- 所有這些都可以在 Google 中索引。
在通過第三方廣告將其搜索頁面貨幣化的分類市場的情況下,此漏洞通過某種形式的廣告套利得到了很好的利用:
- 為可疑、成人和完全非法的術語生成了大量的搜索 URL。
- 雖然這些自動生成的頁面沒有返回實際的庫存結果,但它們提供第三方廣告,並經過優化以通過頁面模板和元數據對請求的搜索查詢進行排名。
- 從低質量的論壇建立到這些頁面的反向鏈接,以使它們被發現並被機器人爬行。
- 從 Google 登陸這些頁面的用戶會點擊第三方廣告,然後前往預期目的地的低質量網站。
當該計劃被發現時,該網站的整體聲譽已經受損。 它還受到了多次處罰,並且 SEO 性能持續大幅下降。
擁抱託管索引
如何避免這些問題?
大型企業網站在 SEO 中蓬勃發展的最佳方法之一是通過託管索引縮小規模。
對於擁有數千萬或數億頁面的網站,至關重要的是超越以關鍵字為中心的方法,轉向由數據、規則和自動化驅動的方法。
數據驅動的索引
大型網站的一項顯著優勢是其擁有豐富的內部搜索數據。
他們可以利用這些數據來詳細了解區域和季節性搜索需求和趨勢,而不是依賴外部工具。
當這些數據映射到現有的內容清單時,可以為要索引的內容以及索引的時間和地點提供可靠的指導。
重複數據刪除和整合
少量權威、高排名的 URL 遠比分散在前 100 名中的大量頁面更有價值。
使用規範、利用規則和自動化來整合類似的頁面是值得的。 某些頁面可能會根據相似性分數進行合併,而其他頁面可能會根據相似的查詢進行集體排名,從而聚集在一起。
這裡的關鍵是實驗。 隨著時間的推移調整邏輯並修改閾值。
清理內容薄且空的頁面
當大量存在時,薄頁和空頁可能會對站點衛生和性能造成嚴重損害。
如果用有價值的內容來改進它們或整合它們太具有挑戰性,那麼它們應該不被索引,甚至不允許。
使用 robots.txt 減少無限空間
谷歌首次撰寫有關“無限空間”的文章十五年後,過濾器、排序和其他參數組合的過度索引問題仍然困擾著許多電子商務網站。
在極端情況下,爬蟲在嘗試通過這些鏈接時可能會使服務器崩潰。 值得慶幸的是,這個問題可以通過 robots.txt 輕鬆解決。
客戶端渲染
對某些您不希望被搜索引擎索引的頁面組件使用客戶端呈現可能是一種選擇。 請仔細考慮這一點。
更好的是,註銷的用戶應該無法訪問這些組件。
隨著規模的擴大,風險急劇增加
雖然搜索引擎優化通常被認為是“免費”的流量來源,但這有點誤導。 託管和提供內容需要花錢。
每個 URL 的成本可能可以忽略不計,但一旦規模達到數億或數十億頁面,幾便士的成本加起來就變成了實際數字。
儘管 SEO 的投資回報率很難衡量,但節省一分錢就是賺一分錢,在考慮大型網站的索引策略時,通過託管爬行和索引節省成本應該是一個因素。
務實的 SEO 方法——通過管理良好的爬行和索引,以數據、規則和自動化為指導——可以保護大型網站免受代價高昂的錯誤的影響。
本文表達的觀點是客座作者的觀點,並不一定是搜索引擎土地的觀點。 此處列出了工作人員作者。