與 Gerry White 一起使用日誌文件進行 SEO 的 5 種方法

已發表: 2023-02-08



您如何利用日誌文件來改進您的 SEO?

這就是我們今天要與一位在 SEO 行業工作超過 20 年的品牌和機構(包括 BBC、Just Eat 和 Rise at Seven)工作經驗的人談論的內容。 熱烈歡迎 Gerry White 收看 In Search SEO 播客。

在這一集中,Gerry 分享了使用日誌文件進行 SEO 的五種方法,包括:
  • 查看 Google 如何查看您的網站
  • 參數
  • 是否有子域消耗您的抓取預算
  • JavaScript 和 CSS 文件
  • 響應碼

Gerry:嘿,很高興來到這裡。

D:很高興有你在。 您可以通過在 LinkedIn 上搜索 Gerry White 找到 Gerry。 那麼 Gerry,每個 SEO 都應該使用日誌文件嗎?

G:不,我知道當我說日誌文件時聽起來有爭議,我們有大量的信息。 但老實說,很多時候收益遞減。 在進入日誌文件之前,您通常可以找到很多信息。 我的意思是,如果您查看 Google Search Console 信息,那裡有大量信息。 當我一直在查看日誌文件時,就是我首先耗盡了很多其他地方的時候。 我總是建議使用諸如 Screaming Frog 之類的工具或您擁有的任何桌面爬蟲來抓取網站,然後在開始查看日誌文件之前查看 Google Search Console。

我這麼說的原因,以及當我要談論它們有多麼有用時,我聽起來幾乎是反日誌文件的原因,是因為它們最初使用起來實際上非常具有挑戰性。 確實需要一點技巧、知識和經驗才能真正掌握甚至接觸它們。 但今天的一件好事是,現在我們實際上比以往任何時候都擁有更多的日誌文件訪問權限。 最初,當我剛開始時,我們沒有像今天這樣的 Google Analytics 或任何分析軟件。 日誌文件分析是我們查看人們如何訪問網站的方式。 現在,我們很少查看日誌文件來了解人們如何看待網站,除非我們正在使用 InfoSec 做些什麼。 或者我們正在做一些事情來診斷一些非常奇怪和美妙的事情。

但實際上,很多時候,我們有更好的分析軟件。 這可能會改變,因為實際上,一件奇怪的事情是許多網站無法跟踪有多少人訪問了 404 頁面,因為很多時候,您永遠不會在 404 頁面上點擊接受 cookie . 突然間,日誌文件又回來回答一些非常奇怪的問題。

但我今天談論日誌文件的主要原因是出於 SEO 目的。 所以是的,如果你有大型網站的問題,如果你有一個大型電子商務網站,如果你有一個國際化的、多語言的、帶有多面導航的大型網站,那麼日誌文件絕對是應該採取的措施考慮在內,絕對應該盡快下線。

D:所以今天,您分享了 SEO 應該使用日誌文件的五種方式。 從第一位開始,看看 Google 如何看待您的網站。



1. 看看谷歌如何看待你的網站



G:是的,谷歌相當難以預測,幾乎就像一個不守規矩的孩子。 這很奇怪,因為雖然我說我們可以查看網站,我們可以使用抓取工具來查看 Google 應該如何查看該網站,但我們常常驚訝地發現 Google 沉迷於一組頁面或去沿著某處奇怪的路線。 或者最近,去年我一直在為一家名為 Odor 的超市工作,我們發現的一件事是 Google 機器人一直在非常關注某種分析配置並從中創建人工鏈接。 Google 發現損壞的鏈接。 很長一段時間,我一直在試圖弄清楚為什麼它會找到數十個 1000 個根本不在頁面上的 404。 但事實證明它一直在查看分析配置並從中創建鏈接。 所以我們正在研究這產生了多大的影響。 如果我們看看 Google 正在尋找所有這些 404 的事實,那可能不是一個大問題。 但現在我們想知道它在這些 404 上花費了多少時間,如果我們解決這個小問題,是否意味著網站其餘部分的抓取將增加 20-30%? 如果我們在那裡修復它,機會是什麼? 這一切都是為了了解為什麼谷歌會這樣查看網站,以及它發現了它不應該找到的東西。



2. 參數



我們經常看的另一件事是參數。 我不知道你是否知道,但是 SEO 人員總是鏈接到頁面的規範版本。 我的意思是,一個頁面通常有多個版本,有時會有某種內部跟踪或外部跟踪。 我們可以通過多種方式鏈接到一個頁面,例如,通常一個產品可以位於一個站點的多個位置。 一個很好的例子是我在一個網站上工作,它是 Magento。 每個產品似乎都屬於每個類別,所以當我們發現每個產品大約有 20 個版本並且每個產品都可以抓取時,我們感到很驚訝。 所以從那裡,我們知道谷歌也花費了大量時間來抓取該網站。 有趣的是,如果你刪除一個產品,谷歌會說“哦,但我有這個產品的 19 個其他版本”所以如果你使用過,實際頁面幾乎消失需要一段時間一個 404 或類似的東西,因為谷歌的工作方式。谷歌會看到這是這個頁面的規範版本。但是如果你刪除規範版本,那麼它將開始使用不同的版本。這就是那種日誌文件為我們提供的信息。我們能夠以 Google 的方式查看站點。

它還允許我們查看狀態代碼等內容。 一個很好的例子是有一個狀態代碼說我沒有被修改。 對於我現在的生活,我想不出它是什麼,我應該在這個播客之前把它寫下來。 但基本上,“我沒有被修改”極大地提高了網站的抓取速度。當我發現這是谷歌尊重的東西時,我能做的就是處理所有的圖片,所有的產品,以及所有這些不經常修改的點點滴滴,如果我們可以使用一個不修改的,我們可以提高谷歌的抓取速度,提高效率,減少服務器的負載,我們可以然後顯著改進 Google 查找所有不同產品的方式。

谷歌看待東西的方式,我們想要,服務器管理員想要,每個人都想要,是服務器盡可能快和高效。 再一次,回到它的日誌文件方面,如今,多年來我們根本無法有效地使用日誌文件。 因為使用 CDN,您經常會發現頁面會在多個位置被點擊。 而且 CDN 本身通常沒有日誌文件。 所以我們將查看所有這些不同的地方,看看這台服務器上有多少負載以及那台服務器上有多少負載。 我們嘗試將所有內容拼湊在一起,日誌文件將採用不同的格式。 現在有了 CDN,我們實際上可以開始了解 CDN 的有效性。 突然之間,像 PageSpeed 這樣的東西受到了巨大的影響和改進,因為如果我們使用日誌文件,我們就可以開始理解圖像這一事實,例如,通過圖像的規範化,所以如果一個圖像被用於多個頁面,如只要 URL 一致,CDN 就可以工作,並且 Google 可以更好地抓取它。 是的,日誌文件可以通過多種不同方式幫助提高 PageSpeed、緩存以及更有效地為用戶和搜索引擎提供服務。

D:我正在回顧你要分享的五點。 您已經分享了其中的不同元素。 你讓我想起了一個我可以只問一個問題的人,他們給了我一個 15 分鐘的播客片段,而不問任何進一步的問題。 所以有一個人可能可以做到這一點,甚至比你更多。 那可能是 Duane Forrester。 Duane 和我開玩笑說他這樣做我只是問他一個問題然後我就走開了讓他分享這一集剩下的內容。 但是你稍微談到了參數。 我不知道您是否觸及了第三點,即發現是否有子域正在消耗抓取預算,因為不應該有。



3. 是否有子域消耗您的抓取預算?



G:這實際上可以追溯到 Just Eat。 有一次,我們發現該網站在多個不同的子域上被複製,並且所有這些都可以被抓取。 現在,有趣的是,根據像 Citrix 這樣的工具,這些是不可見的。 他們不這樣做的原因是因為它都被規範化了。 因此,當我們發現儘管存在這些重複項時,Google 用於抓取這些子域的預算略低於 60% 到 70%。 由於 CDN 和其他技術的原因,這些內容沒有以相同的方式緩存,這實際上造成了大量的服務器負載。 所以這對我們來說是一件很有趣的事情,因為我們只是忽略了這個需要在未來某個時候解決的問題。 因為我們知道這個問題。 我們知道有一個問題,我已經談過了。 但在我們開始查看日誌文件之前,我已經取消了它的優先級。

我們看到谷歌在這里花費了大量的精力、時間和資源。 它創建了多少服務器負載? 影響有多大? 由於服務器無法解釋不同來源的方式,我們無法了解服務器負載有多少。 所以令人著迷的是,當我們獲得日誌文件時,我們可以大大提高網站的可靠性。 所以我們知道子域,但在我們開始查看日誌文件之前,我們只是不知道問題有多大。 然後突然間,我們發現這需要盡快解決。 這是我們知道如何解決的事情之一,這只是優先級排序。 它排在隊列的底部,被提升到第二位。



4. JavaScript 和 CSS 文件



D:你談到了規範化,但你也說,具體來說,JavaScript 和 CSS 文件可能是一個問題。 這是為什麼?

G:我們經常做的一件事是通過向 CSS 文件添加參數來破壞緩存。 我們這樣做的原因是如果你使用 CDN 或類似的東西會發生什麼,每當你更新 CSS,你正在創建新頁面或其他東西時,問題就是你有一個緩存的 CSS 文件並且新頁面將無法使用它。 我們對所有這些不同的 JavaScript 和 CSS 文件都有很長的緩存時間。 因此,在頁面中,只要我們添加需要更新 JavaScript 或 CSS 的內容,您只需稍微更改其中的參數即可。 從那裡開始,我們必須確保所有不同的服務器都使用相同的參數版本。 那就是如果你在多個不同的團隊、多個不同的網站上工作,一個更好的 JavaScript 來支持整個事情,我們總是確保它是正確的版本。 日誌文件是我們確保所有不同頁面始終使用正確的 JavaScript 版本的一種方式,因為我們可能必須更新 API 密鑰或類似的東西。 我們必須採用多種不同的方式來做到這一點。 這對開發人員來說是一項艱鉅的任務。

我們在日誌文件中查看的其中一件事是,舊的是否被擊中,它是從哪裡被擊中的,我們可以修復它嗎? 我們還發現,您可以通過多種不同的方式編寫 JavaScript 文件的路徑。 例如,如果我們使用不同的主機名,它就在一個子域中,因為有趣的是,如果您在多個不同的網站上工作,您經常會發現實際上訪問同一服務器的不同 URL 或不同域名。 通常,如果您使用的是 CDN 或子目錄,那麼有時它可能會非常不一致。 從用戶的角度來看,如果您在旅程中以六七種不同的方式訪問同一個 JavaScript 文件,那麼您將以六七種不同的方式加載它。 雖然這看起來可能不是很多,但累積起來,這會為您的旅程增加一些兆字節。 當然,這會減慢整個體驗,並降低服務器的效率。 還有更多。 因此,請確保始終使用正確版本的 JavaScript、CSS 和其他零散片段。 還要確保沒有理由將 JavaScript 隱藏在參數或其他內容中。 創建蜘蛛陷阱的方法有很多種,其中包括 JavaScript 文件,例如,在其中標記某些內容,可能它們沒有使用對 JavaScript 的正確絕對引用。 所以它位於與其他時間不同的目錄中。 令人驚訝的是,您可以通過多種不同方式發現多個不同頁面加載 JavaScript 的方式略有不同。 所以是的,這是一個非常簡單的。 但在分析方面卻出奇地昂貴。



5.響應代碼



D:還要確保以您希望的方式提供響應代碼。 這方面的一個例子是通過 TOS 有時會被谷歌看到或不被谷歌看到,而谷歌應該或不應該看到。 那為什麼會這樣呢?

G:同樣,我們總是使用相同的瀏覽器、相同的技術、相同的體驗和一切來訪問網頁。 我嘗試確保我使用的工具不同於我通常使用的工具,因為每個人都在進行 Screaming Frog 審計,所以我嘗試使用各種零碎的東西。 但我們總是假裝我們有點像一台電腦。 所以我們從不假裝我們是 Googlebot,我們從不假裝我們是所有這些不同的東西。 因此,如果您查看 Google 機器人如何從不同的 IP 地址訪問特定文件……很多技術,例如 CloudFlare,如果您假裝自己是 Googlebot,並嘗試使用 Screaming Frog 訪問它,它就會知道您是不是 Googlebot,您實際上就是這個。 因此,它對待您的方式與您對待 Googlebot 的方式不同。 通常,服務器被配置為預渲染東西來完成所有的點點滴滴。 並且它只是確保每個人在那個時候從服務器獲得正確的響應代碼。

這看起來很簡單,但是當你在國際上擴大規模時......當你有地理重定向時,如果用戶或搜索引擎無法訪問特定頁面,因為有人在地理重定向中說如果你訪問這個來自西班牙的網站,然後去加載這個子目錄...因此它不能查看根版本或替代版本。 這就是為什麼像正確的響應代碼這樣的事情是絕對關鍵的。 令人驚訝的是,您經歷這些事情的頻率很高,並且您認為一切都已正確設置。 因為一次又一次,我們知道應該如何設置。 我們把它交給某人,某人解釋它,另一個人實施它,然後其他人檢查它。 然後其他人點擊 CDN 上的一個按鈕,上面寫著,“哦,我們可以在這個特定的地方對某人進行地理定位。” 與其說任何人做錯了什麼,不如說鏈條上有什麼東西有效地稍微打破了它。





帕累托泡菜——唾手可得的果實



D:讓我們以 Pareto Pickle 結束吧。 帕累託說,你可以通過 20% 的努力獲得 80% 的結果。 您推薦的一項 SEO 活動是什麼,它可以通過適度的努力提供令人難以置信的結果?

G:目前我最喜歡的事情是我有一個非常基本的 Google Data Studio 儀表板,它讓我可以看看我所說的唾手可得的成果。 現在,每個人都討厭流行語賓果遊戲。 但這是我的事情,我看那些排名不高的東西。 我會查看所有針對特定頁面集、食譜、產品或其他內容進行排名的關鍵字。 一個很好的例子是,目前,我正在處理成千上萬的產品,我查看了所有獲得高印象的頁面,但可能在第 6 個位置,我可以將它們處理到第 3 個位置。十有八九你可以通過確保標題標籤得到改進和內部鏈接得到改進來做到這一點。 非常簡單的東西,可以找出哪些具有高搜索量的關鍵字可以稍微增加一點以提高點擊率。

D:大衛·貝恩,我是你的主持人。 您可以通過在 LinkedIn 上搜索 Gerry White 找到 Gerry。 Gerry,非常感謝您參加 In Search SEO 播客。

G:我的榮幸。 感謝您的時間。

D:感謝您的收聽。 查看之前的所有劇集並註冊免費試用 Rank Ranger 平台。