5 Wege zur Nutzung von Logfiles für SEO mit Gerry White

Veröffentlicht: 2023-02-08



Wie nutzen Sie Logfiles zur Verbesserung Ihrer SEO?

Darüber werden wir heute mit einem Mann mit über 20 Jahren Erfahrung in der SEO-Branche sprechen, der für Marken und Agenturen gearbeitet hat, darunter die BBC, Just Eat und Rise at Seven. Herzlich willkommen zum In Search SEO-Podcast, Gerry White.

In dieser Episode teilt Gerry fünf Möglichkeiten, Logfiles für SEO zu verwenden, darunter:
  • Sehen, wie Google Ihre Website betrachtet
  • Parameter
  • Gibt es Subdomains, die Ihr Crawl-Budget verbrauchen?
  • JavaScript- und CSS-Dateien
  • Antwortcodes

Gerry: Hey, ich bin froh, hier zu sein.

D: Gut, dich dabei zu haben. Sie finden Gerry, indem Sie auf LinkedIn nach Gerry White suchen. Also, Gerry, sollte jeder SEO Logfiles verwenden?

G: Nein, ich weiß, das klingt kontrovers, wenn ich sage, dass Logfiles riesige Mengen an Informationen haben. Aber ehrlich gesagt, die meiste Zeit sinken die Renditen. Und oft können Sie im Allgemeinen viele Informationen finden, bevor Sie in Protokolldateien einsteigen. Was ich damit meine ist, wenn Sie einen Blick in die Informationen der Google Search Console werfen, gibt es dort riesige Mengen an Informationen. Wenn ich in Logfiles geschaut habe, habe ich zuerst viele andere Orte erschöpft. Ich empfehle immer, eine Website mit etwas wie Screaming Frog oder einem beliebigen Desktop-Crawler zu crawlen und sich dann die Google Search Console anzusehen, bevor Sie anfangen, sich die Protokolldateien anzusehen.

Der Grund, warum ich das sage, und der Grund, warum ich fast wie Anti-Logfiles klinge, wenn ich darüber spreche, wie nützlich sie sind, ist die Tatsache, dass es anfangs tatsächlich ziemlich schwierig ist, mit ihnen zu arbeiten. Und es erfordert ein wenig Geschick, Wissen und Erfahrung, um sie wirklich in die Hände zu bekommen und sogar Zugang zu ihnen zu erhalten. Aber eine großartige Sache an der heutigen Zeit ist die Tatsache, dass wir jetzt tatsächlich mehr Zugriff auf Protokolldateien haben als fast je zuvor. Als ich anfing, hatten wir anfangs weder Google Analytics noch eine Analysesoftware wie wir sie heute haben. Bei der Logfile-Analyse haben wir untersucht, wie Menschen Websites besucht haben. Jetzt sehen wir selten in Protokolldateien nach, wie Leute Websites betrachten, es sei denn, wir machen etwas mit InfoSec. Oder wir tun etwas, um etwas wirklich Seltsames und Wunderbares zu diagnostizieren.

Aber tatsächlich haben wir oft eine viel bessere Analysesoftware. Dies könnte sich ändern, denn eine seltsame Sache ist die Tatsache, dass viele Websites nicht nachverfolgen können, wie viele Personen auf eine 404-Seite gehen, weil Sie oft nie darauf klicken, dass Sie Cookies auf einer 404-Seite akzeptieren . Plötzlich kommen wieder Logdateien zurück, um einige sehr seltsame Fragen wie diese zu beantworten.

Aber der Hauptgrund, warum ich heute über Logfiles spreche, sind SEO-Zwecke. Also ja, wenn Sie Probleme mit großen Websites haben, wenn Sie eine große E-Commerce-Website haben, wenn Sie eine internationale, mehrsprachige, riesige Website mit facettierter Navigation haben, dann sollten Sie unbedingt auf Logfiles zurückgreifen berücksichtigt und sollten auf jeden Fall so bald wie möglich auf der ganzen Linie geprüft werden.

D: Heute teilen Sie also fünf Möglichkeiten, wie SEO Protokolldateien verwenden sollte. Beginnen Sie mit Nummer eins und sehen Sie, wie Google Ihre Website betrachtet.



1. Sehen, wie Google Ihre Website betrachtet



G: Ja, Google ist ziemlich unberechenbar, fast wie ein widerspenstiges Kind. Es ist seltsam, denn obwohl ich sage, dass wir uns Websites ansehen und Crawling-Tools verwenden können, um zu sehen, wie Google die Website betrachten sollte, sind wir oft überrascht, wenn wir feststellen, dass Google von einer oder mehreren Seiten besessen ist irgendwo auf einer seltsamen Route. Oder in jüngerer Zeit habe ich das letzte Jahr für einen Supermarkt namens Odor gearbeitet, und eines der Dinge, die wir herausgefunden haben, war, dass der Google-Bot sich sehr intensiv mit der Analysekonfiguration befasst und daraus künstliche Links erstellt hat. Google findet defekte Links. Und ich habe lange versucht herauszufinden, warum es Zehntausende von 404-Zeichen fand, die überhaupt nicht auf der Seite waren. Aber es stellt sich heraus, dass es sich die Analytics-Konfiguration angesehen und daraus einen Link erstellt hat. Wir schauen uns also an, wie viel Einfluss das hatte. Und wenn wir uns die Tatsache ansehen, dass Google all diese 404-Fehler findet, ist das vielleicht kein großes Problem. Aber jetzt wollen wir wissen, wie viel Zeit es für diese 404-Fehler aufwendet, und wenn wir dieses kleine Problem beheben, bedeutet das, dass das Crawling des Rests der Website um 20-30 % zunehmen wird? Was ist die Chance, wenn wir es dort reparieren? Es dreht sich alles darum, sich anzusehen, warum Google die Seite so betrachtet und was es findet, was es eigentlich nicht finden sollte.



2. Parameter



Die andere Sache, die wir oft betrachten, sind Parameter. Ich weiß nicht, ob Sie es wissen, aber SEO-Leute verlinken immer auf die kanonische Version der Seite. Was ich meine ist, dass es oft mehrere Versionen einer Seite gibt, die manchmal eine Art internes Tracking oder externes Tracking haben. Es gibt so viele Möglichkeiten, wie wir auf eine Seite verlinken können, und oft kann sich beispielsweise ein Produkt an mehreren Stellen auf einer Website befinden. Ein gutes Beispiel dafür ist, dass ich an einer Website gearbeitet habe, die Magento war. Und jedes Produkt schien unter jeder einzelnen Kategorie zu liegen, also war es erstaunlich, als wir herausfanden, dass es ungefähr 20 Versionen von jedem Produkt gab und jedes Produkt gecrawlt werden konnte. Von da an wussten wir, dass Google auch viel Zeit damit verbrachte, durch die Website zu crawlen. Und was interessant ist, wenn Sie ein Produkt entfernen, sagt Google "Oh, aber ich habe 19 andere Versionen dieses Produkts", sodass es eine Weile dauern wird, bis die eigentliche Seite fast verschwindet, wenn Sie es verwendet haben ein 404 oder so etwas aufgrund der Arbeitsweise von Google. Google wird sehen, dass dies eine kanonische Version dieser Seite ist. Aber wenn Sie die kanonische Version entfernen, werden andere verwendet. Und das ist die Art von Informationen, die uns die Protokolldatei gibt. Die Möglichkeit für uns, die Website so zu betrachten, wie es Google tut.

Und es erlaubt uns auch, Dinge wie Statuscodes zu sehen. Ein gutes Beispiel dafür ist ein Statuscode, der besagt, dass ich nicht geändert wurde. Und für mein ganzes Leben, ich kann mir nicht vorstellen, was es ist, ich hätte das vor diesem Podcast aufschreiben sollen. Aber im Grunde verbessert das „Ich wurde nicht verändert“ die Crawling-Rate einer Website massiv. Und wenn ich herausfinde, dass Google dies respektiert, kann ich mit all den Bildern, allen Produkten etwas anfangen , und all diese Kleinigkeiten, die nicht sehr regelmäßig geändert werden, wenn wir ein nicht geändertes verwenden können und wir die Geschwindigkeit, mit der Google Crawling verbessert, die Effektivität verbessern und die Belastung des Servers reduzieren können, können wir dann die Art und Weise, wie Google all die verschiedenen Produkte findet, erheblich verbessern.

Die Art und Weise, wie Google Dinge betrachtet, die wir wollen, Serveradministratoren wollen und jeder will, ist, dass der Server so schnell und so effizient wie möglich ist. Um noch einmal auf die Seite der Logdateien zurückzukommen: Heutzutage konnten wir Logdateien viele Jahre lang überhaupt nicht effektiv nutzen. Denn bei CDNs würden Sie oft feststellen, dass es mehrere Stellen gibt, an denen eine Seite aufgerufen wird. Und das CDN hatte oft selbst keine Logdatei. Wir werden uns also all diese verschiedenen Orte ansehen und sehen, wie viel Last auf diesem Server und wie viel Last auf diesem Server ist. Und wir versuchen, alles zusammenzufügen, und die Logdateien werden in einem anderen Format vorliegen. Mit CDNs können wir jetzt tatsächlich anfangen, die Effektivität eines CDN zu verstehen. Plötzlich werden Dinge wie PageSpeed ​​dadurch massiv beeinflusst und verbessert, dass wir, wenn wir Logfiles verwenden, anfangen können, die Tatsache zu verstehen, dass das Bild zum Beispiel durch Kanonisierung von Bildern, also wenn ein Bild auf mehreren Seiten verwendet wird, als Solange die URLs konsistent sind, funktioniert das CDN und Google crawlt es besser. Ja, es gibt so viele verschiedene Möglichkeiten, wie Logdateien dazu beitragen, PageSpeed, Caching und die Bereitstellung von Benutzern und Suchmaschinen viel effizienter zu verbessern.

D: Ich überprüfe Ihre fünf Punkte, die Sie teilen wollten. Und es gibt verschiedene Elemente davon, die Sie bereits geteilt haben. Sie erinnern mich an jemanden, dem ich nur eine Frage stellen kann, und er gibt mir eine 15-minütige Podcast-Episode, ohne weitere Fragen zu stellen. Es gibt also eine Person, die das wahrscheinlich kann, sogar mehr als Sie. Und das ist wahrscheinlich Duane Forrester. Duane und ich haben darüber gescherzt, dass er das getan hat, indem ich ihm nur eine Frage gestellt habe und ich gegangen bin und ihn einfach verlassen habe, um den Inhalt für den Rest der Episode zu teilen. Aber Sie haben ein wenig über Parameter gesprochen. Ich weiß nicht, ob Sie Punkt Nummer drei angesprochen haben, nämlich herauszufinden, ob es Subdomains gibt, die das Crawl-Budget verbrauchen, da dies nicht der Fall sein sollte.



3. Gibt es Subdomains, die Ihr Crawl-Budget verbrauchen?



G: Das geht eigentlich auf Just Eat zurück. Irgendwann stellten wir fest, dass die Website auf mehreren verschiedenen Subdomains repliziert wurde und alle diese gecrawlt werden konnten. Interessanterweise waren diese laut Tools wie Citrix nicht sichtbar. Und der Grund, warum sie es nicht taten, war, dass alles kanonisiert war. Als wir also herausfanden, dass diese Duplikate zwar da draußen waren, gab Google etwas weniger 60 bis 70 % seines Budgets für das Crawlen dieser Subdomains aus. Und aufgrund der Art und Weise, wie diese aufgrund der CDNs und anderer Technologien nicht auf die gleiche Weise zwischengespeichert wurden, verursachte dies tatsächlich eine Menge Serverlasten. Es war also etwas, das für uns faszinierend war, weil wir dies einfach als ein Problem ignorierten, das irgendwann in der Zukunft behoben werden muss. Weil wir von dem Problem wussten. Wir wussten, dass es ein Problem gab, und ich hatte darüber gesprochen. Aber ich hatte es depriorisiert, bis wir anfingen, uns die Protokolldateien anzusehen.

Wir haben gesehen, dass Google hier viel Energie, Zeit und Ressourcen investiert. Wie viel Serverlast erzeugt es? Wie stark war der Einfluss? Und wir konnten nicht verstehen, wie hoch die Serverlast war, weil der Server die verschiedenen Quellen nicht interpretieren konnte. Es war also faszinierend, dass wir die Zuverlässigkeit der Website erheblich verbessern konnten, als wir die Logfiles bekamen. Wir wussten also von den Subdomains, wir wussten nur nicht, wie groß das Problem war, bis wir anfingen, in die Logdateien zu schauen. Und dann haben wir plötzlich gesehen, dass das so schnell wie möglich behoben werden muss. Es war eines dieser Dinge, von denen wir wussten, wie wir es beheben konnten, es war nur die Priorisierung. Es war am Ende der Warteschlange und wurde auf Platz zwei gestoßen.



4. JavaScript- und CSS-Dateien



D: Sie haben die Kanonisierung angesprochen, aber Sie haben auch gesagt, dass insbesondere JavaScript- und CSS-Dateien ein Problem darstellen können. Warum das?

G: Eines der Dinge, die wir oft tun, ist, den Cache aufzubrechen, indem wir der CSS-Datei einen Parameter hinzufügen. Der Grund, warum wir dies tun, ist, was passiert, wenn Sie ein CDN oder ähnliches verwenden, dass, wenn Sie das CSS aktualisieren, neue Seiten erstellen oder so etwas, dann besteht das Problem darin, dass Sie eine CSS-Datei haben, die zwischengespeichert ist und neue Seiten können es nicht verwenden. Und wir haben lange Cache-Zeiten für all diese verschiedenen JavaScript- und CSS-Dateien. Sobald wir also innerhalb der Seite etwas hinzufügen, für das das JavaScript oder das CSS aktualisiert werden muss, ändern Sie einfach den Parameter darin leicht. Von da an mussten wir sicherstellen, dass alle verschiedenen Server in Zukunft dieselbe Parameterversion verwenden. Und das war etwas, wo, wenn Sie in mehreren verschiedenen Teams arbeiten, mehrere verschiedene Websites, das eine bessere JavaScript, das das Ganze antreibt, wir immer dafür gesorgt haben, dass es die richtige Version ist. Und Protokolldateien waren eine Möglichkeit, um sicherzustellen, dass alle verschiedenen Seiten konsistent auf die richtige JavaScript-Version trafen, weil wir vielleicht einen API-Schlüssel oder ähnliches aktualisieren mussten. Es gab so viele verschiedene Möglichkeiten, wie wir es tun mussten. Und das war etwas, das für die Entwickler eine gewaltige Aufgabe war.

Eines der Dinge, die wir uns in den Protokolldateien angesehen haben, war, ob der alte angegriffen wurde, woher er angegriffen wurde, und konnten wir ihn reparieren? Wir haben auch festgestellt, dass es viele verschiedene Möglichkeiten gibt, wie Sie den Pfad zur JavaScript-Datei schreiben können. Zum Beispiel war es in einer Subdomain, wo wir einen anderen Hostnamen verwendet haben, denn interessanterweise, wenn Sie auf mehreren verschiedenen Websites arbeiten, stellen Sie oft fest, dass es unterschiedliche URLs oder unterschiedliche Domainnamen gibt, die tatsächlich auf denselben Server zugreifen. Und oft, wenn Sie ein CDN oder ein Unterverzeichnis verwenden, kann es manchmal sehr inkonsistent sein. Und aus Benutzersicht: Wenn Sie dieselbe JavaScript-Datei auf sechs oder sieben verschiedene Arten innerhalb einer Reise aufrufen, dann laden Sie sie auf sechs oder sieben verschiedene Arten hoch. Und obwohl das nicht viel erscheinen mag, fügt es Ihrer Reise insgesamt einige Megabyte hinzu. Und das verlangsamt natürlich die gesamte Erfahrung und macht die Server weniger effizient. Und es steckt noch viel mehr dahinter. Stellen Sie also sicher, dass immer die richtige Version von JavaScript, CSS und anderen Kleinigkeiten getroffen wird. Und stellen Sie auch sicher, dass es keinen Grund gibt, das JavaScript mit Parametern oder so etwas zu verstecken. Es gibt so viele Möglichkeiten, wie Spinnenfallen erstellt werden können, einschließlich der JavaScript-Dateien, wo zum Beispiel etwas hineingetaggt wird, wo vielleicht nicht die richtige absolute Referenz auf das JavaScript verwendet wird. Es befindet sich also in einem anderen Verzeichnis als zu anderen Zeiten. Es ist überraschend, wie unterschiedlich Sie erkennen können, wenn JavaScript von mehreren verschiedenen Seiten etwas unterschiedlich geladen wird. Also ja, es ist sehr einfach. Aber es ist überraschend teuer, wenn es um die Analyse geht.



5. Antwortcodes



D: Stellen Sie außerdem sicher, dass die Antwortcodes so geliefert werden, wie Sie es möchten. Ein Beispiel dafür ist, dass TOS manchmal von Google gesehen oder nicht gesehen werden, was sein sollte oder nicht. Warum sollte das passieren?

G: Auch hier besuchen wir Webseiten immer mit demselben Browser, derselben Technologie, derselben Erfahrung und allem. Ich versuche sicherzustellen, dass ich andere Tools verwende als die, die ich normalerweise verwende, da jeder ein Screaming Frog-Audit durchführt, also versuche ich, alle möglichen Kleinigkeiten zu verwenden. Aber wir tun immer so, als wären wir so etwas wie ein Computer. Wir tun also nie so, als wären wir Googlebot, wir tun nie so, als wären wir all diese verschiedenen Dinge. Wenn Sie sich also ansehen, wie Google-Bots von einer anderen IP-Adresse aus auf eine bestimmte Datei zugreifen … eine Menge Technologie wie CloudFlare, wenn Sie vorgeben, ein Googlebot zu sein, und Sie versuchen, mit Screaming Frog darauf zuzugreifen, weiß es, dass Sie es sind nicht Googlebot, das bist du eigentlich. Und so behandelt es Sie anders, als Sie Googlebot behandeln würden. Und so oft sind Server so konfiguriert, dass sie Dinge vorab rendern, um alle Kleinigkeiten zu erledigen. Und es stellt nur sicher, dass jeder zu diesem Zeitpunkt den richtigen Antwortcode vom Server erhält.

Und es scheint ganz einfach zu sein, aber wenn Sie international skalieren … Wenn Sie Geo-Weiterleitungen haben, wenn ein Benutzer oder eine Suchmaschine nicht auf eine bestimmte Seite zugreifen kann, weil jemand eine Geo-Weiterleitung eingefügt hat, um dies zu sagen, wenn Sie diese Seite besuchen Website aus Spanien, dann gehen Sie und laden Sie dieses Unterverzeichnis hoch ... Es kann daher nicht nach den Root-Versionen oder den alternativen Versionen suchen. Deshalb ist die Korrektheit von Antwortcodes absolut entscheidend. Und es ist überraschend, wie oft Sie diese Dinge durchgehen und davon ausgehen, dass alles richtig eingerichtet ist. Denn wir wissen immer wieder, wie es aufgebaut sein sollte. Wir geben das jemandem, jemand interpretiert es, eine andere Person implementiert es und jemand anderes geht es durch. Und dann klickt jemand anderes auf eine Schaltfläche im CDN, die besagt: „Oh, wir können jemanden an diesem bestimmten Ort geolokalisieren.“ Es ist nicht so sehr die Tatsache, dass eine Person etwas falsch gemacht hat, sondern vielmehr, dass es etwas in der Kette gibt, das sie effektiv leicht gebrochen hat.





Die Pareto-Gurke – niedrig hängende Frucht



D: Lassen Sie uns mit der Pareto Pickle abschließen. Pareto sagt, dass Sie 80 % Ihrer Ergebnisse mit 20 % Ihrer Bemühungen erzielen können. Welche SEO-Aktivität würden Sie empfehlen, die mit geringem Aufwand unglaubliche Ergebnisse liefert?

G: Am besten gefällt mir im Moment, dass ich ein sehr einfaches Google Data Studio-Dashboard habe, das es mir ermöglicht, einen Blick auf das zu werfen, was ich die niedrig hängenden Früchte nenne. Jetzt hasst jeder Schlagwort-Bingo. Aber das ist mein Ding, wo ich mir Dinge anschaue, die nicht ganz so gut ranken, wie sie sollten. Ich schaue mir alle Schlüsselwörter an, wo sie für eine bestimmte Gruppe von Seiten oder Rezepten oder Produkte oder so etwas ranken. Ein gutes Beispiel ist, dass ich im Moment mit Zehntausenden von Produkten arbeite, ich schaue mir alle Seiten an, die viele Impressionen haben, aber vielleicht auf Position sechs sind, und ich kann sie auf Position 3 hocharbeiten. Und in neun von zehn Fällen können Sie dies tun, indem Sie einfach sicherstellen, dass sich die Titel-Tags und die interne Verlinkung verbessert haben. Ganz einfaches Zeug, um herauszufinden, welche der Keywords mit dem hohen Suchvolumen noch ein wenig mehr angehoben werden können, um die Klickrate zu erhöhen.

D: Ich war Ihr Gastgeber, David Bain. Sie finden Gerry, indem Sie auf LinkedIn nach Gerry White suchen. Gerry, vielen Dank, dass Sie beim In Search SEO-Podcast dabei sind.

G: Gerne. Vielen Dank für Ihre Zeit.

D: Und danke fürs Zuhören. Sehen Sie sich alle vorherigen Episoden an und melden Sie sich für eine kostenlose Testversion der Rank Ranger-Plattform an.