Verfolgung von 20 Jahren Suche

Veröffentlicht: 2023-08-11

Sind Sie ein neuer Suchmaschinen-Vermarkter und möchten mehr über die Geschichte der Suche erfahren?

Möchten Sie über die neuesten Nachrichten zum Suchmaschinenmarketing auf dem Laufenden bleiben?

Wenn ja, müssen Sie nur einer Person „folgen“, um 90 % der interessanten Veränderungen in der Branche zu erfahren.

Diese Person hat eine Website; Sein erster Blogbeitrag wurde am 2. Dezember 2003 veröffentlicht. Der Google Analytics (GA)-Code der Website ist bezeichnenderweise kurz: UA-67314-1.

Vor einigen Monaten erhielt ich nach einer kurzen Interaktion mit Mastodon Zugang zu seinem GA-Konto, um zu sehen, ob ich durch seine Arbeit als Protokollführer des Suchmaschinenmarketings eine Geschichte über die Geschichte der Suche erzählen könnte.

Betrachtet man seine Posting-Muster ( Abbildung 1 ), wird deutlich, dass die Lautstärke keine Herausforderung darstellt. (Ich habe diese Grafik sogar mehrmals überprüft, um sicherzustellen, dass sie korrekt ist. Wow!)

Abbildung 1
Abbildung 1

In den letzten 20 Jahren hat diese Person im Durchschnitt Folgendes gepostet:

  • 3,81 Mal pro Tag.
  • 26,67 Mal pro Woche.
  • 116,20 Mal pro Monat.
  • 1.437 Mal pro Jahr.

Ich bin mir sicher, dass Sie es inzwischen erraten haben, aber ich spreche von Barry Schwartz und seiner Website Search Engine Roundtable.

In diesem Artikel werden die wichtigsten Erkenntnisse und Erkenntnisse aus meiner Analyse der historischen Google Analytics-Daten von seroundtable.com behandelt.

(Wenn Sie daran interessiert sind, wie ich die Daten analysiert habe und welche Tools ich verwendet habe, können Sie sich die Methodik unten ansehen.)

Suchmaschinenabdeckung im Laufe der Jahre

Da wir Daten aus dem Jahr 2003 und ein umfangreiches Poster hatten, hielten wir es für interessant, einen Blick auf die Themenberichterstattung zu werfen, in der verschiedene Motoren in den Titeln der Beiträge erwähnt wurden ( Abbildung 2 ).

Figur 2
Figur 2

Diese Zahl erzählt die gleiche Geschichte, die wir alle wissen: Google ist die Suchmaschine mit den meisten Abdeckungen in den letzten zwei Jahrzehnten.

Aber es ist auch interessant, den Tod von Yahoo und das Wiederaufleben von Microsoft Bing zu beobachten. (Während Microsoft Bing einen Anstieg der Berichterstattung verzeichnet, ist es nicht klar, ob dies aus Nutzungssicht hilfreich ist, wie im Mai berichtet.)

Betrachten Sie die Perspektive einer Person, das „Interessante“ abzudecken. dieser Produkte ist eine einzigartige Möglichkeit, ihre Geschichte zu verstehen.

Bemerkenswert ist, dass die meisten großen US-Suchmaschinen in den letzten 13 Jahren nur minimale Erwähnungen erhielten, mit Ausnahme von Microsoft Bing, das in letzter Zeit aufgrund der Integration von Microsoft mit OpenAI plötzlich an Bedeutung gewann.

Betrachtet man die durchschnittliche Anzahl von Sitzungen pro Beitrag und die Beitragshäufigkeit im Zeitverlauf nach Suchmaschinenkohorte ( Abbildung 2 ), wird deutlich, dass die umfassende Berichterstattung in den Nachrichten erheblich zur Bedeutung von Google für das Publikum dieser Website beiträgt.

Ein wichtiger Aspekt von Suchmaschinen ist die Häufigkeit, mit der sie ihre Ergebnisse verbessern. Wir können auf die Geschichte der abgedeckten „Algorithmus-Updates“ und das jeden Monat generierte Suchvolumen zurückblicken.

Sie werden feststellen, wie die Beiträge nach dem anfänglichen Traffic-Anstieg mit einer Update-Ankündigung zunehmen. Die folgende Grafik zeigt eine wirklich interessante Geschichte von:

  • Wie häufig Updates stattfinden (zumindest größere).
  • Schwartz‘ Verbindung zu und Konsistenz seiner Berichterstattung.
Figur 3
Figur 3

Die Wirkung und Beliebtheit von Google-Updates in der Such-Community

Wir haben etwa 20 benannte Google-Updates gekennzeichnet. Die unten gezeigten acht sind die besten acht nach Gesamtsitzungen ( Abbildung 4 ). Wir haben dieser Tabelle die Kategorie „Strafe“ hinzugefügt, da dies zu Zeiten von Penguin ein starkes Themengebiet war.

Während das Thema immer noch diskutiert wird, hat seine Popularität abgenommen, wie unten zu sehen ist. Dies zeigt den enormen Einfluss der Penguin-Updates auf die Such-Community.

Figur 4
Figur 4

Interessanterweise hatte seroundtable.com von etwa 2007 bis März 2013 eine manuelle Aktion von Google.

Schwartz hat 2011 darüber geschrieben, und wir können in seinem GA-Konto Anmerkungen sehen, die darauf hindeuten, dass die Aufhebung im März aufgehoben und die Aufhebung durch einen Antrag auf erneute Prüfung im April bestätigt wurde.

Sein Google/Organic-Sitzungswachstum (im Jahresvergleich) betrug im ersten Quartal 2013 16 %, verglichen mit 25 % im zweiten Quartal ( Abbildung 5 ).

Das Wachstum neuer Benutzer stieg um 22 Prozentpunkte. Dennoch sind die Auswirkungen aufgrund der außergewöhnlichen Zinsspitzen, die das zweite Quartal begünstigen, zweifelhaft.

Abbildung 5
Abbildung 5

Schwartz sagte in seinem Beitrag zur Strafe (und seinen Sponsoring-Links):

  • „Ich bin stur und einer der wenigen SEO-Blogs, die beschlossen haben, sich nicht zu ändern, als Google ihre Strafe verhängte.“

Jahre später überlegte er es sich noch einmal. (Viele Details fehlen jetzt in GA, aber die manuelle Strafe hatte wahrscheinlich keine drastischen Auswirkungen.)

Auch Seroundtable.com wurde 2014 Opfer des Panda 4.1-Updates ( Abbildung 6 ).

Wie Schwartz im Jahr 2015 angab, begann sich die Leistung mit Panda 4.2 Mitte 2015 leicht zu verbessern, bis es im Mai 2020 zu einem weiteren plötzlichen Rückgang kam.

Abbildung 6
Abbildung 6

Mitglieder des Google-Teams

Wir haben 10 Google-Mitarbeiter identifiziert, die in den Titeln der Beiträge erwähnt werden ( Abbildung 7 ).

Von den 10 haben wir die Liste darauf beschränkt, nur diejenigen anzuzeigen, die regelmäßig Informationen an die SEO-Community weitergeben.

Dies ist meine Lieblingsansicht, da sie die Epochen von Matt Cutts und John Mueller deutlich zeigt.

Als öffentlicher Verbindungsmann für die Google-Suche ist Danny Sullivan in den Beiträgen nicht so ausgeprägt. Es ist wichtig zu beachten, dass sich jede Erwähnung von ihm vor Ende 2017 auf seine frühere Rolle vor seinem Amtsantritt bezieht.

Als Gründer von Search Engine Watch und späterer Gründungsredakteur von Search Engine Land ist Sullivan zweifellos ein wesentlicher Bestandteil der SEO-Geschichte.

Abbildung 7
Abbildung 7

Abdeckung von SEO-Tools

In der SEO-Branche mangelt es nicht an Tools. Wenn wir uns die Beiträge von Schwartz ansehen, können wir sehen, dass er im Laufe der Jahre eine breite Palette von Werkzeugunternehmen erwähnt hat.

Während Beiträge, die einem bestimmten Unternehmen gewidmet sind, eher selten sind, hat Schwartz über Datenstudien und Produktankündigungen berichtet.

Unten ( Abbildung 8a ) sehen wir die Häufigkeit der Berichterstattung in Beiträgen seit 2003. Diese Daten unterscheiden sich von anderen Daten in diesem Artikel, da sie Erwähnungen im Titel und Inhalt des Artikels berücksichtigen.

Werkzeugname Anzahl der Erwähnungen
Moz 924
Rang Ranger 561
Accuranker 297
Algoroo 292
Erweiterte Web-Rankings 289
Kognitives SEO 232
SERPmetrics 116
Hefe 91
Majestätisch 53
SERPs.com 46
SEMrush 44
Schreiender Frosch 34
Ahrefs 29
Sistrix 21
DeepCrawl 20
ÄhnlichesWeb 13
SE-Ranking 12
HARO 9
SERPStat 7
SERPWoo 6
Abbildung 8a

Historisch gesehen können wir den Nutzen für Tool-Anbieter erkennen, wenn sie aggregierte Ranking-Metriken wie Mozcast erstellen.

Häufige und wachsende Erwähnungen mit jeder Ranking-Schwankung. Auch hier zeigt sich deutlich, welchen Durchhaltewillen Moz hat.

Abbildung 8b
Abbildung 8b

Top-Beiträge

Die folgende Tabelle ( Abbildung 9 ) zeigt den Top-Beitrag für jedes Jahr nach einzelnen Seitenaufrufen.

Es gibt Inhalte mit größerer Anziehungskraft (außerhalb der SEO-Community) und Inhalte, die eher auf Suchmaschinen-Vermarkter ausgerichtet sind.

Ich frage mich, wie er diese Balance entscheidet? Ich war etwas überrascht von dieser Liste, aber sie macht Sinn.

Jahr Titel Einzigartige Seitenaufrufe
2005 Erster Heiratsantrag über eine Suchmaschine 3.568
2006 Google Earth – Kostenloser Download 50.669
2007 Google Earth – Kostenloser Download 44.214
2008 Google Earth – Kostenloser Download 64.097
2009 Betrug: Google Money System oder Google Kit 88.657
2010 So richten Sie Google AdSense-Videoeinheiten über YouTube ein 78.537
2011 So richten Sie Google AdSense-Videoeinheiten über YouTube ein 148.083
2012 Google feiert das erste Autokino 126.629
2013 Google Maps-Mord unter 52.376552,5.198303 in den Niederlanden 265.977
2014 Google Maps-Mord unter 52.376552,5.198303 in den Niederlanden 110.222
2015 Google Analytics ändert die Terminologie: Sitzungen und Benutzer ersetzen Besuche und eindeutige Zugriffe 68.565
2016 So ermitteln Sie den Längen-/Breitengrad eines Standorts mithilfe von Google Maps auf dem iPhone 129.300
2017 Großes Google-Algorithmus-Fred-Update scheint mit Links verbunden zu sein 175.488
2018 Sie können sich jetzt dafür entscheiden, angesagte Suchanfragen in der Google-Such-App zu entfernen 125.922
2019 Sie können sich jetzt dafür entscheiden, angesagte Suchanfragen in der Google-Such-App zu entfernen 181.556
2020 Das Google-Logo bedankt sich bei den Coronavirus-Helfern 413.202
2021 Sie können sich jetzt dafür entscheiden, angesagte Suchanfragen in der Google-Such-App zu entfernen 103.498
2022 Aktualisierung hilfreicher Inhalte von Google zur gezielten Ausrichtung auf Inhalte, die für Suchrankings geschrieben wurden 226.842
2023 Google Maps-Mord unter 52.376552,5.198303 in den Niederlanden 55.533

Abbildung 9

Kommentare

Soweit ich weiß, hat Seroundtable.com immer Kommentare zugelassen, und die SEO-Community liebt es, Meinungen über Googles Spielereien auszutauschen.

Diese von John Mueller vorgeschlagene Ansicht ( Abbildung 10 ) zeigt Beiträge im Zeitverlauf nach einzelnen Seitenaufrufen und Kommentaren (Blasengröße).

Abbildung 10
Abbildung 10

Interessant wird es, wenn wir die Daten nach Themenkategorie betrachten.

Vergleichen wir beispielsweise Inhalte zu „Google Updates“ mit Inhalten zu „Bezahlte Werbung“ ( Abbildung 11a und 11b ).

Abbildung 11a
Abbildung 11a
Abbildung 11b
Abbildung 11b

Auf der bezahlten Seite ist es viel weniger hitzig, aber es zeigt das erhöhte Maß an Interesse, Emotionen und Interaktion für Beiträge, die Änderungen abdecken, die möglicherweise Monate oder Jahre der Mühe zunichte machen können.

Links

Schwartz scheut sich nicht, mit anderen zu verlinken.

Wie bereits erwähnt, fügte Schwartz Jahre nach einer bescheidenen Strafe von Google im Jahr 2007 widerstrebend ein Nofollow-Attribut zu Sponsoring-Links hinzu.

Schwartz hat in den letzten 20 Jahren von seinen Postinhalten aus Links zu fast 4.000 einzigartigen Domains erstellt ( Abbildung 12 ).

Diese Grafik zeigt die Top 10 der verknüpften Domains aus dem Datensatz und verdeutlicht damit deutlich den Wert, den Twitter Schwartz in den letzten 10 Jahren bei der Bereitstellung von Informationen zum Schreiben geboten hat.

Abbildung 12
Abbildung 12

Das nächste Diagramm entfernt Twitter und Google und macht dasselbe ( Abbildung 13 ).

Wir stoßen auf einige Websites, die neuere SEOs vielleicht nicht kennen, an die sich viele jedoch mit unterschiedlicher Vorliebe erinnern.

Abbildung 13
Abbildung 13

Erhalten Sie den täglichen Newsletter, auf den sich Suchmaschinenmarketing verlassen.

Verarbeite .. Bitte warten.

Siehe Bedingungen.


Datenvisualisierung von Suchtrends im Zeitverlauf

Hier ist ein unterhaltsames Renn-Balkendiagramm, das die Top-Kategorien der letzten 20 Jahre zeigt ( Abbildung 14 ). Dies dient als Erinnerung an die zunehmende Panik innerhalb der SEO-Community während Google-Updates.

In gewisser Weise ist das beruhigend, denn auch wenn sich SEO schnell verändert, war das schon immer so.

Abbildung 14

Abbildung 14 ( Die vollständige Animation finden Sie hier .)

Schwartz postet wie ein Roboter

Ich dachte, dass hier etwas Interessantes verwendet werden könnte, um darauf hinzuweisen, wo ein bestimmter Tag für die Veröffentlichung priorisiert wurde, aber nein.

Posten genau dann, wenn es passiert, und das passiert oft.

Ich erwähne, dass Schwartz aufgrund der außergewöhnlichen Konsequenz, die er über viele Jahre hinweg beim Posten an den Tag gelegt hat, ein Roboter ist.

Es fällt mir seit mehr als sechs Monaten schwer, mich auf das gleiche Projekt festzulegen, daher sind 20 Jahre mehr als erstaunlich ( Abbildung 15 ).

Abbildung 15
Abbildung 15

Aus Gründen der Ausgewogenheit finden Sie hier die Anzahl der Sitzungen pro Wochentag ( Abbildung 16 ). Ich schätze, das ist wirklich egal, obwohl die Wochenmitte der klare Gewinner ist.

Abbildung 16
Abbildung 16

Betrachtet man die Arten von Beiträgen, die in den letzten Jahren veröffentlicht wurden, scheint es keinen großen Unterschied zwischen den Arten von Beiträgen an Wochentagen zu geben ( Abbildung 17 ).

Unterschiede gibt es am Samstag und am Sonntag, also an Tagen, an denen in der Regel zeitliche Ereignisse von großer Bedeutung stattfinden.

Schwartz hat in der Vergangenheit selten am Samstag und Sonntag gepostet, mit 0,74 % bzw. 0,17 % aller Beiträge.

Dies macht intuitiv Sinn, da er sein Wochenende eher für Dinge unterbrechen würde, die wirklich wichtig sind.

Abbildung 17
Abbildung 17

Wichtige Kategorien und Wortanzahl

Dies sind die Top-Kategorien der untersuchten Kategorien basierend auf der Steigung ( Abbildung 18 ). Als Referenz: Eine Steigung ist ein Maß, das die Richtung und Steilheit der Linie beschreibt.

Ein Grund dafür, dass diese Kategorien aus Traffic-Sicht so gut abschneiden, könnte sein, dass diese Art von Inhalten aus der typischen SEO-Weltblase herausbricht und in die allgemeine Interessengruppe rund um Google gelangt.

Abbildung 18
Abbildung 18

Schwartz hat oft erklärt, dass ihm die Verbreitung der Nachrichten wichtiger ist als die Tiefe, mit der sie behandelt werden.

Dies wird durch Daten gestützt, die den Zusammenhang zwischen Sitzungen und Wortzahl betrachten ( Abbildung 19 ).

Abbildung 19
Abbildung 19

Wie die Leserschaft von Schwartz die SEO-Branche und das Interesse an verschiedenen Segmenten widerspiegelt

SEO-Unterabschnitte

Hier könnten mich die Kategorien in Schwierigkeiten bringen.

Auf einem hohen Niveau liegt hier das relative Interesse an der SEO-Branche in Bezug auf Follower und Leser von Schwartz für die vier Hauptsegmente von SEO ( Abbildung 20 ).

Wie Mueller betont, kann man das Jahrzehnt des Mobilfunks gut erkennen.

Abbildung 20
Abbildung 20

KI und SEO

OK, ich wollte nur eine Baumkarte erstellen, aber das ist eine coole Ansicht der gesamten Sitzungen nach Beiträgen aus der Kategorie „Maschinelles Lernen“ ( Abbildung 21 ).

Bitte beachten Sie, dass es sich hierbei um die Gesamtzahl der Sitzungen des besten Beitrags in jeder Kategorie handelt. Dies sollte die relative Neuheit einiger Kategorien kontrollieren.

Ich finde es faszinierend, dass der Einstieg in das BERT-Lexikon einen größeren Einfluss hatte als die jüngsten Änderungen beim maschinellen Lernen.

Abbildung 21
Abbildung 21

SEO-Held

Für alle On-Page-Gurus da draußen: Hier ist der vergleichende Grad des Interesses für Mitglieder dieser Kategorie basierend auf den Sitzungen des Beitrags mit der besten Leistung ( Abbildung 22 ).

An dieser Stelle ist zu beachten, dass „Meta“ aufgrund von Übereinstimmungen mit dem Unternehmen Meta (Facebook) möglicherweise überhöht ist.

Abbildung 22
Abbildung 22

Hier sind die Top-Kategorien nach Taktik ( Abbildung 23 ). Da dies über einen Zeitraum von 20 Jahren geschieht, könnten einige dieser Taktiken tatsächlich dazu führen, dass eine Website bestraft wird.

Dies zeigt deutlich die bewegte Vergangenheit von SEO und die Art der PR-Anstrengungen von Google, Taktiken anzuprangern, die versuchen, ihr System auszutricksen oder anderen zu schaden.

Abbildung 23
Abbildung 23

Bezahlt

Für meine Freunde auf der bezahlten Seite sind hier die Mitglieder der Beitragsgruppe „Bezahlte Werbung“. ( Abbildung 24 ). Wer erinnert sich an Ouvertüre?

Abbildung 24
Abbildung 24

Browser

Dies war für mich überraschend, wenn man bedenkt, wie stark Google auf dieser Website abgedeckt wird und wie einseitig der Marktanteil von Google ist (62,85 %), aber Hut ab vor Schwartz für die gleichmäßige Abdeckung ( Abbildung 25 ).

Abbildung 24
Abbildung 25

Veranstaltungen

Einige frühere Beiträge in der Geschichte bewarben bestimmte Konferenzen wie die SMX, allerdings nur für einen relativ kurzen Zeitraum, sodass sie aus dem Datensatz entfernt wurden.

Interessanterweise wurden dominante COVID-19-Inhalte, die etwa ein Jahr anhielten, mit anderen Kategorien über einen Zeitraum von 20 Jahren verglichen ( Abbildung 26 ).

Außerdem brauchen wir definitiv mehr Easter Eggs von Google. Schwartz erzählte mir, dass er früher Live-Blog-Events veranstaltete, aber vor über einem Jahrzehnt damit aufgehört hatte.

Ich habe die meisten (alle?) Titel aus dem Datensatz entfernt, in denen ein relevantes Thema nicht zumindest teilweise erwähnt wurde (z. B. ist die Vlog-Folge Nr. 1234 „Weekly Roundup“ ein Beispiel dafür, dass entfernt werden würde).

Schwartz erwähnte auch, dass er aufgehört habe, über Google-Logos zu berichten, als andere Verlage begonnen hätten, darüber zu berichten.

„Sie haben ihren Spaß verloren.“

Wie cool ist es, etwas zu tun, das so von Leidenschaft und nicht von Klicks angetrieben wird?

Abbildung 26
Abbildung 26

Der Suchverlauf in 32.926 Beiträgen, Tendenz steigend

Die Autorenseite von Barry Schwartz beim Search Engine Roundtable
Die Autorenseite von Barry Schwartz auf Search Engine Roundtable mit 32.926 veröffentlichten Artikeln zum Zeitpunkt des Schreibens.

Es ist interessant, zurückzublicken und alles zu erzählen, was sich in der Branche verändert hat, und die Tage der Suche im „Wilden Westen“ kennenzulernen.

Und wir haben Barry Schwartz zu verdanken, dass er 20 Jahre lang lückenlos über die Branche berichtet hat.

Wenn es um Suchmaschinenmarketing geht, wissen wir, dass Schwartz es höchstwahrscheinlich gesehen oder abgedeckt hat.

Das ist nicht neu.

Ich möchte John Mueller und Patrick Stox für ihre Empfehlungen und Plausibilitätsprüfungen der hier bereitgestellten Informationen und Daten danken. Danny Sullivan hat sich auch für eine zusätzliche Gesundheitsprüfung entschieden.

Die Daten und Methodik

Ich begann mit dem Crawlen von seroundtable.com in Screaming Frog und zog sorgfältig Post-Meta-Inhalte wie Autor, Post-Datum und Kategorie mithilfe einer benutzerdefinierten Extraktion heraus. Ich habe auch GA-Daten abgerufen, obwohl ich wusste, dass dies nicht ausreichen würde, da diese aus dem Jahr 2005 stammten. Die HTML-Daten wurden zur weiteren Verarbeitung in eine CSV-Datei ausgegeben.

Da es auf seroundtable.com viele Autoren gibt, habe ich den Rest der Analyse nur auf Beiträge von Schwartz beschränkt (er hat mehr als 32.000 davon geschrieben).

Um besser zu verstehen, wie viel Schwartz zur Website beigetragen hat, finden Sie hier einen kurzen Blick auf die Top-10-Autoren und wie viele Artikel ihnen zugeordnet werden ( Abbildung 27 ).

Autor Artikel
Barry Schwartz 32.786
Tamar Weinberg 1.875
Ben Pfeiffer 351
Chris Boggs 246
cre8pc 119
digitalpoint 40
Nacho 34
böser grüner Affe 24
SEO-Typ 22
cshel 21
Abbildung 27

Anschließend habe ich einen API-Pull von der GA-API eingerichtet, um monatliche Zielseiten und Sitzungen für alle Benutzer abzurufen. Darüber hinaus haben wir Daten zu Seitenaufrufen und externen Links erhoben.

Nachdem ich alle Daten abgerufen hatte, fiel mir auf, dass seroundtable.com AMP verwendete, also zwei Sätze von URLs für viele Artikel. Wenn man sich Schnecken ansieht (z. B./category/this-is-a-slug.html), waren diese zum Glück alle einzigartig.

Ich musste die Kategorien, Autorenseiten und andere Seiten eliminieren, auf denen das Thema nicht aus dem Titel abgeleitet werden konnte – und mich auf die Stellen beschränken, die Screaming Frog gefunden hat. Autoren haben dies leicht bereinigt.

Von dort aus habe ich die URL-Pfade auf eindeutige Slugs bereinigt und diese als Übereinstimmung zwischen den gecrawlten URL-Daten und den GA-Daten verwendet.

Es ist erwähnenswert, dass die Daten von seroundtable.com in GA im 4. Quartal 2005 beginnen. Der erste Beitrag stammt aus dem 4. Quartal 2003. Wie Patrick Stox betonte, war der 14. November 2005 der offizielle Start von GA Unsere Daten umfassen alle Daten über die Geburt und den Tod von GA, wie wir sie alle kannten.

Zuvor nutzte die Website Urchin Analytics, das zu GA wurde. Von den 27.309 einzigartigen Nacktschnecken, die im Crawl gefunden wurden, wurden nur 0,2 % nicht in den GA-Daten gefunden. Die meisten davon lagen nach dem Datenschluss vom 30. Juni 2023.

Verarbeitung natürlicher Sprache (NLP)

Nachdem ich sichergestellt hatte, dass ich über saubere Seiten- und Analytics-Daten verfüge, ließ ich die Seitentitel durch einen Prozess laufen, der sie in ngrams umwandelt. Ein Ngram besteht aus N-Term-Gruppierungen. Zum Beispiel würde „der grüne Frosch“ bestehen aus: „der“, „grün“, „Frosch“ als 1 Gramm und „der Grüne“, „grüner Frosch“ als 2 Gramm. Lässt man dies über die Titel laufen und zählt die Häufigkeit jeder Grammstufe, können wichtige Konzepte auftauchen.

Anschließend haben wir alle wichtigen Ngrams durch ein großes Sprachmodell (LLM) laufen lassen, um zu sehen, wie gut es wichtige Themen heraussuchen und sie weiter in relevante Kategorien zusammenfassen kann. Hier sehen wir die Grenzen von LLMs bei Nischenthemen. Obwohl die Modelle dabei hilfreich waren, mussten verschiedene Ngrams manuell auf Konzepte überprüft werden, die eine Kategorie bilden könnten.

Darüber hinaus gibt es im Datensatz viele Entitäten und Konzepte wie „Google“ und „organische Suche“, die in vielen Beiträgen vorhanden sind, während zeitlich wichtige Themen wie „Kolibri“ nur für wenige Beiträge gelten und die Sprachmodelle völlig durcheinander bringen .

Sie können die Kategoriedaten hier einsehen und die Hauptkategoriebezeichnungen in der Grafik unten einsehen. Wir haben die Kategorien mit den Titeln abgeglichen, indem wir eine umgekehrte Wortlängensortierung verwendet haben, um sicherzustellen, dass detailliertere Phrasen vor breiteren (kürzeren) Phrasen gefunden werden. Es ist erwähnenswert, dass wir jedes Thema in eine allgemeine Kategorie und eine detailliertere Unterkategorie unterteilt haben.

Die folgende Grafik ( Abbildung 28 ) enthält die allgemeinen Kategorien mit Sitzungen über dem 25. Perzentil. Beachten Sie auch, dass der Klassifizierungsprozess sehr subjektiv ist. Sicherlich werden die Zuschauer Themen finden, die sie anders kategorisiert hätten.

Abbildung 28
Abbildung 28

Externe Linkdaten und SEO-Tool-Erwähnungen wurden über separate Crawls verarbeitet, die nur auf die Teile jeder Seite abzielten, die dem Hauptinhalt gewidmet waren.

Die Daten des SEO-Tools unterscheiden sich von den kategorisierten Daten, da sie den Titel und den Inhalt berücksichtigen. Die Kategorisierung der Beiträge erfolgte nur nach dem Titel.

Tabellen-, Kategorisierungs- und historische (jährliche) Seitenaufruf- und Sitzungsdaten sind unter Tracking 20 Years of Search Data verfügbar.


Die in diesem Artikel geäußerten Meinungen sind die des Gastautors und nicht unbedingt die von Search Engine Land. Die Autoren unserer Mitarbeiter sind hier aufgelistet.