Come ottenere il massimo dall'API di Google Search Console utilizzando regex

Pubblicato: 2022-11-02

Google Search Console è uno strumento straordinario che fornisce dati di ricerca inestimabili da parte di utenti reali direttamente da Google. Sebbene sia facile lavorare con grafici e tabelle, gran parte dei dati non è accessibile dall'interfaccia utente.

L'unico modo per accedere a questi dati nascosti è utilizzare l'API ed estrarre tutti i preziosi dati di ricerca a tua disposizione, se sai come fare. Questo è possibile con le espressioni regolari.

Ecco come puoi massimizzare l'API di Google Search Console utilizzando le espressioni regolari, secondo Eric Wu, VP of Product Growth presso Honey, una società PayPal, che ha parlato a SMX Advanced.

Diagnosi di problemi SEO con GSC

Lavori su un sito Web in fase di crescita stagnante o in calo o un calo degli aggiornamenti principali?

La maggior parte dei professionisti SEO si rivolge a Google Search Console (GSC) per diagnosticare tali problemi.

(Oppure, se le risorse lo consentono, puoi persino utilizzare uno strumento a pagamento come Ryte o creare la tua piattaforma.)

Fortunatamente per la community SEO, non mancano le dashboard di Looker Studio (ex Google Data Studio) utili per l'analisi GSC, tra cui:

La dashboard gratuita di Aleyda Solis, che utilizza i dati GSC per identificare facilmente potenziali cambiamenti di ranking negli ultimi giorni dal Google Core Update.
Il dashboard di monitoraggio del traffico di ricerca di Google, che ora estrae i dati sul traffico di Discover e Google News.
Ricerca Console Explorer Studio di Hannah Butler. (E se vuoi manipolare i dati GSC in modo pratico e trovare informazioni rapide, puoi utilizzare il foglio Explorer di Search Console di Butler.)

I dashboard consentono ai SEO di esaminare una panoramica delle diverse tendenze invece di utilizzare GSC e fare più clic per ottenere i dati di cui hai bisogno.

Ma se stai analizzando i siti aziendali, puoi imbatterti in alcuni blocchi stradali.

Looker Studio e Fogli Google si caricano entrambi lentamente, specialmente quando hai a che fare con siti di grandi dimensioni.
L'interfaccia di GSC ha un limite di esportazione di 1.000 righe.
GSC ha un enorme problema di campionamento. Secondo Similar.ai, i team SEO aziendali perdono il 90% delle loro parole chiave GSC. E se sai come estrarre i dati, puoi effettivamente ottenere 14 volte le parole chiave.

Superamento del problema del campionamento di GSC

Explorer for Search è un altro strumento che puoi utilizzare per l'analisi GSC. Da Noah Learner e dal team di Two Octobers, è costruito con pipeline di dati che utilizzano l'API di GSC che quindi invia i dati a BigQuery (sostanzialmente ignorando Fogli Google e scaricando file CSV), quindi visualizza le informazioni con Data Studio.

Con questo, puoi avere la certezza di ottenere quasi tutti i dati.

C'è ancora un avvertimento dovuto al problema di campionamento di GSC, in particolare per i grandi siti di e-commerce con molte categorie diverse. GSC non mostrerà necessariamente tutti i dati provenienti da quelle directory.

Dopo aver condotto vari test per ottenere la maggior parte dei dati dall'API GSC, il team di Similar.ai ha scoperto un modo per colmare il divario di campionamento GSC.

Hanno scoperto che aggiungendo più sottodirectory come profili diversi all'interno della dashboard GSC, puoi estrarre ancora più dati poiché Google ti fornisce più informazioni a quel livello inferiore.

Ad esempio, se stai guardando example.com/televisions e aggiungi "televisions" come sottodirectory nel tuo profilo GSC, Google ti fornirà solo le parole chiave e le informazioni sui clic per quella sottodirectory e verso il basso.

E aggiungendo molte di queste diverse sottodirectory, puoi estrarre molte più informazioni.

Ciò risolve il problema del campionamento, ma puoi ottenere ancora più dati usando le espressioni regolari.

Ottenere più dati GSC con le espressioni regolari

L'espressione regolare, o regex, è un potente strumento per comprendere i tuoi dati.

Nell'aprile 2021, Google ha aggiunto il supporto per espressioni regolari a GSC, offrendo ai SEO più modi per suddividere i dati di ricerca organica.

Molte volte, i dati non sono utili a meno che tu non possa comprenderli. E regex aiuta a estrarre informazioni utili dai dati avanzati di GSC.

Ma per quanto potente possa essere, l'espressione regolare può essere difficile da imparare.

Il posto migliore per comprendere e approfondire le espressioni regolari è la documentazione ufficiale di Google su GitHub. (Google utilizza RE2 nei suoi prodotti, che è un tipo di espressione regolare.)

Sebbene regex sia disponibile in tutti i tipi di linguaggi di programmazione diversi, lo troverai quasi ovunque anche per coloro che stanno modificando i file .htaccess.

Nelle prossime sezioni ci sono casi d'uso per sfruttare regex per GSC.

Query informative Regex

Quando si esaminano le query di ricerca di informazioni effettive in GSC, in genere si desidera comprendere:

In che modo le persone arrivano effettivamente al tuo sito?
Quali domande stanno estraendo?

Guardare queste cose da un punto di vista una tantum, all'interno di GSC può essere difficile.

Sei sempre alla ricerca delle parole "cosa", "come", "perché" e poi "quando".

Esistono un paio di modi per rendere meno noiosa l'estrazione di query informative con regex.

Daniel K. Cheung ha condiviso una stringa regolare che ti mostrerà tutte le query contenenti "cosa", "come", "perché" e "quando" che hanno ricevuto un clic o un'impressione:

"what|how|why|when"

E questa stringa regex condivisa da Steve Toth porta l'esempio precedente su una tacca:

^(who|what|where|when|why|how)[" "]

Puoi utilizzare questa stringa se desideri acquisire query basate su domande che iniziano con "chi", "cosa", "dove", "quando", "perché" e "come" e quindi seguite da uno spazio.

Questo è un ottimo elenco da utilizzare quando stai cercando qualsiasi tipo di parola che potrebbe iniziare una domanda:

sono, può, non può, potrebbe, non potrebbe, fatto, non ha fatto, fa, non, come, se, è, non è, dovrebbe, non dovrebbe, era, non era, se, non fosse, cosa, quando, dove, chi, chi, di chi, perché, non lo farà, non lo farebbe, non lo farebbe

Mettere tutto questo in forma regolare sarebbe simile a questo:

^(are|can|can't|could|couldn't|did|didn't|do|does|doesn't|how|if|is|isn't|should|shouldn't|was|wasn't|were|weren't|what|when|where|who|whom|whose|why|will|won't|would|wouldn't)\s

In questa stringa di 178 caratteri:

Hai il cursore ( ^ ) che ti dice che la query deve iniziare con questa parola:
Le parole sono separate da tubi ( | ) invece di virgole.
Tutte le parole sono racchiuse tra parentesi.
C'è una barra rovesciata e la "s" ( \s ) che denota uno spazio dopo la parola.

Questo è buono, ma può anche diventare noioso da fare.

Di seguito, Wu ha semplificato il precedente elenco di parole per renderlo più adatto alle espressioni regolari e più breve, l'ideale per copiare e incollare. Mantenerlo in questo modo aiuta anche con l'efficienza.

Nella prima colonna ci sono le parole normali e nella seconda colonna la regex compressa.

Ad esempio, la parola "can" utilizza la versione compressa can('t)? .

Ciò che indica il punto interrogativo è che qualsiasi cosa tra parentesi è facoltativa. La sintassi compressa consente di coprire sia la parola "can" che "can't".

Più interessante, puoi farlo con potrei/non potrei, dovrei/non dovrei e vorrei/non farei dove la parte -ould delle parole è la base comune, come (c|sh|w)ould(n't)? . Questa breve stringa copre tutti e sei i casi.

Mentre la semplificazione di quel lungo elenco di parole ha reso la stringa meno leggibile, la cosa fantastica è che si adatta di più al campo regex e ti consente di copiare e incollare più facilmente.

^(are|can('t)?|(c|sh|w)ould(n't)?|did(n't)?|do(es)?(n't)?|how|if|is(n't)?|was(n't)?|were(n't)?|wh(at|en|ere|y)who(m|se)?|will|won't)\s

Se fai un ulteriore passo avanti, puoi comprimerlo ancora di più. In questo caso, Wu ha ridotto il conteggio dei caratteri da 135 a 113 caratteri.

^(are|can('t)?|how|if|wh(at|en|ere|y)|who(m|se)?|will|won't|((c|sh|w)ould|did(n't)?|do(es)?|was|is|were)(n't)?)\s

Le espressioni regolari possono diventare davvero complicate. Se stai ricevendo una stringa regex da qualcun altro e desideri chiarire cosa sta facendo cosa, puoi usare Regexper per aiutarti a visualizzarlo.

Di seguito vedrai un confronto tra le diverse versioni di stringhe regolari. È più facile mantenere il primo e ovviamente più difficile mantenere e leggere l'ultimo.

Ma a volte il conteggio dei caratteri conta davvero soprattutto quando hai espressioni regolari più lunghe.

I limiti del filtro Regex per GSC sono 4.096 caratteri, secondo l'avvocato di ricerca di Google Daniel Waisberg.

Sembrerebbe un bel po'. Tuttavia, se hai un sito di e-commerce e devi aggiungere nomi di dominio, sottodomini o directory più lunghe, molto probabilmente raggiungerai quel limite.

Query con marchio Regex

Un altro caso in cui potresti iniziare a raggiungere il limite di caratteri regex in GSC è quando lo usi per query con marchio.

Quando pensi a tutti i diversi tipi di errori di ortografia di un marchio che una persona potrebbe digitare, ti imbatterai rapidamente in quel conteggio di 4.096 caratteri. Per esempio:

aamaung, damsung, mamsang, sam cantato, samaung, samdung, samesung, sameung, samgsung, samgung, samsang, samsaung, samsgu, samshgg, samshng, samsing, samsnug, samssung, samsu, samsuag, samsubg, samsubng, samsug, samsumg, samsumng , samsun g, samsunb, samsund, samsund, samsunh, samsunt …

È qui che la comprensione dell'espressione regolare aiuta. Con questa stringa, puoi catturare il nome del marchio "samsung" insieme agli errori di ortografia:

(s+|a|d|z)[az\s]{1,4}m?[az\s]{1,6}(m|u|n|g|t|h|b|v)

Molte volte, le persone sbagliano a scrivere le parti centrali della parola. Ma in generale, ottengono il formato e la lunghezza corretti e puoi avvicinarti alla tua sintassi in questo modo.

Per gli errori di ortografia delle query sul marchio, considera quanto segue:

Lettere principali che compongono la query del marchio.
Consonanti .
Lettere che circondano le consonanti dure .

In rosso ci sono le consonanti dure che le persone in genere non perdono quando digitano un marchio. Queste sono le lettere principali che compongono quel particolare marchio. Per "samsung", la "s" all'inizio, la "m" al centro e poi la "n" e la "g" alla fine.

Le lettere blu che circondano quelle principali consonanti sulla tastiera sono quelle che le persone tipicamente errano. Nell'esempio, intorno alla “s”, vedi “a”, “d” e “z”. (Sebbene il layout sia diverso per le tastiere internazionali, il concetto è sempre lo stesso.)

La stringa regex sopra acquisisce tutte le possibili varianti di "samsung".

L'altro trucco importante qui è in [az\s]{1,4} .

In forma regolare, questo dice fondamentalmente: "Voglio abbinare qualsiasi lettera da "a" a "z" o uno spazio, da una a quattro volte".

Questo cattura tutti quegli strani errori di ortografia che possono verificarsi nel mezzo di una query sul marchio, in cui una persona può potenzialmente premere lo stesso tasto più volte o premere accidentalmente lo spazio.

Inoltre, il nome del marchio ha una certa lunghezza ("samsung" ha sette caratteri). Le persone probabilmente non finiranno per digitare 20-50 caratteri.

Quindi, in questa espressione regolare, supponiamo che tra "s" e "m" in "samsung", qualcuno sbaglierà a digitare 1-4 caratteri. E poi da "m" a "g" alla fine, scriveranno in modo errato da 1 a 6 caratteri, con spazi inclusi.

L'aggiunta di tutto ciò consente di acquisire in modo completo le numerose varianti di una query con marchio.

L'altra cosa da notare è che il nome del marchio potrebbe apparire in diverse parti della query.

Quindi dobbiamo assicurarci che il marchio stesso venga catturato. Dovrebbe essere:

All'inizio della query.
Nel mezzo della query (quindi circondato da spazi).
O alla fine della query.

L'espressione regolare per questo è la seguente:

(^|\s)(s+|a|d|z)[az\s]{1,4}m?[az\s]{1,6}(m|u|n|g|t|h|b|v)(\s|$)

In questo modo vengono catturate tutte le query in cui il nome del marchio "samsung" si trova all'inizio, al centro o alla fine.

Inizio della stringa = ^
Circondato da spazi = \s
Fine della stringa = $

Il post di JC Chouinard, Regular Expressions (RegEx) in Google Search Console, approfondisce ulteriormente gli esempi di espressioni regolari.

Regex e l'API GSC in azione

Le espressioni regolari si sono rivelate utili per Wu e il suo team quando hanno lavorato con un client che ha riscontrato cali di traffico a seguito di un aggiornamento principale.

Dopo aver esaminato i diversi problemi del sito di e-commerce, hanno scoperto che il problema risiedeva in alcune pagine dei dettagli del prodotto.

Avevano bisogno di segmentare i tipi di pagina per l'analisi in GSC. Ma questo era un compito complesso a causa delle diverse strutture degli URL per i prodotti statunitensi e internazionali.

Gli URL dei prodotti internazionali del sito includevano la lingua e i codici paese, mentre gli URL dei prodotti statunitensi no.

Anche l'uso della sintassi regolare era complicato perché nello slug, nelle categorie e nelle sottocategorie del prodotto esistono lettere e trattini. Inoltre, dovevano filtrare gli URL dei prodotti internazionali per acquisire solo le pagine degli Stati Uniti.

Per ottenere tutte le pagine dei dettagli e di destinazione dei prodotti negli Stati Uniti ( non le pagine i18n), hanno creato le seguenti stringhe regex:

Includere: /([^/]+/){1,2}p?

Escludi: /[a-zA-Z]{2}|[a-zA-Z]{2}-[a-zA-Z]{2}/

Ecco una ripartizione:

Il team voleva abbinare la categoria, la sottocategoria e tutti i prodotti, quindi ha incluso:

Qualsiasi carattere che non sia una barra = [^/]+
1 o 2 directory = /){1,2}
A volte seguito da un prodotto slug = p?

Un accento circonflesso ( ^ ) in genere indica l'inizio della stringa. Ma quando è racchiuso tra parentesi (come in [^/] ), indica una negazione (cioè, "non nulla all'interno di questa casella").

Quindi questa stringa /([^/]+/){1,2}p? significa "Voglio un numero qualsiasi di caratteri che non sia una barra, che porta a una barra (che indica la directory) e talvolta seguito dalla lettera 'p' (il prefisso per gli slug del prodotto)."

Allo stesso tempo, il team non voleva abbinare la combinazione di paese e lingua che conteneva anche lettere e trattini, quindi ha escluso:

Qualsiasi directory di 2 lettere = [a-zA-Z]{2}
Combinazione di 2 lettere + 2 lettere lang-paese = [a-zA-Z]{2}-[a-zA-Z]{2}

La creazione di un'espressione regolare che corrisponda a tutti i codici di lingua e paese da sola sarebbe noiosa a causa di tutte le possibili combinazioni, quindi non sono stati in grado di avvicinarsi a questo come facevano per le query informative (dove ogni singolo tipo di combinazione era escluso).

Ma anche dopo aver creato queste stringhe regolari, hanno avuto un problema.

In Google Search Console, c'è solo un campo per incollare una stringa regex. Dovrai scegliere Corrisponde all'espressione regolare o Non corrisponde all'espressione regolare : non puoi usarle entrambe contemporaneamente.

È qui che l'API GSC è tornata utile in quanto consente di unire stringhe regex.

Nella documentazione dell'API di Google Search Console è presente un collegamento Provalo ora .

Una volta cliccato, si aprirà una console che ti permetterà di selezionare un sito ed effettuare la tua richiesta API attraverso la visualizzazione web.

Ma per gestire meglio le query API, Wu consiglia di utilizzare Postman sul desktop o Paw (che è nativo per Mac).

Postman ti consente di creare query e salvarle per dopo. E se hai accesso ad altri siti, non devi creare una nuova query ogni volta. Devi semplicemente cambiare il nome del sito con una variabile e quindi fare più richieste.

Zampa, d'altra parte, è molto più facile da guardare e utilizzare.

Per accedere all'API, dovrai ottenere le tue chiavi API. (Ecco un utile tutorial di Chouinard.)

Una volta ottenute queste informazioni, avrai il tuo ID client e i segreti del client, che aggiungerai alla tua autenticazione OAuth 2.0 all'interno di Postman o Paw.

Da lì, potrai accedere con il tuo account normale.

Wu ha principalmente effettuato richieste API GSC utilizzando le stringhe regex in Paw. La query viene inserita al centro dell'interfaccia.

La risposta di Google è simile a quella della visualizzazione web dell'API GSC. I dati possono quindi essere esportati per l'elaborazione.

Poiché i dati sono in JSON, le informazioni possono essere disordinate e difficili da leggere.

Per questo, puoi utilizzare un processore JSON da riga di comando gratuito e open source chiamato JQ per stampare le informazioni.

I dati non sono così utili finché non li inserisci in un foglio di calcolo. Inserisci il file che hai esportato da Paw a JQ. Aprilo e quindi ripeti su ogni riga, salvando ogni elemento in modo da poterli esportare in un CSV.

Qui, dovrai convertire i clic e le impressioni che sono float (un numero che ha una posizione decimale). Entrambi devono essere convertiti in stringhe compatibili con un CSV.

JQ produrrà quindi il seguente formato molto più semplice.

Successivamente, utilizzerai Dasel per prendere questo formato e trasformarlo in un CSV.

Ed ecco il risultato finale.

La cosa sorprendente per il team di Wu è che sono stati in grado di utilizzare l'API di Google Search Console e le espressioni regolari per:

Filtra tutte le query internazionali e guarda solo agli Stati Uniti dove stavano riscontrando i problemi principali.
Identifica i giorni in cui il sito ha riscontrato problemi.

Guarda: ottenere il massimo dall'API di Google Search Console

Di seguito è riportato il video completo della presentazione SMX Advanced di Wu.