googlebot

Come simulare Googlebot con Google Chrome

Premessa: questo articolo nasce come appunto personale. Crescerà con il tempo, e magari diventerà più carino e simpatico.

Al momento no. In ogni caso, magari può servire a qualcuno, quindi lo pubblico.

L’articolo è un riassunto ed una traduzione dei seguenti post, con integrazioni personali:

Andiamo per punti:

  • Download Chrome Canary
  • Impostare lo User-Agent
  • Disabilitare la cache
  • Disabilitare JavaScript
  • Usare un IP US
  • Disabilitare il Service Workers
  • Disabilitare i Cookie
  • Visualizzare il sito da mobile
  • Importanti note finali

Punto 1: Download di Google Chrome Canary

Canary, la versione alpha di Chrome, è un ottimo candidato per prestarsi ad essere un simulatore di googlebot. Questo perché, solitamente, il normale Google Chrome è il browser di default, dunque non può essere configurato per navigare come googlebot. O meglio, tecnicamente può, ma non è molto comodo.

In linea di massima, si possono usare anche altri browser. L’unica cosa da considerare è che il simil-gbot sarà impossibile da usare per una navigazione normale.

Puoi scaricare Canary da qui: https://www.google.com/chrome/canary/

Punto 2: Impostare lo user-agent

Google crawla i siti utilizzando il proprio user agent: googlebot.

Ne esistono diverse versioni, ma per comodità possiamo limitarci a considerare “Googlebot Smartphone“, lo user agent di riferimento per tutti i siti mobile-first. Nel dettaglio:

User agent tokenGooglebot
Full user agent stringMozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Importante: La parte “Chrome/108.0.0.0” va modificata ed aggiornata sulla base della versione di Chrome.

Punto 3: Disabilitare la cache

Googlebot crawla senza cache. Disabilitarla è semplice.

Si può fare direttamente al momento della selezione dello user-agent corretto, oppure basta cliccare CTRL+MAIUSC+P all’interno della console per sviluppatori, cercare “cache”, e si verrà portati nel punto corretto.

Punto 4: Disabilitare JavaScript

Disabilitare JS è semplice quanto disabilitare la cache. Anche in questo caso, la semplice combinazione CTRL+MAIUSC+P digitata in Dev Console apre il pannello di selezione “run >”, da cui è possibile attivare o disattivare JavaScript.

Importante: La questione di JS è da approfondire in ogni caso. Disabilitare JS è importante perché il bot non legge immediatamente il contenuto generato con JavaScript, ma lo legge. Certo, prima o poi, ma succede. Quindi disattivare JS ha il solo scopo di capire cosa il bot potrebbe non leggere del tutto.

Importante 2: Quanto detto prima è vero, ma ricordiamoci sempre che G non clicca né scrolla, né interagisce con la pagina in alcun modo. Quindi qualunque contenuto sia visibile a causa di un’interazione, non verrà visto da Google durante la scansione.

Punto 5: Usare un IP US

Gbot naviga dagli Stati Uniti d’America. Per ottenere un IP statunitense si può ricorrere ad una VPN. Personalmente, ne ho provate due, con risultati positivi:

  • UrbanVPN, ottima anche e soprattutto per visitare paesi esotici, anche solo con il proprio computer. È stata d’aiuto in un paio di casi per visitare siti del Sud-Est asiatico, bloccati per gli IP europei.
  • Windscribe (Se WindScribe ti piace e ti iscrivi, ci becchiamo entrambi 1GB gratis di traffico in VPN. Butta via…)

Sono VPN gratis. Agisci con criterio.

Punto 6: Disabilitare il service workers

Non avrebbe senso, per googlebot, visitare qualcosa come se fosse già stato visto da un utente. Per questo, durante la configurazione, va messa la spunta sulla tick del campo Bypass for network, alla scheda Application e alla voce Service Workers.

C’è un’ottima guida su Chrome Developers per capire cos’è il Service Workers, e un’altra su Web.Dev.

A proposito di questo, è stato recentemente pubblicato un bel video con protagonisti Martin Splitt e Dave Smart che spiega come sia importante prestare attenzione a ciò che fa il Service Workers.

Punto 7: Disabilitare i cookie

Quanto detto per il Service Workers è vero per i cookie. Googlebot non usa i cookie. In questo caso, va messa l’impostazione su “Blocca tutti i cookie”.

Attenzione a come vengono usati i cookie. Non vorrete trovarvi nella situazione descritta da Martin Splitt e Roxana Stingu qui sotto:

Punto 8: Visualizzare il sito da mobile

Avendo optato per uno User-Agent mobile, anche l’emulazione del rendering della pagina deve essere mobile.

Basta impostare la visualizzazione sul Pixel 5 e scegliere la visualizzazione mobile da Dev Tools.

Importanti note finali

  • La disattivazione di JS deve essere ripetuta ad ogni apertura del browser googlebot.
  • La disattivazione della cache deve essere ripetuta ogni volta.

Posted

in

by

Tags:

My Agile Privacy
Questo sito utilizza cookie tecnici e di profilazione. Cliccando su accetta si autorizzano tutti i cookie di profilazione. Cliccando su rifiuta o la X si rifiutano tutti i cookie di profilazione. Cliccando su personalizza è possibile selezionare quali cookie di profilazione attivare.