Crawl Budget: cos’è e come ottimizzarlo

Cosa bisogna sapere sul budget di scansione di un sito web? Influisce sul posizionamento? Quando bisogna ottimizzarlo?

Nel lontano 2017, la sezione Blog per Webmaster di Google (developers.google.com) ha rilasciato un articolo in cui ha introdotto il concetto di “Budget di scansione” (link all’articolo: https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot).

All’interno dell’articolo viene data questa definizione:

In breve, rappresenta il numero di connessioni simultanee parallele che Googlebot potrebbe utilizzare per eseguire la scansione del sito, nonché il tempo necessario per l’attesa tra i recuperi. La frequenza di scansione può aumentare o diminuire in base a due fattori:

  • Stato della scansione: se per un po’ di tempo il sito risponde rapidamente, il limite aumenta e, di conseguenza, possono essere utilizzate più connessioni per la scansione. Se il sito rallenta o risponde con errori del server, il limite diminuisce e Googlebot esegue un numero inferiore di scansioni.
  • Limite impostato in Search Console: i proprietari di siti web possono ridurre la frequenza di scansione di Googlebot del proprio sito. Tenete presente che l’impostazione di limiti più elevati non aumenta automaticamente la frequenza di scansione.
  • Limiti di scansione di Google: Google dispone di risorse ragguardevoli, ma non illimitate. Pertanto, deve assegnare priorità per ottimizzarne l’impiego.

In parole povere, rappresenta l’ammontare di tempo in cui il Web Crawler ha il compito di scansionare le pagine di un determinato sito web, il quale può variare in base al quantitativo di pagine da scansionare e alle prestazioni del sito esaminato.

Quando viene effettuata una domanda di scansione?

Google specifica che i siti vengono scansionati in base ai seguenti fattori:

  • Rilevazione collegamenti all’interno di una pagina esterna al sito web: ad esempio quando viene pubblicato un post ed all’interno di esso viene inserito un collegamento al sito web. In questo caso lo spider accede al nuovo contenuto e se idoneo viene sottoposto al processo di scansione.
  • Popolarità: le pagine più popolari tendono ad essere sottoposte più spesso a scansione in maniera tale da tenerle costantemente aggiornate all’interno dell’indice.
  • Mancato aggiornamento: i sistemi di Google ripetono la scansione delle risorse con una frequenza sufficiente a rilevare eventuali modifiche.
  • Migrazione/aggiornamento: quando una grossa mole di pagine si aggiorna come nel caso dei trasferimenti di dominio o durante le migrazioni dei contenuti di un sito web.

Sempre all’interno dell’articolo viene precisato che, il budget di scansione è un aspetto di cui la maggior parte degli editori non devono preoccuparsi. Cosa significa questa frase? Negli articoli di Google vengono distinte tre tipologie di sito web:

  • Siti web di grandi dimensioni (contenenti milioni di pagine)
  • Siti web di medie dimensioni (contenenti decine di migliaia di pagine)
  • Siti web di piccole dimensioni (contenenti meno di poche migliaia di pagine)

Quando bisogna preoccuparsi del Crawl Budget?

Secondo alcuni esperti del settore, i siti di piccole dimensioni hanno poco da preoccuparsi e in fase di analisi suggeriscono di non mettere in primo piano questa tematica perché il numero di URL che compongono il sito web da analizzare non è cosi elevato da mettere a rischio le prestazioni del server quando viene sottoposto a scansione da parte dei Bot di Google.

Questa affermazione è in parte corretta, tuttavia come sempre non si deve fare di tutta l’erba un fascio ed è necessario valutare caso per caso le criticità emerse.

Anche un sito web di piccole dimensioni potrebbe presentare delle problematiche che possono inficiare sul Crawl Budget, qui sotto quelle più frequenti che ad oggi riscontriamo durante le nostre analisi:

  • Server lenti e poco performanti: il sito web di un cliente medio-piccolo molto spesso non ha la possibilità di usufruire di uno spazio web personale e si rivolge ad aziende che forniscono servizi di Web Hosting condiviso, ovvero danno l’opportunità di affittare lo spazio web all’interno di un server condiviso con altre aziende. Questa soluzione è economica ma da un punto di vista prestazionale non è il massimo, poiché quando il traffico verso il sito web inizia a crescere le prestazioni del server calano per via dell’aumentare delle richieste verso di esso.
  • Piattaforme CMS non ottimizzate: installare WordPress o Prestashop ormai è diventato “semplice” e alla portata (quasi) di tutti, purtroppo l’installazione del CMS all’interno dello spazio web non basta. Risulta necessario mettere in pratica tutte le “best practies” per rendere il sito web performante agli occhi dei motori di ricerca. Ad oggi ci troviamo spesso a che fare con siti web ed e-commerce lentissimi, pieni di plugin inutili, con immagini che pesano decine di Megabyte all’interno delle pagine principali.
  • Strumenti di navigazione all’interno del sito non ottimizzati: come ad esempio la navigazione a faccette degli e-commerce o il sistema di gestione della ricerca interna se non gestiti a dovere possono diventare un vero e proprio bagno di sangue.
  • Altre tematiche importanti riguardanti la gestione dei parametri URL, la Canonicalizzazione, la gestione dei reindirizzamenti di pagina, la gestione del file robots.txt e del meta tag Robots all’interno delle pagine web.

Come incrementare la frequenza di scansione e il numero di pagine?

Di seguito riporto l’elenco delle tematiche da affrontare, in ordine di importanza, per far si che il proprio sito web e relativi contenuti aumentino le possibilità di essere maggiormente scansionati.

TematicaAzioni da compiere
ServerMigliorare il tempo di risposta del server e il tempo di download delle risorse che deve leggere il crawler, ottimizzare il numero di risorse complessive ovvero HTML, js, css e script vari che compongono le pagine web.
Scansionabilità delle risorseOgni risorsa deve fornire il codice di risposta corretto (200) e i relativi meta dati devono essere coerenti (ad esempio meta robots) e link rel=”Canonical”.
Reindirizzamenti di paginaI siti web sono in continuo aggiornamento e i contenuti non sempre hanno lunga durata. Bisogna quindi gestire in maniera corretta i contenuti vecchi (o scaduti) con i reindirizzamenti di pagina che possono essere di tipo temporaneo o permanente.
I contenuti da “cestinare” vanno gestiti in altro modo con altri codici risposta (4xx).
I reindirizzamenti devono essere uno ad uno, evitare quindi le catene di reindirizzamento.
Valorizzazione sitemap.xmlOttimizzare la gestione della sitemap.xml rendendola uniforme alle linee guida per i Webmaster e tenendola costantemente aggiornata.
Struttura dei link interniCreare un sistema di navigazione coerente ed ottimale che permetta alle pagine web più importanti di essere facilmente raggiungibili dai Web Crawler (Menu di navigazione, link contestuali, sidebar …).
Maggiore è la complessità del sito e maggiore sarà l’attenzione da dare a questa tematica per far si che ogni contenuto sia facilmente raggiungibile.
Valorizzazione dei link esterniSfruttare le attività di Link Building e Digital PR per far si che i contenuti del sito web siano reperibili anche da fonti esterne. Maggiori son le fonti esterne che Google andrà a scansionare, maggiori saranno le probabilità che anche i contenuti del sito web vengano intercettati (e successivamente scansionati).

Si suggerisce inoltre di sfruttare le API di indicizzazione di Google e Bing, completamente gratuite, le quali permettono di eseguire le attività di indicizzazione dei contenuti in maniera massiva (link alla documentazione ufficiale: https://developers.google.com/search/apis/indexing-api/v3/quickstart)

Come si monitora la scansionabilità di un sito web?

Gli strumenti a disposizione sono 2, ovvero Google Search Console e il file dei Log del Web Server.

Monitorare le statistiche di Crawl Budget con Google Search Console è abbastanza semplice. Una volta eseguito l’accesso alla console, bisogna cliccare sulla voce in basso a sinistra “impostazioni” ed aprire il rapporto “Statistiche di scansione”.

Pannello impostazioni Google Search Console

Il rapporto contiene un grafico relativo agli ultimi 90 giorni di attività e mostra la tendenza delle richieste di scansione totali, le dimensioni totali di tutte le risorse scaricate e il tempo medio di risposta della pagina.

Tutte le informazioni possono essere filtrate in base a

  • Codici di risposta forniti (200, 3xx, 4xx ecc)
  • Tipologia di risorsa (HTML, CSS, JS, Json, Immagine ecc)
  • Finalità di scansione (Aggiornamento o rilevamento)
  • Tipologia di Googlebot (Smartphone, Desktop, Adsbot, Bot adibiti al recupero delle risorse in pagina ecc.)

Inoltre è possibile monitorare nel dettaglio lo stato di Connettività del server, la risoluzione dei DNS e l’accessibilità al file robots.txt tramite la sezione Stato Host.

Sezione stato host – Google Search Console

La seconda soluzione è eseguire un’analisi dei log del webserver tramite appositi software che analizzano e rendono comprensibili tutte le informazioni presenti all’interno del file di log, in maniera tale da poter effettuare tutte le considerazioni del caso. Grazie al file di log è possibile studiare il comportamento dei bot appartenenti ad altri motori di ricerca, come ad esempio Yahoo, Bing, Yandex e molti altri. E diventa anche possibile ottenere informazioni legate ai paesi di provenienza delle richieste, analisi utile per le attività di SEO internazionale.

Conclusione

A prescindere che il vostro sito sia piccolo, medio oppure grande, assicuratevi che tutte le tematiche riportate nella tabella riepilogativa siano rispettate a dovere e vedrete che non avrete nessun problema. Se avete un sito di grosse dimensioni, oltre a concentrarvi sugli aspetti sopra menzionati, cercate di valorizzare la sitemap.xml e il suo comportamento nel momento in cui i contenuti del vostro sito web si aggiornano.

Se gestite un e-commerce con centinaia di migliaia di prodotti concentratevi sull’implementare una strategia ottimale per migliorare l’architettura informativa del vostro catalogo prodotti e di conseguenza cercate di creare una struttura di link interni che possa intercettare categorie, sottocategorie e prodotti nel migliore dei modi.

Prestate molta attenzione a quello che viene fatto durante le attività di migrazione di un sito web poiché il tempo necessario per sistemare le cose nel caso in cui qualcosa dovesse andar storto viene triplicato (compresi i costi di risoluzione dei problemi).

In questo articolo...