Come gestire il Crawl Budget per siti di grandi dimensioni

Cos’è il “Crawl Budget”?

Il Crawl Budget si riferisce alla quantità di tempo e risorse che Googlebot (desktop, mobile, ecc) dedica alla scansione delle pagine web di un dominio.

Quanto è importante il “Crawl Budget” per la Seo?

In breve: è importante ottimizzare il proprio sito in modo che Google trovi più velocemente i contenuti e riesca a indicizzarli, il tutto si traduce nel medio-lungo periodo in maggiore visibilità e traffico.

Se si ha un sito di grandi dimensioni con migliaia o centinaia di migliaia di pagine web, è particolarmente importante gestire il proprio crawl budget per aiutare Google ad esplorare le pagine più importanti e ottenere una migliore comprensione dei propri contenuti.

Se (come accade molto spesso) il numero di pagine supera la disponibilità (sempre definita in tempo e risorse) di crawl budget dedicate ad un sito, ci saranno inevitabilmente delle risorse che non potranno essere indicizzate e quindi rese disponibili sulla Serp del motore di ricerca. Se si pensa a degli e-commerce ciò si può tradurre in una limitata capacità di generare profitto dalla vendita dei propri prodotti.

Se dovessimo dare un ordine di grandezza da cui partire per prestare un “occhio di riguardo” al crawl budget possiamo fissare in 10k url il limite dopo il quale il bot di Google potrebbe cominciare ad avere delle difficoltà nello scansionare un sito.

Secondo quanto affermato da Google:

Se il sito non ha un gran numero di pagine che cambiano frequentemente, o se le pagine sembrano essere analizzate lo stesso giorno in cui vengono pubblicate, è sufficiente tenere aggiornato la propria sitemap e controllare regolarmente la copertura dell’indicizzazione.

Google afferma inoltre che ogni singola pagina deve essere scansionata, consolidata e valutata per determinare dove verrà indicizzata dopo l’analisi.

Il Crawl Budget è determinato da due elementi principali:

  • il limite di capacità di analisi
  • la domanda di analisi.

Il limite di capacità di analisi dipende principalmente dalla struttura del sito, dai redirct, dalle pagine bloccate da robots.txt, dalle pagine presenti nella sitemap.xml, ecc.

La domanda di analisi rappresenta quanto Google “desidera” analizzare il sito web. Le pagine più popolari o che subiscono frequenti modifiche verranno analizzate più volte.

Googlebot “desidera” analizzare il sito senza sovraccaricare i server. Per evitare ciò, Googlebot calcola un limite di capacità di analisi, che rappresenta il numero massimo di connessioni parallele simultanee che il crawler può utilizzare per analizzare un sito, oltre al ritardo di tempo tra una richiesta e l’altra.

Considerando insieme la capacità di analisi e la domanda di analisi, Google definisce il “Crawl Budget di un sito come l’insieme di URL che Googlebot può e desidera analizzare”. Anche se il limite di capacità di analisi non viene raggiunto, se la domanda di analisi è bassa, Googlebot analizzerà il sito meno frequentemente.

Di seguito sono riportati i migliori 12 consigli per gestire il Crawl Budget per siti di grandi e medie dimensioni con da 10.000 a milioni di URL.

Determinare le pagine importanti e quelle che non devono essere analizzate

È importante determinare quali pagine sono importanti e quali non lo sono, e decidere di analizzare solo le pagine che valga la pena di far analizzare a Google. È possibile escludere l’analisi di pagine non rilevanti.

Gestire il contenuto duplicato

Sebbene Google non penalizzi (sempre) il contenuto duplicato, è importante fornire a Googlebot informazioni originali e uniche che soddisfino le esigenze informative degli utenti finali. È possibile utilizzare il file robots.txt.

Google ha affermato di non utilizzare dove possibile la direttiva noindex, poiché scansionerà comunque la pagina ma poi la scarterà.

Bloccare l’analisi di URL non importanti tramite robots.txt e consentire l’analisi di pagine rilevanti

Per i siti di grandi dimensioni con centinaia di migliaia di pagine, Google consiglia di bloccare l’analisi di URL non importanti tramite robots.txt.

Inoltre, è importante consentire l’analisi di pagine importanti, directory che contengono contenuti di valore e pagine cruciali per il sito web affinché Googlebot e altri motori di ricerca possano analizzarle.

Evitare catene di reindirizzamenti lunghi

Se possibile, evitare un numero elevato di reindirizzamenti. Un numero eccessivo di reindirizzamenti o cicli di reindirizzamento può confondere Google e ridurre il limite di analisi.

Google afferma che le catene di reindirizzamenti lunghe possono avere un effetto negativo sull’analisi.

Utilizzare HTML

Utilizzare codice HTML (inteso come quantità di codice renderizzato dal browser) aumenta la probabilità che un crawler di qualsiasi motore di ricerca visiti il sito web.

Sebbene i Googlebot si siano migliorati nell’analisi e nell’indicizzazione di JavaScript, altri crawler di motori di ricerca possono avere difficoltà con altri linguaggi diversi dall’HTML.

Assicurarsi che le pagine web si caricano rapidamente e offrano una buona esperienza utente

Ottimizzare il sito web per i Core Web Vitals è importante.

Più velocemente si caricano i contenuti, ad esempio in meno di tre secondi, più rapidamente Google può fornire informazioni agli utenti finali. Se il sito piace (quindi si avranno percentuali di Bounce Rate basse), Google continuerà ad indicizzare i contenuti perché il sito dimostrerà una buona “salute” e quindi potrà aumentare il limite di analisi destinato al sito.

Avere un contenuto utile

Secondo Google, il contenuto è valutato in base alla qualità, indipendentemente dall'”età”. Creare e aggiornare i contenuti quando necessario è importante, ma non ci sono vantaggi nel rendere le pagine artificialmente fresche apportando modifiche insignificanti e aggiornando la data di pubblicazione.

Se il contenuto soddisfa le esigenze degli utenti finali ed è utile e pertinente, non importa se è vecchio o nuovo.

Se gli utenti non trovano il contenuto utile e pertinente, è consigliabile aggiornarlo e renderlo fresco, pertinente e utile, promuovendolo tramite i social media.

Inoltre, collegare le pagine direttamente alla homepage può far sì che vengano considerate più importanti e analizzate più frequentemente.

Prestare attenzione agli errori di analisi

Se si eliminano alcune pagine dal proprio sito, assicurarsi che l’URL restituisca uno stato 404 o 410 per segnalare che le pagine sono state rimosse in modo permanente. Un codice di stato 404 è un segnale forte per non analizzare nuovamente quell’URL.

Tuttavia, gli URL bloccati rimarranno nella coda di analisi per molto più tempo e verranno analizzati nuovamente quando il blocco verrà rimosso.

Inoltre, Google afferma di rimuovere le pagine soft 404, che verranno comunque analizzate e consumeranno il Crawl Budget. Per testare ciò, è possibile accedere a Google Search Console e verificare il proprio rapporto di copertura dell’indicizzazione per gli errori soft 404.

Se il sito contiene molti codici di stato HTTP 5xx (errori del server) o timeout di connessione, l’analisi rallenta. Google consiglia di prestare attenzione al rapporto delle statistiche di analisi in Search Console e di ridurre al minimo il numero di errori del server.

A proposito, Google non rispetta o aderisce alla regola non standard “crawl-delay” nel file robots.txt.

Mantenere aggiornati i sitemaps

Le sitemap XML sono importanti per aiutare Google a trovare i contenuti e velocizzare il processo.

È estremamente importante tenere aggiornati gli URL del proprio sitemap, utilizzare il tag per i contenuti aggiornati e seguire le migliori pratiche SEO, tra cui:

  • Includere solo gli URL che si desidera indicizzare dai motori di ricerca.
  • Includere solo gli URL che restituiscono un codice di stato 200.
  • Assicurarsi che un singolo file sitemap sia inferiore a 50 MB o a 50.000 URL, e se si decide di utilizzare più sitemap, creare un sitemap di indice che elenchi tutti loro.
  • Assicurarsi che la sitemap sia codificato in UTF-8.
  • Includere collegamenti alle versioni localizzate di ogni URL. (Vedere la documentazione di Google.)
  • Mantenere la sitemap aggiornata, ad esempio aggiornarla ogni volta che viene aggiunto un nuovo URL o un URL precedente viene modificato o eliminato.

Creare una buona struttura del sito

Avere una buona struttura del sito è importante per le prestazioni SEO in termini di indicizzazione ed esperienza utente.

La struttura del sito può influenzare i risultati delle pagine dei risultati dei motori di ricerca (SERP) in diversi modi, tra cui l’analisi, il tasso di clic e l’esperienza utente.

Avere una struttura chiara e lineare del proprio sito può utilizzare in modo efficiente il Crawl Budget, consentendo a Googlebot di trovare rapidamente i nuovi contenuti o quelli aggiornati.

Ricordare sempre la regola dei tre clic, ovvero un utente dovrebbe essere in grado di passare da una pagina del proprio sito a un’altra con un massimo di tre clic.

Link interni

Più facile è per i motori di ricerca analizzare e navigare il proprio sito, più semplice sarà per loro identificare la struttura, il contesto e i contenuti importanti.

Avere link interni che puntano a una pagina web può informare Google che quella pagina è importante, aiutare a stabilire una gerarchia delle informazioni per il sito web e contribuire a diffondere l’equità dei link in tutto il sito.

Monitorare sempre le statistiche di analisi

Controllare sempre Search Console per verificare se il proprio sito presenta problemi durante l’analisi e cercare modi per rendere l’analisi più efficiente.

È possibile utilizzare il rapporto delle statistiche di scansione per verificare se Googlebot ha riscontrato problemi nell’analisi del sito.

Se vengono segnalati errori o avvisi di disponibilità nell’interfaccia di Search Console per il proprio sito, è possibile individuare sul grafico dell’disponibilità host i punti in cui le richieste di Googlebot superano la linea rossa di limite e fare clic sul grafico per visualizzare gli URL che stanno causando problemi e cercare di correlarli con eventuali problemi presenti nel sito.

Inoltre, è possibile utilizzare lo Strumento di ispezione URL per testare alcuni URL del proprio sito.

Se lo strumento di ispezione URL restituisce avvisi di sovraccarico dell’host, significa che Googlebot non può analizzare tanti URL del proprio sito quanti ne ha scoperti.

Conclusioni

L’ottimizzazione del Crawl Budget è fondamentale per i siti di grandi dimensioni, data la loro vastità e complessità.

Con numerose pagine e contenuti dinamici, i crawler dei motori di ricerca affrontano sfide nell’analizzare e indicizzare in modo efficiente i contenuti del sito.

Ottimizzando il Crawl Budget, i proprietari dei siti possono dare priorità all’analisi e all’indicizzazione delle pagine importanti e aggiornate, garantendo che i motori di ricerca impieghino le proprie risorse in modo saggio ed efficace.

Questo processo di ottimizzazione prevede tecniche come il miglioramento dell’architettura del sito, la gestione dei parametri dell’URL, l’impostazione delle priorità di analisi ed eliminazione del contenuto duplicato, il che porta a una migliore visibilità sui motori di ricerca, un’esperienza utente migliorata e un aumento del traffico organico per i siti di grandi dimensioni.

In questo articolo...