Il problema della rimozione di un sito dall’indice di Google a causa di errori nel file robots.txt è una questione molto delicata per la visibilità online. Nell’articolo approfondiamo come la mancata accessibilità o determinati status code errati (diversi da 200, 404 o 410) restituiti dal robots.txt possano portare Google a de-indicizzare rapidamente un sito, con il conseguente crollo delle visite.
Presentiamo un caso studio concreto, dove un errore 500 del robots.txt ha causato la scomparsa del sito dai risultati di ricerca; la soluzione è stata cambiare hosting e ripristinare il corretto status code. Evidenziamo così quanto sia cruciale il monitoraggio continuo di questo file per evitare problemi simili.
Consigliamo l’utilizzo di Robotto, uno strumento specifico per il controllo del robots.txt. Robotto permette di rilevare duplicazioni di contenuti (tra www e non-www), invia avvisi su modifiche al file robots.txt, controlla lo status http restituito, identifica la presenza di malware, monitora la scadenza del dominio e analizza tempi di caricamento della pagina – funzionalità che aiutano a intercettare rapidamente eventuali criticità.
Cosa succede se Google non scansiona il file robots.txt
Sapevate che se Google non è in grado di scansionare il file robots.txt interromperà la scansione del sito?
Oggi voglio parlarvi di una case history inerente lo status code del robots.txt che ha causato la rimozione dall’indice di Google del sito.
Se durante la richiesta del file robots.txt lo status code è diverso dal 200 (status ok) o dal 404/410 (pagina non trovata o rimossa definitivamente) Google farà de-indicizzare il sito dai motori di ricerca.
Il grafico che vi ritroverete all’interno del Google Webmaster Tools sarà molto simile a questo:

Un crollo delle visite repentino, dato dallo status code 500 del file robots.txt.
Monitorare il robots.txt dei vostri siti o dei siti che seguite è essenziale per garantire l’incolumità e la visibilità all’interno dei motori di ricerca degli stessi.
Soluzioni per monitorare il robots.txt di un sito
Vi consiglio l’utilizzo di robotto, un tool che vi avvisa prontamente se vi sono cambi di status code all’interno del vostro robots.txt.
Robotto vi consente di tener monitorato diverse cose, come ad esempio:
- duplicazione di contenuti dati dal www/not www
- aggiunta o rimozione di nuove righe all’interno del robots.txt
- responso http del vostro file
- vi informa su potenziali malware presenti nel sito
- scadenza del dominio
- tempo di caricamento della pagina: vi avvisa se ritenuto troppo lento
- altro..
Nel mio caso la situazione si è risolta dopo aver risolto la problematica (cambio hosting) ed aver così ripristinato lo status code 200 del robots.txt.
Ecco di seguito il grafico con la ripresa:

Tenete quindi sempre ben monitorato il file robots.txt dei vostri siti!