File di Log: Cosa sono e come analizzarli con Screaming Frog – SEO Tech Academy

I file di log sono i registri prodotti dal server ogni volta che qualcuno – utente o bot – accede al sito. Tra i tanti tipi di log che esistono, quelli che interessano davvero a chi fa SEO sono i log di accesso a un sito web: sono loro a dirti, nero su bianco, quali URL sono stati richiesti, da quale user-agent, in che momento, con quale codice di risposta e in quanto tempo il server ha risposto.

Nello specifico l’analisi degli access log ti consente di individuare:

- Ora della richiesta;

- URL richiesto;

- User agent fornito durante la richiesta;

- Codice di risposta del sito web;

- Dimensione della risposta;

- Indirizzo IP del client che ha effettuato la richiesta;

- Tempo impiegato per servire la richiesta;

- Referrer, la pagina che ha fornito il link per effettuare la richiesta.

Avere una registrazione accurata di tutte le richieste ricevute da un server web è estremamente utile perché permette un’analisi molto efficiente e versatile per trovare errori, criticità e valutare l’architettura del progetto.

In questo appuntamento con la SEO Tech Academy vediamo come analizzare i file di log utilizzando Screaming Frog.

Se non vuoi perderti i prossimi video, iscriviti al canale YouTube oppure alla newsletter dedicata per riceverli direttamente nella tua casella di posta.

Perché analizzare i file di log

Se ti è capitato di avere dubbi su cosa vede davvero Google nel tuo sito, analizzando i file di log trovi le risposte.

Ecco perché dovresti integrarli nel tuo flusso di lavoro SEO:

Vedi esattamente cosa viene scansionato (e cosa no)
A differenza di un crawl, che è una simulazione, i file di log mostrano con certezza quali URL sono stati effettivamente visitati dai bot.
Visualizzi le risposte incontrate dai motori di ricerca durante la scansione
Un conto è trovare errori 404 durante una scansione, un altro è sapere con quale frequenza si verificano. Questo ti aiuta a definire la priorità di risoluzione.
Individui le carenze di scansione
Se alcune sezioni del sito non vengono raggiunte, potrebbe esserci un problema di internal linking.
Scopri cosa Google considera importante
Le pagine più scansionate non sono sempre le più visitate dagli utenti, ma sono quelle che Google tiene d’occhio. Se non coincidono con le tue priorità SEO, è il momento di intervenire.
Ottimizzi il crawl budget
I log rivelano se lo spider si sta “perdendo” su URL inutili: pagine con filtri, parametri, duplicati o contenuti a basso valore. Sapere dove Google sta sprecando risorse è il primo passo per ricalibrare la struttura.
Gestisci gli URL orfani
Gli URL non linkati internamente non vengono trovati da un crawler. Ma se compaiono nei log, sai che sono ancora attivi e raggiungibili. Puoi decidere se recuperare quei contenuti o eliminarli definitivamente.

Come analizzare i file di log con Screaming Frog

Avere i file di log è solo il primo passo: per trasformarli in insight utili servono gli strumenti giusti. Se già usi Screaming Frog per i crawl, c’è una buona notizia: esiste una versione dedicata proprio a questo, il Log File Analyser.

Quali sono i vantaggi?

1. Identificare gli URL a basso valore

Cliccando sull’intestazione della colonna sarà possibile definire quali URL hanno generato maggior numero di eventi e se di basso valore ottimizzarli (id sessione, filtri e-commerce..etc)

2. Analizzare la frequenza di scansione

Con i filtri “Tutti i BOT” possiamo verificare come ogni singolo Spider impatta sul nostro sito web.

3. Analizzare frequenza di scansione delle sottodirectory

Con le directory possiamo definire quali aree del sito web hanno maggiori numero di scansioni, quali presentano maggiori criticità.

4. Frequenza di scansione dei contenuti

L’analisi dei contenuti ci permette di comprendere se lo spider analizza tutti i contenuti del sito web o ci siano delle criticità che bloccano le scansioni.

5. Frequenza scansione per user agent + definizione “crawling budget” degli spider

6. Funzione Inconsistent

Un filtro molto interessante, che riprende quanto detto nel punto precedente è “incosistent” (Incoerenti) che ti aiuta ad identificare quali risorse presentano delle risposte incoerenti tra i risultati.

Ad esempio perché un link non funzionante è stato successivamente corretto, oppure perché il sito presenta un maggior numero di errori interni al server in condizioni di carico e vi è un problema intermittente che deve essere indagato.

7. Pagine di grandi dimensioni

8. Hacking e Log file

9. Top Crawled Pages e Analisi Crawl vs Log file

Ti è piaciuta questa guida? Se non vuoi perderti i prossimi contenuti, iscriviti al canale YouTube oppure compila il form qui sotto per riceverli direttamente nella tua casella di posta!