Yandex hackerato: le scoperte lato SEO

E’ notizia di oggi che il codice sorgente di alcuni dei servizi principali di Yandex, tra cui il motore di ricerca, le mappe, i taxi e la posta elettronica, è stato trapelato online.

La società sta conducendo un’indagine interna per scoprire come ciò sia accaduto. Non è stato confermato se si tratta di un attacco hacker o se il codice sia stato reso pubblico da un dipendente.

L’incidente sta attirando paragoni con la fuga di dati di RuTube (sito web russo di video sharing) del 2022 e molti altriforum di webmaster, sottolineando che questo tipo di incidenti non si sono verificati durante la gestione di Arkady Volozh, che ha lasciato Yandex alla fine del 2022.

Il servizio di sicurezza di Yandex ha dichiarato che si tratta di un attacco mirato a screditare e danneggiare la reputazione dell’azienda.

Posizionamento su Yandex: cosa è stato scoperto?

In merito al posizionamento su Yandex, nel documento ci sono ben 1.922 fattori SEO, di cui 244 sono stati classificati come “inutilizzati” e rimossi dalla considerazione e 988 sono considerati deprecati, il che significa che il 64% del documento non è utilizzato attivamente o è stato sostituito – quindi si tratta di circa 690 potenziali fattori di ranking, e molti di essi contengono descrizioni scarne.

Anche l’età di alcuni di questi fattori è discutibile: alcuni degli autori/responsabili di alcuni fattori sembrano aver lasciato Yandex più di dieci anni fa.

Ad esempio, l’autore DenPlusPlus non lavora più per Yandex da tempo e ha commentato la fuga di notizie sottolineando che non ci sono “cartelle importanti” nella fuga di notizie in questo file, qui da capire se vero o meno 😉



Quindi, al massimo, abbiamo idealmente una piccola finestra sul presente e sul passato del posizionamento su Yandex, ma sicuramente non sui fattori di ranking o sugli algoritmi completi.

Però la cosa più interessante sono i fattori di ranking dichiarati nel documento che possono farci riflettere bene su cosa misurava e da capire se tutt’ora sono attivi.


PageRank su Yandex

Il file trapelato afferma che Yandex utilizza una forma di PageRank come fattore di ranking e, dato che molte tattiche di “Google” funzionano, si può presumere che il PageRank di Yandex funzioni allo stesso modo del PageRank di Google.

Vale la pena sottolineare che il PageRank è il primo fattore di ranking elencato.

I clic ed il relativo CTR sono un fattore di posizionamento per Yandex

È noto da tempo che la manipolazione dei clic funziona in Yandex. Ora, con i fattori di ranking trapelati, abbiamo ulteriori conferme.

  • Le prestazioni complessive del sito influiscono sulle singole query
  • Le prestazioni medie di un URL (e di un host) sono un fattore di ranking, compreso il numero di volte in cui un URL (e un host) vengono richiesti.

La costruzione dell’URL è importante per Yandex

Oltre ai fattori di ranking specifici che si concentrano sull’URL, la componente dell’URL è presente in più di 130 fattori di ranking.

Alcuni dei principali elementi da prendere in considerazione sono:

  • Troppi slash finali sono visti come negativi
  • L’uso di numeri nell’URL può essere visto come negativo
  • L’URL contiene un paese o una città corrispondente (identificatore GEO) all’utente
  • L’URL contiene la query o una relazione semantica con la query.

Anche la lunghezza dell’URL sembra essere un fattore di forma, ma non si tratta di un fattore positivo o negativo.


Ad esempio, un fattore delineato è la divisione della lunghezza dell’URL per 5. Un altro parla della lunghezza della query. Un altro ancora parla della lunghezza della query (richiesta) e della lunghezza dell’URL, ma segue un fattore simile che parla degli URL di YouTube e in particolare dell’utilizzo della distanza di Levenshtein.

La distanza di Levenshtein è una metrica per misurare la differenza tra due sequenze. Informalmente, la distanza di Levenshtein tra due parole è il numero minimo di modifiche di un singolo carattere (cioè inserimenti, cancellazioni o sostituzioni) necessarie per cambiare una parola nell’altra.

Entrambi i fattori sono etichettati come parte dello stesso “ticket di ricerca”, quindi si potrebbe supporre che entrambi utilizzino la metrica della distanza di Levenshtein, ma non è stata dichiarata nelle descrizioni.

Per questo motivo, un consiglio semplicistico è quello di mantenere gli URL semplici e il più possibile incentrati sulla query di ricerca.

Previsione del numero di prodotti in una pagina

Yandex utilizza DSSM (Deep Structured Semantic Model), esaminando l’URL e il titolo della pagina per determinare se una pagina web contiene un prodotto o più prodotti.

La previsione della probabilità DSSM utilizzando l’URL del documento e il titolo, per determinare la presenza di un solo prodotto nella pagina o di più prodotti.
Questo è particolarmente importante per determinare che più prodotti (ad esempio, una tipica pagina di categoria di un eCommerce) sono più adatti e rappresentano una migliore proposta di valore per gli utenti rispetto a una sola pagina di prodotto.

Yandex ha i punteggi di qualità delle pagine

Ci sono 7 fattori di ranking che menzionano la qualità della pagina e, sebbene due di essi si riferiscano a esperimenti sulla qualità della pagina, due forniscono ulteriori informazioni:

  • DSSM predice il punteggio di qualità della pagina per un documento
  • Qualità della pagina aggregata dall’host (punteggio medio)

È interessante il fatto che l’host svolga un ruolo nella qualità percepita della pagina (supponendo che gli host a basso costo ottengano siti web di spam a basso costo).

Anche altri fattori di ranking del documento mostrano il ruolo dell’host…

Affidabilità dell’host: conta per Yandex?

Il numero di URL di un dominio che risponde con errori (presumibilmente 5XX e 4XX) è un indicatore di qualità.

I dati Metrika hanno un impatto sulle classifiche

La fuga di notizie sui fattori di ranking mostra che i dati di Yandex Metrika hanno un impatto sulle classifiche.

Molte descrizioni fanno semplicemente riferimento a un meccanismo simile a YabarUrlVisits, che ha un proprio fattore di ranking, descritto come il volume di traffico proveniente dalla barra Yabar.

I fattori di Metrika che influenzano le classifiche

Di seguito i fattori:

  • Numero di visite a singoli URL
  • Numero di visitatori di singoli URL
  • Il tempo medio trascorso dagli utenti sui singoli URL
  • I dati relativi all’audience (core audience) dei visitatori delle pagine web con un contatore Metrika
  • Il tempo medio che un utente trascorre sull’host quando accede esternamente (da un altro sito non di ricerca) da uno specifico URL
  • La “profondità” media (numero di visite all’interno dell’host) della permanenza di un utente sull’host quando accede dall’esterno (da un altro sito non di ricerca) da un URL specifico.


Questo indica anche che Yandex Direct (ad esempio Yandex PPC/Yandex Paid Search) ha e può avere un impatto sulle prestazioni della ricerca organica.

Si dice che questo tipo di manipolazione abbia funzionato e funzioni in modo aneddotico da qualche tempo, con alcuni webmaster di Runet che hanno creato account Metrika e traffico artificiale, correlato a miglioramenti del ranking.

Yandex utilizza quindi anche il traffico totale e il traffico di ricerca come fattori di ranking:

Età dei link

La fuga di notizie ha rivelato che l’età dei backlink influisce sul loro impatto sul posizionamento complessivo nella ricerca.

Fattori per la pertinenza delle query nel testo e nei titoli

I fattori di ranking trapelati ci danno anche una buona visione di come viene trattata la presenza della query nel testo e nei titoli dei documenti:

  • Parole chiave nel testo e nei titoli
  • Ricorrenza delle parole chiave nelle frasi
  • Presenza di parole chiave nei paragrafi
  • Vale la pena notare che viene menzionato anche l’IDF (Inverse Document Frequency).
  • Anche le meta keyword sono state riconfermate

Uso dell’algoritmo BM25 utilizzato per l’analisi del testo

33 diversi fattori di ranking utilizzano l’algoritmo BM25 per l’analisi del testo.

Come funziona BM25? (definzione Wikipedia)

In information retrieval, Okapi BM25 (BM è l’abbreviazione di best matching) è una funzione di ranking utilizzata dai motori di ricerca per stimare la rilevanza dei documenti rispetto a una determinata query di ricerca. Si basa sulla struttura di recupero probabilistico sviluppata negli anni ’70 e ’80 da Stephen E. Robertson, Karen Spärck Jones e altri.

Il nome della funzione di ranking attuale è BM25. Il nome più completo, Okapi BM25, include il nome del primo sistema che l’ha utilizzata, il sistema di recupero delle informazioni Okapi, implementato alla City University di Londra negli anni Ottanta e Novanta. BM25 e le sue varianti più recenti, ad esempio BM25F (una versione di BM25 che può prendere in considerazione la struttura del documento e il testo di ancoraggio), rappresentano funzioni di reperimento simili a TF-IDF utilizzate nel reperimento di documenti.

Boost Wikipedia

Le pagine di Wikipedia ricevono un bonus di ranking in Yandex. Secondo il file divulgato, questo vale almeno per le pagine della Wikipedia in lingua inglese en.wikipedia.org.

Yandex utilizza il CTR per capire la bontà deli siti

Utilizzo forte del CTR ed altri criteri di comportamento degli utenti come l’ultimo click, il tempo di permanenza o la frequenza di rimbalzo.

L’eta del documento e la data di ultima modifica

È interessante notare che anche l’età di un documento e la data dell’ultima modifica sono incluse nella classifica:

Presenza di Yandex Ads e di annunci in generale

La presenza di Yandex Ads e di Ads in generale sono due fattori di ranking distinti.

Nulla nella descrizione indica se la presenza di annunci in generale o di annunci Yandex sia una cosa buona o cattiva, ma solo che in qualche modo è importante.

Presenza di annunci adult nella pagina

Yandex inoltre controlla attivamente se la pagina web contiene pubblicità di contenuti per adulti.

Hai bisogno di fare SEO per il mercato Russo? Contattaci subito per una consulenza!

In questo articolo...