Il Trust Rank è un algoritmo sviluppato da Google nel 2005 e ha come obiettivo principale quello di combattere il cosiddetto "Web Spam". Come abbiamo già iniziato a parlare negli articoli precedenti, il Web Spam è una sorta di "spazzatura" che se immessa nel web porta a lungo andare a degradazioni dell'infrastruttura stessa.
L'idea del Trust rank è quella di individuare tutte quelle situazioni in cui viene fatto uso di tecniche per l'incremento forzato ed eccessivamente repentino degli "inbound links" (Link in ingresso al sito).
Un tipico esempio di web spam è l'utilizzo eccessivo di micro-siti sviluppati con l'obiettivo di generare traffico verso un sito target principale. Il Trust Rank assume quindi il compito di analizzare il web e segnalare tutti i casi in cui lo sviluppo dei link non è avvenuto in modo naturale, bensì in maniera artificiosa.
Funzionamento
A differenza del Page Rank tradizionale che fa prettamente uso di algoritmi, il Trust Rank utilizza un approccio differente che comporta l'utilizzo di personale umano volto ad un'ulteriore fase di analisi.
Questa fase di analisi permette di determinare l'affidabilità delle pagine sottoposte a classificazione in modo tale da stabilire se esse sono pertinenti alle pagine direttamente e indirettamente connesse.
I passi principali dell'algoritmo sono quindi:
- Raccolta delle pagine previo crowling;
- Catalogazione delle pagine (pagine "buone" e pagine "cattive");
- Applicazione e attribuzione del valore trust scartando le pagine considerate "cattive".
Pagine "buone" & pagine "cattive"
Il processo di catalogazione delle pagine è un elemento portante dell'algoritmo e si basa sulle seguenti assunzioni:
- Una pagina da cui escono link verso pagine considerate cattive, generalmente sarà considerata cattiva;
- Una pagina buona raramente punterà a pagine cattive.
La funzione introdotta per la determinazione dell'affidabilità è chiamata "Oracolo" ed è così definita:
- O(P) = 1 se P è buona
- O(P) = 0 se P è cattiva
Questa funzione è stata demandata a personale umano.
Determinazione del valore Trust
La determinazione del valore trust viene definita dal seguente algoritmo (estratto da: http://www.vldb.org/conf/2004/RS15P3.PDF):
function TrustRank
In pratica, considerando una matrice di trasformazione T che modella il grafo del web, per ogni nodo della stessa, sono estratti i link uscenti e ne viene calcolato un valore di trust, in base al peso di ogni singolo link uscente e della sua pertinenza. In ogni caso se il nodo non è considerato "buono", il suo valore trust sarà 0 indipendentemente dal suo numero di link uscenti.
Conclusioni
Il Trust Rank, costituisce un evoluzione del tradizionale Page Rank e favorirà lo sviluppo del web in modo maggiormente coerente attenuando i fenomeni di Web Spam volti a pilotare artificiosamente il traffico diretto a un sito.