I motori di ricerca filtrano il contenuto dei siti in due fasi: durante il collezionamento e nella fase di post-processing. Il processo di filtraggio è evolutivo, quindi perfettibile e in continua evoluzione, un’evoluzione parallela a quella dei metodi di spam: l'approccio dei gestori dei motori di ricerca è molto simile a quello che utilizzano i produttori di antivirus, sebbene la minaccia e l'urgenza siano estreamente differenti.
Continuiamo, in questa seconda puntata, la panoramica tra le tecniche di SES: la prima puntata si trova a questo indirizzo.
Grandi case editrici
Ho letto la storia di una grande casa editrice che ha costruito una grande quantità di siti linkati tra loro, generando così un alto PageRank: questa forma di spam è difficile da determinare poiché i link sono assolutamente legittimi.
Una volta che gli spammer hanno guadagnato PageRank e link reputation all’interno del loro network possono utilizzare l’inventiva per arrivare ai primi posti nelle ricerche con combinazione di keyword.
Forums e guestbook
Spesso ho visto utilizzare i forum con l’unico scopo di inserire un commento contenente un link a un sito. Questo è accettabile solo se il contenuto del messaggio è contestuale all’argomento del forum.
Discorso diverso si applica ai guestbook, che non sono monitorati allo stesso livelo dei forum, e in cui è più semplice inserire un saluto seguito da un link.
Naturalmente (e per fortuna) non tutti i forum e i guestbook vengono inclusi nel database dei motori di ricerca, ma è piuttoto semplice scoprire quelli che lo sono.
Domain Spam
In questo caso si tratta di siti che risiedono all’interno dello steso dominio di un
sito a cui incrementare il ranking (il classico http://www.nomesito.com/) e contengono pagine con link che puntano al sito principale.
Link all’interno del tag <noscript>
Normalmente il tag <noscript> sostituisce le informazioni e i link che un codice Javascript fornisce a un browser e viene utilizzato dagli spider e dai browser non configurati per interpretare il JS: il contenuto del blocco all’interno del <noscript> non è visibile nella pagina visualizzata dal browser.
Nei casi fraudolenti, i link puntano ad altri siti per incrementarne il PageRank; eccone un esempio:
<SCRIPT LANGUAGE="javascript" SRC="http://www.spamsite.com/cc.asp?idn=aiiksjj&NoLink=1" TYPE="text/javascript"></SCRIPT>
<NOSCRIPT><a href="http://www. spamsite.com">real estate</a>
<a href="http://www. spamsite.com/popkeys.asp?Key= doric+columns"> doric columns </a>
<a href="http://www.spamsite.com/popkeys.asp?Key=aluminium">aluminium</a>
<a href="http://www.spamsite.com/popkeys.asp?Key=great+designers"> great designers </a>
<a href="http://www. spamsite2.net/">home decorating</a>
<a href="http://www. spamsite3.biz/">home improvement world</a>
<a href="http://www. spamsite4.com">luxury homes</a>
</NOSCRIPT>