26.1.06

I motori di ricerca, la memoria collettiva

Tempo fa stavo guardando la visione del mondo secondo Google, (la chiamo così perché è molto più una weltanschauung che una zeitgeist) e, all'11° posto tra i termini più ricercati appare "Tori Spelling".
Uhm, questo nome non mi giungeva nuovo: che fosse la figlia del famoso produttore di telefilm Aaron Spelling (sapete? Quello di Charlie's angels, Starsky e Hutch, Fantasilandia, Love Boat, Cuore e Batticuore e di altre 100 serie).
Ci clicco sopra e appare una pagina in cui, come primo risultato, compare una poco lusinghiera immagine dell'attrice americana che, senza mutande, suona una batteria.
Interessante! Da perfetto voyeur, la clicco e scopro che la pagina che la doveva ospitare non esiste. Ovvero, non esiste più, poichè una volta esisteva, o, per meglio dire, tra i suoi attributi vi era anche quello dell'esistenza.
Mi domando quando avrà dovuto pagare la Spelling per farsi rimuovere
E mi dico anche che Google non può essere corruttibile: una volta apparso nel suo indice, è molto faticoso farsi rimuovere, se non con pagine aventi un PageRank più alto. Ogni giorno migliaia di richieste di rimozione arrivano a Google, ma se il motore di ricerca dovesse esaudirle tutte quante sarebbe costretto a impiegare centinaia di persone solo per queso compito.
Leggetevi cosa afferma Google a proposito:
Richieste di rimozione di collegamenti o di copie cache

Di quando in quando Google riceve richieste di utenti relative alla rimozione di collegamenti dagli indici. Sebbene si riservi il diritto di valutare tali richieste singolarmente, Google tende generalmente ad evadere tali richieste in accordo ai principi indicati di seguito.

Gli indici di Google sono costituiti da informazioni che sono state identificate, indicizzate e compilate tramite una procedura automatica senza alcuna revisione preventiva. Considerata la straordinaria quantità di informazioni regolarmente aggiunte, eliminate e modificate, Google non è in grado e non filtra il contenuto dei propri indici. Google può decidere, caso per caso, di rimuovere singoli siti Web dai propri indici se (i) il proprietario del sito ne limita l'accesso o (ii) se il sito viene rimosso dal Web su richiesta del proprietario stesso o da terzi. Tuttavia, se il gestore del sito non prende le misure necessarie per prevenire l'indicizzazione del sito, è possibile che il sistema di indicizzazione automatica di Google trovi ed includa nuovamente tale sito nei propri indici.

Google archivia molte pagine Web nella propria cache per consentire agli utenti di utilizzare le copie di backup in caso di problemi temporanei sul server. I proprietari dei siti Web possono impedire l'archiviazione delle versioni cache dei loro siti utilizzando il metatag NOARCHIVE. Inoltre, i proprietari dei siti possono richiedere l'immediata rimozione delle versioni cache della pagina dai Servizi di ricerca di Google. Google valuta tali richieste di rimozione individualmente e non garantisce la soddisfazione di ogni richiesta. La procedura necessaria per rimuovere le versioni cache e per impedire che un sito venga salvato nella cache e/o incluso nell'indice è descritta nella sezione Domande frequenti (FAQ) su Google, che può essere selezionata dalla pagina principale di Google.

Google e gli altri motori di ricerca, per merito/colpa della loro cache, diventano quindi una memoria collettiva, nella duplice accezione di "essere della collettività" e di collezionare. Colleziona e non rimuove, non come i siti di cui colleziona il contenuto, e, nel caso venga sollecitato opportunamente, fa apparire cose che parevano/volevano risultare rimosse.
L'esempio che ha scatenato questo articolo è frivolo e misero, ma immaginate cosa potrebbe succedere quando, per sbaglio, incuria o dolo, venissero pubblicate informazioni che non dovrebbero essere divulgate: se nel periodo di permanenza online uno spider di un motore di ricerca riesce a catturarle, ecco combinato il pasticcio.
Ecco quindi un esempio eccellente che poco ha a che vedere col mondo del gossip: nel 2003 Richard Smith, un esperto di tematiche di privacy e sicurezza, trovò delle pagine nella cache di Google tratte da sito dell'Information Awareness Office del Pentagono che erano state rimosse a seguito della pubblicazione di un reportage sullo sviluppo di un sistema informativo dedicato allo spionaggio delle attività dei cittadini americani per l'individuazione di attività terroristiche.

Credo quindi necessaria, da parte dei motori, una politica che accolga con favore e celerità le richieste di rimozione dati dalle cache, quando queste richieste siano ben argomentate; ma anche per chi ha un sito che si evolve frequentemente è necessario un processo di monitoraggio della cache dei motori di ricerca, in modo che il loro contenuto sia coerente con il contenuto delle proprie pagine.
Volete sapere come fare? Mandatemi un'email

Aggiornamento delle 10:30 - secondo la giustizia americana la cache di Google non viola le leggi sul copyright. E ci mancherebbe altro.

19.1.06

[marketing 2.3] Attirare utenti con l'errata digitazione (Typosquatting)

Alcuni giorni fa segnalai un mio articolo su Punto Informatico.
Purtroppo però, a causa di una forma di dislexia digitatia che mi attanaglia da anni, anziché scrivere http://connexioni.blogspot.com ho digitato http://connexioni.blogpsot.com
Ebbene, mi è stato segnalato e ho scoperto "cose che voi umani non potreste nemmeno immaginare".
Il sito si intitola "
Amazing Bible Studies" ed è un deposito di risorse riguardanti studi sulla Bibbia.
In realtà, il sito vero è www.blogpsot.com ed è strutturato in modo che tutti i sottodomini ci vadano a puntare (provate ad esempio un blog come http://supercalifragilistichespiralidoso.blogpsot.com/)
Questo è un tipico caso di Typosquatting: prendere uno dei domini più visitati del mondo (ad esempio blogspot.com), registrarne gli anagrammi più plausibili e attendere.Prima o poi qualcuno ci cascherà e visiterà il sito.
Attenzione però: il nome di dominio non può contenere più di un errore.

Esempi:
http://connexioni.blogsopt.com
http://connexioni.blogspto.com
http://connexioni.blosgpot.com
http://connexioni.blgospot.com

C'è chi è corso ai ripari, come Google, che ha registrato googel.com e goolge.com, lasciandosi però sfuggire www.glooge.com.
Anche yahoo ha preso provvedimenti per chi digita www.yaooh.com e www.yhaoo.com, ma non per www.yaoho.com, che gli potrebbe portar via un bel po' di clientela maschile, né per http://www.yahho.com/, che ha un invidiabile PageRank di 9.

Un po' di articoli che hanno parlato in precedenza di Typosquatting

18.1.06

Quaero, il MIT europeo e la visione della tecnologia nel Vecchio Mondo

Alcuni/molti di voi avranno sentito parlare del progetto Quaero, ovvero della piattaforma integrata per la gestione di contenuti multimediali (sorta di Google all'europea, ma con un sito che parla solo francese e tedesco) sponsorizzato dai governi francese e tedesco e a cui partecipano aziende del calibro di France Télécom, Deutsche Telekom, Thomson, Exalead e istituti di ricerca tra cui l'INRA, Inria, il CNRS, l'Università di Kalrsruhe.
E' invece di questi giorni la proposta del presidente dell'Unione Europea Woschnagg di creare un rivale europeo al Massachusetts Institute of Technology.
Entrambe queste notizie hanno creato un timido clamore e un modesto moto d'orgoglio, nonostante, a tutt'oggi, non si possa ancora vedere nulla di tangibile: Quaero è stato annunciato nel settembre 2005 e l'EuroMIT sarà argomento sul tavolo di discussione della commissione europea in promavera.
Ma il clamore necessario che si deve creare intorno ad esse ha lo scopo di ridare agli europei una nuova fiducia circa le possibilità dello sviluppo tecnologico del nostro continente e, come dichiarato da Woschnagg, anche di contenere la migrazione di cervelli eccellenti verso aziende ed università americane. Secondo il quotidiano Times di Londra, 7 delle migliori dieci università del mondo sono statunitensi, con Harvard e il MIT nei primi due posti della graduatoria.

Una proposta di modalità di implementazione che l'Unione Europea potrebbe utilizzare per questo progetto non prevede la concentrazione ma la distribuzione degli sforzi: così come con Quaero, nel cui sviluppo sono coinvolte diverse entità più o meno omogenee, anche l'Istituto di Tecnologia Europeo potrebbe essere costituito da una rete di istituzioni accademiche e di aziende che avrà il compito di assicurare che le ricerche siano trasformate velocemente in idee di business. Questo consentirebbe una maggior coesione nell'ambiente accademico e contribuirebbe a superare quegli ostacoli che le università troverebbero di fronte a un nuovo concorrente dotato di potenzialità e finanziamenti di molto superiori al normale (Dominique de Villepin si è comunque già affrettato a proporne la sede a Parigi e a suggerire un budget iniziale di 360 milioni di dollari).

Certo è che per ridare alla tecnologia del nostro continente quella fiducia necessaria per evitarne il continuo deperimento non bisogna solo pensare di creare una versione europea di qualcosa che in America funziona alla perfezione, ma bensì di pensare a modelli di innovazione realistici e realizzabili, che rilancino lo sviluppo e che permettano una maggior coesione tra accademia e industria.

9.1.06

Google Bowling: concorrenza sleale

Facendo una ricerca sui metodi utilizzati dalle aziende per danneggiare i concorrenti, mi sono imbattuto in una pratica che utilizzando una caratteristica di Google, forza l'abbassamento nel rank o addirittura l'esclusione di un sito dal database del motore di ricerca.
Si tratta del Google Bowling, e vi posso assicurare che non ha nulla a che vedere con il passatempo preferito di Larry Page e Sergei Brin.
L'attività sfrutta, invece, una caratteristica dell'algoritmo PageRank implementata per escludere chi compra siti con pubblicità site-wide, ovvero con link che compaiono su ogni singola pagina di un sito: se un sito ha 2000 pagine diverse, ad esempio, la pubblicità apparirà su tutte quante e il sito pubblicizzato conterà 2000 link in più.
Qualcuno ha quindi pensato di applicare questo paradigma alla concorrenza: ha acquistato un po' di siti, ci ha depositato qualche migliaio di pagine statiche che puntavano al sito concrrente e li ha registrati su Google.
Risultato: il sito concorrente è stato eliminato dal DB di Google.
Poco etico, ma molto funzionale al business.
Esiste una soluzione a questo, esplicitata nella proposta di Michael Pedone: ignorare semplicemente i siti che ospitano migliaia di link allo stesso sito, non attivando quindi nessuna operazione. Nel caso di concorrenza sleale le vittime innocenti non avranno conseguenze, mentre nei casi di Search Engine Optimization non etica, il perpetratore della truffa non salirà nella classifica dei risultati e il suo PageRank rimarrà invariato.
Non ultimo, la reputazione di imparzialità e accuratezza di Google, non subirà scossa alcuna.

3.1.06

[sicurezza] WMF exploit: non è un baco. E' una feature!

Ho ripreso lo stesso titolo del blog di F-secure che segnala la notizia: nel formato Windows Metafile, progettato negli anni '80, è inclusa una "feature" che consente ai file grafici di contenere del codice, che può essere eseguito da una callback a seguito di particolari eventi. Qualcosa, quindi, che ai tempi era stato reputato necessario ha creato una vulnerabilità presente nei sistemi operativi Windows dalla versione 3.0 (!!)
F-secure arriva a ipotizzare che ci siano altre potenziali debolezze collegate al WMF, e propone una fix che va a sostituire la funzione incriminata.
____________________________

Questo non è un annuncio -->




2.1.06

[marketing] Come scrivere un messaggio di manutenzione sito

In questo momento Bloglines, l'aggregatore RSS che uso, non è disponibile per manutenzione: per comunicarlo ai suoi utenti, il servizio ha sostituito la sua pagina usuale con l'immagine che vedete qui riportata.
A mio parere l'approccio di Bloglines è da prendere come esempio delle modalità con cui comunicare con i propri utenti.
E' certo che di fronte a un momento di non disponibilità del sistema l'utente possa contrariarsi, adirarsi, infuriarsi, ma di fronte a questa immagine di idraulico di mezza età, dal fare bonario e simpatico che dice "Ciao, sono l'idraulico di Bloglines...Bloglines funzionerà meglio quando avrò finito.", è impossibile non provare un moto di comprensione per coloro che in questo momento stanno lavorando per riparare qualche malfunzionamento e per il fatto che è comprensibile che qualche volta ogni tipo di servizio che utilizza un software scritto da mano umana, anche se backuppato, anche se in fault-tolerance, anche se controllato da sistemi di monitoraggio, può incorrere in malfunzionamenti temporanei.
Un messaggio di questo serve a evitare che si depositi, nell'area del nostro cervello dedicata al profilo di un argomento (quella che presiede anche alla brand awareness, già che ci siamo), un elemento di negatività, ma, anzi, come in alcune arti marziali orientali, sfrutta un momento di debolezza propria come leva per colpire da un'altro lato, tramutandosi in fattore positivo.

1.1.06

[facezie] I 400 milioni di hits al sito della Polizia? Merito dei carabinieri

Una notizia dell'Ansa riporta oggi che, nel corso del 2005, il sito della polizia è stato visitato da 6,5 milioni di utenti che hanno totalizzato 400 milioni di hits.
Ebbene, oltre alle motivazioni fornite dalla news, ce n'è pure un'altra, che si scopre esaminando l'illustrazione: i più frequenti visitatori del sito sono i Carabinieri!
Inoltre, come da immagine, il sito della Polizia è sì in tinta con i suoi colori, ma purtroppo non contiene nulla se non una schermata azzurra!
O forse il carabiniere in questione ha sbagliato indirizzo.
O ancora, si è verificato un errore di sistema di Windows.