INFORMAZIONI DEL MONDO UNITEVI!

Può accadere che una persona debba andare dagli USA in Inghilterra. Prima di prendere l’aereo si ferma ad acquistare qualcosa con la carta di credito, arrivato otto ore dopo in Inghilterra acquista una tessera prepagata per il cellulare e quando si accinge ad acquistare sempre con carta di credito un biglietto del treno si ritrova con la carta bloccata. Negli Stati Uniti i computer della sua banca, vedendo che gli acquisti erano avvenuti prima in America e poi in Inghilterra a distanza di poche ore e non trovando il proprietario della carta di credito in casa, avevano fatto scattare un algoritmo antifrode. In teoria il computer avrebbe dovuto collegare l’acquisto del biglietto aereo fatto con carta di credito al fatto che la persona che utilizzava la carta di credito in Inghilterra fosse il vero proprietario.
Forse diverse banche dati dovrebbero essere unite per scongiurare problemi simili e molte persone sono favorevoli.

Il processo con cui si raccolgono più fonti per accorparle, noto come Data Fusion, dovrebbe idealmente creare una fonte di informazioni più potente e precisa rispetto alle singole fonti da cui prende i dati. Coloro che sono favorevoli a questo processo di Data Fusion credono che le organizzazioni siano in grado di usare meglio i dati in loro possesso; i critici, dalla loro, sostengono che tutto ciò minacci le libertà civili e la privacy.

Entrambe le parti però  concordano sul fatto che questo processo alla fine funzionerebbe perfettamente ma in realtà i sistemi usati sono meno affidabili e sviluppati di quanto si pensi.
La prima forma di fusione di dati risale ai programmi di Data Matching (controllo incrociato di dati) risalente agli anni ’70 quando il governo degli Stati Uniti, dopo che il congresso ebbe approvato una nuova legge sulla privacy,fece accorpare i dati del Federal Parent Locator Service con quelli della National Directory of New Hires.

L’espressione Data Fusion è entrata a far parte del linguaggio tecnico negli anni ’80 quando ricercatori dell’ Advanced Technology Center, facente capo alla Lockheed Martin, pubblicarono due articoli su un sistema di Fusione di Dati Tattici che in tempo reale era in grado di unire dati registrati da sensori sui campi di battaglia con banche dati e altre fonti di informazioni al fine di consentirne l’analisi.
Nel 2006 John Poindexter e Robert L. Popp della Defense Advanced Research Project Agency hanno affermato con certezza che il governo degli Stati Uniti avrebbe potuto prevenire gli attentati terroristici nel ’93 al World Trade Center e nel ’95 a Oklahoma City se solo il governo avesse cercato, nelle banche dati delle attività commerciali, le prove di grandi acquisti di fertilizzante effettuati da personale non impiegato in agricoltura. Ma per fare ciò il governo avrebbe dovuto monitorare senza giustificazione i dati privati di ogni cittadino e avrebbe dovuto aver accesso a banche dati private. Nel 2003 il Congresso ha soppresso il progetto Total Information Awareness elaborato da Poindexter e Popp.

A causa delle scarsissime informazioni rivelate dal governo riguardo i sistemi di fusione di dati, i difensori delle libertà civili si sono ancor più allarmati. Il governo si giustifica dicendo che per i terroristi sarebbe semplicissimo aggirare i programmi di difesa se sapessero in cosa consistono e come funzionano. In ogni caso i pochi dati resi pubblici bastano per affermare che la fusione di dati pone problemi etici, legali e tecnici.
Oltre a questi tre problemi ne sussiste un altro non meno importante: ovvero la qualità dei dati raccolti. Molte informazioni delle banche dati sono state raccolte per usi statistici e quindi non sono abbastanza precise. Nel 1994 Roger Clarke dell’Australian National University studiò i programmi di incrocio di dati usati dal governo Australiano e da quello degli Stati Uniti. Le cartelle personali, esaminate dai computer, portarono a una conclusione: molte delle persone additate come "cattivi" erano in realtà falsi positivi, quindi innocenti.

Negli anni ’90 Simson L. Garfinkel ha analizzato molti dischi rigidi trovando spesso copie di una pubblicazione chiamata Island Hopper News. La cosa gli parve sospetta ma alla fine scoprì che era un file distribuito dalla Microsoft con il software Visual Studio 6.0 . Ciò gli ha permesso di dimostrare che distinguere documenti importanti da quelli inutili è un’operazione complicata e l’unico modo per dividere queste due tipologie di files consiste nel monitorare i documenti digitali prodotti globalmente e creare una lista di file comunemente disponibili.
Un sistema veloce e automatico consiste nel creare un elenco di Hash. Gli algoritmi di Hash crittografici sono funzioni in grado di assegnare a qualunque file un’impronta digitale unica e di dimensioni ridotte. Due dei più diffusi sono l’MD5 e lo SHA-1 che creano rispettivamente hash da 128 bit e da 160 bit.

Successivamente, invece di confrontare due file byte per byte, è possibile confrontare le loro impronte digitali.
La National Software Reference Library appartenente al National Institute of Standards and Technology ( NIST ) acquisisce centinaia di prodotti software e calcola l’ Hash crittografato di ogni file. Successivamente il NIST distribuisce la sua banca dati, contenente più di 46 milioni di hash, ad investigatori i quali dispongono di un sistema pratico che gli consente di sapere quali sono i file da ignorare. Altre agenzie forniscono banche dati con hash di file pedopornografici e programmi usati da pirati informatici.

Le banche dati di hash sono molto utili ma non sono ancora complete. Per aumentare l’efficacia di questo sistema è stata sviluppata da Simson L. Garfinkel l’analisi Cross Drive: questa tecnica individua e isola elementi identificativi valutandone anche la frequenza con cui compaiono. Di solito più è frequente un elemento identificativo, minore è il suo valore.
Un problema che spesso riguarda la fusione di dati è l’identità. Per esempio una persona che si chiama Robert, in una banca dati, potrebbe chiamarsi Rob in un’altra e Bob in un’altra ancora. Il processo che fa corrispondere ad una persona ciascuno dei nomi o dei numeri di account che fanno parte del mondo elettronico è detto Identity Resolution. Senza questo processo la fusione dei dati sarebbe impossibile.

I casinò hanno finanziato lo sviluppo di una tecnologia chiamata NonObvious Relationship Analysis (NORA), che combina le risoluzioni di identità con banche dati di istituti di credito, della pubblica amministrazione e con i registri degli hotel. Per esempio un sistema NORA è in grado di scoprire se la moglie di un croupier del blackjack ha vissuto nello stesso edificio del giocatore che sta vincendo 100.000 dollari.
Nel 2005 Jeff Jonas ha venduto un sistema di questo tipo all’IBM la quale ha aggiunto la funzione Anonymous Resolution che consente a due organizzazioni di determinare se le informazioni delle loro banche dati si riferiscono alla stessa persona senza però che si debbano scambiare i nomi di tutte le persone delle loro banche dati.

Le aspettative sui programmi di fusione di dati sono elevate e talvolta esagerate. Quando un sistema di fusione non funziona correttamente ci si può aspettare un errore di programmazione o una quantità di dati insufficiente. Se un sistema funziona bene, fornirgli più dati potrebbe farlo funzionare meglio. Perciò chi progetta e usa sistemi di fusione di dati tende ad inserire una quantità di dati sempre maggiore, indipendentemente dai risultati che ottengono. Purtroppo i progetti di fusione di dati, a causa di questo accumulo continuo, tendono ad andare oltre gli obiettivi iniziali.

Ciò che gli oppositori di questi progetti criticano, è il fatto che su di essi e sul loro utilizzo i governi parlino molto poco. Già negli anni ’90 è successo qualcosa di simile ma il dibattito riguardava la crittografia. Il governo degli Stati Uniti sosteneva di avere motivi validi per limitare l’uso della crittografia ma non ne parlava per “questioni di sicurezza nazionale”. Sta nascendo adesso il dibattito sull’uso di programmi di fusione di dati e il dibattito riguarda l’uso statale quanto l’applicazione di questa tecnica alla sfera economica e politica.
Questo dibattito si sta sviluppando sempre di più  ma, secondo la maggior parte delle persone,tra cui anche informatici e studiosi, andrebbe fatto pubblicamente.

Tratto liberamente dall'articolo di Simson L. Garfinkel - Dossier "Le Scienze" n.483, Gruppo Editoriale l'Espresso, Novembre 2008

Testo elaborato da Paolo Polimene

Appuntamenti