Il rischio dell'oblio digitale: tramandare la nostra memoria nell'era del Web
Con la digitalizzazione, la nostra memoria storica rischia di scomparire assieme a molte pagine web e tante informazioni. Progetti come Internet Archive e iniziative governative cercano di conservare questi dati per evitare che le generazioni future perdano traccia della nostra epoca.
Immaginiamo per un attimo che le civiltà del passato non ci abbiano tramandato la loro memoria e, dunque, di non avere a disposizione lapidi, iscrizioni, papiri e biblioteche. Niente orazioni, niente diritto romano, niente tragedie o commedie greche e niente poesie. Immaginiamo che non ci siano sarcofagi e tombe egizie ricoperte di geroglifici e che i libri stampati da Gutenberg si siano sbriciolati da tempo assieme alle carte nautiche di Colombo, Vespucci, ai diari di Marco Polo e alle mappe celesti degli astronomi arabi e persiani. Cosa ne sarebbe della nostra civiltà?
Per secoli l’umanità ha usato libri e biblioteche per conservare e tramandare il suo sapere e prima ancora pietre e marmi su cui scolpire la propria storia o papiri, pitture murali e mosaici per raccontare la vita quotidiana. Strumenti duraturi che sfidando i secoli ci permettono di scoprire come vivevano i nostri antenati. Oggi, invece, le tracce della nostra vita di tutti i giorni e molta della conoscenza che produciamo si sono smaterializzate diventando digitali, trasferendosi dal marmo e dalla carta al World Wide Web. Per quanto tempo resteranno disponibili? Non facciamoci illusioni, niente è eterno, neanche ciò che va in Rete, al contrario di quello che crediamo ed è per questo che non dovremmo trascurare i campanelli d’allarme che già risuonano.
Alcune recenti ricerche mostrano che tra il 25 e il 38% delle pagine web pubblicate negli ultimi dieci anni è già scomparso. Se il fenomeno dovesse espandersi il pericolo di perdere la memoria del nostro tempo sarebbe dietro l’angolo e gli storici del futuro potrebbero non avere i mezzi per comprendere come si viveva nel XXI secolo.
Ma, anche senza scomodare i posteri, già oggi questo fenomeno può creare problemi molto concreti se pensiamo che su un campione di 500.000 siti governativi analizzati il 21% contiene almeno un link che non porta da nessuna parte, come un binario morto, su 2.063 siti di notizie questa percentuale diventa il 23% e che tra le 50.000 pagine di Wikipedia in lingua inglese campionate, ben il 54% ospita almeno un link ‘morto’ nella sezione delle note e dei collegamenti esterni. E questa potrebbe essere solo la punta dell’iceberg del problema. Come spesso accade per i fenomeni complessi, anche in questo caso non c’è un’unica causa, ma una serie di motivi all’origine di tutto ciò, a cominciare dall’intenzionalità e dal ruolo giocato dagli algoritmi di indicizzazione che governano la Rete.
La maggior parte delle pagine perse, infatti, risultano rimosse da un sito web funzionante nel tentativo di beneficiare degli algoritmi di ricerca. In altre parole, queste pagine vengono sacrificate al ‘dio Google’ il cui algoritmo favorisce i siti web a caricamento rapido per cui la rimozione di certi contenuti consente di accorciare questi tempi.
È come alleggerirsi di una zavorra con il problema che a decidere di quali pesi liberarsi sono altri algoritmi che spesso rimuovono non solo materiale duplicato, ma anche pagine uniche solo perché, secondo loro, non vale la pena mantenerle in quanto vecchie. Altri motivi sono le ristrutturazioni e le riprogettazioni dei siti web nelle quali il materiale d’archivio viene considerato (o è) non compatibile con le nuove tecnologie o di scarso valore e quindi dismesso. Il problema non coinvolge nemmeno solo le pagine web ma anche i social come, ad esempio, Twitter (adesso X). Sulla piattaforma di Elon Musk un quinto dei post non è più visibile pubblicamente già pochi mesi dopo essere stato pubblicato e di questo, il 60% si perde perché l’account, nel frattempo, è stato reso privato, sospeso o cancellato completamente. Poi ci sono i fenomeni di natura economico-tecnologica.
Anche se Google e altri motori di ricerca spingono a mantenere URL stabili (Uniform Resource Locator, cioè l’indirizzo univoco che consente ad ogni sito web di essere trovato tra i miliardi di altri che popolano la Rete), questo non è sempre tecnicamente fattibile quando un’azienda o un’istituzione rinnova il suo sito web, perché la tecnologia evolve e non tutte le soluzioni sono compatibili fra loro o convenienti da mantenere in vita. Per fare un paragone possiamo pensare all’evoluzione dei supporti per le registrazioni musicali: prima sono nati i cilindri di Edison, poi sono arrivati i dischi in vinile, le audiocassette, i CD e gli MP3, fino al cloud storage di oggi. Ogni volta che cambia la tecnologia c’è da capire cosa vogliamo mantenere e cosa possiamo sacrificare. Per il web accade qualcosa di simile.
Ogni pochi anni una nuova piattaforma arriva sul mercato e quando ha successo gli investimenti improvvisamente si concentrano su di essa, abbandonando le vecchie piattaforme che finiscono per morire com’è accaduto, ad esempio, al servizio di web hosting GeoCities, molto famoso qualche anno fa ma ormai defunto.
Ben prima dei social media GeoCities era infatti una delle principali soluzioni per creare facilmente il proprio sito web personale. Ora la stessa cosa si può fare molto semplicemente con servizi come Facebook o LinkedIn, pertanto GeoCities sarebbe un servizio anacronistico. Per gli storici del mondo digitale, invece, è meritevole di essere preservato in quanto testimonianza di uno dei capitoli più importanti nella storia del Web. Ecco, preservare le testimonianze della nostra vita quotidiana. Può sembrare poco ma, in realtà, il problema che ci troviamo a fronteggiare è che l’umanità potrebbe non riuscire più a tramandare una parte importante della sua memoria. Come possiamo evitarlo?
Alcune organizzazioni stanno correndo ai ripari mettendo in piedi operazioni in qualche modo paragonabili a quella del Global Seed Vault di cui ci siamo già occupati, la ‘cassaforte del Giorno del Giudizio’ dove si conservano e preservano dall’estinzione i semi delle piante per assicurare un futuro all’umanità in caso di disastro globale. Tra le organizzazioni che cercano di preservare Internet dalla scomparsa, la più importante è l’americana Internet Archive, senza scopo di lucro e con base a San Francisco, nata nel 1996 come progetto amatoriale di Brewster Kahle, un pioniere di Internet.
Con uno sforzo senza precedenti quest’organizzazione è diventata un punto di riferimento mondiale perché sta portando avanti il progetto di archiviazione digitale forse più ambizioso di tutti i tempi.
Al 5 settembre 2024 aveva già raccolto e digitalizzato più di 42,1 milioni di materiali stampati, 13 milioni di video, 1,2 milioni di programmi software, 14 milioni di file audio, 5 milioni di immagini, 272.660 concerti e oltre 866 miliardi di pagine web nella sua Wayback Machine, la piattaforma aperta a chiunque con l’obiettivo di fornire accesso universale a tutta la conoscenza.
Nel corso degli anni Internet Archive è diventata talmente famosa da attirare l’attenzione anche degli hacker. Nel maggio di quest’anno è stata oggetto di un grande attacco informatico rivendicato sulla piattaforma X da un utente che sembrerebbe riconducibile a un gruppo hacker pro-Palestina, protagonista di altre iniziative simili contro Stati Uniti e Israele. Con sistemi automatizzati sono stati sovraccaricati i server di Internet Archive con decine di migliaia di richieste d’accesso ogni secondo (questo attacco è chiamato DDoS - Distributed Denial of Service), tanto da mandarli in sovraccarico e bloccare l’operatività anche della Wayback Machine. Il risultato è che l’archiviazione è stata interrotta per giorni e quindi potrebbero esserci lacune permanenti nella registrazione delle pagine web. Un altro attacco annunciato dallo stesso autore del primo è avvenuto il 10 ottobre e soltanto il 23 il sito è tornato online, anche se solo in modalità lettura, cioè con tutti i contenuti già caricati tornati accessibili, ma senza la possibilità di aggiungerne di nuovi, con ulteriore perdita di siti per il futuro. Le dimensioni di questi attacchi, la natura dei presunti autori e la quantità di utenti coinvolti in un possibile furto di dati personali stimata in circa 31 milioni, la dicono lunga sull’importanza che sta assumendo la battaglia per il salvataggio dei siti web e il ruolo che iniziative come Internet Archive possono avere anche in difesa della democrazia. Già, perché recentemente un comitato d’inchiesta del Congresso degli Stati Uniti si è affidato proprio alle pagine web custodite da Internet Archive per accedere ad articoli e documenti relativi all’assalto al Campidoglio del 6 gennaio 2021.
Una battaglia, quella contro l’oblio digitale, nella quale Internet Archive è affiancata da un pugno di eroi, altre organizzazioni che condividono lo stesso obiettivo. La Biblioteca del Congresso USA, ad esempio, conserva i siti web governativi, quelli dei membri del Congresso, una raccolta di siti di giornalismo statunitensi e anche una copia di ogni singolo ‘cinguettio’ inviato dalla nascita di Twitter fino alla chiusura del progetto di archiviazione nel 2017. Ma anche altri governi portano avanti iniziative simili. Lo UK Web Archive conduce una scansione annuale dei siti web con nomi di dominio del Regno Unito scattando, così, un‘istantanea dell’Internet britannica almeno una volta all’anno. E, ancora, dopo l’invasione da parte della Russia nel 2022, un gruppo di volontari ha deciso di salvare l’Internet dell’Ucraina messa a rischio dagli attacchi informatici di Mosca. In questo manipolo di eroi c’è anche l’Italia, sia pure con un certo ritardo. Da noi il compito di creare un repository degli archivi digitali degli organi centrali dello Stato e degli atti di stato civile per l’intero territorio nazionale risale al 2008 e vede come attore principale per la creazione di un modello concettuale e operativo, l’Archivio Centrale di Stato. È un processo lungo e delicato tuttora in corso di definizione, che richiederà tempo e investimenti in termini finanziari, di tecnologie e di risorse umane. D’altra parte, la posta in gioco è molto alta: è la memoria stessa di ciò che siamo stati, da lasciare alle generazioni future.
Credits copertina: Canva - @Cottonbro studio
Leggi anche
La rivoluzione dell’intelligenza artificiale, ecco perché nelle aziende italiane cambierà tutto
Un'indagine di KPMG e IPSOS rivela che sebbene l'AI sia sempre più utilizzata per automatizzare processi e migliorare l'efficienza nelle imprese, persistono le sfide legate agli investimenti e alla formazione del personale
AI, rischi e opportunità per il mondo del lavoro: Impact2030, a Roncade si discute di rivoluzione digitale
Il mondo del lavoro, più che mai, si trova in una fase di profonda trasformazione, e l'AI è uno degli strumenti chiave che contribuiscono a questo cambiamento. L'evento organizzato dallo studio legale Wilegal e con H-Farm Business School come Knowledge Partner
Regolamentazione dei dati e AI: il ruolo chiave dei singoli stati negli USA
Negli Stati Uniti, il federalismo assegna ampia autonomia agli stati, spesso indipendenti da Washington su temi come legislazione e business. Questo si riflette in ambiti come la protezione dei dati e l’intelligenza artificiale, rendendo fondamentale capire le differenze tra gli stati per operare nel Paese
Autismo: passi avanti grazie all’AI per la diagnosi precoce. I dubbi di Molteni
Avere una diagnosi precoce è possibile anche per il disturbo dello spettro autistico. I risultati straordinari del progetto italiano Win4ASD che riconosce la malattia già dai 18 mesi