30.10.2024 Jaime D’Alessandro

Imitare la vista

luci lecca lecca

Ci sono aspetti molto umani nell’intelligenza artificiale. Ma non sono quelli ai quali in genere si pensa. Hanno a che fare con la replica della nostra vista, di gran lunga il successo più eclatante, e con pratiche antiche e parecchio analogiche tipiche del liberismo

Le tracce di queste ultime le potete trovare nei grandi uffici pieni di computer in paesi come Bulgaria, Brasile, Siria, Venezuela, Kenya. Centinaia di persone, i data worker, raccolgono, puliscono e catalogano dati di ogni tipo: foto, testi, video presi soprattutto dal web. Serviranno ad addestrare IA di ogni tipo. Non necessariamente le più evolute. In genere si tratta di semplici algoritmi capaci di distinguere una patente da un passaporto. Un lavoro che viene fatto a mano, per poco più di un dollaro l’ora. Esistono anche sistemi di etichettatura automatica, ma non tutti li usano e non sempre vanno bene.

Siamo al rovescio della medaglia di ChatGPT e dei suoi fratelli, come sostiene l’indagine “Il sistema della produzione dei dati”, pubblicato nel 2022 da Milagros Miceli a capo del Data, Algorithmic Systems and Ethics dell’Istituto Weizenbaum di Berlino. Si tratta di un passaggio necessario nel processo di imitazione da parte del digitale dei nostri sensi e processi mentali. Quelle informazioni compongono gli immensi dataset (alcuni da cinque miliardi di contenuti) sui quali le IA si allenano e apprendono. Soprattutto a vedere.

Le IA sono bioispirate, quanto le ali di aeroplano che si rifanno a quelle degli uccelli. Si parte dall’assunto di un pioniere dell’informatica di nome Marvin Minsky: le capacità del cervello sono la somma di tante funzioni semplici. Dunque, sono replicabili. Oggi una parte considerevole di neuroscienziati dissentirebbe. La complessità della mente parte da una complessità ancora maggiore. In “Come il cervello crea la nostra coscienza” di Anil Seth (Raffaello Cortina, 2023), che insegna. Cognitive and Computational Neuroscience alla University of Sussex, si scopre per esempio che la consapevolezza percettiva non è unicamente elaborazione di segnali visivi o di altro genere che arrivano dall’esterno, ma il contrario: proiettiamo noi stessi all’esterno per percepirlo. Eppure in certi ambiti dell’informatica l’intuizione di Minsky ha dato frutti notevoli per merito di una serie di scienziati che non avevano senso della realtà.

Nel 1956, sull’onda degli studi di Alan Turing che si era suicidato due anni prima, al Dartmouth College negli Stati Uniti coniarono l’espressione “intelligenza artificiale”. Era l’idea di un progetto di ricerca: «Proponiamo di istituire uno studio dell’intelligenza artificiale per due mesi con dieci ricercatori durante l’estate. Lo studio procederà in base all’ipotesi che tutti gli aspetti dell’apprendimento o qualsiasi altro elemento dell’intelligenza possano in principio essere descritti con tale precisione che una macchina sia in grado di simularli. Si tenterà di scoprire come far usare alle macchine il linguaggio, forme e concetti astratti, come far loro risolvere tipi di problemi attualmente riservati agli esseri umani e come migliorarsi. Pensiamo che si potrebbe ottenere un progresso significativo in uno o più di questi ambiti se un gruppo selezionato di scienziati ci lavorasse insieme per un’estate».

Tanto per farvi capire: negli anni Cinquanta il computer più potente era il Whirlwind costruito dal MIT. Aveva più o meno la potenza di un Comodore 64, occupava un ambiente di 200 mq e impiegava 5000 valvole. Far parlare una macchina del genere in una sola estate era un’affermazione scellerata. Ci volle molto di più. E strada facendo parecchi gettarono la spugna.

Il progetto del Dartmouth College era capeggiato proprio da Minsky, con John McCarthy, Nathaniel Rochester e Claude Shannon, il padre della teoria dell’informazione. Il primo molti anni dopo scrisse un saggio, “La società della mente” (Adelphi, 1986), dove sostenne una tesi: le capacità del nostro cervello sono la somma di funzioni semplici. 

Le cose non stanno esattamente così, del resto nemmeno le ali di un aeroplano sono identiche a quelle di un uccello, per quanto entrambi volino.

Torniamo agli anni Cinquanta, al 1959 per l’esattezza. Mentre al MIT di Boston Minsky e McCarthy fondavano l’Artificial Intelligence Project, a Harvard fu un gatto ad aprire le porte al futuro. Due neurofisiologi, David Hubel e Torsten Wiesel, condussero un esperimento su un felino.

Proiettando dei disegni di forme elementari su una parete di una stanza buia, riuscirono ad analizzare ciò che il gatto vedeva attraverso degli elettrodi. Mapparono le reti neurali che si attivavano, ma anche il processo che consentiva al gatto di riconoscere le cose. Gli valse il Nobel per la Medicina nel 1981, perché scoprirono che la percezione visiva non avviene in un unico strato di neuroni, ma in tanti, organizzati in una gerarchia che parte dal riconoscimento di dettagli e termina con una consapevolezza dell’insieme. I primi strati possono notare elementi come l’angolazione o una macchia di colore, e ciascuno si concentra su una piccola regione della scena. Presi da soli, questi barlumi significano poco. Ma quando passano allo strato successivo vengono integrati via via in forme ed elementi più complessi che coprono campi recettivi sempre più vasti. Innumerevoli eventi che accadono in parallelo in un solo istante.

muro di mattoni

Ed è così che vennero organizzate le reti neurali digitali delle IA che hanno imparato a vedere. Con un passaggio intermedio: l’apprendimento delle macchine – il machine learning – e le reti neurali artificiali che imitano la struttura delle nostre. Fra i suoi padri c’è Yann LeCun oggi direttore scientifico delle IA di Meta e premio Turing nel 2018. Negli anni Novanta capì che più che insegnare agli algoritmi a riconoscere ogni singolo elemento o dettaglio, era di gran lunga più efficace lasciare che fossero loro stessi a trovare gli elementi ricorrenti. Bisognava però avere molti, moltissimi esempi. La prima applicazione pratica furono gli assegni: riconoscere la calligrafia degli esseri umani. Anziché tentare di farla identificare attraverso una serie infinita di istruzioni, una rete neurale era stata programmata per dedurre modelli e ricorrenze. LeCun aveva mostrato alla rete più di 7200 scansioni di codici di avviamento postale scritti a mano forniti dallo United States Postal Service. E la rete aveva imparato. Nel giro di pochi anni la soluzione sarebbe stata usata nei bancomat di tutti gli Stati Uniti per leggere le cifre scritte sugli assegni. A trent’anni dalla proposta di ricerca di Dartmouth, che aveva introdotto l’idea dell’intelligenza artificiale, era arrivata la prima applicazione pratica.

Di questo e di molto altro si parla nell’unico saggio di Fei-Fei Li pubblicato nel 2024 anche in Italia con il titolo “Tutti i mondi che vedo” (LUISS). È un libro che ha una profondità sopra la media. 

Il tratto inaspettato è la parte umana: i ricordi dei genitori, la loro decisione di lasciare la Cina all’indomani dei fatti di piazza Tienanmen del 1989, l’arrivo doloroso negli Stati Uniti, lo spaesamento dell’allora adolescente Fei-Fei Li che dovette partire da zero non parlando una parola di inglese.

Oggi è un’informatica di fama, docente a Stanford ed ex vicepresidente di Google, conosciuta per la sua opera più importante: ImageNet. Quando le macchine iniziarono a imparare da sole, lei pensò che il vero ostacolo da superare non fosse tanto nella qualità degli algoritmi e delle reti neurali quanto nelle limitazioni delle banche dati sulle quali si allenavano. I suoi colleghi non le dettero retta, ma lei insistette dimostrando una testardaggine che sarebbe divenuta la sua tomba professionale se non avesse ottenuto dei risultati.

Ecco cosa raccontava nel 2015 in un Ted Talk: «Nessuno dice a un bambino come vedere, soprattutto nei primi anni. Lo impara attraverso esperienze ed esempi del mondo reale. Se si considerano gli occhi come un paio di telecamere biologiche, si tratta di dispositivi che scattano una foto ogni 200 millisecondi. Il tempo medio in cui viene effettuato un movimento oculare. Quindi, all’età di tre anni, un bambino ha visto centinaia di milioni di immagini del mondo reale (…). Invece di concentrarsi esclusivamente su algoritmi sempre migliori, la mia intuizione è stata quella di fornire loro dati sufficienti in quantità e in qualità».

ImageNet, la grande banca dati di immagini ispirata a WordNet dello psicologo George Armitage Miller, venne presentata nel 2007. Conteneva 14 milioni di immagini che allora era una soglia impensabile. Nel 2012 una rete neurale chiamata AlexNet, basata su processori grafici (o GPU), riuscì nell’impresa di riconoscere le immagini con appena un 15% di errore usando proprio ImageNet come palestra. Ed era organizzata come le nostre reti neurali dedicate alla vista, una serie di strati che analizzano dettagli, contorni, colori, fi no a elaborare il contesto e il soggetto e riconoscere di cosa si tratta.

Fra i padri di AlexNet c’era anche Ilya Sutskever, che più tardi avrebbe cofondato OpenAI, assieme a un altro premio Turing, Geoffrey Hinton, fresco di Nobel e professore di Yann LeCun. Come era riuscita Fei-Fei Li a mettere in piedi un dataset di quelle dimensioni? Perché ogni immagine era stata catalogata parzialmente a mano attraverso Mechanical Turk di Amazon. Parliamo di 50.000 lavoratori da 167 paesi di tutto il mondo che si misero a selezionare fra oltre un miliardo di contenuti, i migliori, suddivisi in 22.000 diverse categorie. Per inciso le foto di gatti erano 62.000.

È curioso che ciò che sta cercando di essere umano, benché alcuni sostengano non lo potrà mai essere, venga addestrato sfruttando manodopera a basso costo. Ma in fondo c’è poco da stupirsi. È un’attività profondamente radicata nella nostra natura. In questo le IA ci somigliano molto, anche se non nel senso al quale in genere si pensa.

 

 


qr-code di accesso al canale whatsapp di Fondazione Leonardo

Ricevi gli aggiornamenti sui contenuti della Fondazione Leonardo attraverso WhatsApp.
Inquadra il qr-code o visita il canale per iscriverti e attiva l’icona della campanella in alto a destra.