L’informatico Alexei Efros ha trasformato i suoi problemi di vista nel suo superpotere. Attraverso un approccio innovativo, è riuscito a cambiare la prospettiva attuale sulla visione artificiale: il focus non è sui dati, ma sulla capacità di adattamento
Chi è Alexei Efros
Alexei Efros, informatico di origini russe che lavora presso il laboratorio di ricerca sull’intelligenza artificiale della prestigiosa Università della California, Berkeley, ha l’intenzione di rivoluzionare il mondo della visione artificiale, un dato alla volta.
Vincitore del Premio per l’Informatica nel 2016 assegnato dalla Association for Computing Machinery per il suo lavoro nell’ambito delle immagini sintetiche, Efros ha definito il suo talento come un “superpotere”. Questo, probabilmente, gli ha conferito un vantaggio nel suo campo di ricerca nonostante i suoi problemi alla vista.
Questa affermazione potrebbe sembrare paradossale; tuttavia, l’interesse marcato di Efros per la vista e per come l’uomo elabora le immagini differenzia il suo approccio alla visione artificiale dalla maggior parte degli informatici.
Visione artificiale e vista umana: le differenze
Innanzitutto, va sottolineato che macchine e persone “vedono” in maniera completamente diversa. I computer raccolgono ed elaborano molte immagini, ma a differenza delle persone, sono incapaci di collegare ciò che stanno “guardando” in quel momento a quanto visto in precedenza. Gli esseri umani, invece, danno significato all’insieme di colori e luci che li circonda confrontando ciò che stanno guardando con i loro ricordi di immagini o esperienze simili.
L’importanza dell’elemento mnemonico nella comprensione umana delle immagini è diventata subito evidente ad Efros, nonostante la sua pessima vista. Egli è in grado molte volte di riempire i vuoti lasciati dai suoi occhi tramite la memoria, “vivendo praticamente come una persona normale”. Il fatto che molte persone intorno a lui non conoscessero i suoi problemi visivi ha ulteriormente confermato che la risposta per una visione artificiale migliore si cela nella memoria e non “nei pixel”.
Attualmente, gli informatici allenano il sistema visivo dei computer facendo esaminare loro miliardi di immagini prese da internet, elaborando ciascuna singolarmente.
Gli esseri umani, invece, quando si trovano di fronte a situazioni inedite, assorbono le informazioni intorno a loro non solo per affrontare la questione immediata, ma anche per prepararsi a situazioni simili future. “Quello che stai guardando ora è correlato a ciò che hai visto qualche secondo fa. Puoi pensarlo come un video. Tutti i fotogrammi sono connessi tra di loro.”
Si potrebbe pensare che il problema sia facilmente risolvibile sottoponendo al vaglio dei computer dei video invece di immagini, ma ciò a cui Efros aspira è ben più complesso: il computer deve “vedere” la nuova informazione, elaborarla ed imparare da essa.
Come può migliorare la visione artificiale
Un approccio simile a quanto proposto da Efros è il TTT (test-time training), spesso utilizzato per migliorare i sistemi predittivi. Solitamente, i computer vengono allenati con un notevole set di dati per un certo periodo e solo successivamente utilizzano quanto elaborato in precedenza. Efros propone invece di far coincidere le due fasi.
Il problema principale rimane il “domain shift” o “data set bias”, ossia se i dati utilizzati durante il periodo di collaudo sono molto diversi da quelli utilizzati durante l’effettiva implementazione, il computer avrà serie difficoltà. Questo è un problema su cui gli informatici stanno ancora lavorando, poiché attualmente è impossibile per i computer imitare la capacità di adattamento delle forme di vita biologiche.
L’unico palliativo esistente è fornire al sistema il maggior numero di dati possibile, ma senza la fase di “apprendimento” umano, gli eventi rari presentano comunque un problema.
Cos’ha il futuro in serbo per l’uomo
In conclusione, nonostante gli avanzamenti nel campo dell’intelligenza artificiale e della visione artificiale, la strada davanti a noi è ancora lunga. Nel futuro, Efros spera non solo in avanzamenti nell’uso della visione virtuale per applicazioni come le auto a guida autonoma, ma anche in una maggiore comprensione dell'”intelligenza visiva umana”. Spera che l’uomo, anziché temere algoritmi sempre più intelligenti, possa trovare nel confronto con essi la spinta per andare avanti e utilizzare sempre più il proprio estro creativo.
Fonti: