Articolo tradotto da fonte ufficiale META:
“L’anno scorso, Yann LeCun, capo scienziato dell’intelligenza artificiale di Meta, ha proposto una nuova architettura intesa a superare i limiti chiave anche dei sistemi di intelligenza artificiale più avanzati di oggi. La sua visione è quella di creare macchine in grado di apprendere modelli interni di come funziona il mondo in modo che possano imparare molto più rapidamente, pianificare come svolgere compiti complessi e adattarsi prontamente a situazioni non familiari.
Siamo entusiasti di presentare il primo modello di intelligenza artificiale basato su un componente chiave della visione di LeCun. Questo modello, l’Image Joint Embedding Predictive Architecture (I-JEPA), apprende creando un modello interno del mondo esterno, che confronta rappresentazioni astratte di immagini (piuttosto che confrontare i pixel stessi). I-JEPA offre ottime prestazioni in molteplici attività di visione artificiale ed è molto più efficiente dal punto di vista computazionale rispetto ad altri modelli di visione artificiale ampiamente utilizzati. Le rappresentazioni apprese da I-JEPA possono essere utilizzate anche per molte applicazioni diverse senza richiedere un’approfondita messa a punto. Ad esempio, addestriamo un modello di trasformatore visivo con parametri 632M utilizzando 16 GPU A100 in meno di 72 ore e raggiunge prestazioni all’avanguardia per la classificazione low-shot su ImageNet, con solo 12 esempi etichettati per classe.
Il nostro lavoro sui modelli I-JEPA (e sui modelli JEPA (Joint Embedding Predictive Architecture) più in generale) si basa sul fatto che gli esseri umani apprendono un’enorme quantità di conoscenze di base sul mondo semplicemente osservandolo passivamente. È stato ipotizzato che queste informazioni di buon senso siano fondamentali per consentire un comportamento intelligente come l’ acquisizione efficiente del campione di nuovi concetti , il radicamento e la pianificazione .
I ricercatori dell’intelligenza artificiale hanno cercato di ideare algoritmi di apprendimento che catturano la conoscenza di base del buon senso sul mondo e poi la codificano in una rappresentazione digitale a cui l’algoritmo può accedere in seguito. Per essere efficace, il sistema deve apprendere queste rappresentazioni in modo auto-supervisionato, vale a dire direttamente da dati non etichettati come immagini o suoni, piuttosto che da set di dati etichettati assemblati manualmente.
Ad alto livello, la JEPA mira a prevedere la rappresentazione di parte di un input (come un’immagine o un pezzo di testo) dalla rappresentazione di altre parti dello stesso input. Poiché non comporta il collasso delle rappresentazioni da più viste/ingrandimenti di un’immagine in un unico punto, la speranza è che la JEPA eviti i pregiudizi e i problemi associati a un altro metodo ampiamente utilizzato chiamato preformazione basata sull’invarianza.
Allo stesso tempo, prevedendo rappresentazioni ad un alto livello di astrazione piuttosto che prevedere direttamente i valori dei pixel, la speranza è di apprendere rappresentazioni direttamente utili che evitino anche le limitazioni degli approcci generativi, che sono alla base dei grandi modelli linguistici che hanno generato così tante recenti rappresentazioni. eccitazione.
Al contrario, le architetture generative imparano rimuovendo o distorcendo porzioni di input al modello, ad esempio cancellando parte di una foto o nascondendo alcune parole in un passaggio di testo. Quindi provano a prevedere i pixel o le parole corrotti o mancanti. Uno svantaggio significativo dei metodi generativi, tuttavia, è che il modello cerca di riempire ogni piccola informazione mancante, anche se il mondo è intrinsecamente imprevedibile. Di conseguenza, i metodi generativi possono essere soggetti a errori che una persona non commetterebbe mai perché si concentrano troppo su dettagli irrilevanti invece di catturare concetti prevedibili di alto livello. Ad esempio, è notoriamente difficile per i modelli generativi generare accuratamente le mani umane. (Spesso aggiungono cifre extra o commettono altri errori evidenti.)
Un primo passo verso un’architettura predittiva di incorporamento comune ampiamente capace
L’idea alla base di I-JEPA è quella di prevedere le informazioni mancanti in una rappresentazione astratta più simile alla comprensione generale che le persone hanno. Rispetto ai metodi generativi che prevedono nello spazio pixel/token, I-JEPA utilizza obiettivi di previsione astratti per i quali i dettagli non necessari a livello di pixel vengono potenzialmente eliminati, portando così il modello ad apprendere più caratteristiche semantiche. Un’altra scelta progettuale fondamentale per guidare l’I-JEPA verso la produzione di rappresentazioni semantiche è la proposta strategia di mascheramento multiblocco. Nello specifico, dimostriamo l’importanza di prevedere grandi blocchi contenenti informazioni semantiche (con scala sufficientemente ampia), utilizzando un contesto informativo (distribuito spazialmente).
Un passo avanti verso l’intelligenza a livello umano nell’intelligenza artificiale
I-JEPA dimostra il potenziale delle architetture per l’apprendimento di rappresentazioni di immagini competitive standardizzate senza la necessità di conoscenze aggiuntive codificate attraverso trasformazioni di immagini realizzate manualmente. Sarebbe particolarmente interessante portare avanti i JEPA per apprendere modelli mondiali più generali da modalità più ricche, ad esempio consentendo di fare previsioni spaziali e temporali a lungo termine su eventi futuri in un video da un breve contesto e condizionando queste previsioni su audio o suggerimenti testuali.
Siamo ansiosi di lavorare per estendere l’approccio JEPA ad altri settori, come i dati accoppiati immagine-testo e i dati video. In futuro, i modelli JEPA potrebbero avere interessanti applicazioni per attività come la comprensione dei video. Questo è un passo importante verso l’applicazione e l’ampliamento dei metodi di auto-supervisione per l’apprendimento di un modello generale del mondo.”