AI, oltre il muro dei dati

Tempo di lettura: 16 minuti

Nell’estate 2022 strumenti di generazione immagini come Dall·E, Midjourney e Stable Diffusion iniziano a circolare online, rendendo popolare la creazione di contenuti visivi tramite “prompt” testuali, ovvero indicazioni date a un computer usando il linguaggio naturale delle persone; il 30 novembre 2022 l’americana OpenAI rende “ChatGPT” fruibile e utilizzabile dalla massa: in soli cinque giorni raggiunge un milione di utenti, diventando il prodotto tecnologico con la crescita più rapida della Storia fino a quel momento.
Prima di tale esplosione, l’intelligenza artificiale era percepita dal pubblico principalmente attraverso assistenti vocali (Siri, Alexa) o algoritmi di raccomandazione (Netflix, Amazon), che però non avevano capacità “generative” — e creative — accessibili direttamente dall’utente. Oggi, meno di un lustro dopo, alle “AI generativesi conferisce la capacità di fare qualsiasi cosa. Creare app, siti web e software senza che l’utente ne sappia niente di codice. Realizzare in pochi istanti foto, video e audio “sintetici” indistinguibili dalla realtà. C’è un intero settore, quello degli sceneggiatori di Hollywood, che entra in sciopero per scongiurare la perdita di giusta retribuzione e posti di lavoro. C’è chi usa l’AI per scrivere romanzi, tesi di laurea, articoli scientifici, comunicati stampa, curriculum “ottimizzati” per superare i filtri automatici delle aziende. C’è chi le affida la traduzione simultanea di riunioni internazionali, la sintesi di migliaia di pagine legali, la redazione di contratti, bandi, perizie. E c’è addirittura gente che la usa come psicologo. Nel giro di pochi mesi, strumenti che fino a ieri richiedevano competenze specialistiche diventano accessibili a chiunque sappia formulare una richiesta plausibile in linguaggio naturale.
Nel mondo del lavoro creativo, illustratori, grafici, fotografi e musicisti vedono comparire concorrenti artificiali capaci di produrre in pochi secondi ciò che prima richiedeva giorni. Nel cinema e nella pubblicità compaiono attori sintetici, voci clonate, volti ringiovaniti o ricostruiti dal nulla. Nei videogiochi e nei mondi virtuali, personaggi non giocanti iniziano a parlare, reagire, ricordare. Nell’industria del software, programmatori junior vengono affiancati — o sostituiti — da sistemi che scrivono codice, individuano bug, suggeriscono architetture.

Anche settori tradizionalmente lontani dall’informatica vengono toccati e pesantemente influenzati. In medicina si sperimentano diagnosi assistite, referti generati automaticamente, triage preliminari. Nella scuola e nell’università, l’AI entra nelle aule come tutor, correttore, autore invisibile, mettendo in crisi l’idea stessa di valutazione. Nel giornalismo, compaiono articoli scritti da macchine; nella finanza, modelli che analizzano mercati e strategie; nel diritto, strumenti che “leggono” la giurisprudenza meglio di un praticante.
Nel frattempo, sui social network, proliferano immagini di persone che non esistono, video di eventi mai avvenuti, voci di leader politici perfettamente imitate. Il confine tra documento e simulazione si assottiglia, mentre cresce la sensazione che qualunque contenuto possa essere plausibile e, proprio per questo, sospetto. La generazione artificiale non si limita più a imitare: anticipa, suggerisce, orienta.
Nel giro di pochissimo tempo, l’intelligenza artificiale generativa smette di essere uno strumento e diventa un ambiente. Non un software tra gli altri, ma una presenza trasversale che investe lavoro, creatività, informazione, relazioni personali. È questa ubiquità improvvisa, più ancora delle singole applicazioni, a rendere la trasformazione radicale. Non stiamo assistendo all’arrivo di una nuova tecnologia, ma alla comparsa di un nuovo intermediario cognitivo, capace di inserirsi tra l’essere umano e quasi ogni forma di produzione simbolica.

E tuttavia siamo ben lontani — lontanissimi! — da uno strumento in grado di “fare, sapere e saper fare tutto”. Il vulnus è nella natura stessa di questa tecnologia: la sua origine.

Da quando Internet è diventata un fenomeno di massa, negli anni Novanta, una parte significativa della conoscenza umana è stata progressivamente riversata online. Articoli, manuali, forum, archivi, commenti, documentazione tecnica, divulgazione scientifica, polemica politica: il web si è trasformato in una gigantesca sedimentazione testuale e visuale. Su questo sterminato deposito si sono allenati i grandi modelli linguistici delle AI attuali, gli LLM, “raschiando” decenni di produzione digitale (sugli LLM e le varie terminologie, vedere questo precedente blogpost). Prodotti come ChatGPT, Claude e Google Gemini sono applicazioni basate su modelli di intelligenza artificiale “generativa”, un tipo particolare di AI progettato per produrre contenuti (testi, immagini, audio o video) a partire dalle indicazioni fornite dagli utenti. Alla base di queste applicazioni ci sono i cosiddetti foundation model, modelli addestrati su enormi quantità di dati e pensati per essere adattati a usi diversi, e non per un compito specifico. Tra i più diffusi ci sono i Large Language Model (LLM), utilizzati per la generazione e l’analisi del linguaggio, il cui sviluppo richiede tempi lunghi e grandi risorse computazionali. Un LLM è un tipo di intelligenza artificiale basato su “reti neurali” profonde, addestrato su enormi quantità di testi per imparare a comprendere e generare linguaggio scritto. Viene definito “di grandi dimensioni” per l’elevatissimo numero di parametri (cioè di variabili interne) utilizzati per analizzare i dati durante la fase di addestramento. Semplificando molto, un LLM funziona calcolando la probabilità che un “token” (le porzioni di testo impiegate in fase di addestramento) ne segua un altro all’interno di una frase. A partire dall’input fornito dall’utente, il modello genera il testo in modo sequenziale, scegliendo di volta in volta il token “più probabile”, producendo così una risposta coerente. (La cosa vale non solo per le parole ma anche per i pixel o i beat sonori.)

Il problema però è che il world wide web, pur vastissimo, non rappresenta tutto lo scibile umano. Da qui nasce un dubbio legittimo: che tipo di “intelligenza” può emergere da una base così ampia e al tempo stesso così parziale? Dove può arrivare l’AI costruita in questo modo, ossia su un orizzonte incompleto e che ha ormai raggiunto il suo limite finito (il web attuale)? In altre parole: se l’AI “nasce” (in massima parte) dal web, ma il web è solo un sottoinsieme della conoscenza umana, allora l’AI non rischia di diventare una specie di enciclopedia attiva/creativa gigantesca ma “provinciale”?
È uno dei punti più caldi e più affascinanti del dibattito tecnologico attuale. Il cosiddetto “Data Wall” (il muro dei dati): l’idea che l’intelligenza artificiale possa aver “finito” la pappa buona da mangiare e stia iniziando a masticare solo i resti.

THE WALL — O LA CARESTIA

La crescita dei grandi modelli linguistici come ChatGPT e i suoi fratelli segue una precisa legge di scala: servono più parametri, più potenza di calcolo e una quantità sempre maggiore di dati. La progressione è evidente. Per addestrare GPT-3 sono stati utilizzati circa 500 miliardi di “token”; per il successivo GPT-4 le stime parlano di 13mila miliardi, quasi trenta volte tanto. Secondo uno studio di EpochAI, mantenendo le attuali tendenze, i modelli linguistici potrebbero andare incontro a una “carestia” — ossia esaurire l’intero stock di testi pubblici disponibili — tra il 2026 e il 2032.
Prima ancora dell’esaurimento, però, emerge un problema più immediato: l’accessibilità. Una quota crescente del web di qualità viene sottratta ai sistemi di addestramento. Oggi oltre il 35% dei principali siti blocca i “web scraper” usati dalle aziende di AI (o almeno ci prova, visto che questo divieto è più simile a un cartello “vietato l’accesso” che a una recinzione con filo spinato), mentre circa il 25% delle fonti considerate “ad alta qualità”, in gran parte grandi testate giornalistiche anglofone come il Guardian o il New York Times, risulta escluso dai principali dataset pubblici. Alla base di queste chiusure ci sono cause legali per violazione del copyright e contestazioni sulla mancata attribuzione dei contenuti.
In alcuni casi, la frattura è stata ricomposta tramite accordi commerciali tra le parti: siti come Stack Overflow (una sorta di Yahoo Answers o Quora per programmatori) hanno iniziato a far pagare le società di intelligenza artificiale che vogliono accedere ai loro contenuti, mentre Reddit ha affermato di aver guadagnato centinaia di milioni di dollari grazie agli accordi con OpenAI, Google e altri. Contratti simili sono stati siglati da testate come il Wall Street Journal, la Associated Press e l’italiana Gedi, oltre che da archivi fotografici e di immagini come Shutterstock (i cui dati vengono impiegati soprattutto per sistemi “text-to-image” come Dall·E o Midjourney).
Parallelamente la fame pantagruelica delle intelligenze artificiali ha da tempo dato vita a un intero nuovo settore commerciale, quello dei “data labeler”: società che si occupano di etichettare dati (per esempio segnalando correttamente che cos’è presente in un’immagine o etichettando come “recensione negativa” alcuni commenti presenti su TripAdvisor, per indicare alla macchina il modo migliore di utilizzarli). Quello dell’etichettatura di dati è un mercato che secondo Dimension Market Research vale già oggi circa 850 milioni di dollari e che potrebbe raggiungere i 10 miliardi di dollari nei prossimi dieci anni, anche perché i dati più sofisticati richiedono competenze specialistiche e compensi più elevati.
La crescita del mercato non è legata soltanto all’aumento della quantità di dati necessari per addestrare modelli, ma anche alla necessità di etichettare correttamente dati dalla complessità crescente (codice informatico, problemi matematici, paper scientifici e altro ancora), per i quali è necessario rivolgersi a persone con competenze specifiche e il cui compenso, inevitabilmente, è più elevato rispetto agli etichettatori di dati semplici, spesso provenienti da nazioni in via di sviluppo e pagati pochi dollari all’ora.
Il risultato è un aumento costante dei costi di creazione dei dataset. Una dinamica che penalizza ricercatori, accademici e piccole aziende di intelligenza artificiale, tutti costretti a dipendere da archivi pubblici come Common Crawl perché non possono permettersi di acquistare licenze direttamente dagli editori. Se questi dataset pubblici perdono l’accesso alle fonti di qualità, il rischio è un’ulteriore concentrazione dello sviluppo dell’intelligenza artificiale nelle mani di pochi grandi attori tecnologici.

L’ORIZZONTE FINITO DELL’INTELLIGENZA ARTIFICIALE

Inoltre, il world wide web, per quanto sterminato, resta uno specchio deformante della conoscenza umana: come detto, non rappresenta tutto lo scibile. Riflette molto bene ciò che è pubblicabile simmetricamente, indicizzabile, traducibile in testo, modellato e calibrato su meccanismi e criteri di diffusione. Riflette male tutto ciò che è situato, corporeo, tacito, non verbalizzato o protetto da barriere materiali e legali. Anche se immenso, perdipiù, il web è squilibrato con lingue dominanti, culture iper-rappresentate, settori (tech/marketing/politica) sovraesposti, altri (artigianato, pratiche e saperi locali, oralità) quasi assenti. Ed è ottimizzato per la visibilità, non per la verità: SEO, engagement, polarizzazione, “contenuti che funzionano”. Esiste una quantità enorme di sapere che non è mai stata digitalizzata o che è protetta da “paywall”. E c’è una conoscenza “tacita”: quella che impariamo facendo (artigianato, sport, intuizione clinica) e quella ampissima competenza reale che non viene mai scritta (o viene scritta male) perché vive in gesti, contesti, pratiche, istituzioni, laboratori, botteghe, ospedali, tribunali, redazioni. Non puoi “raschiare” dal web come ci si sente a bilanciare una massa in movimento, se non hai un corpo. Ci sono archivi privati: documenti aziendali, cartelle cliniche, scambi epistolari riservati. E c’è il sapere non-occidentale: il web è pesantemente sbilanciato verso l’inglese e la cultura anglosassone, lasciando zone d’ombra su intere culture e modi di pensare. È insomma uno spazio del tutto privo di “senno” (ossia buonsenso, prudenza, oculatezza, saggezza, criterio, “scientificità”).
Inoltre, il web tende alla ripetizione. Migliaia di testi dicono le stesse cose con variazioni minime, creando l’illusione della profondità dove spesso c’è solo ridondanza. A questo si aggiunge una distorsione strutturale: la priorità data all’engagement, al posizionamento, alla circolazione rapida delle idee più che alla loro accuratezza.

L’intelligenza artificiale allenata su questo ambiente eredita la stessa geometria cognitiva. Vede bene ciò che è stato scritto molte volte, vede poco ciò che viene appreso facendo, osservando, sbagliando, correggendo nel tempo. Qui entra in gioco quella che potremmo chiamare conoscenza sommersa: il sapere artigianale, clinico, operativo, intuitivo; i fondi documentali non pubblici; le enclavi informative non esposte; le prassi istituzionali; le competenze che vivono nei corpi, nelle routine, nei contesti. Una parte cruciale dell’esperienza umana non ha mai avuto bisogno di essere messa online per esistere.

NON UN MURO MA UN SOFFITTO BASSO

Parlare di “limite finito del web” rischia tuttavia di evocare un’immagine sbagliata. Non si tratta di un muro invalicabile, quanto di un soffitto basso per specifiche forme di sapere.
Per la lingua comune, la sintesi, la spiegazione standardizzata, la programmazione ben documentata o la cultura generale enciclopedica, l’orizzonte del web è già ampio a sufficienza. Per la conoscenza più strutturata e pragmatica quello stesso orizzonte si abbassa sensibilmente: conoscenza operativa (fare bene una cosa in un contesto specifico), conoscenza aggiornata e verificabile (dati che cambiano: leggi, prezzi, eventi, linee guida), conoscenza di frontiera (che non è ancora diventata “testo condiviso”), conoscenza contraddittoria (dove serve metodo, non eloquenza), conoscenza normativo-istituzionale (che dipende da interpretazioni, prassi, giurisprudenza, non solo da definizioni).
È in questi territori che l’AI può esibire una competenza formale impeccabile e, allo stesso tempo, mancare di un ancoraggio solido alla realtà. Il rischio non riguarda l’ignoranza in sé, ma una forma di ignoranza che sa presentarsi con sicurezza, lessico corretto e tono autorevole: l’AI può “parlare” benissimo e sapere pochissimo. Un’ignoranza che suona competente.

Eppure, anche su basi parziali, l’AI di oggi dimostra una capacità notevole di arrivare lontano. Lo fa attraverso la ricomposizione, individuando schemi utili e collegando elementi distanti; attraverso la simulazione linguistica, diventando straordinariamente efficace nel produrre testi coerenti, persuasivi, didattici; attraverso la generalizzazione, apprendendo principî astratti che non dipendono dalla completezza del sapere bensì dalla qualità delle relazioni tra concetti. Tutto questo avviene però entro un perimetro preciso: quando mancano dati specifici, verificabili e aggiornati, la generalizzazione perde aderenza e il linguaggio rischia di galleggiare sopra il reale.

Il vero snodo sta nel fatto che l’AI non è destinata a restare confinata in un addestramento esclusivamente web-centrico. E l’uscita da tale perimetro passa da più direzioni.
C’è l’accesso a fonti esterne consultabili in tempo reale: archivi, banche dati, documenti normativi. C’è l’integrazione di dati non-web, provenienti da repository accademici, archivi editoriali, manualistica specialistica, sistemi proprietari. C’è il ruolo del feedback umano strutturato, che introduce metodo, criteri di verifica, distinzione tra fatti e interpretazioni: non solo “allenarsi sul web” ma venire corretti, valutati, guidati su criteri di accuratezza, sicurezza, chiarezza, e soprattutto metodo — citare, distinguere fatti/interpretazioni, dichiarare incertezze. E c’è la traiettoria più radicale: il contatto con il mondo fisico attraverso sensori, esperimenti, immagini, video, ambienti simulati. Qui la conoscenza smette di essere solo testo o pixel e diventa esperienza misurata, osservabile, confrontabile. È il salto dall’Internet delle parole al mondo delle cose.

A complicare ulteriormente il quadro interviene un paradosso recente. Più l’AI produce contenuti, più il web si riempie di testi generati artificialmente: l’AI futura rischia di allenarsi su materiali “di ritorno”, testi scritti da AI precedenti, innescando un “effetto Ouroboros” (il serpente che si mangia la coda), simile alla fotocopia di una fotocopia: perdita di dettaglio, amplificazione degli errori, appiattimento stilistico, cliché, perdita di informazioni rare, “rumore elegante”. Il problema non riguarda soltanto l’incompletezza del web, ma la sua progressiva degradazione come fonte testimoniale. Senza nuovo input umano fresco e originale, i modelli rischiano di degradare, perdendo le sfumature e amplificando gli errori fino a diventare una caricatura di sé stessi. È una sorta di collasso — e non a caso qualcuno lo battezza “collasso del modello”.

Se l’AI rimanesse ancorata esclusivamente a ciò che è scritto online, il suo profilo assomiglierebbe a quello di un “sofista digitale”: abilissima nella manipolazione dei simboli, raffinata nel linguaggio, ma priva di una vera comprensione della realtà materiale. Uno strumento capace di “sapere” tutto ciò che abbiamo detto, con una comprensione fragile di ciò che abbiamo fatto, provato, costruito nel silenzio delle vite analogiche.

Allo stesso tempo, il limite non coincide necessariamente con una stagnazione. Anche da basi parziali possono emergere connessioni inattese, soluzioni nuove, percorsi che l’intelligenza umana non aveva esplorato. Il rischio più sottile riguarda la direzione di questa evoluzione: una traiettoria sempre più coerente sul piano statistico, però sempre meno allineata con il vissuto.

Il confine reale, quindi, non dipende dalla quantità di dati disponibili. Dipende dalla capacità dell’AI di riconoscere l’incertezza, di verificare, di ancorare le risposte a fonti affidabili, di distinguere il testo plausibile dalla conoscenza controllata.
Siamo entrati in una fase in cui il problema non è più accumulare informazione, ma garantirne qualità, diversità e rappresentatività. La posta in gioco non è quanto l’AI sappia parlare del mondo, ma quanto ciò che dice mantenga un legame riconoscibile con la complessità dell’esperienza umana. Il pericolo non è che l’AI smetta di evolversi, ma che la sua evoluzione prenda una direzione “aliena”, basata su una logica statistica che non coincide più con l’esperienza umana.
In sintesi: si dovrà passare dall’èra del “più dati è meglio” all’èra della “qualità e diversità dei dati”. La sfida non è più quanto l’AI sa, ma quanto quello che sa sia effettivamente vero e rappresentativo della complessità di Homo Sapiens.
Il confine non è “quanto web c’è”, ma quanto l’AI è capace di dire «non lo so», quanto è capace di verificare, quanto può accedere a fonti affidabili e aggiornate, quanto può ancorare le risposte a dati, misure, documenti, quanto distingue testo plausibile da conoscenza manipolata. In definitiva: il futuro dell’AI non è solo “più grande” bensì “più collegata” (a fonti, strumenti, realtà) e “più disciplinata” (metodo, controlli, tracciabilità).

OLTRE IL “WEB”: LE NUOVE FRONTIERE DELL’APPRENDIMENTO

L’AI non si fermerà al testo scritto e alle immagini. Per superare il limite del web attuale e alla possibile “carestia di dati”, la ricerca si sta spostando su tre binari:
Multimodalità (video e mondo fisico): invece di leggere nozioni su come si muove un gatto, l’AI guarda miliardi di ore di video di gatti. Questo le permette di apprendere le leggi della fisica e della causalità che non sono scritte nei libri.
Dati privati e Sensori: una prossima frontiera sono i dati provenienti dai sensori (IoT) e dalle interazioni in tempo reale, che non fanno parte del web “storico” ma del mondo fisico presente.
Dati sintetici e Self-Play: come è successo con AlphaGo, l’AI può imparare giocando contro sé stessa o risolvendo problemi logici complessi in ambienti simulati. Qui non “copia” l’uomo, ma “scopre” soluzioni nuove.
Riguardo a quest’ultimo punto, con l’espressione “dati sintetici” si indicano dati non raccolti direttamente dal mondo o dal web, ma generati artificialmente da un’AI allo scopo di addestrare altri modelli. Nel caso dei modelli linguistici, si tratta di testi creati appositamente — articoli, dialoghi, spiegazioni, esercizi — che non derivano da fonti umane esistenti.
Il tema è diventato urgente perché i contenuti generati dalle macchine stanno già invadendo il web. Tra il 2022 e il 2023, studi della Stanford University hanno rilevato un forte aumento di articoli “AI-generated”, soprattutto su piattaforme come Reddit e su siti di bassa qualità. Questo significa che, come già detto, le AI rischiano di allenarsi sempre più su materiali prodotti da altre AI, con effetti di degradazione progressiva.
Usati correttamente, però, i dati sintetici possono rappresentare una soluzione. Partendo da una base limitata di dati reali, un modello può generarne molti altri, simulando casi, variazioni e scenari senza consumare nuove fonti umane, senza violare il copyright e riducendo l’esposizione a contenuti problematici (fake news, disinformazione, teorie del complotto, etc.). In questo senso, i dati sintetici vengono spesso descritti come una risorsa rinnovabile, “non inquinata”, più controllabile rispetto ai dati grezzi del web.
La loro qualità dipende però in maniera decisiva dalla modalità con cui vengono prodotti. Non basta chiedere a una macchina di “generare testo”: servono prompt accurati, criteri espliciti e controlli successivi. Alcuni gruppi di ricerca, per esempio, chiedono ai modelli di produrre contenuti come se fossero destinati a manuali scolastici, perché i dati educativi risultano storicamente tra i più affidabili. I dati sintetici vengono inoltre filtrati, valutati e selezionati, includendo nei dataset solo quelli che superano determinate soglie qualitative.
Già oggi molti modelli avanzati utilizzano una quota di dati sintetici, e i vantaggi economici sono rilevanti: l’addestramento può costare molto meno rispetto ai metodi tradizionali. Non a caso, il mercato dei dati sintetici è in rapida crescita e potrebbe arrivare a valere diversi miliardi di dollari entro il 2030.

Restano però rischi strutturali. Se i dati di partenza contengono pregiudizi o lacune, anche i dati sintetici li erediteranno. Inoltre, un uso eccessivo di dati artificiali può ridurre nel tempo la diversità e la qualità dei modelli, dando luogo a una forma del già citato “model collapse” (collasso del modello). Il problema può essere attenuato mescolando dati sintetici e dati reali, ma l’equilibrio resta delicato.
I dati sintetici non sono dunque una scorciatoia miracolosa, ma uno strumento potente: possono ampliare l’orizzonte dell’intelligenza artificiale, a patto che vengano trattati come materiale progettato, controllato e continuamente verificato, non come un semplice rimpiazzo automatico dei dati umani.

LA “BOLLA”

Negli ultimi anni l’intelligenza artificiale è stata presentata come la soluzione a tutto: produttività, crescita economica, automazione, competitività globale. Un abile hype costruito a tavolino l’ha perfino tacciata di prossima causa della “fine del mondo”. Al di là di questo e dell’abilità e fantasia dei PR in cerca di finanziamenti, i mercati stanno iniziando a farsi una domanda che non può più essere rimandata: tutta questa AI genera davvero valore economico reale, oppure siamo di fronte a una nuova bolla tecnologica? Mentre i colossi del tech hanno investito cifre iperboliche (OpenAI ha ingoiato circa 150 miliardi di dollari di investimenti a fronte di ricavi assai inferiori), la massima parte delle imprese di settore fatica a tradurre l’AI in profitti concreti. Uno studio uscito in questi primi giorni del 2026 evidenzia come circa il 95% dei progetti pilota di AI generativa non riesca a produrre un impatto aziendale significativo.

Non è dunque sorprendente che si parli con sempre maggiore insistenza di “bolla delle AI”. Ma ha a che fare con il “data wall”, o si tratta di altro? Esiste comunque una relazione fra le due cose, oppure sono argomenti “paralleli” totalmente distinti?
Proviamo a vederci chiaro.
La “bolla delle AI” fa riferimento, prima di tutto, a una categoria economica e finanziaria, non a un giudizio sulla validità della tecnologia in sé. L’idea di bolla nasce dall’enorme quantità di capitale che negli ultimi anni è confluita nell’intelligenza artificiale, dalle valutazioni rapidissime attribuite a molte aziende del settore e da aspettative di crescita che spesso precedono la stabilizzazione di modelli di business solidi. In questo senso, molte realtà dell’ecosistema AI valgono oggi soprattutto per ciò che promettono di diventare, più che per ciò che producono in termini di ricavi. È una dinamica già vista in altre fasi di entusiasmo tecnologico, dalle dot-com (1999–2001) alla blockchain (2017–2018) fino al metaverso (2021–2022): la tecnologia non scompare, ma il capitale si ridistribuisce e una parte delle iniziative non supera la prova del tempo.

Il cosiddetto “data wall” appartiene invece a un ordine di problemi diverso. Non riguarda i mercati o le valutazioni bensì i limiti materiali dello sviluppo dei modelli. Indica il punto in cui i dati di qualità necessari per addestrare sistemi sempre più grandi smettono di crescere al ritmo richiesto, diventano più costosi o meno accessibili, oppure vengono sottratti ai dataset pubblici da paywall, cause legali e accordi esclusivi. Qui non è in gioco l’hype, ma la fisica dell’apprendimento automatico: senza nuovi dati rilevanti, i miglioramenti rallentano, e il valore marginale dei modelli tende ad appiattirsi.

Le due questioni vengono spesso confuse perché oggi iniziano a toccarsi. Il data wall può infatti trasformarsi nell’innesco tecnologico di una immane correzione finanziaria. Se i modelli smettono di migliorare in modo visibile e rapido, le promesse su cui si reggono molte valutazioni diventano meno credibili. A quel punto gli investimenti rallentano, alcune aziende non riescono a sostenere i costi e l’ecosistema entra in una fase di selezione. Non si tratta di un collasso generalizzato ma di una redistribuzione, in cui sopravvivono soprattutto i soggetti con fondamenta più solide. Intanto gli investitori si chiedono, legittimamente preoccupati: l’infrastruttura di intelligenza artificiale è come la bolla delle dot-com, che ha lasciato dietro di sé fibra e server utilissimi per anni, o piuttosto come la bolla immobiliare del decennio successivo, che invece ha lasciato alle sue spalle scheletri di case vuote e una crisi finanziaria ciclopica i cui effetti perdurano ancora oggi?

Un aspetto decisivo è che non tutte le intelligenze artificiali si trovano nella stessa posizione. Le realtà più esposte al rischio sono quelle che replicano modelli generalisti senza un vantaggio distintivo, i servizi che funzionano come semplici interfacce sopra tecnologie altrui, le startup prive di dati proprietari o di accessi privilegiati a fonti di qualità. Più protette appaiono invece le aziende che dispongono di dati propri, spesso legati a settori industriali specifici, che sviluppano modelli verticali integrati in processi reali o che operano oltre il solo testo, lavorando con immagini, sensori, sistemi fisici e ambienti operativi.

Il legame profondo tra bolla e data wall emerge nel momento in cui si incrina l’illusione di una crescita infinita. Per anni si è dato per scontato che i dati fossero illimitati, che l’aumento di scala producesse automaticamente risultati migliori e che bastasse ingrandire i modelli per ottenere nuove capacità. Il data wall mette in discussione questa narrazione, mostrando che esistono limiti strutturali, economici e conoscitivi. Le bolle, storicamente, si formano proprio quando un intero settore viene finanziato come se quei limiti non esistessero.

Tutto questo non segnala la fine dell’intelligenza artificiale, ma una sua trasformazione. È plausibile che alcune aziende scompaiano, che le valutazioni si ridimensionino e che l’entusiasmo si raffreddi. Allo stesso tempo, è probabile che l’AI diventi meno universale e più mirata, che contino di più la qualità dei dati, il contesto e la progettazione, e che si passi da una fase dominata dalla promessa a una fase più ingegneristica, concreta e selettiva. In questa prospettiva, la vera sfida non è continuare a crescere all’infinito, ma capire dove, come e con quali dati l’intelligenza artificiale può produrre valore reale e duraturo.
Con uno slogan: meno magia, più ingegneria.

PANTAGRUELE E IL BANCHETTO DELL’ENERGIA

C’è un altro limite strutturale che raramente entra nel racconto entusiasta sull’intelligenza artificiale, e che invece pesa quanto — se non più — dei dati: l’energia. “Terminator”, più che sterminare l’umanità, più prosaicamente ne può intanto prosciugare le fonti energetiche. Ogni salto di scala nei modelli linguistici ha un costo fisico preciso, misurabile in elettricità, raffreddamento, infrastrutture. L’AI non vive nel cloud in senso metaforico: vive in edifici reali, attraversati da cavi, trasformatori, sistemi di ventilazione e chilometri di tubazioni. Vive nei data center.
L’addestramento di un grande modello richiede una potenza di calcolo enorme e concentrata nel tempo. A questo si aggiunge l’inferenza quotidiana, cioè l’uso continuo dei modelli da parte di milioni di utenti. Il risultato è un consumo energetico costante, non episodico, che cresce insieme alle dimensioni dei modelli e alla loro diffusione. Ogni nuova versione “più grande e più capace” implica un aumento del carico elettrico, spesso superiore ai miglioramenti di efficienza hardware.
Ci sono esempi noti. E famigerati. Ogni volta che Google genera una risposta con AI Overviews consuma circa tre wattora, una quantità d’energia pari a quella necessaria per una telefonata della durata di un’ora (da telefono fisso) o dieci volte superiore a quella che serve per una ricerca tradizionale su Google. Per “allenare” GPT-3 furono consumati poco meno di 1.300 megawattora di energia elettrica, all’incirca quanta ne consumano annualmente 130 case statunitensi (altro parallelo: è l’energia necessaria a guardare Netflix per 1,625 milioni di ore). E generare testi è l’applicazione meno… sanguisuga. Secondo uno studio realizzato da ricercatori dell’azienda di AI Hugging Face e della Carnegie Mellon University, la produzione di immagini e — soprattutto — video consuma ancora più energia. Stando ai loro calcoli, in media, la generazione di una singola immagine da parte di una AI consuma l’energia sufficiente a caricare uno smartphone. Non esiste una valutazione precisa e ufficiale di quante immagini generate dall’intelligenza artificiale vengano create ogni giorno nel mondo, ma varie analisi e report indipendenti danno un’idea dell’ordine di grandezza: si stima che il loro numero vari da 500 milioni a un miliardo considerando tutte le principali piattaforme di generazione visuale; anche i video AI-generated si stimano nell’ordine delle centinaia di milioni al giorno (e si consideri che un video generato dall’AI consuma da 50 a oltre 1.000 volte più energia di un’immagine, a seconda di durata, risoluzione e modello). Il consumo è già oggi talmente alto che si è cominciato a parlare di “nuova età dell’oro per le vecchie e odiate centrali a carbone” (l’aria che respiriamo ringrazia…), tornate in auge per sopperire alla drammatica richiesta supplementare delle reti elettriche nazionali di molti Stati.

Per sostenere questa domanda, si stanno costruendo data center sempre più vasti ed energivori, veri e propri distretti industriali dell’informazione. Non sono strutture neutre: richiedono accesso a grandi quantità di energia a basso costo, disponibilità d’acqua per il raffreddamento, connessioni stabili alle reti elettriche e di trasmissione dati. La loro localizzazione non è casuale e introduce nuove asimmetrie geografiche, ambientali e politiche. Interi territori diventano funzionali all’addestramento e al funzionamento di sistemi digitali globali, spesso senza benefici proporzionati per le comunità locali.
Questo pone un problema che va oltre la sostenibilità ambientale, pur centrale. L’energia necessaria all’AI entra in competizione con altri usi: industria, trasporti, abitazioni, servizi pubblici. In un contesto globale segnato da transizioni energetiche incomplete e da tensioni sulle risorse, l’espansione incontrollata dell’infrastruttura computazionale non è un dettaglio tecnico, ma una scelta politica. Ogni modello più grande incorpora una decisione implicita su come allocare energia, capitali e priorità.

Anche qui ritorna il tema dei rendimenti decrescenti. Se l’aumento di potenza computazionale produce miglioramenti marginali sempre più sottili, il costo energetico rischia di crescere più rapidamente del valore cognitivo ottenuto. L’AI diventa allora una macchina sofisticatissima che consuma quantità crescenti di risorse per affinare differenze sempre meno percepibili, almeno per molti usi reali.

Questo vincolo energetico si intreccia con il data wall e con la possibile “bolla” dell’AI. Modelli sempre più grandi richiedono più dati, più calcolo e più energia. Se uno solo di questi fattori smette di crescere in modo sostenibile, l’intero sistema entra in tensione. La narrazione di un’intelligenza artificiale infinitamente scalabile si scontra così con limiti fisici elementari, al limite della banalità: l’elettricità non è astratta, il raffreddamento non è gratuito, le infrastrutture non sono immateriali.

Inserire l’energia nel discorso sull’AI significa riportare la tecnologia dentro il mondo che pretende di descrivere. Significa riconoscere che l’intelligenza artificiale non è soltanto una questione di algoritmi e dati, ma anche di centrali elettriche, reti, territorio e ambiente. E che il futuro dell’AI non dipenderà solo da quanto saprà imitare il linguaggio umano, ma da quanto il suo sviluppo sarà compatibile con i limiti materiali del pianeta in cui opera.

“OPEN SOURCE” O “MONADE”: LA FRATTURA GEOPOLITICA DELL’AI

Accanto ai limiti dei dati e dell’energia, sta emergendo una frattura meno visibile ma forse ancora più profonda: quella tra modelli di intelligenza artificiale chiusi, tipicamente statunitensi, e modelli aperti, oggi soprattutto di matrice cinese. Non è una semplice differenza di licenza software, ma una divergenza strutturale su chi può controllare, adattare e indirizzare l’intelligenza artificiale.

Il modello dominante negli Stati Uniti è quello dell’AI come servizio. Sistemi come quelli sviluppati da OpenAI o Anthropic sono accessibili attraverso API o interfacce a pagamento, ma restano sostanzialmente delle monadi — oppure, se si preferisce cambiare metafora, degli “oracoli chiusi” o delle “auto a noleggio”. L’utente può utilizzarli, interrogarli, integrarli nei propri flussi di lavoro, ma non può modificarne l’architettura profonda né addestrarli liberamente sui propri dati sensibili. Se un ospedale, una banca, un laboratorio di ricerca o un impianto industriale desiderano un modello realmente adattato alle proprie esigenze, devono negoziare un servizio dedicato con il fornitore dell’AI, accettandone costi, limiti e condizioni.
Questo approccio ha una sua logica: consente un forte controllo sulla sicurezza, sull’uso improprio e sulla qualità del modello. Ma introduce anche una dipendenza strutturale. L’intelligenza artificiale diventa un’infrastruttura esterna, simile all’energia o alle telecomunicazioni, da acquistare “as is”, senza possibilità di intervento diretto. Chi controlla il modello controlla anche le sue priorità, i suoi aggiornamenti e, in ultima istanza, la direzione della sua evoluzione. Figure come Sam Altman o Dario Amodei incarnano questa visione: AI potente, centralizzata, governata come una tecnologia strategica.

Il modello open source promosso dalla Cina si muove in direzione opposta. Sistemi come DeepSeek non vengono semplicemente “usati”, ma scaricati, ricostruiti, adattati. Il codice e i pesi del modello sono accessibili, permettendo a università, aziende e istituzioni di addestrare l’AI sui propri dati, all’interno delle proprie infrastrutture, secondo le proprie esigenze. In questo schema, l’intelligenza artificiale non è un servizio remoto, ma una macchina cognitiva locale, che può essere integrata profondamente nei processi produttivi, scientifici o militari.
Per tornare alle metafore di prima, è un’auto che noleggio ma che posso anche personalizzare: sedili in pelle, aria condizionata, motore truccato… posso cambiare la centralina, adattarla al mio stile di guida, scegliere se usarla in pista o su strada, decidere che carburante usare e dove fare rifornimento. Posso smontarla, studiarne i pezzi, migliorarla per uno scopo preciso. È un mezzo che diventa mio nel funzionamento, anche se non nella proprietà formale. L’AI “closed source”, invece, assomiglia a un’auto in leasing con il cofano sigillato: posso guidarla, premere sull’acceleratore, collegarla al navigatore e scegliere la destinazione, ma non posso aprire il cofano e ritoccare il motore, intervenire sull’elettronica, né decidere come debba reagire in condizioni estreme. Se voglio più potenza, un comportamento diverso o un uso specialistico, devo tornare dal concessionario e chiedere un upgrade, a pagamento e alle sue condizioni.
La differenza è tutta qui: tra uno strumento che posso adattare e uno che posso solo consumare; tra una macchina che entra nella mia officina e una che resta nel garage di qualcun altro; tra tecnologia che diventa infrastruttura condivisa e tecnologia che rimane servizio sotto licenza.

Questo ha implicazioni enormi. Un modello open source può essere reso iper-specialistico, addestrato su archivi riservati, documentazione tecnica interna, dati clinici o industriali che non possono uscire dai confini di un’organizzazione. Può funzionare offline, senza dipendere da API esterne, e può evolvere in modo asincrono rispetto alle scelte di un fornitore globale. In termini geopolitici, significa ridurre la dipendenza da piattaforme straniere e aumentare la capacità di controllo locale sull’intelligenza artificiale.

La domanda, allora, non è semplicemente se l’AI “vincente” sarà quella cinese. La domanda è che cosa intendiamo per vittoria. Se per vittoria si intende il modello più grande, più spettacolare, più generalista, allora il paradigma americano resta fortissimo. Se invece si guarda alla diffusione capillare, all’adattabilità, alla possibilità di essere incorporata in contesti specifici — fabbriche, ospedali, sistemi di difesa, ricerca scientifica — il vantaggio dell’open source diventa evidente.

Resta in ogni caso implicito che il modello open source, pur adattabile e addestrabile localmente, conserverebbe un nocciolo formativo prodotto in un luogo preciso. La Cina. Per usare un’altra metafora, lo studente potrebbe andare a perfezionarsi in università straniere (addestramenti locali specifici per ospedali, banche o laboratori di nazionalità italiana, francese, tedesca, spagnola…) ma le elementari, le medie e il liceo li farebbe comunque a Pechino. È lì che apprenderebbe la grammatica profonda del mondo, i riflessi cognitivi di base, le priorità implicite, ciò che considererebbe normale, marginale o inammissibile.
L’addestramento locale potrebbe affinare competenze, correggere accenti, introdurre conoscenze specialistiche, ma non riscriverebbe da zero la formazione originaria. Le strutture profonde resterebbero, così come resterebbero certi presupposti culturali e normativi incorporati nel modello. In questo senso, anche l’AI open source non sarebbe mai del tutto “neutra”: sarebbe più autonoma nell’uso, ma non completamente indipendente nella sua origine.
La differenza rispetto ai modelli chiusi occidentali non sarebbe quindi tra dipendenza e libertà assoluta, ma tra dipendenza visibile e dipendenza incorporata. Nel primo caso si accetterebbe un servizio governato da un fornitore esterno; nel secondo si erediterebbe un’impostazione di fondo che potrebbe essere adattata, ma non cancellata. Sarebbe un’autonomia reale, ma parziale, che ridurrebbe la dipendenza operativa senza eliminarne quella strutturale. Ed è su questo terreno, più sottile della semplice apertura del codice, che si giocherebbe una parte decisiva della competizione geopolitica sull’intelligenza artificiale.

In un mondo segnato dal data wall, dai costi energetici crescenti e dalla necessità di modelli più mirati, l’AI che può essere smontata, ricostruita e addestrata localmente potrebbe risultare più resiliente di quella centralizzata. Non perché sia intrinsecamente migliore, ma perché si adatta meglio a un mondo di limiti. La vera competizione, dunque, non è tra Est e Ovest in senso ideologico, ma tra due idee di intelligenza artificiale: una come servizio universale, l’altra come strumento plasmabile. Ed è probabile che il futuro non appartenga interamente a una sola delle due, ma alla tensione, sempre più esplicita, tra controllo e autonomia.

L’Europa (e l’Italia) in tutto questo? Non pervenuti. In gioco ci sono flussi di centinaia di miliardi di euro all’anno e il Vecchio Continente è al palo come un vegetariano in un mondo di carnivori. Tutta l’Europa non raggiunge metà della capacità computazione presente nella sola area di Pechino. Benché rappresenti il 17% dell’economia globale, l’Unione Europea controlla a stento il 4% del potere di fuoco dei data center del mondo (un data center è un impianto da mille fino a oltre un milione di server, che assicurano capacità di calcolo per l’intelligenza artificiale, archiviazione cloud e gestione o trasmissione di dati digitali); la Cina invece sfiora un quarto di tutta la capacità di calcolo planetaria, pur rappresentando il 16% dell’economia internazionale.
Noi europei siamo molto indietro sulla tecnologia che segna il nostro tempo. Se si paragona all’esperienza dell’800 e del ’900, è come se fossimo costretti a usare il telegrafo, la radio, la televisione e la rete elettrica di altri: di altri — potenzialmente di avversari — sarebbero i brevetti, le antenne, i cavi, le centrali di produzione dell’energia. Questo stato di cose fa sì che già oggi le grandi imprese europee versino fra 200 e 300 miliardi di euro all’anno alle Big Tech americane per licenze sulle funzioni digitali. Domani, adottando i modelli open source cinesi, la situazione non migliorerebbe: i dati (e i segreti) di milioni di imprese europee rischierebbero costantemente di finire in mano ai cinesi; i quali poi sarebbero comunque liberi di imporre servizi a pagamento e/o “closed source” quando ormai dipenderemmo dai loro sistemi. USA e Cina: padella e brace.
E purtroppo non si intravede ancora una strategia UE che possa cambiare l’andazzo.


Scopri di più da L’internettuale

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.

Be First to Comment

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.