Fai una donazione

Questo sito è autofinanziato. L'aumento dei costi ci costringe a chiedere un piccolo aiuto ai lettori. CHI NON HA O NON VUOLE USARE UNA CARTA DI CREDITO può comunque cliccare su "donate" e nella pagina successiva è presente (in alto) l'IBAN per un bonifico diretto________________________________

Amount
Print Friendly, PDF & Email

guerredirete.png

L’economia dei token e il vero prezzo dell’intelligenza artificiale

di Andrea Daniele Signorelli

522E68F9 C54F 4016 AE5F F1EB0CB71CC6.pngNegli ultimi mesi, molte delle aziende che avevano sottoscritto contratti con OpenAI o Anthropic hanno avuto una brutta sorpresa. Lo scorso aprile, la società di noleggio auto con conducente Uber ha per esempio scoperto di aver già bruciato tutto il budget annuale destinato all’intelligenza artificiale. Una situazione simile si è verificata anche dalle parti del gigante dei supermercati Walmart, che ha introdotto in tutta fretta un limite all’utilizzo dei large language model da parte dei suoi dipendenti.

Un’azienda rimasta anonima avrebbe invece speso 500 milioni di dollari in un solo mese a causa dell’utilizzo sfrenato di Claude da parte dei suoi dipendenti, mentre persino un colosso come Meta ha imposto dei limiti all’utilizzo dei sistemi d’intelligenza artificiale generativa, come hanno fatto anche Amazon, AT&T, Brex e numerose altre società.

Che cos’è successo? Non eravamo nell’epoca del tokenmaxxing, ovvero la gara a chi usa di più l’intelligenza artificiale all’interno delle aziende? Per capire come mai la situazione sia cambiata così rapidamente basta sapere che, nel corso della prima metà del 2026, OpenAI e Anthropic hanno entrambi cambiato le condizioni dei contratti aziendali: non più una tariffa fissa anche per usare i loro sistemi più avanzati e specialistici, ma una tariffa a consumo – basata sulla quantità di “token” elaborati dai vari ChatGPT Codex, Claude Cowork e altri ancora – che ha fatto esplodere i costi in maniera imprevista.

E così, praticamente da un giorno all’altro, i token – oggetto fino a poco fa noto soltanto agli addetti ai lavori – sono diventati uno degli argomenti più discussi dai manager di mezzo mondo. A questo punto, fermiamoci un secondo: che cosa sono i token?

 

Che cosa sono i token, i mattoni alla base dei large language model

In sintesi estrema, i token sono l’unità di testo fondamentale che i modelli linguistici elaborano quando leggono,

interpretano o generano informazioni. Nella maggior parte dei casi, un token non equivale a una parola, ma a una porzione di essa (in inglese, in media, quattro caratteri). Può però anche essere un segno di punteggiatura, uno spazio o un carattere speciale. Nel momento in cui un modello deve elaborare la frase “il gattino sta dormendo sul divano?”, la scompone in token con una forma simile a “il / gatt / ino / sta / dorm / endo / sul / divano / ?”.

Ogni volta che un modello linguistico elabora una forma testuale, indipendentemente dall’obiettivo o dalle mansioni per cui è impiegato, sta quindi elaborando una sequenza di token: li trasforma in rappresentazioni numeriche, li confronta con il contesto già ricevuto e calcola quale token abbia maggiore probabilità di venire dopo. È così che risponde a una domanda, riassume un documento, scrive codice o traduce una frase: non “capendo” le parole, ma prevedendo la sequenza di token più coerente con ciò che gli è stato chiesto. È il meccanismo noto come “next token prediction”.

Un po’ come il consumo elettrico si calcola in kilowattora o il traffico internet in gigabyte, il lavoro svolto da un’intelligenza artificiale generativa si misura in token. Con una differenza: il consumo effettivo può crescere molto rapidamente, perché non dipende solo dalla lunghezza della richiesta o della risposta finale, ma anche dalla quantità di informazioni che il modello deve leggere prima di produrla. Una domanda posta all’inizio di una chat con Claude consumerà quindi meno token della stessa domanda inserita in una lunga conversazione, perché il “contesto” che il modello linguistico deve analizzare è, nel primo caso, molto più ridotto.

Un ultimo elemento importante è che i token sono elementi linguistici nel caso degli LLM, mentre nei modelli che generano immagini possono corrispondere a porzioni di immagine, nei modelli audio a frammenti di suono, nei modelli video a sequenze di informazioni che combinano immagini, movimento e durata. Il principio però resta lo stesso: qualunque sia il contenuto generato — testo, voce, musica, immagini o video — il modello non lo elabora come un blocco unico, ma lo scompone in unità più piccole, le trasforma in numeri e lavora su quelle.

Un altro aspetto importante è che nel corso degli anni, grazie alla crescente efficienza dei modelli, il costo dei token è crollato: se nel 2023 il prezzo di un LLM come GPT-4 era di 30 dollari per milione di token in fase di input (quindi il testo che inseriamo noi) e di 60 dollari in output (quindi quello generato dall’AI), oggi GPT-5.5 costa rispettivamente 5 e 30 dollari. Secondo alcune stime, dal 2020 al 2026 i prezzi medi per token sono calati addirittura di 600 volte.

 

La paradossale economia dei token

Ma se il prezzo dei token è crollato – e possiamo sostenere che sia sceso significativamente anche per le società che sviluppano LLM, pur in assenza di dati trasparenti a riguardo – com’è possibile che il passaggio a una tariffa a consumo abbia fatto esplodere i costi, al punto da consumare in pochi mesi l’intero budget annuale di Uber e costringere Meta a limitare l’uso dell’intelligenza artificiale in ufficio?

La ragione è duplice. Da una parte, i modelli più avanzati e basati su “ragionamento” – che scompongono la richiesta in più passaggi – consumano molti più token delle loro controparti tradizionali (e spesso forniscono risposte più lunghe). Dall’altra, la diffusione dei modelli linguistici e il loro utilizzo spesso intensivo (e non mirato) hanno provocato un enorme aumento dei token da elaborare. Un singolo dipendente che usa ogni giorno un modello di frontiera può quindi consumare molti più token rispetto anche solo a due anni fa.

Unendo questi due aspetti, si capisce perché Google – come spiegato dal CEO Sundar Pichai – sia passato in un trimestre da 10 a 16 miliardi di token elaborati ogni minuto. OpenAI ha invece dichiarato che la sua piattaforma API (cioè l’infrastruttura attraverso cui aziende e sviluppatori collegano i propri software ai modelli di OpenAI) è passata da 6 a oltre 15 miliardi di token al minuto tra l’autunno 2025 e la primavera 2026, dopo essere già cresciuta di circa venti volte nei due anni precedenti.

Questa impennata del consumo di token è stata a lungo nascosta dalle tariffe fisse ed è invece improvvisamente diventata evidente con il passaggio a una tariffazione a consumo: “L’intelligenza artificiale è oggi la voce di spesa che sta aumentando più rapidamente dei budget aziendali”, si legge in un report Deloitte di inizio anno. “Alcune società hanno affermato che oggi l’AI consuma fino alla metà della loro spesa in tecnologie dell’informazione. Nonostante il prezzo unitario dei token stia calando, la spesa complessiva delle aziende per i sistemi di intelligenza artificiale, e la loro scala di utilizzo, stanno aumentando. Il numero di utenti, la complessità dei modelli e l’intensità dei carichi di lavoro porteranno probabilmente a un maggiore consumo di token e, di conseguenza, a costi più elevati”.

Il passaggio a una fatturazione a consumo è probabilmente il principale responsabile dell’impennata del fatturato di Anthropic, passato dai 4,8 miliardi di dollari del primo trimestre 2026 ai 10,9 miliardi attesi per il secondo trimestre. Sarà però interessante capire che cosa succederà nel trimestre ancora successivo, quando i manager delle aziende avranno definitivamente fatto i conti con le spese fuori controllo per utilizzare Claude Code, Cowork o gli altri sistemi avanzati di Anthropic: “I costi della computazione sono ormai diventati una priorità per i direttori finanziari e per i consigli d’amministrazione”, ha spiegato al Financial Times Costi Perricos, responsabile AI di Deloitte. “[OpenAI e Anthropic] hanno insegnato a utenti e aziende che l’intelligenza artificiale fosse economica o addirittura gratis, ma le cose non stanno affatto così”.

Carter Busse, dirigente della società di software Workato, ha raccontato sempre al Financial Times come l’utilizzo dell’intelligenza artificiale sia esploso tra i suoi dipendenti non appena hanno iniziato a sfruttare gli agenti AI. La brutta sorpresa è arrivata alla prima fattura a consumo di Anthropic: “La nostra spesa è salita improvvisamente di 7 volte e ho pensato: ‘merda, abbiamo creato un mostro’”, ha spiegato Busse, che adesso sta spronando i suoi dipendenti a usare modelli più economici e in modo più responsabile. Ancora più preoccupanti per i colossi dell’intelligenza artificiale sono le dichiarazioni del presidente di Cisco Jeetu Patel: “Il costo dei token è molto più elevato dell’effettivo valore che essi generano su larga scala”.

 

Il vicolo cieco di OpenAI e Anthropic

Nel momento in cui le aziende iniziano a sobbalzare di fronte alle bollette e a domandarsi se il gioco valga la candela, OpenAI e Anthropic si trovano di fronte a quello che lo stesso Sam Altman ha definito “un enorme problema”. E come si risolve questo problema? Stando alle indiscrezioni, nell’unico modo (per ora) possibile: tagliando i prezzi pur di non perdere clienti, come starebbe per fare OpenAI anticipando una possibile mossa di Anthropic in questa stessa direzione.

Come ha riassunto Ed Zitron sul suo blog, “sono passati meno di tre mesi da quando le aziende hanno iniziato a pagare il vero costo dei servizi basati su LLM e sono già così chiaramente infuriate che sia Anthropic sia OpenAI stanno pianificando di tagliare il prezzo dei loro servizi già in perdita, facendo probabilmente crollare il fatturato mentre aumentano i costi complessivi”.

Il rischio è che i due colossi dell’intelligenza artificiale generativa si trovino alle prese con la più classica alternativa del diavolo: se non tagliano i prezzi, le aziende potrebbero ridurre l’impiego dei modelli linguistici (e come abbiamo visto, parecchie l’hanno già fatto). Se tagliano i prezzi, riducono gli introiti di società già oggi in rosso per decine di miliardi di dollari l’anno.

E qui si crea un secondo vicolo cieco: se le aziende tagliano l’uso dell’AI generativa, a cosa serviranno i 190 gigawatt di capacità elettrica per data center già pianificati, in una corsa globale che secondo McKinsey potrebbe richiedere investimenti fino a 7mila miliardi di dollari entro il 2030? E se invece OpenAI e Anthropic devono tagliare i loro prezzi per non perdere clienti aziendali, come faranno a rispettare i contratti da centinaia e centinaia di miliardi di dollari che hanno sottoscritto con Microsoft, Amazon, Google, CoreWeave e altri fornitori di potenza di calcolo?

 

Quanto pagheresti per usare ChatGPT?

A questo punto, viene da chiedersi che cosa potrebbe succedere se anche noi utenti comuni di ChatGPT e Claude fossimo costretti a pagare una tariffa a consumo invece di quelle fisse, che per gli usi più intensivi coprono solo una piccola parte dei costi reali.

In verità, qualcosa del genere si sta già verificando. A partire da giugno 2026, gli utenti di GitHub Copilot – ovvero l’assistente AI per scrivere codice collegato alla piattaforma per la condivisione di progetti software di proprietà di Microsoft – sono passati da un abbonamento fisso mensile a un sistema di fatturazione legato anche al consumo di token. Secondo quanto riporta un utente, il prezzo da lui pagato potrebbe salire da 29 fino a 750 dollari al mese; un altro segnala che nel suo caso il costo potrebbe schizzare fino a 3mila dollari.

Attenzione, perché una parte della responsabilità va attribuita al cosiddetto “vibe-coding”, ovvero la scrittura di codice in cui tutti i passaggi tecnici sono affidati all’intelligenza artificiale, aumentando drasticamente il consumo di token. Difficile però incolpare i “vibe-coders” per il loro uso indiscriminato di Copilot, visto che è stata proprio Microsoft a incoraggiarlo e adesso invece lo punisce con bollette fuori controllo.

E se anche OpenAI e Anthropic, conclusa la guerra al ribasso per conquistare gli utenti, dovessero decidere di far pagare i token in base al consumo? È qualcosa che, in realtà, potrebbe avvenire in un futuro non troppo distante, vista la probabile quotazione in borsa di entrambe e la conseguente necessità di ridurre le stratosferiche perdite (per colmare le quali hanno dovuto raccogliere finanziamenti tra i più elevati della storia) e mostrare bilanci in miglioramento.

A questo punto, la domanda sorge spontanea: quanto dovremmo pagare per usare gli strumenti d’intelligenza artificiale se non avessimo a disposizione tariffe fisse tenute artificialmente basse? Una possibile risposta ce la fornisce una simulazione condotta dalla società di analisi SemiAnalysis. Secondo queste stime, il “vero prezzo” (inteso come il prezzo che pagheremmo se fossimo soggetti ad abbonamenti a consumo pari a quelli delle API) di un abbonamento a ChatGPT da 20 dollari al mese potrebbe arrivare fino a 700 dollari, mentre un abbonamento Pro da 200 dollari può raggiungere anche 14mila dollari (situazione simile per Anthropic).

 

Il vantaggio della Cina

Il problema, insomma, è sempre lo stesso: l’intelligenza artificiale generativa costa troppo e un modello di business sostenibile non è ancora all’orizzonte. È una situazione che riguarda però soprattutto i più avanzati modelli di frontiera sviluppati negli Stati Uniti. E che potrebbe invece avvantaggiare l’ecosistema AI della Cina.

Il segnale più evidente arriva sempre dal consumo di token. Secondo i dati di OpenRouter, a giugno i tre modelli più utilizzati per quantità di token elaborati sono tutti cinesi: MiMo di Xiaomi, MiniMax e DeepSeek. È un segnale di come una quota crescente dell’uso degli LLM – a partire da quello che avviene all’interno di applicazioni, strumenti di lavoro, agenti e servizi aziendali – si stia spostando verso i più economici modelli made in China.

Ad avvantaggiare la Cina è un mix di fattori, tra cui troviamo l’energia meno cara, i data center più economici, le infrastrutture sostenute dallo stato, l’aggressiva concorrenza interna e il fatto che i modelli siano spesso progettati per consumare meno, grazie a scelte di architettura informatica e anche a causa delle restrizioni che impediscono alla Cina di avere accesso ai chip più avanzati. Il vantaggio cinese diventa ancora più evidente guardando i prezzi: i modelli cinesi più usati costano infatti una frazione dei modelli di punta di OpenAI e Anthropic.

Il prezzo per milione di token è però solo una parte del costo reale. Come ha spiegato il ricercatore indipendente Wong Qi Han a CNA, se un modello sbaglia spesso e quindi richiede più tentativi, funziona peggio in una lingua straniera, ha maggiore latenza o pone problemi di sicurezza e compliance, il risparmio iniziale può essere illusorio. In linea teorica, la metrica decisiva non dovrebbe essere il costo per milione di token, ma quanto spendiamo per ottenere un risultato soddisfacente (per gli utenti comuni) o il ritorno sull’investimento (per le aziende). Il problema è che entrambe queste metriche sono estremamente difficili da misurare.

È possibile che i più costosi modelli statunitensi continueranno a essere usati per le attività complesse, mentre quelli cinesi potrebbero conquistare la fascia più ampia del mercato, quella degli usi quotidiani come supporto professionale o assistente personale.

Tutto è bene quel che finisce bene? Non è detto. Per la Cina, il rischio principale è l’eccessiva concorrenza sui prezzi e la compressione dei margini, che potrebbe mettere a rischio la profittabilità di DeepSeek e compagni. Per gli Stati Uniti, il rischio è invece che essere esclusi (a causa dei prezzi elevati) dalla massa dei casi d’uso quotidiani e ad alto volume causerebbe non tanto (o non solo) una riduzione dei potenziali ricavi, ma potrebbe provocare soprattutto una riduzione della potenza di calcolo necessaria.

Considerando le cifre immense che stanno venendo investite in GPU, cloud e data center, ritrovarsi con una richiesta di potere computazionale inferiore alle attese potrebbe trasformare l’attuale corsa alle infrastrutture in un enorme azzardo finanziario. E a quel punto, la temuta bolla dell’intelligenza artificiale potrebbe scoppiare per davvero.


Giornalista classe 1982, si occupa del rapporto tra nuove tecnologie, politica e società. Scrive per Italian Tech, Wired, Domani, Il Tascabile e altri. È autore di “Technosapiens: come l’essere umano si trasforma in macchina” (D Editore, 2021)
Pin It

Add comment

Submit