Saggio · llmflation-wrapper-margini

I token costano dieci volte meno ogni anno. Perché ai wrapper non resta niente?

Il costo dell'inferenza crolla del 90% all'anno. Eppure i margini dei wrapper non si gonfiano: arretrano. Un costo che scende simultaneamente per tutti i concorrenti non è un vantaggio per nessuno.

Andrea Iorio
Executive · AI builder
Tuscany / IT
PREZZO / TOKEN TOKEN / TASK LE DUE CURVE 2023 2025 FRONTIERA
FIG. 01 · il prezzo per token scende, i token per task salgono più in fretta

C'è un esercizio di archeologia che consiglio a chiunque stia costruendo un prodotto sopra un modello linguistico: andare a rileggere i listini prezzi delle API come si leggono gli strati di una scogliera. Marzo 2023, GPT-4 al debutto: 30 dollari per milione di token in input, 60 in output. Sedici mesi dopo, GPT-4o mini: 15 centesimi in input, 60 in output — un taglio di due ordini di grandezza per una capacità comparabile, su molti compiti superiore. A inizio 2025 arriva DeepSeek R1 e piazza un modello di ragionamento sotto i 60 centesimi per milione di token in input. Andreessen Horowitz ha dato un nome a questa curva — "LLMflation" — e l'ha stimata in un fattore dieci all'anno, a capacità costante. Dieci volte. All'anno. Non esiste quasi nessun altro input, nella storia dell'industria del software, che si sia deflazionato a questa velocità.

Ora aprite il conto economico di una startup "AI wrapper" — uno di quei prodotti che comprano intelligenza all'ingrosso dalle API e la rivendono al dettaglio dentro un'interfaccia, un workflow, una verticale. Se la voce di costo principale crolla del 90% all'anno, il margine lordo dovrebbe gonfiarsi come una vela. Dovremmo vedere una generazione di aziende che passa dal 40% all'80% di gross margin per pura inerzia, senza muovere un dito.

Non sta succedendo. Nel settore più maturo dei wrapper — gli assistenti di coding — il 2025 ha portato l'esatto contrario: ripricing dolorosi, limiti d'uso introdotti a prodotto già venduto, ricostruzioni giornalistiche di margini lordi sottili o addirittura negativi proprio nelle aziende a più rapida crescita della categoria. La riga dei ricavi vola; la riga del margine non si muove, o arretra.

Questo è il pezzo che manca nella conversazione. Tutti celebrano il crollo dei costi di inferenza come se fosse un bonifico in arrivo per chiunque costruisca sopra i modelli. La tesi di questo articolo è che quel bonifico non arriverà, e per ragioni strutturali, non congiunturali: la deflazione dei token attraversa il conto economico dei wrapper senza fermarsi, perché un costo che scende per tutti i concorrenti nello stesso istante non può essere fonte di margine per nessuno di loro. Il margine, se esiste, va costruito con materiali che non compaiono nel listino delle API. Vediamo i meccanismi, uno per uno, e poi cosa ne consegue per chi deve decidere prezzi, assunzioni e roadmap.

Un costo che scende per tutti non è un vantaggio per nessuno

Il primo meccanismo è il più vecchio del mondo, e il più ignorato nei pitch deck. Il margine non nasce dai costi bassi: nasce dai costi differenzialmente bassi. Se io pago l'acciaio meno dei miei concorrenti, ho un vantaggio. Se l'acciaio costa meno a tutti, ho solo un mercato in cui i prezzi finali scenderanno fino a restituire quel risparmio al cliente.

I token sono il caso estremo di input non differenziale. Ogni wrapper compra dallo stesso oligopolio di fornitori, allo stesso prezzo pubblico, senza contratti di esclusiva che contino, senza vantaggi di scala significativi sull'acquisto (gli sconti volume sulle API esistono ma sono marginali rispetto alla curva di deflazione, che li travolge ogni trimestre). Quando OpenAI o Anthropic tagliano i prezzi, li tagliano simultaneamente a te, al tuo concorrente diretto, e ai tre studenti che stanno replicando il tuo prodotto in un weekend. La barriera all'ingresso scende alla stessa velocità del tuo costo del venduto.

E quindi la concorrenza fa quello che la concorrenza fa sempre con un risparmio simmetrico: lo trasferisce al prezzo. Ogni taglio del listino API viene metabolizzato dal mercato in pochi mesi sotto forma di piani gratuiti più generosi, limiti d'uso più alti, prezzi d'abbonamento fermi a fronte di un prodotto che consuma molto di più. Il surplus della deflazione esiste, ed è enorme — ma scivola lungo la filiera fino all'utente finale, che oggi riceve per venti dollari al mese una quantità di calcolo che nel 2023 ne sarebbe costati duemila. Il cliente ringrazia. Il conto economico del wrapper, no.

Chi obietta che "almeno i costi assoluti scendono" sta assumendo una cosa che i mercati reali non concedono quasi mai: che il prodotto resti fermo mentre i costi calano. E qui entrano il secondo e il terzo meccanismo, che lavorano in coppia.

La frontiera non va in saldo

La cifra del "dieci volte meno all'anno" nasconde una clausola che ne rovescia il significato: a capacità costante. È il prezzo di un'intelligenza di livello GPT-4 a essere crollato. Ma nessun wrapper in un mercato competitivo può permettersi di vendere intelligenza di livello GPT-4 nel 2026, per la stessa ragione per cui nessun costruttore di laptop può montare processori di tre anni fa e vendere a prezzo pieno: il concorrente che adotta il modello di frontiera ti fa sembrare rotto nel giro di un ciclo di vendita.

Il costo rilevante per un wrapper non è quindi il prezzo del token a capacità congelata — quello sì in caduta libera — ma il prezzo del token alla frontiera, dove i suoi clienti lo costringono a stare. E quella riga del listino scende molto più lentamente. I modelli di punta del 2025 prezzavano l'output ancora nell'ordine dei 10–75 dollari per milione di token, non dei centesimi. Peggio: la frontiera si è spostata sui modelli di ragionamento, che prima di rispondere consumano migliaia di token di pensiero — fatturati, e in buona parte nemmeno visibili. Il prezzo unitario scende e il contatore gira più veloce.

La deflazione dei token è reale, ma è la deflazione dei token dell'anno scorso. È come festeggiare il crollo del prezzo degli alberghi a novembre quando il tuo business ti obbliga a viaggiare ad agosto: lo sconto esiste, semplicemente non è per te.

I task si mangiano lo sconto

Il terzo meccanismo è il paradosso di Jevons — quando un input diventa più efficiente, il suo consumo totale cresce invece di calare — applicato però non al mercato in astratto, ma alla roadmap del singolo prodotto. Perché non è solo che gli utenti usano di più il prodotto quando costa meno servirli. È che il prodotto stesso, per restare competitivo, deve trasformarsi in una forma che consuma ordini di grandezza più token per ogni unità di valore venduta.

Guardate la traiettoria di qualunque assistente di coding, che è il futuro anticipato di tutti gli altri wrapper. Prima era completamento: cento token per suggerire una riga. Poi chat con contesto: qualche migliaio di token per rispondere a una domanda sul codice. Poi retrieval su tutto il repository. Poi modalità agente: il sistema legge dieci file, pianifica, scrive, lancia i test, legge l'errore, riprova, rilegge, riscrive, lancia di nuovo i test, consulta la documentazione, riprova ancora — e ogni passaggio di questa litania è una chiamata al modello di frontiera, con tutto il contesto accumulato a rimorchio. Un singolo task agentico può bruciare in dieci minuti più token di quanti un utente del 2023 ne consumasse in un mese.

Il risultato è una corsa tra due curve: il prezzo per token che scende e i token per task che salgono. Negli ultimi due anni, sulla frontiera dei prodotti, la seconda curva ha corso più forte della prima. È questo — non l'incompetenza, non il pricing ingenuo — il motivo per cui le aziende più avanzate della categoria si sono trovate con abbonamenti a prezzo fisso che coprivano un costo variabile in esplosione: una posizione corta sul consumo di token, venduta proprio mentre il consumo per utente decollava. I ripricing del 2025, con annesse rivolte degli utenti, sono stati la chiusura forzata di quella posizione.

Vale la pena dirlo senza giri: per un wrapper sulla frontiera, il costo per task può salire mentre il costo per token crolla. Chi modella il proprio P&L sulla prima curva ignorando la seconda sta pianificando il bilancio di un prodotto che non sarà più sul mercato.

Il quarto problema: il fornitore sta risalendo la filiera

C'è un ultimo meccanismo, e non riguarda i costi ma i ricavi. Ogni generazione di modelli assorbe un pezzo del valore aggiunto che giustificava il markup del wrapper. Il prompt engineering sofisticato è diventato una capacità nativa del modello. Le pipeline di retrieval costruite a mano sono state erose da finestre di contesto cento volte più grandi. L'orchestrazione di tool, lo structured output, la navigazione web, l'esecuzione di codice: tutto ciò che nel 2023 era il "wrapper" — lo strato di ingegneria che rendeva utilizzabile un modello grezzo — è migrato dentro l'API, o dentro i prodotti consumer dei laboratori stessi.

Perché i laboratori non sono solo fornitori: sono i concorrenti meglio capitalizzati della storia, e vendono direttamente all'utente finale lo stesso caso d'uso del wrapper, spesso in perdita, per conquistare distribuzione. Jasper l'ha imparato per prima: valutata un miliardo e mezzo nell'ottobre 2022 vendendo generazione di testi marketing sopra GPT-3, si è trovata trenta giorni dopo a competere con ChatGPT — il suo fornitore, con il suo stesso motore, a prezzo zero. Il wrapper vive in una morsa: la deflazione gli porta via il margine da sotto, l'assorbimento gli porta via il prodotto da sopra.

E quindi: dove può vivere un margine

Fin qui il meccanismo. Ora la catena delle conseguenze, perché è qui che si decide chi sopravvive.

Primo: smettete di trattare il costo dei token come una variabile strategica. Non lo è, in nessuna direzione. Non è un vantaggio quando scende (scende per tutti), non è un moat quando lo ottimizzate (l'ottimizzazione che vi è costata un trimestre sarà gratis nel listino del prossimo). Ogni slide che proietta espansione di margine "grazie al calo dei costi di inferenza" merita la stessa domanda: quale meccanismo impedisce alla concorrenza di trasferire quel calo nei prezzi? Se la risposta non esiste, quella slide descrive il margine futuro dei vostri clienti, non il vostro.

Secondo: il pricing deve smettere di essere corto sui token. L'abbonamento flat a consumo illimitato è una scommessa che il consumo per utente resti fermo, e abbiamo appena visto perché perderà: i vostri utenti migliori — quelli che dovrebbero essere i più profittevoli — diventano i più costosi, perché adottano per primi le funzioni agentiche. Le strutture sostenibili agganciano il prezzo al valore o al consumo: prezzo per esito (il documento prodotto, il ticket risolto, la pratica evasa), oppure ibridi con una base fissa e un pass-through del consumo oltre soglia. Il prezzo per esito ha una proprietà preziosa in regime di deflazione: quando il costo del task scende, il risparmio resta vostro, perché il cliente ha comprato il risultato, non i token. È l'unico contratto in cui la deflazione lavora per il wrapper invece che contro.

Terzo: il moat va costruito con materiali che non si comprano via API. Se i token sono una commodity e lo scaffolding viene assorbito, cosa resta di difendibile? Tre cose, in ordine di solidità. Il possesso del workflow: essere il posto dove il lavoro accade, con il contesto accumulato — la storia, le preferenze, le integrazioni, i permessi — che rende il cambio di fornitore costoso anche quando il modello sottostante è identico. I dati di valutazione proprietari: in un mondo dove tutti hanno lo stesso modello, vince chi sa misurare meglio degli altri se l'output è giusto nel proprio dominio — la suite di valutazione costruita su diecimila casi reali di contratti, diagnosi o dichiarazioni fiscali è un asset che nessun aggiornamento di listino svaluta, anzi: ogni nuovo modello la rende più preziosa, perché permette di adottarlo prima e con più fiducia dei concorrenti. E la distribuzione, nel senso noioso e decisivo: contratti enterprise, certificazioni di settore, presenza nel flusso d'acquisto. Notate cosa hanno in comune: si accumulano col tempo e con i clienti, non col capitale. Sono lente da costruire — ed è esattamente per questo che difendono.

Quarto: questo riscrive l'organigramma. Se il valore non sta nel chiamare il modello ma nel verificarlo e nel possedere il contesto, le assunzioni critiche cambiano. Meno ingegneri che ottimizzano prompt — competenza a deprezzamento rapido — e più persone che costruiscono sistemi di valutazione, pipeline di contesto, integrazioni profonde nei sistemi del cliente; più figure ibride, a metà tra ingegnere e specialista di dominio, capaci di stare presso il cliente e trasformare il suo modo di lavorare in dati e vincoli per il prodotto. Il vostro ingegnere migliore, tra diciotto mesi, non sarà quello che sa far funzionare il modello: sarà quello che sa dimostrare quando funziona.

Quinto, per chi guarda i numeri dall'esterno: il margine lordo puntuale di un wrapper, oggi, è quasi rumore. È la fotografia di una corsa tra due curve in pieno movimento, distorta da sussidi incrociati e prezzi promozionali. Le domande che discriminano sono dinamiche: come evolve il costo per task servito, a parità di qualità? Quanta parte della retention sopravvivrebbe a un cambio del modello sottostante? Quanto del valore percepito sta in cose che il prossimo rilascio di un laboratorio può assorbire? Un wrapper con margini lordi al 30% ma costo per task in discesa e switching cost reali è un'azienda; uno con margini al 70% retti da un caso d'uso che OpenAI può rilasciare come feature è una posizione in attesa di liquidazione.

Il caso migliore contro questa tesi

L'onestà impone di dire dove questo ragionamento smette di valere, perché un confine c'è. Tutta la meccanica descritta — frontiera obbligata, esplosione dei token per task — vale per i mercati in cui si compete sulla capacità. Ma esiste una classe di prodotti in cui il task è congelato: classificare ticket, estrarre campi da fatture, fare il triage di email. Compiti per cui un modello del 2024 era già sufficiente e quello del 2027 non aggiungerà valore percepibile. Lì la clausola "a capacità costante" smette di essere una beffa e diventa letterale: il costo del venduto crolla davvero, anno dopo anno, e il margine si espande davvero.

È un'obiezione seria, e in parte vera. Ma notate cosa comporta: i task congelabili sono anche i più facili da replicare, proprio perché non richiedono la frontiera — chiunque li può ricostruire con modelli economici, il che riattiva il primo meccanismo, il pass-through competitivo, nella sua forma più feroce. Il margine sopravvive solo dove è protetto da qualcos'altro: distribuzione, integrazione, conformità normativa. Il che riporta, per un'altra strada, alla stessa conclusione: anche nello scenario migliore per i wrapper, il margine non viene dai token. Viene da ciò che ci avete costruito intorno.

C'è poi l'obiezione degli ottimisti: alcuni wrapper sono diventati aziende da centinaia di milioni di ricavi ricorrenti in tempi record, quindi il modello funziona. Ma fatturato e margine sono due affermazioni diverse, ed è proprio la facilità con cui questa generazione di prodotti genera ricavi a rendere sospetta la fretta di dichiararla profittevole. La crescita dimostra che il valore per l'utente è enorme. La tesi di questo pezzo non lo nega: sostiene che quel valore, per default, fluisce all'utente e ai laboratori, e che trattenerne una quota richiede un progetto deliberato — non l'attesa che il listino scenda.

La domanda giusta

La domanda che sento fare è: "quanto costeranno i token l'anno prossimo?". È la domanda sbagliata, e ormai dovrebbe essere chiaro perché: qualunque sia la risposta, vale identica per voi e per chiunque voglia il vostro mercato.

La domanda giusta è quella che consiglio di scrivere sulla prima pagina di ogni piano industriale che contenga la parola "AI": quando i token costeranno quasi zero, perché un cliente pagherà proprio voi? Se la risposta parla di costi, non avete un'azienda: avete un arbitraggio temporaneo su un listino in caduta, e la caduta è più veloce di voi. Se la risposta parla di un workflow che possedete, di una verifica che solo voi sapete fare, di un contesto che il cliente non vuole ricostruire altrove — allora la deflazione dei token smette di essere una minaccia e diventa quello che è sempre stata per chi sta dal lato giusto della filiera: un fornitore che si fa, ogni anno, dieci volte più conveniente.

Il crollo dei costi di inferenza è reale, ed è una delle forze economiche più potenti di questo decennio. Ma è un fiume che non si lascia imbottigliare: attraversa i conti economici dei wrapper e va a depositarsi a valle, nel surplus degli utenti, e a monte, nella scala dei laboratori. In mezzo restano solo le aziende che hanno costruito qualcosa che l'acqua non porta via.

Quando i token costeranno quasi zero, perché un cliente pagherà proprio voi? Se la risposta parla di costi, non avete un'azienda: avete un arbitraggio temporaneo su un listino in caduta. POV
◆ ◆ ◆