Intercom ha pubblicato sul blog di OpenAI come ha costruito Fin, l'agent che oggi chiude ticket di assistenza su chat, email e voce a volumi industriali. Tre lezioni, tutte operative.
Primo: A/B test sui modelli in produzione, non solo in laboratorio. Quando esce un modello nuovo, lo fanno girare in parallelo a quello live su una fetta di traffico reale, e misurano resolution rate e CSAT prima di promuoverlo. Secondo: valutazioni offline strutturate prima del deploy. Niente "sembra meglio", solo dataset di riferimento e gate numerici. Terzo: architettura model-agnostic. Il routing decide quale modello rispondere a quale richiesta, e cambiarlo non richiede riscrivere il prodotto.
Il punto interessante per chi costruisce agent in azienda non è Fin in sé. È che Intercom ha codificato un ciclo di valutazione che assomiglia a un processo industriale: gate offline, A/B live, swap del modello come configurazione, non come refactor. La maggior parte dei progetti AI aziendali oggi non ha nessuna di queste tre cose. Si deploya il modello che andava di moda al kickoff e si spera.
Perché conta per chi fa AI in azienda: senza un gate numerico e un'architettura che ti lascia cambiare modello, ogni release è una scommessa.