TITLE: Customer service: misurare l'agent oltre la risposta giusta
---
Un benchmark sottomesso il 30 marzo prende dati reali di supporto cloud e misura quello che i test sulla sola correttezza ignorano: quanto costa arrivare alla soluzione. Non se la risposta è giusta, ma quanti turni servono e quante escalation finiscono su un umano senza motivo. È la metrica che conta quando metti un agent davanti a clienti veri, non in demo.
Il risultato pratico: l'agent chiude da solo le richieste lineari, dove il percorso è uno e gli strumenti rispondono. Si pianta sul multi-turn e sull'uso dei tool, cioè proprio dove il cliente ha già perso la pazienza. Lì non sbaglia in silenzio, sbaglia escalando male o girando a vuoto. Due fallimenti diversi: l'escalation inutile brucia un operatore, il giro a vuoto brucia il cliente.
Per chi progetta customer service automatizzato la lezione è di perimetro. Valuti l'agent sui turni e sulle escalation evitabili, non sull'accuratezza media. E tieni l'umano sul confine esatto dove l'agent perde il filo.
Perché conta per chi fa AI in azienda: un agent di supporto si giudica sui turni e sulle escalation evitate, non sulla risposta media giusta.
◆ ◆ ◆