CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments

TITLE: Customer service: misurare l'agent oltre la risposta giusta
---
Un benchmark sottomesso il 30 marzo prende dati reali di supporto cloud e misura quello che i test sulla sola correttezza ignorano: quanto costa arrivare alla soluzione. Non se la risposta è giusta, ma quanti turni servono e quante escalation finiscono su un umano senza motivo. È la metrica che conta quando metti un agent davanti a clienti veri, non in demo.

Il risultato pratico: l'agent chiude da solo le richieste lineari, dove il percorso è uno e gli strumenti rispondono. Si pianta sul multi-turn e sull'uso dei tool, cioè proprio dove il cliente ha già perso la pazienza. Lì non sbaglia in silenzio, sbaglia escalando male o girando a vuoto. Due fallimenti diversi: l'escalation inutile brucia un operatore, il giro a vuoto brucia il cliente.

Per chi progetta customer service automatizzato la lezione è di perimetro. Valuti l'agent sui turni e sulle escalation evitabili, non sull'accuratezza media. E tieni l'umano sul confine esatto dove l'agent perde il filo.

Perché conta per chi fa AI in azienda: un agent di supporto si giudica sui turni e sulle escalation evitate, non sulla risposta media giusta.

◆ ◆ ◆

Fonte

https://arxiv.org/abs/2603.28569