È uscito DRIP-R, un benchmark che mette gli agent LLM davanti a richieste di reso dove la policy aziendale è ambigua e non esiste una sola risoluzione corretta. Non il caso facile (prodotto difettoso, finestra di reso aperta, rimborso pieno), ma il caso limite: cliente fuori finestra di pochi giorni, prodotto usato a metà, motivazione plausibile ma non coperta dalle regole. Il test misura tre cose insieme, aderenza alla policy, qualità del dialogo, qualità della risoluzione, con personas cliente realistiche e tool-calling vero.
Conta perché è esattamente la linea che chi mette un agent in produzione deve tracciare. Le richieste pulite un agent le chiude da solo, già oggi. Il danno si fa sui casi ambigui: lì o regala rimborsi che la policy non prevede, o nega un reso legittimo e brucia il cliente. DRIP-R prova a quantificare quella zona grigia invece di lasciarla all'intuito.
Perché conta per chi fa AI in azienda: l'autonomia di un agent non si decide sul caso facile, ma su quanto regge l'ambiguità.