Skip to main content
Avatar photo 

Annapia Rinaldi

AI Specialist, NetResults Kalliope

Jiminy, un grillo parlante per la democratizzazione dell’intelligenza artificiale nel settore del servizio clienti

Ottobre 11, 2024

Il progetto Jiminy, cofinanziato a Netresults da ARTES 4.0 (leggi l’articolo La piattaforma di comunicazione integrata Kalliope di NetResults: la voce al centro della digital transformation) vuole rappresentare un passo in avanti verso la democratizzazione dell’intelligenza artificiale nel settore del servizio clienti, ponendosi come obiettivo quello di offrire alle piccole e medie imprese (PMI) uno strumento potente e accessibile. Infatti, nonostante i significativi vantaggi che le PMI potrebbero trarre dallo sfruttamento delle potenzialità delle nuove tecnologie di Artificial Intelligence, queste restano notevolmente indietro rispetto ai competitor più grandi, nel percorso di transizione 4.0. Il 61% delle grandi imprese sfrutta già le potenzialità degli strumenti AI per ottimizzare i propri processi, mentre solo il 18% delle PMI ne fa uso: un divario che rischia di ampliarsi a causa delle limitate risorse disponibili nelle realtà più piccole. Jiminy (nome ispirato dal “Grillo Parlante” del film Disney tratto dalla favola di Pinocchio) nasce per colmare questo gap, offrendo alle PMI un sistema accessibile e di facile implementazione. Una nuova generazione di sistemi di comunicazione aziendale semantici Il progetto Jiminy intende sviluppare e sperimentare una nuova generazione di sistemi di comunicazione aziendale semantici in grado di erogare servizi EVA (Enterprise Virtual Assistant) alimentati dalle conoscenze estratte dalle comunicazioni telefoniche che quotidianamente avvengono in azienda, senza bisogno di un training esplicito. L’addestramento avverrebbe in contemporanea con le normali attività produttive, non onerando il personale di ulteriori compiti e sfruttando la mole di dati già circolanti durante le telefonate fra Cliente e Azienda e fra operatori. Un innovativo enterprise virtual assistant per il Customer Care L’innovatività del progetto risiede proprio nella capacità di EVA di creare autonomamente la propria Knowledge Base, bypassando la necessità degli enterprise virtual assistant attualmente sul mercato di dover disporre di una grande base di conoscenza e di risorse che ne effettuino l’addestramento manuale specifico per poter funzionare. La funzione aziendale target di Jiminy è quella del “Customer Care” (CC). Tale funzione è stata scelta perché trasversale alla quasi totalità delle aziende e, solitamente, caratterizzata da grossi problemi di scalabilità dovuti al grande stress che il personale, sottoposto a forti pressioni tipiche del settore, vive. Oltre che un EVA in grado di supportare gli operatori CC durante le normali attività lavorative, con Jiminy ci si prefigge di realizzare un copilota in grado di facilitare anche la formazione di nuove risorse poiché potrà generare automaticamente telefonate di training,  simulando conversazioni basate su interazioni passate, con cui i nuovi operatori potranno sperimentare e imparare a gestire situazioni versomili in un contesto di comfort e sicurezza. Come funziona Jiminy Il funzionamento di Jiminy si può riassumere come segue: quando un cliente chiama, viene accolto da un voicebot che effettua un primo triage del problema; le informazioni raccolte vengono utilizzate per creare automaticamente un ticket, che viene poi verificato da un operatore umano. Durante la chiamata, Jiminy ascolta e analizza la conversazione, fornendo suggerimenti in tempo reale all'operatore che si basano sulla sua conoscenza accumulata. In un secondo momento, questa stessa conoscenza viene riutilizzata per creare degli scenari simulati con cui i neo assunti possono “allenarsi”. Il funzionamento di Jiminy si articola in diversi passaggi: Ricezione delle chiamate: un voicebot accoglie il cliente, raccoglie il codice cliente ed esegue una prima classificazione del problema. La chiamata viene instradata ad un operatore. Creazione database di conoscenza: l’EVA “ascolta” lo scambio fra cliente e operatore e viene creato un data base (secondo norme GDPR), con le suddette registrazioni. Apertura del ticket: le informazioni estrapolate dall’interazione telefonica vengono rielaborate e utilizzate per generare automaticamente un ticket, che viene poi verificato da un operatore. Assistenza in tempo reale: durante la chiamata, Jiminy suggerisce soluzioni all’operatore in tempo reale, tramite interfaccia conversazionale, utilizzando la conoscenza accumulata dalle precedenti interazioni. Apprendimento continuo: ogni chiamata viene registrata e analizzata semanticamente, contribuendo all’arricchimento della base di conoscenza. Formazione del personale: riutilizzo del know-how aziendale per generare simulazioni di chiamate basate su casi reali, permettendo ai nuovi operatori di esercitarsi in un ambiente sicuro e controllato. Attuale stato delle implementazioni Dal punto di vista strutturale, si possono individuare, per la realizzazione di Jiminy, i seguenti macro-componenti: Dispositivo di virtualizzazione Audio: creazione di dispositivi audio virtuali integrabili con sistemi di SST e TTS; Sistema di Speech-to-Text (STT): converte le conversazioni vocali in testo, permettendo l'analisi e l'elaborazione dei contenuti; Large Language Model (LLM): utilizzati per la summarization, l'elaborazione dei dati e la generazione di output “intelligenti”, questi modelli sono il cuore dell’IA di Jiminy; Database Audio: archivio sicuro per la memorizzazione delle registrazioni audio; Tecniche e Dati di Training: RAG, Fine Tuning, Prompt Engineering; Framework per la Costruzione Organica dell’Assistente: per integrare e orchestrare i vari componenti del sistema e fornire un’interfaccia utente chiara e immediata; Sistema di Text-to-Speech (TTS): permette a Jiminy di comunicare verbalmente, rendendo possibile usarlo come strumento di generazione di chiamate simulate, per il training delle nuove risorse aziendali. Sono state create delle pipeline di processing audio utili per facilitare l’integrazione con le componenti necessarie ad effettuare lo STT e il TTS. Tali dispositivi audio espongono un canale identificabile per l’aggancio degli script relativi allo speech-to-text e al text-to-speech, in modo da rendere possibile l’allaccio del Voicebot ai centralini Kalliope, prodotto di punta di Netresults. Per ottenere questo risultato sono stati implementati dei dispositivi audio virtuali, usabili congiuntamente al VDK (VoIP Development Kit) ovvero un’interfaccia di programmazione semplice ma potente che permette ai programmatori di focalizzarsi sul software, lasciando che il VDK gestisca i dettagli tecnici relativi alle tecnologie VoIP/MoIP. Per implementare il successivo modulo relativo allo Speech-To-Text, l’azienda ha condotto un'analisi approfondita dei principali servizi di Automatic Speech Recognition (ASR) disponibili sul mercato. Attualmente vi sono molteplici aziende che offrono servizi di ASR ma, già da una prima fase di studio e di test, è stato evidente che la maggior parte dei Provider ha dei sistemi di STT ottimizzati per la lingua inglese. Jiminy vuole operare in un contesto real time e con una clientela prevalentemente di lingua italiana. La prima sfida, dunque, è stata identificare le aziende che fornissero modelli capaci di operare in streaming e in grado di gestire flussi conversazionali multilingua. Inoltre, la ricerca ha avuto come focus il test delle performance dei vari modelli con flussi d’audio in una qualità non perfetta come quela che, realisticamente, si può incontrare nel corso di una telefonata (rumori di sottofondo, qualità audio deprecata, possibili voci sovrapposte e altro). Si sono selezionati fornitori che, dunque, offrissero possibilità di settaggio dei parametri audio in ingresso e consentissero di impostare il Rate a valori di 8000hz. Fra i modelli di ASR allo stato dell’arte compatibili con le esigenze di Jiminy, si sono identificati: Azure Speech Google STT AWS Transcribe Deepgram Whisper Caratteristiche Chiave Tutti i servizi selezionati sono analizzati e scelti per offrire funzionalità essenziali al successo del progetto Jiminy: -Connessione Monocanale/Multicanale: attualmente, per facilitare I test, il sistema telefonico virtualizzato unisce l'audio dei due interlocutori in un unico flusso, esponendo un solo canale per l’output della traccia. In futuro I due flussi audio saranno separati e, quindi, mostreranno due canali di aggancio anziché uno solo; - Speaker Diarization: permette di distinguere tra diversi parlanti su una sola traccia audio, in modo da fornire una trascrizione pulita e accurata che separa univocamente quanto detto da differenti interlocutori, rendendo I risultati della trascrizione facilmente consultabili non solo da un LLM ma anche dall'operatore umano; - Trascrizione in Streaming Real-Time: Jiminy vuole essere un assistente "invisibile" in grado di aiutare gli operatori del Customer Care, fornendo suggerimenti per la risoluzione delle problematiche presentate dai clienti durante le telefonate. È quindi fondamentale implementare un sistema in grado di comprendere la richiesta dell'utente e generare un output appropriato mantenendo una bassa latenza. - Elevata personalizzazione dei parametri strutturali dell’audio in input: come detto, si opererà soprattutto con audio proveniente da telefonate. Nonostante si stiano effettuando studi atti a garantire la massima qualità e pulizia della traccia sonora, forti dell'esperienza decennale di Netresults in ambito TELCO, è necessario tenere conto che, potenzialmente, si dovranno manipolare audio contenenti rumori di sottofondo, sovrapposizioni vocali, degradazione della qualità dovuta a cause di forza maggiore, ecc. Pertanto, tutte le sperimentazioni, i test e gli studi stanno tenendo conto di tali caratteristiche, cercando di valutare il comportamento dei servizi di ASR dei vari fornitori con scenari realistici. Si stanno utilizzando, quindi, tracce audio con qualità similare a quelle risultanti da una conversazione telefonica media, utilizzando dataset vocali contenenti differenti accentazioni, velocità di parola, rumori di sottofondo, ecc. Alcuni sviluppi in atto Oltre che modelli di ASR in streaming, si sta anche valutando la performance dei servizi in batch (offerti in particolare con ottimizzazioni del modello Whisper): si stanno conducendo esperimenti per verificare la compatibilità del tempo di latenza di tali servizi con uno scenario di utilizzo real time e gli eventuali vantaggi in relazione a una migliore precisione nella trascrizione. Sono presenti numerosi benchmark comparativi delle performance dei vari modelli ASR disponibili sul mercato. Tutti i test, però, tengono conto di trascrizioni in lingua inglese. Le performance con altre lingue differiscono in modo sostanziale. Per questo motivo, si stanno effettuando internamente dei test di modo da comparare nel modo più oggettivo possibile i risultati dei modelli di interesse, prendendo come parametro, in particolare, il WER( word error rate), con cui si può misurare e confrontare il tasso di parole che non vengono correttamente convertite da audio in testo. Si sta procedendo anche con la ricerca per lo sviluppo dei restanti moduli. Riguardo all’LLM che verrà integrato, particolare attenzione viene posta riguardo a costi, continuità di supporto e regolamentazione circa la privacy dei dati, per individuare la migliore soluzione per Jiminy fra quelle open source (come Llama) e quelle proprietarie (Azure openAI, Cloude, etc). Si stanno testando e studiando varie tecniche di prompt engineering. E’ in corso anche la valutazione di una possibile integrazione, per RAG e interfaccia conversazionale di Cheshirecat AI, un progetto open source, totalmente italiano. Aderenza al GDPR Considerando che Jiminy potrebbe trattare dati personali di clienti e operatori, la conformità al Regolamento Generale sulla Protezione dei Dati (GDPR) è una priorità assoluta. Tutti i fornitori dei servizi ASR considerati dichiarano la conformità dei loro prodotti al GDPR.

Iscriviti alla newsletter

Rimani aggiornato su notizie e informazioni di possibile tuo interesse

Iscriviti alla newsletter

Rimani aggiornato su notizie e informazioni di possibile tuo interesse