• Programmatic
  • Engage conference
  • Engage Play
31/03/2025
di Caterina Varpi

Voice Studio di Discovery Reply: l’AI per la produzione di contenuti audio

Riccardo Savarè, Partner, e Pietro Iglio, Senior Manager di Discovery Reply, raccontano quali sono le potenzialità di questa soluzione e a chi è rivolta

Riccardo Savarè e Pietro Iglio

Riccardo Savarè e Pietro Iglio

L’intelligenza artificiale sta trasformando profondamente il modo in cui i contenuti digitali vengono creati, distribuiti e consumati. In questo scenario, Discovery Reply ha lanciato Voice Studio, soluzione basata sull’AI generativa per la sintesi vocale, progettata per la produzione di contenuti audio.

Grazie a tecnologie avanzate di Text-To-Speech (TTS), Voice Studio è in grado di convertire testi in parlato naturale, superando i limiti delle tradizionali voci sintetiche e garantendo un audio fluido e realistico. La soluzione si distingue per un’elevata specializzazione nella lingua italiana, offrendo pronuncia accurata, gestione automatizzata degli errori e personalizzazione del tono in base al contenuto trattato.

Ma quali sono le potenzialità di questa innovazione e quali settori ne trarranno maggiore vantaggio? Ne parliamo con Riccardo Savarè, Partner, e Pietro Iglio, Senior Manager di Discovery Reply.

Avete lanciato una nuova soluzione di sintesi vocale basata sull'AI. Quali sono le sue funzionalità e caratteristiche?
 
Siamo ormai entrati in una nuova era digitale, l'intelligenza artificiale sta trasformando diversi settori industriali, uno dei progressi su cui abbiamo investito di recente riguarda la GenAI applicata alla produzione di contenuti audio in particolare quelli basata su sintesi e clonazione della voce umana. Nel 2024 abbiamo lanciato Voice Studio, una soluzione altamente innovativa per la creazione automatica di contenuti audio e voice cloning .

Voice Studio sfrutta tecnologie avanzate di Text-To-Speech (TTS) in grado di convertire il testo scritto in parlato naturale, eliminando completamente il fastidioso timbro robotico tipico delle voci sintetiche: più semplicemente, il contenuto viene scomposto in unità sonore più piccole, che, grazie a un modello vocale costruito a partire da registrazioni di voci umane reali, poi determinano il flusso audio in uscita. VoiceStudio rinforza le tecniche di TTS con una gestione innovativa degli errori che elimina le imperfezioni degli accenti, risolve gli acronimi ecc, e consente di produrre e pubblicare un elevato numero di audio articoli senza alcuna necessità di controllo della qualità.

Oggi sul mercato sono presenti diverse soluzioni di Text-To-Speech. Cosa differenzia Voice Studio da altre offerte equivalenti?

Rispetto alle altre soluzioni disponibili sul mercato, Voice Studio si focalizza su una forte specializzazione per la lingua italiana e riesce a garantire, a parità di qualità, una maggiore accuratezza nella pronuncia, requisito fondamentale per un utilizzo in ambito professionale. Il testo viene analizzato e automaticamente riadattato, senza alternarne il senso, per migliorarne l'ascolto, ad esempio espandendo abbreviazioni che possono pregiudicarne la comprensione in forma parlata. La qualità dell'audio prodotto è in costante miglioramento, anche grazie ad un'elevata quantità di ore audio elaborate mensilmente che ci ha permesso di maturare un'esperienza su reali casi di business e migliorare continuamente il nostro algoritmo. Possiamo dire che con Voice Studio compensiamo una minore attenzione verso la lingua italiana da parte di alcuni vendor, i cui investimenti sono generalmente nella direzione di lingue con una maggiore diffusione globale.

Voice Studio offre tutta una serie di servizi a valore aggiunto che lo rendono pronto all'uso in ambito professionale, in particolare nei casi in cui il servizio deve funzionare in automatico 24 ore su 24. Con Voice Studio è possibile gestire un grosso volume di richieste: inserire stacchi musicali all'interno dell'audio prodotto, alternare voci maschili e femminili, analizzare la qualità degli audio generati e risolvere in automatico alcune tipologie di errore, generare allarmi in caso di malfunzionamenti, produrre reportistiche, ecc.

Voice Studio è quindi la vostra risposta ad una richiesta per servizi di Text-to-Speech di elevata qualità, in particolare per il mercato italiano?

Corretto, anche se la soluzione è perfettamente declinabile su altre lingue oltre all'italiano. Dal doppiaggio, alle nuove creazione nell'industria editoriale e musicale, fino alle applicazioni customer service, la produzione di podcast è un fenomeno in forte crescita che ha il vantaggio di offrire una migliore esperienza utente a coloro che preferiscono l’ascolto alla lettura, agli ambienti accademici a quelli professionali. L'ascolto, inoltre, è l'unico modo per raggiungere l'audience durante gli spostamenti in auto. Le possibilità sono davvero infinite anche in termini di accessibilità, basterebbe citare lo sviluppo di servizi pensati per utenti con disabilità visive o differenze di apprendimento.
 
L'audience privilegia sempre più l'ascolto accogliendo questa intuizione, abbiamo voluto andare ancora oltre, fornendo esperienze audio personalizzate, di alta qualità, con la creazione di parlato sintetico quasi indistinguibile da quello ottenibile con parlato naturale. Con Voice Studio la voce è generata da un modello di IA addestrato ad automatizzare la lettura di qualsiasi testo scritto di qualsiasi lunghezza e in multilingua, adattando il timbro e il ritmo della lettura all’argomento trattato.
 
Avete accennato agli ambiti di applicazione di questa nuova tecnologia? Quali settori dovrebbero guardare con più interesse alla soluzione Voice Studio e perché?
 
Sicuramente, L'editoria e i media sono i settori più coinvolti in questa rivoluzione: dalle testate quotidiane alle società editrici che puntano sugli audio-libri, fino a toccare gli ambiti della formazione/educazione che puntano su strumenti più accessibili, allargando a diversi stili di apprendimento e strumenti didattici a sostegno delle disabilità. 
 
Anche gli assistenti virtuali si stanno diffondendo, per fornire risposte e interagire con gli utenti in modo naturale, rendendo più facile la fruizione di informazioni.  Nel content marketing come nell'Adv, l'interattività è un fattore chiave per l'engagement: con la Tecnologia TTS puoi convertire immediatamente il tuo copy in voce per i mercati globali.
 
Che si tratti di migliorare la presenza del brand attraverso uno storytelling vocale più dinamico, o di supportare nuove forme di conoscenza e apprendimento, con Voice Studio offriamo una soluzione versatile per soddisfare le esigenze in continua evoluzione delle aziende moderne che vogliono promuovere informazioni e nuovi contenuti in formato audio.
 
Quindi la risposta sui settori è: potenzialmente tutti?

Si, ne siamo convinti. Se sei un brand ad esempio dell'industria FMCG alla ricerca di una voce dal suono naturale per la narrazione dei tuoi prodotti/servizi, o desideri semplicemente integrare strumenti vocali nelle tue applicazioni, con Voice Studio hai una soluzione che offre una grande varietà di voci, qualità degli audio e funzionalità di gestione dei contenute pronte all’uso.

Restando sulla Gen AI, la piattaforma Discovery Reply sta sperimentando altri servizi? Su quali aree e modelli di business state lavorando?
 
Dal momento che la GenAI è in grado di trasformare i processi di creazione e gestione di contenuti digitali ci stiamo concentrando nel fare evolvere la piattaforma integrando le migliori tecnologie disponibili e consentendone un accesso immediato nella diverse fasi del content management. Parliamo di strumenti a supporto della produzione scalabile e personalizzata quali la creazione rapida di testi, immagini e video adattati a specifici target di pubblico, strumenti di automazione e ottimizzazione dei flussi di lavoro per la generazione di bozze e traduzioni, interazioni avanzate quali chatbot intelligenti per la ricerca e l’accesso ai contenuti in maniera intuitiva e infine strumenti a supporto del processo creativo offrendo spunti, idee, schemi di design, generazione di varianti e strumenti per l’editing professionale assistito dall’AI.
 
Il nostro settore ha un’occasione straordinaria per poter trasformare le opportunità offerte dalla Generative AI in benefici concreti nei processi della comunicazione digitale e Discovery Reply non può che raccogliere con entusiasmo questa sfida. Lo stiamo facendo investendo in competenze, nell’acquisizione di giovani talenti e nella sperimentazione continua, ma sempre con uno sguardo attento alle reali applicazioni di business.

scopri altri contenuti su

ARTICOLI CORRELATI