Deze nieuwe AI kan je stem simuleren met slechts 3 seconden geluid

Het nieuwe taalmodel van Microsoft Vall-E Er wordt gezegd dat het elke stem kan nabootsen met slechts een opnamevoorbeeld van drie seconden.

De onlangs uitgebrachte AI-tool is getest op 60.000 uur aan Engelse spraakgegevens. Het kan de emoties en toon van een spreker nabootsen, aldus onderzoekers in een artikel van Cornell University.

Deze resultaten leken waar te zijn, zelfs wanneer er een opname werd gemaakt van woorden die nooit door een moedertaalspreker waren uitgesproken.

“Vall-E benadrukt leermogelijkheden in context en kan worden gebruikt om gepersonaliseerde spraak van hoge kwaliteit te synthetiseren Opname opgenomen voor slechts 3 seconden Van de onzichtbare spreker als gesproken prompt. De resultaten van het experiment laten zien dat de Vall-E aanzienlijk superieur is aan de nieuwste zero-shot [text to speech] systeem in termen van natuurlijkheid van spraak en gelijkenis van de spreker”, schreven de auteurs. Bovendien vinden we dat Vall-E de emotie van de spreker en de akoestische omgeving van de zangbodem in stemming kan houden. “

ANDROID SPY SOFTWARE STAAKT OPNIEUW OM FINANCIËLE INSTELLINGEN EN UW GELD TE NEMEN

De bewegwijzering van de bedrijfsstand van Microsoft wordt getoond op CES 2023 in het Las Vegas Convention Center op 6 januari 2023 in Las Vegas, Nevada.
((Foto door David Baker/Getty Images))

Val-E-monsters Gedeeld op GitHub lijken griezelig veel op de claims van de spreker, hoewel ze in kwaliteit variëren.

In een van de samengestelde zinnen uit de Emotional Voices Database zegt Val-E rustig de zin: “We moeten het aantal plastic tasjes verminderen.”

Disney-personages komen naar Amazon Alexa met het commando “Hey Disney”.

Echter, het zoeken in Tekst-naar-spraak AI Het komt met een waarschuwing.

“Omdat Vall-E spraak kan synthetiseren die de identiteit van de spreker behoudt, zou dat net zo goed kunnen Mogelijk risico op misbruik van het formulier, zoals het nabootsen van de identificatie van een stem of het nabootsen van een specifieke spreker”, zeggen de onderzoekers op deze webpagina. We voeren de experimenten uit in de veronderstelling dat de gebruiker ermee instemt de doelspreker te zijn in de spraaksynthese. Wanneer het model wordt gegeneraliseerd naar ongeziene sprekers in de echte wereld, moet het een protocol bevatten om ervoor te zorgen dat de spreker instemt met het gebruik van zijn stem en het gesynthetiseerde spraakdetectiemodel. “

Microsoft Corp. tekent op vrijdag 11 november 2022 bij het Microsoft India Development Center in Noida, India.

Microsoft Corp. tekent op vrijdag 11 november 2022 bij het Microsoft India Development Center in Noida, India.
(Fotograaf: Prakash Singh/Bloomberg via Getty Images)

Klik hier voor de FOX NEWS-app

Op dit moment is Vall-E, dat Microsoft een “neural markup language paradigma” noemt, niet beschikbaar voor het publiek.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *