
kybernaut_01
Echte Katze geht ja mal gar nicht
Die Demodateien enthalten neben dem zu sprechenden Text den "Speaker Prompt", also das dreisekündige individuelle Sample. Unter "Ground Truth" ist der Text hörbar, wie er tatsächlich von der Person vorgelesen wurde, "Baseline" gibt das Ergebnis eines konventionellen TTS-Synthese-Modells wieder. In der Spalte ganz rechts ist schließlich das Ergebnis von Vall-E zu hören, das dem "Ground Truth" mal mehr, mal weniger ähnelt.

Drei Sekunden Input reichen: Microsofts KI Vall-E imitiert menschliche Sprache
Die KI Vall-E braucht für die Sprachsynthese nur drei Sekunden Audioinput des Sprechers. Ihr großes Missbrauchspotenzial haben auch die Entwickler erkannt.