VALL-E: AI-Modell für Text-to-Speech von Microsoft simuliert Stimmen
Es benötigt dafür lediglich ein Audiosample von drei Sekunden. Trainiert wird VALL-E mit Ausschnitten aus Public-Domain-Audiobüchern. Microsoft räumt auch einen möglichen Missbrauch der Technik ein. Read More
Details