Bild: KI Stable Diffusion | Bearbeitung c’t

Stimmprobe

Sieben Anbieter von KI-Stimmen für Text-to-Speech im Vergleich

Dank künstlicher Intelligenz klingt computergenerierte Sprache immer natürlicher. Inzwischen will sie sogar menschliche Sprecher ersetzen und diese klonen können. Wie gut das funktioniert, haben wir anhand von sieben TTS-Diensten untersucht.

Von Kai Schwirzke

Glaubt man den Anbietern, so sprechen künstliche Stimmen mittlerweile Texte auf Knopfdruck in wenigen Sekunden professionell ein. KI-basierte Text-to-Speech-Algorithmen sollen eine so realistische Sprachausgabe erreichen, dass man die maschinelle Herkunft nicht mehr erkennt. Aus dem kaum überschaubaren Angebot haben wir sieben interessante Dienste ausgewählt und getestet. Die Auswahl deckt einen Querschnitt der aktuellen Online-Angebote ab und reicht von günstigen Start-Ups wie ElevenLabs und Speecheasy über Anbieter mit hunderten verschiedener Stimmen wie Beepbooply und Uberduck, Spezialisten für Dialoge wie Coqui, Videovertonung wie Murf bis hin zu teureren Angeboten wie Revoicer, die mit besonders emotionalen Stimmen werben.

Dabei hat uns vor allem interessiert, welchen Mehrwert diese Systeme gegenüber der mittlerweile in jedem modernen Betriebssystem integrierten Sprachausgabe bieten. Denn unter Windows und macOS (unter Linux muss man nachinstallieren) lesen männliche und weibliche Stimmen Textdokumente, Webseiten oder E-Mails bereits in ordentlicher Qualität vor. Besonders gut gelingt dies in Englisch, Deutsch klingt oft holpriger. Um Menschen mit eingeschränktem Sehvermögen Inhalte zu vermitteln, reicht die Qualität der integrierten Stimmen jedoch allemal aus.