Bei Text To Speech-Systemen geht es zum einen um synthetische Stimmen, die auf Sprachsamples basieren, hier werden noch Sprecher_innen benötigt, die diese Samples einsprechen. Das Pendant im Audio-Musik Bereich sind die sogenannten Sampler, die z.B. einen Violin-Sound aufgrund einzelner vorher aufgenommener Töne reproduzieren. Im Musikbereich hat sich diese Technik durchgesetzt, aber analoge Aufnahmen wurden deshalb nicht verdrängt und haben ihre Berechtigung und Wichtigkeit.
Ich denke, dass ähnliches in der Sprecherwelt passieren wird. Beide Welten werden sich nebeneinander ergänzen, verdrängt wird die analoge Welt nicht. Wir haben aber noch eine weitere technische Ebene, die Erzeugung einer Stimme, die nicht auf Samples zurückgreift, sondern völlig synthetisch aus Berechnungen hervorgeht. Auch dieser Faktor ist zu beachten, denn diese Technik ersetzt dann sogar nach und nach die samplebasierte Technik. Im Audio-Musik-Bereich sind hier die reinen Synthesizer zu nennen, die auf verschiedenste Techniken zurückgreifen (Frequenzmodular-Synthese, substraktive Synthese, Spectral Synthese (modeling) usw. Diese Technik wird auch mit Sicherheit im Bereich der Stimmerzeugung einen wichtigen Faktor einnehmen, denn sie hat einen entscheidenden Vorteil: Ich kann „Stimmungen“ auch in Echtzeit bereitstellen und wechseln. Der Nachteil bei einem Sample ist ja, dass ich diese Stimmung einer Sprachaufnahme „eingefroren“ habe und nicht mehr ändern kann. Das gilt z.B. im Audiobereich als Vergleich für die Geschwindigkeit, wie ich eine Violinsaite anstreiche. Ich brauche viele verschiedene Aufnahmen der gleichen Note, für verschiedene Stimmungen und Nuancen. Im Prinzip „unendlich“ viele um in die analoge Welt einzutauchen. Ähnlich ist es bei einer Sprachaufnahme. Wenn Alexa verschlafen klingen soll, brauche ich eben diese entsprechenden Aufnahmen auch noch. Bei rein synthetisch erzeugten Stimmen ist diese „Stimmung“ nur noch ein weiterer Parameter des Programmablaufes und realisierbar.
Mein Fazit: Es wird sich so entwickeln, wie im Musik-Audio-Bereich, alle Aufnahme-Welten werden nebeneinander existieren.Als Künstler und Hörspiel-Produzent setze ich neben realen Stimmen auch gezielt TTS-Stimmen ein, um genau die Wirkung dieser Stimmen zu bekommen, die diese Stimmen ausstrahlen. Bei einer bisher produzierten Spielzeit von über 10 Std. sind das bisher aber keine 10 Minuten. Tatsächlich entstand aber diese Tage ein Hörspielkapitel um die 5 Min., was ausschließlich mit TTS-Stimmen produziert wurde, wennauch mit hinterlegter Opernmusik. (Plácido Domingo). Ich setze auch (für Youtube) lizenzierte Musik ein, da ich diese Kapitel dann nur auf Youtube veröffentliche (kostenloses Projekt). Das erwähnte Kapitel „Radio Sanremo“ habe ich hier verlinkt:
Der Fehler ist oft, digitale Technik dort einzusetzen, wo es lebendig klingen soll, das ist ein Kampf der m.M.n. nicht gewonnen werden kann, der Trick ist, (leblose) Technik dort einzusetzen, wo sie die Absicht verstärkt, was gesagt werden will. Wenn ich einen statischen 4/4 Beat will, der roboterhaft klingt, kann ich das nur mit Technik, das schafft kein (analoger) Schlagzeuger – auch wenn er noch so gut ist. Die Wirkung von Techno-Musik basiert auf dieser Unlebendigkeit und erhält dadurch ihren Reiz. Zu sehen bei der Formation „Kraftwerk“, die diese Monotonie zum Stilmittel erhoben hat (Düsseldorfer Schule). Klaus Schulze (Berliner Schule) schafft es aber, der Technik eine bizarre Wärme und Lebendigkeit zu verlocken, die im Bereich ihrer begrenzten Möglichkeiten zwar bleibt, aber verzaubert. Für mich schließen sich, wie ich oben anführte, die analogen und digitalen Welten nicht aus. Sie haben beide ihre Stärken und Schwächen.