Readspeaker

Ein Vierteljahrhundert Vorreiterrolle in der Sprachtechnologie

Amy Foxwell, Marketing Director NA und EMEA - Education and Publishing, ReadspeakerLondon (UK), Juni 2024 - ReadSpeaker, der weltweite Pionier der Sprachtechnologie, feiert in diesem Jahr sein 25-jähriges Bestehen. Seit einem Vierteljahrhundert engagiert sich ReadSpeaker für die Bereitstellung modernster Text-to-Speech-Lösungen, um die Zugänglichkeit und das Nutzererlebnis weltweit zu verbessern. ReadSpeaker hat die Grenzen der Innovation im Bereich der Sprachsynthese beständig weiter verschoben und es Millionen von Menschen auf der ganzen Welt ermöglicht, schriftliche Inhalte hörbar zu konsumieren. Dieses Jahr markiert einen bedeutenden Meilenstein auf dem Weg von ReadSpeaker und zeigt das kontinuierliche Engagement für Barrierefreiheit, Inklusion und technologische Spitzenleistungen. Amy Foxwell, Marketing Director NA und EMEA - Education and Publishing, reflektiert diesen Bereich und die Zukunftsvision für CHECK.point eLearning.

Welche Entwicklungen und Veränderungen gab es in den 25 Jahren seit der Markteinführung von ReadSpeaker bei der Technologie, die Text in Sprache umwandelt?

Amy Foxwell: In den letzten 25 Jahren gab es bemerkenswerte Fortschritte in der Text-to-Speech-Technologie (TTS), die sich von roboterhaften und monotonen Stimmen zu unglaublich natürlicher und ausdrucksstarker Sprache entwickelt hat.

Die frühen TTS-Systeme von ReadSpeaker setzten auf konkatenative Synthese, bei der vorab aufgezeichnete Sprachfragmente aneinandergereiht wurden. Dies war damals zwar innovativ, erzeugte aber eine eher unnatürlich klingende Sprache. Mit der Einführung der statistischen parametrischen Synthese wurde die Qualität verbessert, aber erst die Entwicklung der neuronalen TTS hat unsere Stimmen revolutioniert.

Neuronale TTS, angetrieben von Deep Learning-Algorithmen, ermöglicht es uns, sehr natürliche und menschenähnliche Stimmen zu erzeugen. Diese Modelle lernen die Nuancen der menschlichen Sprache und Prosodie, einschließlich Intonation, Rhythmus und sogar Emotionen, was zu einem fesselnden und immersiven Hörerlebnis führt.

Darüber hinaus ermöglichen die Fortschritte beim Klonen und Anpassen von Stimmen unseren Kunden die Erstellung personalisierter Stimmen oder die Nachbildung einer wichtigen Persönlichkeit oder eines Prominenten, wie z. B. die von ReadSpeaker für Sonos erstellte Stimme mit dem Schauspieler Giancarlo Esposito.

Die TTS-Technologie ist auch zugänglicher und erschwinglicher geworden, so dass wir sie mit unseren Online-Tools kombinieren können, wodurch sie für mehr Branchen und ein breiteres Publikum verfügbar wird. während der geringere Platzbedarf die Anwendungsmöglichkeiten der TTS-Technologie erheblich erweitert hat.

ReadSpeaker spielt heute eine entscheidende Rolle bei Hilfsmitteln für sehbehinderte Menschen, verbessert das Nutzererlebnis in virtuellen Assistenten und intelligenten Geräten und wird in Hörbüchern, eLearning-Plattformen und im Unterhaltungsbereich umfassend eingesetzt.

 

Wie verbessert Text-to-Speech die Zugänglichkeit von Lerninhalten?

Amy Foxwell: Die Text-to-Speech-Technologie und die Lerntools von ReadSpeaker verbessern die Zugänglichkeit von Lerninhalten erheblich, indem sie geschriebenen Text in gesprochene Worte umwandeln und so den unterschiedlichen Lernstilen und -fähigkeiten gerecht werden.

Personen mit Sehbehinderungen, Legasthenie, Mehrsprachigkeit oder anderen Leseschwierigkeiten können dank TTS auf Informationen zugreifen und diese verstehen, die ihnen sonst nicht zugänglich wären. Sie können sich Lehrbücher, Artikel oder Online-Ressourcen anhören, anstatt sich nur auf das Lesen zu verlassen, was das Lernen integrativer macht.

TTS kommt auch allen Lernenden zugute, indem es ihnen eine weitere Möglichkeit bietet, Inhalte zu konsumieren. Sie können schriftliche Materialien in Audioformate umwandeln und so Informationen leichter aufnehmen, während sie pendeln, Sport treiben oder anderen Aktivitäten nachgehen.

Außerdem kann TTS Sprachlernern helfen, indem es korrekte Aussprache- und Intonationsmodelle bereitstellt. Es kann auch Menschen mit Aufmerksamkeitsdefiziten helfen, indem es komplexe Informationen in überschaubare Audiobausteine zerlegt.

Kombiniert mit sprachunterstütztem Lernen, fokussierten Lese- und Schreibwerkzeugen und LMS-Plug-ins unterstützt TTS alle Arten von Lernenden, von der Grundschule bis zu Unternehmensschulungen und Justizvollzugsanstalten.

Insgesamt überbrückt TTS von ReadSpeaker die Kluft zwischen Inhalt und Lernenden und fördert so ein gerechteres und effektiveres Lernumfeld. Durch das Angebot von Flexibilität und Berücksichtigung unterschiedlicher Bedürfnisse ermöglicht TTS dem Einzelnen, Barrieren zu überwinden und sich Wissen auf eine Weise anzueignen, die seinem Lernstil am besten entspricht.

 

In welchen Lernbereichen hat sich der Einsatz von Text-to-Speech besonders bewährt, und in welchen Anwendungsfällen hat er seinen Wert bewiesen?

Amy Foxwell: Die TTS-Technologie von ReadSpeaker kommt insbesondere der Lese- und Schreibentwicklung, Menschen mit Lernschwierigkeiten, der MINT-Bildung und dem Sprachenlernen zugute.

Im Bereich der Lese- und Schreibentwicklung unterstützt TTS Schüler mit Leseproblemen, Legastheniker und Lernbehinderte. Es ermöglicht ihnen den unabhängigen Zugang zu Texten auf Klassenniveau und verbessert so den Lesefluss und das Leseverständnis. Zusätzlich hilft TTS mit synchronisierten Hervorhebungen den Schülern, geschriebene und gesprochene Wörter miteinander zu verbinden, und stärkt so die Phonetik und die Dekodierungsfähigkeiten.

In den MINT-Fächern unterstützt TTS das Verständnis komplexer Konzepte und Fachterminologie. Die Schüler können sich Erklärungen zu mathematischen Formeln, wissenschaftlichen Prinzipien oder technischen Entwürfen anhören, wodurch sie diese besser verstehen und behalten können. TTS unterstützt auch Sprachschüler in MINT-Fächern, indem es neben visuellem Material auch Audio-Unterstützung bietet.

Beim Sprachenlernen unterstützt TTS das Üben der Aussprache, das Erlernen von Vokabeln und das Verstehen von fremdsprachigen Texten. Sprachschüler können Muttersprachlern zuhören, die Abspielgeschwindigkeit anpassen und schwierige Passagen wiederholen und so ihre Hör- und Sprechfähigkeiten verbessern. In Kombination mit den umfangreichen Übersetzungstools ist ReadSpeaker auch eine Unterstützung für Lernende mit Migrationshintergrund und ihre Familien, indem es Sprachunterstützung außerhalb des Klassenzimmers bietet.

 

Hat der Aufschwung der Podcast-Szene die Entwicklung der Text-to-Speech-Technologie vorangetrieben?

Amy Foxwell: Die wachsende Popularität von Podcasts hat indirekt auch die Nutzung von Text-to-Speech-Technologie (TTS) gefördert. Obwohl Podcasts in erster Linie auf aufgezeichneten menschlichen Stimmen beruhen, hat ihre Popularität die Nachfrage nach Audioinhalten erhöht. Wir haben festgestellt, dass dies aus verschiedenen Gründen das Interesse an den Spracherzeugungswerkzeugen von ReadSpeaker geweckt hat.

Zugänglichkeit: Bei Podcasts fehlen oft Transkripte, was den Zugang für Menschen mit Hörbehinderungen einschränkt. TTS kann Transkripte in Audiodateien umwandeln und so den Zugang zu Podcasts erleichtern.

Effizienz: Ersteller von Inhalten können mit TTS schnell Audioversionen von Artikeln, Blogbeiträgen oder Social-Media-Inhalten erstellen und so ihre Reichweite über textbasierte Plattformen hinaus erweitern.
Personalisierung: Mit TTS können Hörer das Audioerlebnis durch Anpassung der Stimme, der Geschwindigkeit und des Akzents an ihre individuellen Vorlieben anpassen.
Automatisierung: Podcast-Produzenten können TTS für Aufgaben wie die Erstellung von Einleitungen, Übergängen oder Werbung nutzen und so Zeit und Ressourcen sparen.

Die steigende Nachfrage nach Audioinhalten hat zweifelsohne einen fruchtbaren Boden für die Spracherzeugung geschaffen. In dem Maße, wie sich unsere Technologie in Bezug auf Natürlichkeit und Ausdruckskraft weiterentwickelt, wird sie eine immer wichtigere Rolle im Podcast-Ökosystem spielen, das dadurch einem breiteren Publikum zugänglich wird und den Autoren von Inhalten neue Werkzeuge und Möglichkeiten bietet.

 

Wird die künstliche Intelligenz auch diesen Bereich der Technologie beeinflussen? In welche Richtung wird die Entwicklung Ihrer Meinung nach gehen?

Amy Foxwell: ReadSpeaker nutzt ethische Künstliche Intelligenz (KI), um die Text-to-Speech-Technologie (TTS) in mehrfacher Hinsicht zu revolutionieren.

Unsere KI-gesteuerten TTS-Modelle werden immer besser und produzieren noch menschenähnlichere Stimmen mit nuancierter Intonation, Emotionen und Akzenten. Dadurch ist unsere TTS-Ausgabe nicht mehr von menschlicher Sprache zu unterscheiden, was das Benutzererlebnis und die Immersion verbessert. Die TTS-Systeme von ReadSpeaker werden immer intelligenter, verstehen die Bedeutung und die Absicht hinter dem Text und erzeugen eine Sprache, die Emotionen, Humor und Sarkasmus genau wiedergibt. Dies wird TTS-Interaktionen noch dynamischer und menschenähnlicher machen.

Wir setzen KI auch ein, um die TTS-Stimmen in Echtzeit an die Vorlieben, den Kontext und den Inhalt unserer Kunden anzupassen. Sie können eine Stimme erstellen, die zu ihren Markenwerten und zu ihrem Thema passt, oder sogar die Stimmen von Prominenten oder wichtigen Persönlichkeiten imitieren, wodurch TTS-Interaktionen persönlicher, ansprechender und markenorientierter werden.

KI ermöglicht es uns auch, Sprachbarrieren zu überwinden, indem sie uns in die Lage versetzt, Stimmen nahtlos in mehreren Sprachen zu erzeugen.

Da TTS immer ausgefeilter wird, nimmt ReadSpeaker die gesellschaftlichen Auswirkungen sehr ernst. Wir achten sehr auf die ethischen Aspekte der Stimmerzeugung, wie das Klonen von Stimmen, Deepfakes und möglichen Missbrauch. Unsere Entwicklung konzentriert sich darauf, den verantwortungsvollen Einsatz von KI in der TTS-Technologie sicherzustellen und gleichzeitig die positiven Auswirkungen für unsere Kunden zu maximieren.

KI treibt ReadSpeakers TTS in Richtung größerer Natürlichkeit, Personalisierung und Zugänglichkeit, verändert die Art und Weise, wie wir mit digitalen Informationen interagieren und eröffnet neue Möglichkeiten für Kommunikation, Bildung und Unterhaltung.