Vermischtes
Newsroom

Nie wieder abtippen! Profitipps zum Transkribieren mit KI

Nie wieder abtippen! Profitipps zum Transkribieren mit KI

Interviews auf Knopfdruck transkribieren lassen? Dank KI geht das mit verblüffender Genauigkeit und oft in wenigen Minuten oder gar Sekunden. 5 Dienste und Programme im Test.

Berlin – In der Vergangenheit war das Transkribieren von Interviews eine mühsame und zeitaufwendige Aufgabe. Doch dank Künstlicher Intelligenz ist dies heute viel schneller und präziser möglich. Transkriptions-Tools, die mit einer Vielzahl von Audio- und Video-Daten trainiert wurden, können nahezu jedes Gespräch zuverlässig in Text umwandeln.

 

Stefan Mey hat für das „medium magazin“ fünf solcher Tools mit einem 26-minütigen Interview von Sandra Maischberger und Christian Lindner geprüft. Dabei standen zwei Faktoren im Mittelpunkt: Zeit und Fehlerquote. Wir haben die Transkriptionszeit ins Verhältnis zum Gesprächszeitraum gesetzt und die Fehler anhand der Word Error Rate (WER) ermittelt. Die Ergebnisse zeigen: Alle Tools liefern eine hohe Genauigkeit von über 90 Prozent, wobei vor allem seltene Fachbegriffe und Namen wie „Maischberger“ oft fehlerhaft erkannt werden.

 

Die Tools bieten auch einen eingebauten Editor, der es ermöglicht, das Transkript mit der Originalaufnahme zu vergleichen – eine wichtige Funktion, da KI bei schlechterer Audioqualität oder überlappender Sprache Fehler macht. Auch wenn die Genauigkeit beeindruckend ist, bleibt eine Nachbearbeitung der Transkripte meist notwendig. Die Tools im Test: 

 

1. Noscribe

KI ist Big Business. Für Audio-Transkriptionen steht aber auch eine frei und kostenlos nutzbare Lösung zur Verfügung: Whisper aus dem Haus OpenAI, das auch für ChatGPT verantwortlich ist. Die Software ist allerdings schwierig zu installieren und zu nutzen und für Leute ohne ITBackground wenig praktikabel.

 

NoScribe nutzt zwei der insgesamt fünf Whisper-Modelle. Das kostenlose PCProgramm hat der Soziologe Kai Dröge entwickelt. Er lehrt qualitative Sozialforschung an der Hochschule Luzern und hat auch Informatik studiert. Ursprünglich war NoScribe als Hilfsmittel für die sozialwissenschaftliche Forschung gedacht, eignet sich aber auch gut für die journalistische Arbeit.

 

Das 3,5 Gigabyte große Softwarepaket für das schlichte Programm lädt man von der Programmierplattform GitHub herunter und installiert es. Der Test von NoScribe zeigt: Die beiden verwendeten Modelle unterscheiden sich in puncto Genauigkeit und Geschwindigkeit. Im Modus „precise“ kommt NoScribe auf  eine „Word Error Rate“ von 0,8 Prozent. Der „fast“-Modus produziert 26 Fehler – macht 2,6 Prozent.

 

Ein Manko für Journalistinnen und Journalisten, die schnell arbeiten müssen: No- Scribe kostet Zeit. Die Geschwindigkeit einer Transkription hängt bei dem Tool, das auf dem eigenen Gerät arbeitet, vor allem von der verwendeten Hardware und der Auslastung des Gerätes ab. Cloud-basierte Lösungen sind sehr viel schneller. Für die „precise“-Transkription des Lindner- Interviews benötigt NoScribe auf unserem Testgerät 78 Minuten (300 Prozent der Interview-Laufzeit). Im „fast“-Modus sind es 19 Minuten (73 Prozent).

 

Und das gilt nur für die reine Transkription. Denn die Vorlage Whisper enthält  keine eigene Sprechererkennung. Dafür hat Kai Dröge eine externe freie Software eingebunden – und die arbeitet quälend langsam. Allein die Sprechererkennung dauert weitere 78 Minuten. Das heißt: Will man das Lindner-Interview im präzisen Modus mit Sprechererkennung transkribieren, arbeitet der Rechner 156 Minuten lang. Das entspricht 600 Prozent der Interviewdauer.

 

Wenn Dröge mit NoScribe längere Interviews transkribiert, lässt er den Rechner über Nacht laufen. Was die Arbeit erleichtert: Während der Transkription zeigt das Programm kontinuierlich an, was bisher in Text übertragen wurde. Man kann somit schon während des laufenden Vorgangs Textabschnitte kopieren und bearbeiten.

 

Im Vergleich zu kommerziellen Diensten könnte auch stören, dass NoScribe kein einziges „äh“ und auch keine Füllw.rter herausfiltert. Außerdem generiert das Programm nicht von selbst Textabschnitte. Ohne Sprechererkennung erzeugt das Programm einen großen Textblock. Und: Der Editor ist bei allen kommerziellen Diensten eleganter als bei NoScribe – das kann man bei einem kostenlosen Angebot aber aushalten.

 

Link: github.com/kaixxx/noScribe

Preis: kostenlos

„Word Error Rate“: 0,8 % (precise), 2,6 % (fast)

Geschwindigkeit: 600 % der Interview-Laufzeit (precise mit Sprechererkennung), 300 % (precise), 73 % (fast)

 

2. TurboScribe

3. HappyScribe

4. Microsoft Word

5. Transcribe

Zu den Tests