Die meisten Spracherkennungs-Apps haben keine Probleme, einen Muttersprachler zu transkribieren, der mit einem professionellen Mikrofon in einem ruhigen Raum aufgenommen wurde. Das ist keine Herausforderung.
Um sie gründlicher zu testen, habe ich eine Albtraumaufnahme von zwei Nicht-Muttersprachlern mit lauten städtischen Hintergrundgeräuschen erstellt.
Wie haben sie sich geschlagen?
Lasst es uns herausfinden.
Otter war eine der am häufigsten genannten Lösungen, als wir auf Twitter und in der Ahrefs-Community um Vorschläge baten. Und das aus gutem Grund. Es ist einfach einzurichten, hat eine intuitive Benutzeroberfläche und bietet eine klare Preisgestaltung.
Was die App von anderen abhebt, ist die Möglichkeit, Online-Meetings aufzuzeichnen und zu transkribieren – einfach durch Einfügen der Meeting-URL. Sie können aber auch eine Video-/Audiodatei importieren oder Audio direkt in der App aufnehmen.
Außerdem können Sie Ihren Kalender verknüpfen, um keine Besprechung zu verpassen.
Ich habe ordentliche Ergebnisse erzielt, aber es gab auch viel zu bearbeiten.
Es hat einige Namen nicht richtig erkannt. Aber ich kann keinem Tool vorwerfen, dass es nicht in 100 % der Fälle “Ahrefs” oder “Tim Soulo” findet.
Ich habe festgestellt, dass es nach der Meldung, dass die Transkriptionen fertig sind, im Hintergrund noch etwas tun kann (Zeitstempel anpassen, Sprecher markieren usw.). Wie ein Schüler, der noch auf ein Testpapier kritzelt, während er es dem Lehrer übergibt.
Sie können kostenlos beginnen und später auf einen kostenpflichtigen Plan upgraden. Sie können bis zu drei Dateien importieren und 290 Minuten an Meetings aufzeichnen, bevor Sie ein Upgrade benötigen (ab April 2023).
Die Einrichtung eines Kontos war ein Kinderspiel. Auch die Benutzeroberfläche fand ich einfach zu bedienen. Eine persönliche Bemerkung ist, dass es sich ein wenig zu “kalt” anfühlte, da ich Dinge wie “Bestellung aufgeben”, “Rechnung” und “Rechnung” viel zu oft sah.
Man könnte den Eindruck gewinnen, dass es von einem Buchhaltungsteam entworfen wurde (im Gegensatz zu Descript, das als nächstes in dieser Übersicht erscheint).
Neben automatisch erstellten Transkripten bietet Rev auch Live-Untertitel für Zoom-Meetings. Sie haben auch die Möglichkeit, eine menschliche Transkription zu bestellen.
Der schlechte Ton mit Stadtgeräuschen war für Rev etwas zu viel. Einige Wörter fehlten, andere wurden falsch erkannt. Infolgedessen ergaben einige Absätze nicht viel Sinn, während andere in Ordnung waren.
Sie können die erste Audiodatei (bis zu 45 Minuten) kostenlos transkribieren. Ich habe eine Rechnung über $1,25 mit einem Rabatt erhalten, der insgesamt $0,00 ergibt. Danke, Buchhaltungsteam 😉 .
Rev bietet auch eine 14-tägige Testversion seines kostenpflichtigen Plans an. Aber das war nicht so einfach zu finden. Um es zu finden, müssen Sie in die Fußzeile der Homepage gehen und unter “Services” danach suchen.
Descript hat mich namentlich begrüßt (was ein netter Zufall war). Das Wichtigste, was Sie wissen müssen, ist, dass es sich um eine eigenständige Software und nicht um einen Webdienst handelt. Es ist viel mehr als nur ein Sprache-zu-Text-Konverter. Es ist im Grunde ein Werkzeug zur Videobearbeitung. Und es gibt definitiv eine Lernkurve. Aber zum Glück ist die Einarbeitung extrem lustig und ansprechend.
Wie ich bereits erwähnt habe, ist Descript eher ein Videobearbeitungswerkzeug, das sich gut zum Transkribieren eignet. Ich würde es als “Canva für Video/Captions” bezeichnen. Sie können B-Rolls, Effekte, Animationen und mehr hinzufügen.
Man kann ganz einfach per Drag-and-Drop ein komplettes Video mit seiner Hilfe erstellen. Aber wenn Sie nur ein Transkript oder Untertitel für ein Video oder Audio benötigen, können Sie auch das tun.
Mein Audiobeispiel hatte recht schwammige Ergebnisse. Manchmal hatte es Schwierigkeiten, Abkürzungen zu erkennen (z. B. SEO). Ich hatte auch ein Problem mit dem Entfernen von Füllwörtern wie äh und um.
Wenn ich keine Option zum Entfernen von Füllwörtern wählte, wurden sie, ähmblieben einfach da, obwohl ich sie die meiste Zeit nicht brauchte. Wenn ich sie jedoch entfernen wollte, wurden gelegentlich Teile anderer Wörter verschluckt, was noch mehr Probleme verursachte.
Außerdem konnte es Teile nicht erkennen, die ein Mensch ohne Probleme aus dem Kontext heraus verstehen würde, z. B. wurde aus “Alleskönner” “Schakal, Handwerk”.
Das Gute daran ist, dass man immer noch verstehen kann, worum es in dem Text geht.
Sie können kostenlos mit den Grundfunktionen beginnen und bei Bedarf aufrüsten.
MacWhisper ist ein Transkriptionstool, das auf Whisper basiert. Es ist ein automatisches Spracherkennungssystem (ASR), das von OpenAI entwickelt wurde, dem gleichen Unternehmen, das uns ChatGPT gebracht hat.
Wie OpenAI auf seiner Website erklärt:
Whisper wurde anhand von 680.000 Stunden mehrsprachiger und multitasking-überwachter Daten aus dem Internet trainiert.
Whisper ist kein Programm, das man einfach so “laufen” lassen kann. Außerdem ist es ziemlich kompliziert einzurichten, wenn man es selbst ausführen möchte. Github, Python – Sie verstehen, worum es geht.
Zum Glück gibt es Tools wie MacWhisper, die Ihnen diese Arbeit abnehmen und es Ihnen ermöglichen, die Leistungsfähigkeit der KI über eine einfache Benutzeroberfläche zu nutzen.
Nur einfache Sprache-zu-Text-Erkennung mit Zeitstempeln. Leider werden die Sprecher nicht automatisch getaggt.
Wenn Sie das Tool starten, müssen Sie ein “Modell” auswählen, mit dem Sie arbeiten möchten. Grundsätzlich gilt: Je leichter das Modell ist, desto schneller wird es ausgeführt. Größere Modelle führen jedoch zu besseren Ergebnissen. Außerdem sind in MacWhisper diese größeren (besseren, aber langsameren) Modelle nur in der kostenpflichtigen Version verfügbar.
Ich entschied mich, mit dem kostenlosen “kleinen” Modell zu beginnen, dem eine “normale Geschwindigkeit mit guter Genauigkeit” attestiert wurde.
Es war in Ordnung, aber nicht besser als die Konkurrenzprodukte. Ich nahm an, dass es mit qualitativ hochwertigem Audio gut funktionieren würde, aber nicht mit den schrecklichen Beispielen, die ich ihm vorlegte.
“KI wird überbewertet”, dachte ich. Aber bevor ich den Mac schloss und zu meinem geliebten Windows-PC zurückkehrte, beschloss ich, das “große” Modell auszuprobieren.
Und wissen Sie was? Die KI wird nicht überschätzt. Ich fand die Ergebnisse viel besser als alles andere.
Das Transkript war wirklich sehr, sehr gut. Es hat sogar Dinge wie “Ahrefs” und “SaaS” richtig erkannt! Allerdings immer noch nicht 100 % der Zeit.
Kleinere Modelle können Sie kostenlos betreiben. Für ein großes Modell müssen Sie eine Lizenz erwerben.
Dieses Tool ist am einfachsten zu benutzen. Ziehen Sie Ihre Datei einfach per Drag & Drop, und schon ist sie fertig. Die Verarbeitung dauert allerdings einige Zeit.
Nichts außer dem Herunterladen einer Transkription.
Mein erster Eindruck war, dass das Ergebnis perfekt war, denn es lieferte einen optisch ansprechenden Text:
Nach dem Korrekturlesen stellte ich jedoch fest, dass die nicht erkannten Teile – manchmal mehrere Wörter hintereinander – einfach nicht enthalten waren.
Die Nutzung ist kostenlos.
Premiere Pro ist nicht gerade ein “Transkriptionswerkzeug”, sondern eher eine Videobearbeitungssoftware. Ich nehme es auf, weil ich davon ausgehe, dass einige Unternehmen es bereits in ihrem Arsenal haben (wie wir).
Um die Transkriptionsfunktion in Premiere Pro zu nutzen, gehen Sie einfach zum Arbeitsbereich “Untertitel und Grafiken” und klicken Sie auf “Transkription erstellen”.
Wenn wir hier nur die Spracherkennung berücksichtigen, ist es gut, präzise Zeitstempel zu erstellen, die Sprecher automatisch zu markieren und, falls erforderlich, automatisch eine editierbare Untertitelspur zu einem Videoprojekt hinzuzufügen.
Um es gleich vorwegzunehmen: Ich empfand die verrauschte Audioabschrift als Fehlschlag. Ich konnte gar nicht verstehen, worüber die Leute überhaupt gesprochen haben.
Dennoch denke ich, dass diese Funktion sehr hilfreich sein kann, wenn Sie Untertitel aus hochwertigem Audio erstellen. Ich habe sie selbst mehrmals verwendet und hatte nichts zu beanstanden, wenn die Aufnahmequalität gut war.
Sie benötigen eine Adobe Creative Cloud Abonnement zur Verwendung von Premiere Pro.
Während die Anmeldung und das Hochladen von Dateien recht einfach sind, müssen Sie einige Zeit damit verbringen, Fragen zu Ihrer Person und Ihrem Unternehmen zu beantworten, bevor Sie schließlich zum eigentlichen Tool gelangen. Und nein, Sie können die Eingabe Ihres Firmennamens, Ihrer Funktion und Ihrer Unternehmensgröße nicht überspringen.
Aber wenn Sie das geschafft haben, ist die Schnittstelle sauber und intuitiv.
Sie können ein Transkript oder Untertitel für Video oder Audio erstellen. Es gibt auch die Möglichkeit, eine manuelle Überprüfung des Transkripts anzufordern. Alternativ können Sie Untertitel in einer anderen Sprache erstellen, so dass Sie Transkription und Übersetzung mit einem Klick erhalten.
Happy Scribe hat eine wirklich gute Arbeit bei der Transkription der Audiodaten geleistet. Es hatte keine Probleme mit Wörtern wie “SEO” und “SaaS” (offensichtlich der schwächste Punkt bei vielen Tools). Es konnte auch die Sprecher automatisch markieren, was in bestimmten Situationen hilfreich sein könnte.
Ich könnte eine Datei kostenlos testen. Danach müsste ich Guthaben kaufen, das für jede Minute des transkribierten Videos oder Audios verwendet wird.
Sonix ist ein Tool für automatische Transkriptionen, Übersetzungen und die Integration in Meeting-Apps.
Neben der Integration von Meetings, die für die meisten Tools fast selbstverständlich ist, ist die Erstellung von KI-Zusammenfassungen eine interessante Funktion (ab April 2023 in der Beta-Phase), aber ich habe damit bereits beeindruckende Ergebnisse erzielt.
Sie erhalten auch einige zusätzliche Werkzeuge für die Arbeit mit Videobeschriftungen – eine Zeitleistenansicht und eine Option zum Aufteilen der Beschriftungen in mehrere Zeilen. Sie können auch eine vorhandene Abschrift importieren, die Sonix dann mit dem Audio synchronisiert.
Sonix hat eine Funktion für benutzerdefinierte Vokabeln. Ich fand, dass das bei Namen wie “Tim Soulo” und “Ahrefs” ein wenig geholfen hat, aber es hat nicht zu 100% funktioniert. Meistens funktionierte es gut. Aber manchmal verwechselte es SEO mit CEO und gab scheinbar aus dem Nichts das Wort “Excel” zurück.
Das Transkript war im Allgemeinen sinnvoll, erforderte aber eine Menge Änderungen, wenn es perfekt sein sollte.
Sonix bietet eine kostenlose Testversion für 25 Minuten Transkription an. Danach müssen Sie kostenpflichtige Credits kaufen oder ein Abonnement abschließen.
Notta ist ein weiterer Transkriptionsdienst, der sowohl für Echtzeit-Meetings als auch für bestehende Aufzeichnungen funktioniert.
Neben der Transkription konzentriert sich Notta auf die Rationalisierung bestimmter Arbeitsabläufe und bietet Funktionen wie Kalendersynchronisierung und Terminplaner (ab April 2023 in der Beta-Version).
Hintergrundgeräusche und schlechte Audioqualität waren für Notta kein Grund zur Sorge. Die Transkriptionsergebnisse waren größtenteils in Ordnung, wiesen aber dennoch einige Probleme auf.
Der Satzbau war manchmal etwas seltsam, bestimmte Wörter fehlten, und mein Lieblingsteil “Tausendsassa” war dieses Mal nicht so gut gelungen.
Eine weitere bemerkenswerte Tatsache ist, dass aus irgendeinem Grund zwei Sprecher nicht erkannt wurden und das gesamte Interview als “Sprecher 1” gekennzeichnet wurde.
Sie können mit einem kostenlosen Basisabonnement beginnen und eine dreitägige Testversion des kostenpflichtigen Plans, Notta Pro, ausprobieren.
Wie Sie sehen können, gibt es eine große Auswahl an Tools. Dennoch scheint es, dass OpenAI die Dinge ein wenig aufgewühlt hat, indem es ein kostenloses ASR-System (automatische Spracherkennung) herausgebracht hat, das meiner Meinung nach wesentlich leistungsfähiger ist als andere.
Aber die reine Spracherkennungsqualität ist nur ein Faktor. Vielleicht müssen Sie Ihre Zoom-Meetings aufzeichnen (Otter), mit Untertiteln in einem großen Videoprojekt arbeiten (Premiere Pro) oder schnell ein Video im Canva-Stil erstellen (Descript).
Außerdem muss ich betonen, dass ich versucht habe, diese Tools auf die Spitze zu treiben, indem ich ihnen das Worst-Case-Szenario für die Aufnahme gegeben habe. Bei natürlicheren Verwendungszwecken sind die Unterschiede im Ergebnis möglicherweise viel weniger auffällig.
Es ist schön zu sehen, dass es so viele Möglichkeiten gibt, und ich hoffe, dass dieser Bericht ein wenig dabei hilft, das perfekte Gerät für Sie zu finden.
Haben Sie Fragen? Ping mich auf Twitter.