Simple Videotranskription

Wir kennen das alle. Wir stoßen bei der Recherche auf ein Video auf YouTube und würden gerne wissen, ob eine bestimmte Firma oder eine Person oder ein Medikament oder eine Partei o.d.G. in dem Video genannt wird. Oder gar in einer ganzen Liste von Videos.

Nun kann man sich das Video einfach anschauen. Dieses Vorgehen ist allerdings wahrscheinlich nicht ganz zielführend, da die interessanten Videos gerne mal länger sind und die ganze Zeit die volle Aufmerksamkeit binden.

Nun gibt es sicher unendlich viel Möglichkeiten wie man das Problem lösen kann.

Eine davon folgt jetzt. Punkt für Punkt zum Nachmachen!

Angenommen wir wollen wissen, ob die NATO im heute journal vom 27.11.2019 genannt wird.

Video auf YouTube aufrufen und die URL des Videos kopieren.

In diesem Fall also https://www.youtube.com/watch?v=Ha3CN4a4eIM

Jetzt brauchen wir ein kleines Kommandozeilenprogramm namens youtube-dl, dass es sowohl für Windows als auch für Linux gibt. Dem Namen kann man schon ungefähr entnehmen, welche Funktion das Programm hat. Und tatsächlich ist es auch extrem praktisch, wenn man mal ein YouTube-Filmchen oder nur die Tonspur eines Videos offline hören oder sehen will. Hier soll es jetzt aber um die Transkription gehen.

Steigen wir in die Hilfeseite dieser Anwendung ein, finden wir unter der Überschrift Subtitle Options die Option –list-subs mit der die Verfügbaren Subtitel aufgelistet werden.

Der Aufruf sieht dann für unsere Sendung wie folgt aus:

.\youtube-dl.exe --list-subs https://www.youtube.com/watch?v=Ha3CN4a4eIM

Die Antwort macht uns erstmal darauf aufmerksam, dass es für dieses Video leider keine Untertitel sprich keine Transkription gibt. Zum Glück nimmt uns YouTube die Arbeit aber inzwischen ab und baut zu den meisten Video automatische Sub-titel. Die aktuellen Speech2Text-Algorithmen, die hier zum Einsatz kommen, sind tatsächlich ziemlich gut. Zusätzlich übersetzt uns YouTube/Google die automatische Transkription auch gleich noch in alle verfügbaren sprachen.

Da wir jetzt wissen, dass zwar keine von Hand erstellten Subtitel existieren, aber automatisch generierte, geht unser Blick zurück in die Hilfeseite und wir finden ebenfalls im Abschnitt Subtitle Options die Optionen –write-auto-sub und –sub-lang. Damit sollten wir was anfangen können. Und da wir ja nur die Transkription und nicht das ganze Video haben wollen, setzen wir noch die Option –skip-download, um den eigentlichen Videodownload zu überspringen.

Der Aufruf sieht dann für unsere Sendung wie folgt aus:

.\youtube-dl.exe --skip-download --write-auto-sub --sub-lang de https://www.youtube.com/watch?v=Ha3CN4a4eIM

Und resultiert in folgender Ausgabe:

Und tatsächlich findet sich jetzt auf der Festplatte eine Datei mit dem Titel

heute journal vom 27.11.2019-Ha3CN4a4eIM.de.vtt

Hier kann man jetzt schon prima suchen, nach was man sucht und sieht zum Beispiel, dass die NATO bei Minute 10:45 genannt wird.

Um das ganze noch ein bisschen aufzuräumen oder für den Menschen lesbarer zu gestalten, kann man, sollte man gerade eine Linux-Toolbox zur Hand haben noch folgendes machen. (geht natürlich auch in jedem handelsüblichen Texteditor)

$ grep -P -v "(^\d\d:\d\d||^\s*$)" heute\ journal\ vom\ 27.11.2019-Ha3CN4a4eIM.de.vtt | uniq > cleanFile.txt

und hat dann den gesamten Text der Sendung als Fließtext in einer Datei.

Viel Spaß beim ausprobieren!

Recent Posts

Recent Comments

Archives

abcxyz Written by:

Be First to Comment

Leave a Reply

Your email address will not be published.