タグ

ブックマーク / qiita.com/ShinsukeSutou (1)

  • Youtube字幕ファイル(.vtt形式)からテキストだけを抜き出す。 - Qiita

    昨日の続きです。 卒業制作で「気がついたらYoutubeを観て1日が終わってた撲滅ツール!動画内の音声を検索!」というのを作ります。 Youtubeの字幕ファイルを抜き出すところまで成功しましたが、できたのはvtt形式のファイルだけでした。 使いたいのはテキスト文だけなのでどうしよう、というのが今回の話です。 vttとttml形式の違いを調べる。 HTML5 の 要素で使えるキャプションファイルには、「WebVTT」と「TTML」の2種類があります。WebVTT 形式のほうがフォーマットとしてはシンプルで、字幕の表示タイミング (タイムコード) と文面を、時系列に記述するだけです。 どうやらvttでも問題ない、というかいっそそちらのほうが可読性ありそうな感じです。今できないことをがんばってttmlにこだわる必要もないので、vttで行きましょう。 vttからテキストだけを抽出する 以下のサ

    Youtube字幕ファイル(.vtt形式)からテキストだけを抜き出す。 - Qiita
  • 1