夢の自動書き起こし

マイクロソフトでは、ビデオや音声データから自動でテキストに書き起こす技術を開発しているそうです。

 すでに述べたように、Video Indexerは、「動画の中身を認識し、インデックス化するサービス」である。動画に含まれる画像と音声をそれぞれ認識し、音声はテキストへと変換した上で、画像については人物の識別を行なう。テキストは話したときの時間情報と紐付いており、映像の「インデックス」として機能する。

【レビュー】夢の「音声自動書き起こし」はもうすぐ実現!? Microsoftの「Video Indexer」を試す ~動画・録音の音声を自動でテキスト化し翻訳も - PC Watch

これは本当に夢のようですね。
深層学習、ディープラーニングっていうんですか、そういった技術で達成できているそうですね。
実際に書き起こしたテキストもリンク先で紹介されていますが、なんか本当に、生々しく書き起こされています。
これ、やりたかったんだよなぁ。
速記士もこういうことできるんだよなぁすごいなぁ。