文字起こしツールまとめ 前編:人と機械での文字起こしにおける差異

f:id:masato8823:20180803110112p:plain

 

今回は文字起こしに関して現在の機械でできることと、誰でも使える具体的な文字起こしツールのそれぞれの特徴をまとめてみました。

 

 

これを行なった理由として、

・私自身が聴覚障害者のために実際の講義や映像の文字起こしを行なっていること

・現在では多くの文字起こしに使えるツールが出ていること

ということがありまして、実際の現場でそれらのツールは使っていけるのかということが気になったため、今あるそれらのツールを使いながら人手による文字起こしとツールでの比較を行ってみました。

 

そしてその中で、ツールにも色々あり、それぞれに特徴があることに途中で気が付いたため、ツール自体の比較も行いました。

それについてまとめていきたいと思います。

 

前編では先に述べた人手とツールに関して。主に音声認識に関わっている人、人工知能とかもそうですね。その辺りの人が見ると一つ参考になるのではと思いながら書きました。

 

後編は実際のツールのそれぞれの効果的な使い方ということで、文字を打ったりが非常に楽になる、どんな人にも役に立つ内容であると思ってます。

その中でも特に学生のレポート作成や、会議の議事録、個人的に参加した講演会のまとめ、インタビューやブログ作成とかには効果抜群です。

分量的に後者は別の記事にまとめたのでそちらに興味のある方は以下のリンクからそちらに飛べます。

 

masato8823.hatenablog.com

 

では早速前者の人手とツールの比較に関してまとめていきたいと思います。

 

 

◆それぞれの概要

 

●人手による文字起こし

 

ここでは実際に私がしている方法を紹介します。

そのためにはその環境等も説明がいると思ったため、先に述べておきます。

 

まず、普段の文字起こしにおいては大学の90分授業を対象に行なっておりますので、よくある授業風景を想定していただければと思います。実際に支援対象者が横にいる状態で、先生の言った内容を文字に起こしていきます。

 

専用のソフトを使っており、それに関してはここでは紹介しません。

大まかな形式としては画面いっぱいに表示部と、その下の方に小さな編集部という二つです。

f:id:masato8823:20180729141032p:plain

打った内容はまず画面下の編集部に表示され、それをENTERで上の表示部に投げるというものです。

 

上の表示部では文字が大きい状態で出てくるので隣にいる支援対象者もちゃんと見えるということです。

 その他機能もいろいろありますが、ここではこれだけわかっていれば大丈夫です。

 

重要なのは、これを基本二人一組で行うということです。

つまり、リアルタイム文字起こしは一人の人間では内容の要約でもないとなかなかうまくいかないということです。

これは実際にタイピングや筆記と喋るのどっちが早いか考えていただければすぐわかると思います。もちろんプロの記者とかは自分なりの暗号で、、とかあるかと思いますが、ここではリアルタイムで見せる必要もあるので意味がないです。また、タイピングが速ければいいかというとそうでもなく、90分間集中し続けるという集中力の問題もあります。

 

具体的にはPCを二つ用意し同じ画面を開きます。そして、交互に文字に起こして表示部に内容を投げていくわけです。

もちろん表示部は共有されており、下の編集部もそれぞれの分ということで二つあり、それも共有されています。つまり相手の状況を把握できます。これで相手がどこまで打てるかを考えながらその続きを打ち始めるわけです。

 

これはどちらかがタイピングに未熟であっても出来るという方法のため二人同時に作業しています。なので、お互いが習熟している別のところでは時間制(45分ずつ)で交代したりするのかもしれません。

 

 

とりあえずはこの前提で比較していきます。

 
●ツールによる文字起こし

 

こちらは実際にやってみた方が色々とわかりやすいですが、簡単に現在のツールで出来ることをまとめていきます。

個人的には使ってみる当初はすでに結構なことができると思っていたのですが、思ったよりも課題が多かったためそのあたりが伝わるように書いていきます。

 

*ここでは、後編で紹介するスマホのメモ、Googleドキュメント、writer.appを基準に説明します。これらを選択した理由、それぞれについての説明は後編で書いてますので、ここでは省略します

 

まずここで文字起こしツールとしているものは、音声認識を備えた文章作成ツールです。

つまり、ほとんどはもともと文章をまとめるためのツールであり、それに入力を楽にするため、最近の技術の音声認識がついたという認識です。

 

これを、文章を作成しようとしている本人が喋るのでなく、他人が喋っている時に用いることで文字に起こしてしまおうということです。

 

ここまでで概要については説明が終わりましたが、すでに気になった人もいると思うので、少し続けます。

 

ここまでで大体の人は、「じゃあ、授業中にこれを起動すればもうそれでいいじゃん!」と思うでしょうが(最初私は思ってました笑)、実はそこまでの技術はまだ可能になっていないのです。

「それって文字認識の正確さでしょ?なら、修正作業だけ人間がすればいいじゃん!」と思ったあなたはある程度詳しい!

 

しかし、もちろん文字認識の正確さも問題ですが、そこは実は大した問題ではないのです。

ではどうして、ということがわかっているあなたは普通に専門の人ですね、あと少し茶番に付き合ってください(笑

 

ポイントは「文章を作成しようとしている本人が喋るのでなく、他人が喋っている時に用いることで文字に起こしてしまおう」という認識。

この少しの認識の差により問題が多く起こるのです。

 

 

これに関しては最初に述べた通り実際にやってみると一瞬でわかりますので、結果だけを教えます。

授業や講演会、はたまた会議でこれらを用いようとすると、先生や登壇者の声が全然反応しません。会議では自分の声だけが入ります。

これは文字を起こす本人が喋る、つまりPCに向き合っている人が喋ることを前提にしており、またノイズを入れないための工夫です。

もっと詳しく知りたい方は各自で調べてみてください。

 

◆人手と機械の比較

 

ここからは実際にそれぞれの特徴を比較をしていきます。すでにさっき説明したことに関しても含まれますが、書いていきたいと思います。

 

●人手による文字起こし

 

これの特徴は何と言っても人間の認知機能を使えるということです。

 

これは、

・人間の判断が働くため文字を起こすのに見やすく作れる

 (改行のタイミングなど)

・要約ができる

 (話者が何度も繰り返したりする時に有効。場合によっては、ざわざわとした周りの様子や音楽が流れている様子などその場の様子も伝えることもできる)

・条件変化に強い

 (話者が突然変わった時にそれを伝えれたり、動画再生が入ったりという突然の変化)

・音声認知が人間によるため的確

 (周りが少しうるさくても発言者の言葉のみを取れる。発音が汚い人でも正確に文字にできる)

 

と多くの利点があります。

 

また、人によっては多言語にも対応していることもそうでしょう。

 

 

●機械による文字起こし

 

これはここまで読んだなら大体わかると思いますが、

 

・体力や集中力、スキルなど人間の場合に存在する差が存在しない。

・関わる人が少なくて済む

 (現在の技術でも場合によって人は修正作業に徹すればよくなり、組織としてはその分の費用を浮かせることができる

・他の技術と組み合わせることでさらに応用できる

 (人間には直接できないこともできる?

 

ということが挙げられます。

 

 

◆まとめ

 

機械での文字起こしと比較してみると、我々が何気なくやっていることは、実はなかなか難しいことをやってのけているという事がわかりますね。

 

ここで挙げたツールは個人でも使えるもの、その中でも特に環境設定がほとんど必要なく誰でも今すぐにでも使えるというものに限定したため、もっと本格的なものになると性能はまた違うのかもしれません。

 

とりあえず現在一般的に使えるものだとこんな感じなんだという認識でいていただけると幸いです。

 

 

ここではこのぐらいにして、次の記事で実際のツールそれぞれの差をまとめていきたいと思います。↓

 

 

masato8823.hatenablog.com