「音声文字起こし」7サービス 3つの視点で徹底検証

日経トレンディ

日経トレンディ

話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。

深層学習(ディープラーニング)やビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。

会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。

●テスト方法。「対面会議」では4人用の会議室、「オンライン会議」ではZoom(ズーム)などを利用して疑似的な会議を行い、雑談やアイデア出しの音声をどこまでテキスト化できるかを検証した。各サービスの「認識されたテキストの一例」はあくまでも一部を抜粋したもの。テスト実施時期は2021年3月中旬

(1)認識方式

音声文字起こしサービスを選ぶ際のポイントは3つ。まず重視すべきは音声の「認識方式」だ。進行中の会議の音声をリアルタイムでテキスト化していくものと、アップロードした会議の録音データをテキスト化する2つの方式がある。リアルタイム方式であれば会議中でも直前の発言などを確認できて便利だが、会議の間はインターネットに接続しておく必要がある。

オンライン会議中に音声をテキスト化。会議中に音声認識するほか、録音したデータをアップロードする方式もある(写真はイメージ=PIXTA)

(2)直接編集

生成されたテキストを、サービス上で「直接編集」できるかどうかにも違いがある。特に再生している位置をテキストでハイライト表示できると、後から文字修正する際に便利だ。

サービス上で音声を再生しながら生成テキストを修正、編集できると便利。ハイライト表示で再生箇所が分かるものもある

(3)保存

さらに、会議の音声やテキストをクラウドに「保存」するかにも違いがある。保存した会議の内容を後から確認したり共有したりできるサービスもある。

クラウドに保存されていれば、会議の内容を後から確認したりシェアしたりできる
次のページ
総合的に優れていたサービスはこれだ!
MONO TRENDY連載記事一覧