「音声文字起こし」7サービス　3つの視点で徹底検証

2021年6月11日 3:00

話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。

深層学習（ディープラーニング）やビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。

会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。

●テスト方法。「対面会議」では4人用の会議室、「オンライン会議」ではZoom（ズーム）などを利用して疑似的な会議を行い、雑談やアイデア出しの音声をどこまでテキスト化できるかを検証した。各サービスの「認識されたテキストの一例」はあくまでも一部を抜粋したもの。テスト実施時期は2021年3月中旬

(1)認識方式

音声文字起こしサービスを選ぶ際のポイントは3つ。まず重視すべきは音声の「認識方式」だ。進行中の会議の音声をリアルタイムでテキスト化していくものと、アップロードした会議の録音データをテキスト化する2つの方式がある。リアルタイム方式であれば会議中でも直前の発言などを確認できて便利だが、会議の間はインターネットに接続しておく必要がある。

オンライン会議中に音声をテキスト化。会議中に音声認識するほか、録音したデータをアップロードする方式もある（写真はイメージ=PIXTA）

(2)直接編集

生成されたテキストを、サービス上で「直接編集」できるかどうかにも違いがある。特に再生している位置をテキストでハイライト表示できると、後から文字修正する際に便利だ。

サービス上で音声を再生しながら生成テキストを修正、編集できると便利。ハイライト表示で再生箇所が分かるものもある

(3)保存

さらに、会議の音声やテキストをクラウドに「保存」するかにも違いがある。保存した会議の内容を後から確認したり共有したりできるサービスもある。

総合的に優れていたサービスはこれだ！

今回比較した音声文字起こしサービスは、正確な議事録を作るにはテキストの修正が必要になるものの、会議の大まかな流れや会話の文脈を後から振り返る用途にはどれも使えそうな印象だ。口語で自由に議論する会議ではなく、文章を読み上げてテキスト化する目的であれば認識精度はさらに高まる。

比較した7つのサービスの中で、使い勝手が総合的に優れていたのは「toruno（β版）」（リコー）だ。パソコンに専用ソフトをインストールする必要はあるが、リアルタイムで音声をテキスト化。会議の途中でも聞き逃した発言などをすぐに読み返せるのは便利だ。

秀逸なのが独自の画面キャプチャー機能。パソコンのディスプレー画面を30秒に1度自動で撮影し、テキストデータと合わせて時系列に保存していく。オンライン会議で画面共有されたスライドや資料などを見過ごしてしまっても、後から確認できるのは他には無い便利機能だ。

torunoはオンライン会議での利用を想定したサービスだが「ICレコーダーの録音データをパソコンで再生しながらtorunoを起動することで、音声認識機能を使うこともできる」（リコー）。現時点では「β版」のサービス（正式版の時期は未定）だが、記録した音声やテキスト、画面キャプチャーを容量無制限で保存できるのも大きな魅力だ。

◆toruno（β版）（リコー）

オンライン会議の音声をリアルタイムでテキスト化できる。画面を30秒に1度自動でキャプチャーして保存するなど機能性に優れる。記録した音声やテキストはクラウド上に容量無制限で保存できる。対応OSはWindowsのみ。月額1650円（税込み。10時間まで。10時間以上は1分2円）

【実際の使用例】

ユーザーインターフェースがシンプルで使いやすかったのが「RimoVoice」（Rimo）。ブラウザーでサービスにアクセスして録音開始ボタンを押すか、ICレコーダーなどで録音しておいた音声データをアップロードする方式だ。今回のテストでは、約30分の音声データをテキスト化するまでにかかった時間は約5分と高速だった。

特に便利なのが、音声の再生箇所のテキストをハイライト表示する機能だ。保存された会議の音声を聞き返しながら、文字の修正や編集などの作業がラクに行えた。スマホにも対応しており録音や再生が可能なだけでなく、パソコンと同じように再生時のハイライト表示や直接編集に対応。移動中でもスマホで議事録を整理できるのは便利だ。

◆RimoVoice（Rimo）

録音データをアップロードするとテキスト化するほか、直接録音もできる。全体的に洗練されたインターフェースで使いやすい。生成テキストは再生箇所がハイライト表示され編集しやすかった。動画ファイルにも対応。音声/30秒22円、動画/30秒33円、定額制/40時間まで11万円（すべて税込み）

【実際の使用例】

翻訳機能を組み合わせたユニークな音声文字起こしサービスもある。「AI GIJIROKU」（オルツ）はリアルタイムに音声をテキスト化するサービスだが、認識したテキストを英文などに変換し、人工知能（AI）の自動音声で再生できる。対応する言語は約30カ国語。会議の内容を記録しながら同時通訳のように使えるため、海外との商談時などに役立ちそうだ。

◆AI GIJIROKU（オルツ）

リアルタイムで音声をテキスト化する。事前に声紋登録を行えば、話者を認識して発言ごとに名前を変えることもできる。音声をリアルタイムで他言語に翻訳して読み上げる機能があり、同時通訳のようにも使える。スタンダード（10時間）/月額1500円（税込み）、ビジネス（100時間）/月額2万9800円（税込み）

【実際の使用例】

AI GIJIROKUや「音声議事録システム」（ユーザーローカル）、「Sloos」（QuantumCore）は、発言者を識別する「話者識別機能」も売りだ。サービスによっては会議前に参加者それぞれの声紋を登録したり、会議用URLを共有したりなどの準備が必要になるが、生成されたテキストに発言者の名前が自動で付加されるのは便利だ。実際のオンライン会議では話者を比較的識別できていたが、一つのマイクを共有する対面会議では識別精度が低かった。

◆音声議事録システム（ユーザーローカル）