日経トレンディ

総合的に優れていたサービスはこれだ!

今回比較した音声文字起こしサービスは、正確な議事録を作るにはテキストの修正が必要になるものの、会議の大まかな流れや会話の文脈を後から振り返る用途にはどれも使えそうな印象だ。口語で自由に議論する会議ではなく、文章を読み上げてテキスト化する目的であれば認識精度はさらに高まる。

比較した7つのサービスの中で、使い勝手が総合的に優れていたのは「toruno(β版)」(リコー)だ。パソコンに専用ソフトをインストールする必要はあるが、リアルタイムで音声をテキスト化。会議の途中でも聞き逃した発言などをすぐに読み返せるのは便利だ。

秀逸なのが独自の画面キャプチャー機能。パソコンのディスプレー画面を30秒に1度自動で撮影し、テキストデータと合わせて時系列に保存していく。オンライン会議で画面共有されたスライドや資料などを見過ごしてしまっても、後から確認できるのは他には無い便利機能だ。

torunoはオンライン会議での利用を想定したサービスだが「ICレコーダーの録音データをパソコンで再生しながらtorunoを起動することで、音声認識機能を使うこともできる」(リコー)。現時点では「β版」のサービス(正式版の時期は未定)だが、記録した音声やテキスト、画面キャプチャーを容量無制限で保存できるのも大きな魅力だ。

◆toruno(β版)(リコー)

オンライン会議の音声をリアルタイムでテキスト化できる。画面を30秒に1度自動でキャプチャーして保存するなど機能性に優れる。記録した音声やテキストはクラウド上に容量無制限で保存できる。対応OSはWindowsのみ。月額1650円(税込み。10時間まで。10時間以上は1分2円)

【実際の使用例】

ユーザーインターフェースがシンプルで使いやすかったのが「RimoVoice」(Rimo)。ブラウザーでサービスにアクセスして録音開始ボタンを押すか、ICレコーダーなどで録音しておいた音声データをアップロードする方式だ。今回のテストでは、約30分の音声データをテキスト化するまでにかかった時間は約5分と高速だった。

特に便利なのが、音声の再生箇所のテキストをハイライト表示する機能だ。保存された会議の音声を聞き返しながら、文字の修正や編集などの作業がラクに行えた。スマホにも対応しており録音や再生が可能なだけでなく、パソコンと同じように再生時のハイライト表示や直接編集に対応。移動中でもスマホで議事録を整理できるのは便利だ。

◆RimoVoice(Rimo)

録音データをアップロードするとテキスト化するほか、直接録音もできる。全体的に洗練されたインターフェースで使いやすい。生成テキストは再生箇所がハイライト表示され編集しやすかった。動画ファイルにも対応。音声/30秒22円、動画/30秒33円、定額制/40時間まで11万円(すべて税込み)

【実際の使用例】

翻訳機能を組み合わせたユニークな音声文字起こしサービスもある。「AI GIJIROKU」(オルツ)はリアルタイムに音声をテキスト化するサービスだが、認識したテキストを英文などに変換し、人工知能(AI)の自動音声で再生できる。対応する言語は約30カ国語。会議の内容を記録しながら同時通訳のように使えるため、海外との商談時などに役立ちそうだ。

◆AI GIJIROKU(オルツ)

リアルタイムで音声をテキスト化する。事前に声紋登録を行えば、話者を認識して発言ごとに名前を変えることもできる。音声をリアルタイムで他言語に翻訳して読み上げる機能があり、同時通訳のようにも使える。スタンダード(10時間)/月額1500円(税込み)、ビジネス(100時間)/月額2万9800円(税込み)

【実際の使用例】

MONO TRENDY連載記事一覧