面倒な議事録 AIが自動で文字起こし 実力やいかに?
ソースネクストから音声認識技術を活用した新しい製品が登場した。人工知能(AI)ボイスレコーダーの「AutoMemo(オートメモ)」だ。同社が2017年12月に発売したAI翻訳機「POCKETALK(ポケトーク)」は大ヒット商品となった。オートメモはポケトークで培った音声認識技術を、録音した音声をテキスト化することに応用した製品だ。
音声をテキストに変換する作業は「文字起こし」と呼ばれる。筆者のようなフリーライターや記者にとっては日常的な作業だが、とても手間がかかる。音声を録音したボイスレコーダーの「再生」と「一時停止」を繰り返しながら、手作業で文字をパソコンに入力していくためだ。聞き取りにくい箇所は、何度も音声を聞き返すこともしばしば。そのため文字起こしには、録音時間の2~3倍くらいの作業時間がかかるのが普通だ。
「文字起こしの手間を少しでも省けないか」というのは多くのライターや記者の積年の思い。ライターや記者以外でも会議の議事録を作成したり、受講した講義の内容をノートにまとめたりする人など、文字起こしの省力化に対するニーズは高い。
録音した音声から自動的に文字に変換してくれれば、音声を聞き直さなくても内容を確認でき、再編集するのも最小限の手間で済むのではないか――。こうした期待からボイスレコーダー利用者の注目を集めているのがAutoMemoだ。早速、製品を取り寄せ、実用に足るか検証してみた。
音声のテキスト化はスマホアプリ経由で
AutoMemoの特徴から見ていこう。印象的なのが、ボタンがたった3つしかないシンプルな外観。端末の状態や操作メニューを表示するディスプレーすら見当たらない。そのため第一印象は、携帯音楽プレーヤーかと思ったほどだ。本体サイズは、幅41×高さ130×厚さ12ミリ。重さは86グラムで、一般的なボイスレコーダーに比べるとやや大ぶり。搭載するボタンは「電源」と「録音」、そして重要なポイントや話題の転換点に挿入する「ブックマーク」の計3つだ。
ボタンが少ないため、操作はとても簡単だ。本体の電源を入れたあと、録音ボタンを押すだけ。電源が入ると録音ボタン周りの発光ダイオード(LED)が点滅し、録音を開始すると今度はボタン中央部だけが点灯する。このためディスプレーがなくても、電源が入っているだけ(待ち受け状態)なのか、録音中なのかは一目で分かる。
本体がこれほどシンプルに作られているのは、スマートフォンとの連携を前提としているからだ。録音データを聞き直したり、テキスト化した内容を確認したりするのも基本的にスマホアプリからとなる。肝心の音声をテキスト化するクラウドへのアップロードも、やはりスマホアプリから設定したWi-Fi(無線LAN)経由だ。そのため職場や相手の会社などで録音した場合は、自宅に帰ってきてからAutoMemoの電源を入れ、Wi-Fi経由でクラウドへアップロードする必要があった。
音声のテキスト化にかかる時間は、メーカー公称で録音時間の3分の1。実際に30分ほどの録音データをアップロードしたところ、その半分となる15分ほどだった。変換精度は後述するとして、ここまでの流れは、自分で音声をテキスト化するよりも、大幅な時間短縮になっている。
なお音声のテキスト化は、1カ月1時間までなら無料で利用できる。月1時間を超える場合は、有料プランへの加入が必要だ。有料プランは、1カ月30時間分の音声をテキスト化できる「プレミアムプラン」(月額980円)と、音声10時間分のテキスト変換の権利を購入する「10時間チャージ」(1回980円)の2種類。21年1月上旬時点では、前者のプレミアムプランで申し込みから6カ月間は無料で利用できるキャンペーンを実施していた。
取材や会議の音声は苦手なのか?
では、肝心の認識精度について検証していこう。今回はいくつかシーンを想定してテストを実施した。最初は会議室や、オープンスペースでの打ち合わせを想定したもの。2人での対面や4人程度の少人数で話し合うといった場面になる。コロナ禍でオフラインのミーティングが増えているが、顔をつき合わせた打ち合わせや会議がゼロになったわけではない。
テストではダミーの打ち合わせを設定し、会話をAutoMemoで録音。その音声をテキスト化してみた。さて気になる結果は……。
手放しで「すごい!」「完璧」と言えれば良かったのだが、実はその逆。テキスト化された内容は、認識ミスや誤変換が多く、また音声が聞き取りにくかった箇所はテキスト化されずにバッサリ抜け落ちてしまった。書き起こした文章は句読点が付かず、ずらずら長い文章になってしまうのも気になる。正直言ってあまり読み返す気になれない代物だった。
ともいっていられないので、頑張ってテキスト化された内容を詳しくチェックしていった。するとメーカー名などの固有名詞、年月日など数字については認識精度が高く、正しくテキスト化できていた。しかし会話として成り立っておらず、会話内容の把握すらできない状態は変わらない。何度かテストしてみたが、雑音が大きいオープンスペースや相手の声が小さいときなどは、特に認識精度が低下した。
テスト結果は散々だったが、実際に使ってみるとAutoMemoの良さを感じる機能もあった。それは、スマホアプリ上で認識した文字から、発言した音声を一発再生できる機能だ。アプリ上の語句をタップすれば、文字の背景が青色になり、音声の再生位置が移動する。このため、たとえ変換ミスがあっても内容を瞬時に確かめることができた。ただ欲を言えば、アプリ上で文字の修正までできればなお良かった。せっかく音声で内容を聞き直すのだから、その場で文字を直したいと思ってしまう。
ビデオ会議のテキスト化を試してみたが…
次に、テレワークを想定したテストを実施した。今は仕事で欠かせなくなったビデオ会議のやりとりをテキスト化できるか試してみた。
最初に断っておくと、AutoMemoは1メートルくらいの距離での話し合いを想定して設計されている。ビデオ会議のようにパソコンのスピーカーを通したやりとりの音声を認識するようには作られていない。ソースネクストも製品を紹介するウェブサイトで「ビデオ会議には向かない」と明記している。
実際はどうなのか。ノートパソコンの内蔵スピーカー付近にAutoMemoを置き、音量を上げた状態でテストしてみた。
結果はメーカーが非推奨としているだけあり、認識精度は対面で話したときよりも悪いという結果に。そもそもビデオ会議は、自分の耳でも相手の言葉が聞き取りにくいことが多い。いかにパソコンの音量を上げても、結果はダメだった。多くのノートパソコンはスピーカーも貧弱なので、さらに認識精度が低下するようだ。
さてここまで、あまり良いところが見られなかったAutoMemoだが、活躍するシーンはあるのか?
いろいろ試して分かってきたのは、話し方がゆっくりで、かつはっきりとした口調だと認識精度が高くなるということ。また事前に書いた原稿を読み上げるなど、文章として成り立っている発言内容のほうが、通常の会話よりも認識精度が良くなる傾向が見られた。
なぜなら議会や会合など、司会がいて議題を示し、発言者が一人ずつ登壇して話すという形式だと、AutoMemoの音声認識精度が格段に上がったからだ。発言者が変わるタイミングなど、一定時間無音になる場面があると、対面の打ち合わせをテキスト化したときにはほぼなかった、句読点や改行なども付く。文章としても読みやすくなり、内容もほぼ理解できる。このレベルでテキスト化できるなら、実用に足ると感じた。
AutoMemoが苦手とされるパソコンのスピーカーを通した会話の録音も、仕事柄よく参加しているあるオンラインの発表会ではそれなりにこなした。特に司会がいて、発言者がゆったりと説明する発表会は認識精度が良かった。配信にZoomではなく、大手の動画配信サービスを使っていて、比較的音質が良かったのも好結果につながったと思われる。
少し辛口のレビューとなってしまったが、AutoMemoはまだ発売されたばかり。AIによる音声認識は、機械学習などを用いてどんどん精度が上がっていくもの。今まさに向上の途中と考えたい。製品コンセプトは良いので、できるだけ早く、様々なシーンで実用に堪える製品へと進化してほしい。
(ライター 原如宏)
ワークスタイルや暮らし・家計管理に役立つノウハウなどをまとめています。
※ NIKKEI STYLE は2023年にリニューアルしました。これまでに公開したコンテンツのほとんどは日経電子版などで引き続きご覧いただけます。