面倒な議事録　AIが自動で文字起こし　実力やいかに？

2021年1月19日 3:00

ソースネクストが2020年12月に発売したAIボイスレコーダー「AutoMemo（オートメモ）」。公式オンラインストアでの販売価格は1万9800円（税込み、以下同）

ソースネクストから音声認識技術を活用した新しい製品が登場した。人工知能（AI）ボイスレコーダーの「AutoMemo（オートメモ）」だ。同社が2017年12月に発売したAI翻訳機「POCKETALK（ポケトーク）」は大ヒット商品となった。オートメモはポケトークで培った音声認識技術を、録音した音声をテキスト化することに応用した製品だ。

音声をテキストに変換する作業は「文字起こし」と呼ばれる。筆者のようなフリーライターや記者にとっては日常的な作業だが、とても手間がかかる。音声を録音したボイスレコーダーの「再生」と「一時停止」を繰り返しながら、手作業で文字をパソコンに入力していくためだ。聞き取りにくい箇所は、何度も音声を聞き返すこともしばしば。そのため文字起こしには、録音時間の2～3倍くらいの作業時間がかかるのが普通だ。

「文字起こしの手間を少しでも省けないか」というのは多くのライターや記者の積年の思い。ライターや記者以外でも会議の議事録を作成したり、受講した講義の内容をノートにまとめたりする人など、文字起こしの省力化に対するニーズは高い。

録音した音声から自動的に文字に変換してくれれば、音声を聞き直さなくても内容を確認でき、再編集するのも最小限の手間で済むのではないか――。こうした期待からボイスレコーダー利用者の注目を集めているのがAutoMemoだ。早速、製品を取り寄せ、実用に足るか検証してみた。

ボイスレコーダーにしてはサイズが少し大きいが、胸ポケットへの収納は問題なし。さっと取り出して録音を始められる

音声のテキスト化はスマホアプリ経由で

AutoMemoの特徴から見ていこう。印象的なのが、ボタンがたった3つしかないシンプルな外観。端末の状態や操作メニューを表示するディスプレーすら見当たらない。そのため第一印象は、携帯音楽プレーヤーかと思ったほどだ。本体サイズは、幅41×高さ130×厚さ12ミリ。重さは86グラムで、一般的なボイスレコーダーに比べるとやや大ぶり。搭載するボタンは「電源」と「録音」、そして重要なポイントや話題の転換点に挿入する「ブックマーク」の計3つだ。

ボタンが少ないため、操作はとても簡単だ。本体の電源を入れたあと、録音ボタンを押すだけ。電源が入ると録音ボタン周りの発光ダイオード（LED）が点滅し、録音を開始すると今度はボタン中央部だけが点灯する。このためディスプレーがなくても、電源が入っているだけ（待ち受け状態）なのか、録音中なのかは一目で分かる。

AutoMemoの外観はとてもシンプル。本体前面にはボタンが2つあり、上が「録音」ボタン、下が「ブックマーク」ボタンになる

本体がこれほどシンプルに作られているのは、スマートフォンとの連携を前提としているからだ。録音データを聞き直したり、テキスト化した内容を確認したりするのも基本的にスマホアプリからとなる。肝心の音声をテキスト化するクラウドへのアップロードも、やはりスマホアプリから設定したWi-Fi（無線LAN）経由だ。そのため職場や相手の会社などで録音した場合は、自宅に帰ってきてからAutoMemoの電源を入れ、Wi-Fi経由でクラウドへアップロードする必要があった。

AutoMemoはスマートフォンと連携して使う製品。このため初回のセットアップ時、愛用のスマホ（iPhoneまたはAndroid）に専用アプリをインストールして機器同士の接続設定をする

音声のテキスト化にかかる時間は、メーカー公称で録音時間の3分の1。実際に30分ほどの録音データをアップロードしたところ、その半分となる15分ほどだった。変換精度は後述するとして、ここまでの流れは、自分で音声をテキスト化するよりも、大幅な時間短縮になっている。

なお音声のテキスト化は、1カ月1時間までなら無料で利用できる。月1時間を超える場合は、有料プランへの加入が必要だ。有料プランは、1カ月30時間分の音声をテキスト化できる「プレミアムプラン」（月額980円）と、音声10時間分のテキスト変換の権利を購入する「10時間チャージ」（1回980円）の2種類。21年1月上旬時点では、前者のプレミアムプランで申し込みから6カ月間は無料で利用できるキャンペーンを実施していた。

音声データのテキスト化は、無料だと月1時間まで。1時間を超えて音声をテキスト化したい場合は有料となり、月額課金の「プレミアムプラン」か「10時間分チャージ」のどちらかを選ぶ

取材や会議の音声は苦手なのか？

では、肝心の認識精度について検証していこう。今回はいくつかシーンを想定してテストを実施した。最初は会議室や、オープンスペースでの打ち合わせを想定したもの。2人での対面や4人程度の少人数で話し合うといった場面になる。コロナ禍でオフラインのミーティングが増えているが、顔をつき合わせた打ち合わせや会議がゼロになったわけではない。

テストではダミーの打ち合わせを設定し、会話をAutoMemoで録音。その音声をテキスト化してみた。さて気になる結果は……。

1つめのテストは対面や少人数の打ち合わせを想定。相手から1メートル以内にAutoMemoを置き、会話を録音した

手放しで「すごい！」「完璧」と言えれば良かったのだが、実はその逆。テキスト化された内容は、認識ミスや誤変換が多く、また音声が聞き取りにくかった箇所はテキスト化されずにバッサリ抜け落ちてしまった。書き起こした文章は句読点が付かず、ずらずら長い文章になってしまうのも気になる。正直言ってあまり読み返す気になれない代物だった。

ともいっていられないので、頑張ってテキスト化された内容を詳しくチェックしていった。するとメーカー名などの固有名詞、年月日など数字については認識精度が高く、正しくテキスト化できていた。しかし会話として成り立っておらず、会話内容の把握すらできない状態は変わらない。何度かテストしてみたが、雑音が大きいオープンスペースや相手の声が小さいときなどは、特に認識精度が低下した。

対面の打ち合わせの音声をテキスト化したのがこちら。確かにテキストには変換されているが、認識精度は悪い。読み返しても、話した内容が思い出せないほどだ

テスト結果は散々だったが、実際に使ってみるとAutoMemoの良さを感じる機能もあった。それは、スマホアプリ上で認識した文字から、発言した音声を一発再生できる機能だ。アプリ上の語句をタップすれば、文字の背景が青色になり、音声の再生位置が移動する。このため、たとえ変換ミスがあっても内容を瞬時に確かめることができた。ただ欲を言えば、アプリ上で文字の修正までできればなお良かった。せっかく音声で内容を聞き直すのだから、その場で文字を直したいと思ってしまう。

テキスト化した内容がわからないときは、その箇所を音声で聞き直す作業が必要になる。その手助けとなるのが、テキスト化した語句と音声とのリンクだ。語句をタップすると、その背景が青色に変わり、音声の再生位置が発言した箇所に移動する

ビデオ会議のテキスト化を試してみたが…

次に、テレワークを想定したテストを実施した。今は仕事で欠かせなくなったビデオ会議のやりとりをテキスト化できるか試してみた。

最初に断っておくと、AutoMemoは1メートルくらいの距離での話し合いを想定して設計されている。ビデオ会議のようにパソコンのスピーカーを通したやりとりの音声を認識するようには作られていない。ソースネクストも製品を紹介するウェブサイトで「ビデオ会議には向かない」と明記している。

実際はどうなのか。ノートパソコンの内蔵スピーカー付近にAutoMemoを置き、音量を上げた状態でテストしてみた。

結果はメーカーが非推奨としているだけあり、認識精度は対面で話したときよりも悪いという結果に。そもそもビデオ会議は、自分の耳でも相手の言葉が聞き取りにくいことが多い。いかにパソコンの音量を上げても、結果はダメだった。多くのノートパソコンはスピーカーも貧弱なので、さらに認識精度が低下するようだ。

ビデオ会議を録音し、テキスト化できるかを試した。利用したビデオ会議ソフトは「Zoom（ズーム）」。ノートパソコンの脇にAutoMemoを置き、スピーカーからの音声を録音している

左が対面の打ち合わせを録音し、そこからテキスト化した結果。右は、その対面打ち合わせをZoomで録音したものを、パソコンのスピーカーで再生してテキスト化したものになる。見比べると左の直接録音したデータより、ビデオ会議経由の方が認識精度は低い

さてここまで、あまり良いところが見られなかったAutoMemoだが、活躍するシーンはあるのか？

いろいろ試して分かってきたのは、話し方がゆっくりで、かつはっきりとした口調だと認識精度が高くなるということ。また事前に書いた原稿を読み上げるなど、文章として成り立っている発言内容のほうが、通常の会話よりも認識精度が良くなる傾向が見られた。

なぜなら議会や会合など、司会がいて議題を示し、発言者が一人ずつ登壇して話すという形式だと、AutoMemoの音声認識精度が格段に上がったからだ。発言者が変わるタイミングなど、一定時間無音になる場面があると、対面の打ち合わせをテキスト化したときにはほぼなかった、句読点や改行なども付く。文章としても読みやすくなり、内容もほぼ理解できる。このレベルでテキスト化できるなら、実用に足ると感じた。

議事進行をする会議を想定したのが、こちらのテスト結果。今までのテストに比べると、認識精度が格段に良い

AutoMemoが苦手とされるパソコンのスピーカーを通した会話の録音も、仕事柄よく参加しているあるオンラインの発表会ではそれなりにこなした。特に司会がいて、発言者がゆったりと説明する発表会は認識精度が良かった。配信にZoomではなく、大手の動画配信サービスを使っていて、比較的音質が良かったのも好結果につながったと思われる。

とあるメーカーのオンライン説明会をAutoMemoで録音し、テキスト化した。いくつか変換ミスはあるが、発言内容が理解できるほど認識精度は良かった

少し辛口のレビューとなってしまったが、AutoMemoはまだ発売されたばかり。AIによる音声認識は、機械学習などを用いてどんどん精度が上がっていくもの。今まさに向上の途中と考えたい。製品コンセプトは良いので、できるだけ早く、様々なシーンで実用に堪える製品へと進化してほしい。

（ライター　原如宏）

アプリで開く

春割ですべての記事が読み放題
有料会員が2カ月無料

春割で無料体験する無料会員に登録するログインする

有料会員限定

キーワード登録であなたの

重要なニュースを

ハイライト

登録したキーワードに該当する記事が紙面ビューアー上で赤い線に囲まれて表示されている画面例 — 日経電子版紙面ビューアー

詳しく見る

NIKKEI STYLE

ワークスタイルや暮らし・家計管理に役立つノウハウなどをまとめています。
※ NIKKEI STYLE は2023年にリニューアルしました。これまでに公開したコンテンツのほとんどは日経電子版などで引き続きご覧いただけます。

京都・佐々木酒造　洛中唯一の酒蔵、名水を生かす（2023年3月31日）
動物たちの求愛行動　繁殖のために何をしている？（2023年3月30日）

面倒な議事録　AIが自動で文字起こし　実力やいかに？

音声のテキスト化はスマホアプリ経由で

取材や会議の音声は苦手なのか？

ビデオ会議のテキスト化を試してみたが…

NIKKEI STYLE

仕事も趣味にも！最新ICレコーダーを選ぶ5項目

英語学習も可能に　音声翻訳機「ポケトーク」が進化

血液の「にごり」10秒で分かる　採血なし小型の脂質計

今食べたの何カロリー？　自動で測る「腕時計」試した

コップ1杯の水でスマホ2台分　災害に備える充電器3選

「スーパー派遣社員」育成　仕組み化

キッコーマン、インド14億人市場開拓

燕市の老舗メーカー製多機能爪ヤスリ

同世代の年収っていくらぐらい？

「シャカシャカしない」旬アウターは

血糖値が急上昇しない食べ方と工夫

海外高級賃貸がブームになる理由

造船疑獄が生んだ土光敏夫の「覚醒」

セレクション

トレンドウオッチ

日経ビジネス

日経クロステック

NIKKEI Prime

日経BizGate

日経転職版

日経ウーマノミクス

NIKKEI Smart Work

ニュースレターを登録すると続きが読めます（無料）

News Catch Up

ご登録ありがとうございました。

登録できませんでした。

登録できませんでした。

登録済みです。

_

イベント・セミナー

教育・キャリア

各種サービス

音声のテキスト化はスマホアプリ経由で

取材や会議の音声は苦手なのか？

ビデオ会議のテキスト化を試してみたが…

仕事も趣味にも！最新ICレコーダーを選ぶ5項目

英語学習も可能に 音声翻訳機「ポケトーク」が進化

血液の「にごり」10秒で分かる 採血なし小型の脂質計

今食べたの何カロリー？ 自動で測る「腕時計」試した

コップ1杯の水でスマホ2台分 災害に備える充電器3選

「スーパー派遣社員」育成 仕組み化

キッコーマン、インド14億人市場開拓

燕市の老舗メーカー製多機能爪ヤスリ

同世代の年収っていくらぐらい？

「シャカシャカしない」旬アウターは

血糖値が急上昇しない食べ方と工夫

海外高級賃貸がブームになる理由

造船疑獄が生んだ土光敏夫の「覚醒」

セレクション

ニュースレターを登録すると続きが読めます（無料）

News Catch Up

ご登録ありがとうございました。

登録できませんでした。

登録できませんでした。

登録済みです。

_

英語学習も可能に　音声翻訳機「ポケトーク」が進化

血液の「にごり」10秒で分かる　採血なし小型の脂質計

今食べたの何カロリー？　自動で測る「腕時計」試した

コップ1杯の水でスマホ2台分　災害に備える充電器3選

「スーパー派遣社員」育成　仕組み化