AIを活用するボイスレコーダーは、議事録作成を楽にしてくれるのか?
iFLYTEKのAIボイスレコーダー「VOITER」(型番:SR502J)
試用の前にまず、基本的なスペックからご紹介しよう。外見は少し厚めの小型スマートフォンと言ったところ。実際、右サイドにはSIMスロットが備わっているほかWi-Fiにも対応している。これらを利用してネットワークに接続することで、リアルタイムに文字起こしが可能になる。つまり、収録した音声を即座にテキスト化してくれるのだ。その後、音声ファイルを専用サーバーにアップロードすることでAIが文字起こしの精度を高めてくれる。ただし、音声データはどうしても容量がそれなりに大きくなってしまうため、接続環境がある場面ではモバイル通信よりもWi-Fiを活用したほうがいいだろう。
上部には指向性マイク、フロント面には無指向性マイクを搭載しており、最大距離10メートルの周囲360度の音声をきちんと拾えるようになっている。
背面には800万画素のカメラを備える。写真だけでなく動画の撮影も対応しており、字幕表示が可能になっている。ネットワークに接続している状態であれば、収録している動画にリアルタイムで字幕表示までできてしまう。
そして、音声から自動的にテキストを作る際の問題のひとつが周囲の雑音だ。こうしたノイズが正確な言葉を判別できなくしてしまうため、出力される文字がおかしくなってしまうことがよくある。ちなみにVOITERは隔年で開催される音声認識技術の国際コンテストである「CHiME」で、2016~2020年まで3回連続で一位となった技術が投入されているという。これにより、騒がしい場所でもかなり正確に文字化してくれるというのだ。ここに、クラウド上にてAIが修正を施す機能が加わることで、より精度が高い文章に仕上げてくれることが期待できる。
また、「会議」「講演」「取材」「標準」「メモ」「音楽」といったモードを選択できるため、状況に合わせた録音と認識が実行できるようになっている。本体内に保存された音声ファイルと文字起こししたテキストファイルは、操作画面からのメールアドレスへの送信・USBケーブルによるPCへのエクスポートなどが可能だ。あわせてiFLYTEKが提供するクラウドスペースを利用してのファイル管理も行える。
では、実際に自動音声認識文字化機能を試してみよう。実験内容はVOITERとスマートフォンを並べて机の上に置き、こちらのプレスリリースの一文を読み上げるというもの。句読点や括弧などは特に発音せず、ひとつの文章として見ていく。読み上げるのは以下の部分になる。
VOITERのモードは「標準」。対して比較するスマートフォン側で利用するアプリは、Googleが提供している「音声文字変換&音検知通知」だ。
まずは静かな場所で機器から40cmほどの距離から読み上げた。
VOITERの結果
スマートフォンの結果
社名やモデル名などの固有名詞がカタカナになってしまったり変化してしまったりするのはしかたのないところ。それ以外の部分を比較すると、VOITERのほうがより正確であることがわかる。しかも、句点を文章から自動認識して正しい場所に入れてくれているのがかなり便利だ。
次に、ノイズとしてボーカルなしの音楽をかなりの音量で流しつつ同様の距離から読み上げてみた。結果は以下のとおり。
音楽を流しながらのVOITERの結果
音楽を流しながらのスマートフォンの結果
さすがに両機とも認識のズレが発生しているが、VOITERのほうは相変わらず句点を入れてくれるうえ、遥かに元の文章に近い。スマートフォンによる「性格桃子」や「オクションソロコーナー」は、もうどうしてこうなった状態である。どちらも清書はしなければならないが、スマートフォンのほうはより苦労することが確実である。
ちなみにアップロード後の処理は、アップロード後24時間以内に終了する。ただし、優先的に処理してもらう「加速処理」も使用でき、こちらの場合は20分以内に完了する。現在はサーバーが空いているのか、数分で文字起こし処理が終わった。
今回のVOITERの結果を見る限り、この文字起こし精度の高さがあれば、議事録の作成もかなりラクになりそうだ。我々の職業としても、インタビューなどの取材時に実用的な精度が出ている印象だ。
現在、VOITERの販売はクラウドファンディングサイト「Makuake」のこちらのプロジェクトページで行なわれている。先行販売扱いで税込価格は最安で43,800円。やはり高機能だけに少々値は張るが、筆者としてはそれに見合うだけの活躍はしてくれそうだと評価したい。
最後にVOITERの細かいスペックをまとめておくと、ストレージが16GB、記録形式がオーディオはwavとaac、ビデオがmp4、テキストがtxt、画像がjpg。カメラは800万画素で、対応言語は日本語と英語。データ通信は4G、Wi-Fi、Bluetoothに対応。本体サイズがW62.26×D125×H14.8mmで重量が166g。
よりコンパクトな「VOITER mini」の販売も行なわれており、こちらはMakuakeの最安で税込価格が16,280円。本体サイズはW32×D55×15mmで重量が30g。