2019年11月07日

音声認識の進化

 ネット環境のない会場で、パソコンをネットに繋げる方法を尋ねられました。
 なぜネット環境が必要かというと、グーグルがオンラインで公開しているソフトを使うと、講演者が話した言葉を認識して漢字変換までしてくれるから、との事でした。
 そこで、テザリング機能でネットに繋ぐ方法を説明しつつ、その「音声認識機能」を見るために、現場に行きました。
 そのアプリはグーグルドキュメントでした。
 5年くらい前に初めて見た時は、オンラインで使えるワード・エクセル互換アプリ、という印象しかありませんでした。
 しかし、今日見たグーグルドキュメントの機能は衝撃的なものでした。
 実際に、パソコンに繋がったマイクのスイッチを入れると、その会話を自動的に漢字変換までしてくれるのです。
 もちろん、認識ミスや変換ミスもあるのですが、グーグルドキュメント上で修正できます。同じ言葉を何度も誤認識していても、置き換え機能を使えば、一発で全てが訂正できるため、修正も短時間でできます。

 6年くらい前に、Androidタブレット講座を仕事でやったのですが、その時の項目に「音声認識」がありました。当時の機能は実用レベルに達しないものだったので、えらく難儀したものでした。
 それ以来、音声入力に、いい印象はなかったのですが、6年ぶりに見たそれは、かつてとは桁外れの精度と変換機能がついていました。
 当たり前ですが、6年も経てば技術は格段に進歩するものだと思いました。
 もうしばらくすれば、複数の人間の声を認識し、声が変わると自動的に改行する、などという機能もこのグーグルドキュメントに実装するのだろうな、などと思いました。
 当然ながらスマホ版にも同じアプリはあります。したがって、マイクやネット環境がなくても、スマホに向かった話し、それをパソコンで編集することも可能なわけです。
 数年前に、テープ起こしの作業をやり、そのかなり時間をかけたものでした。しかし、これがあれば、テープ起こしという作業自体が不要になるわけです。
 技術の進化に驚いた一日となりました。

2019年11月07日 17:21