音声入力とのつき合い方

夢の技術……音声入力

昔、『スタートレック』というSFドラマで、登場人物が「コンピューター、X月X日の記録を検索!」と話すと、コンピューターが即時に処理をしてくれる場面に憧れた記憶があります。

実際にそのドラマの中では航海日誌を記録するときには、コンピューターに向かって口頭で起きたことを話し、それが記録されるという便利な世界でした。

一昔前はSFドラマでしかなかったことが、現実になってきている実感がわきます。でも、現状ではドラマのようにすらすらと記憶してもらうというところまでは至っていません。惜しいところまで来ているのですが、まだまだ工夫が必要です。

試しに議事録で使う

議事録のボイスメモを残す事は一般的ですが、その音声データを音声認識にかけてみると、とても便利な気がします。しかし実際にやってみると、意味不明なメモができ上がります。

音声認識自体の課題もありますが、複数の人間が同時にしゃべるとその処理で躓くことがほとんどです。(もっともそれは人間である私も無理ですけどね)

まだ誰がしゃべったかという区別もできません。1時間程度の議事録を音声認識で作成すると、実際にはその手直しで時間がたってしまうことも珍しくありません。

特に意味不明な部分の修正は大変です。また一般的な議事録では、一言一句、すべてを忠実に書くことは要求されてないことがほとんどです。

そこで、議事録を作成するにあたって現実的な方法としては、ボイスメモを聞きながら、重要な部分だけを自分の口で音声認識に伝える形か最適です。

音声辞書が登録できる場合は、あらかじめ『かっこやまだ』を『(山田)』などに変換できるようにしておいて、結論を話した後に『かっこやまだ』と音声入力すると便利です。

だから入力補助として使う

SFドラマのようにすべて音声入力で賄おうとするのは無理があります。特に音声入力の最初のうちは音声入力そのものよりも、訂正の方が多くなります。

よく聞く話では最初のうちに手間をかけておけば後が楽になると思い、音声入力の修正の設定ばかりに時間がかかることも珍しくないようです。

私もすべて音声入力で行いたいのですが、実際のところはタイピングと音声入力のハイブリッドです。キーボードを使って入力をするのですが、面倒くさいところだけ音声入力を使う感じです。最初の内はこの方法になかなか行き当たりませんでした。

すべてを音声入力にさせてしまいたくなるのですが、逆に遅くなるというジレンマを抱えていました。

本当に細かいところの入力がうまくいかないことでストレスをため込んでもいたのですが、基本的にはタイピングで入力を続けていき、疲れたところで音声入力を使うとか、長いキーワードだけど、音声入力を使って入力すると非常に便利です。

つまり、入力の方法として指と声の両方をハイブリッドで使っていく感じです。ちなみにあくまで入力補助ということですから、基本的認識にその修正は手作業で実施します。その方はストレスも少なくて早いです。

ブレーンストーミングで使う

基本的に文章がタイピングで進めていくのですが、まだ考えがまとまっていないときに何度も打ち直していくのは疲れます。そういう時に音声認識は非常にパワフルです。

誰かと話をするような勢いで言葉を列挙することができます。例えば、AmiVoiceのように「改行」といえば、実際に改行してくれるようなソフトウェアを使った場合、腕を組んで天井を見つめながら、

  • 手元を見ないで入力する (改行)
  • 画面を見ないで入力する (改行)
  • 入力時の疲れを減らす (改行)
  • 完全にリラックスした状態で考える (改行)

のように、頭の中の言葉をコンピューターに吐き出していくことできます。
実際にこの箇条書きも音声認識を使って天井を眺めながら、入力したものです。

やってみるとよくわかりますが、思った以上にこの機能は便利です。

大事なのは外付け音声マイク

私自身もそうだったのですが、音声認識ソフトを使った最初の印象は「認識精度が悪すぎて使い物にならない」でした。
音声認識の精度が低いとソフトウェアの評価を下げたくなるのですが、そういう時に一つだけチェックして欲しいことがあります。

とても単純です。

「パソコンに向かって話し掛けていませんか?」

……ということです。

最近のノートパソコンにはマイクがついています。それならこのマイクを使ってしまおう。私もそう思っていました。
ちょうどパソコンに話しかけるような感じです。それで音声認識させたフレーズは意味不明な宇宙人の言葉のようになっていました。

あまりの認識精度の低さにイラつきながら原因をサイトで調べてみました。

すると同じような人がいたもので、音声認識で最も大切なのはマイクの品質だと書いてありました。
正直なところ意外ですよね。結論から言えば外付けマイクを使ってみると、使う前に比べると雲泥の差です。100%とまではいきませんが、実用になったかなと思える程度の品質になりました。

選んだのは1000円台のヘッドセット

近くのパソコンショップに行って外付けマイクを探してみました。私が持っているパソコンでは音声ミニプラグが使えないので、ありもののマイクは使えませんでした。

すると選択肢としてはBluetoothかUSB接続のいずれかになります。本当はBluetoothのマイクを探そうとしたのですが、通話用の耳に差し込むタイプがほとんどでそれだと口元までマイクが届きません。

お高いアメリカ製のデバイスの中には、耳に差し込むタイプでマイクが口まで届かなくても、明瞭に入力できる骨伝導マイクもあるにはあるのですが、今回の予算では断念しました。

もっとも購入時点では音声マイクの品質で解決するかどうか半信半疑だったので、そこまでマイクにお金をかける気持ちにはなれなかったのですが。

エレコム ヘッドセット マイク USB 両耳 オーバーヘッド 片出しケーブル 1.8m HS-HP28UBK

大切なことは、

  • マイクと口の距離が5センチ以内になること
  • ノイズキャンセルマイクであること

の2点です。
2000円以内の出費で、快適な音声入力はできると考えればかなりお買い得といえます。

音声認識ソフト

とりあえず私が使っているのはAmiVoice SPという音声認識ソフトです。今は大幅に音声認識辞書が拡張されたSP2が発売されているようですが、SPでもそれほど困っていません。あくまでも「入力支援」なので。

ちなみにAmiVoiceの評判をAmazonで覗いてみると、さんざんな結果になっています。

音声認識ソフトに過剰な期待をしすぎたということもあると思いますが、書き込み内容をよく見てみると、必要に迫られて急いで使った人が多いような気がします。つまり外部マイクを買う余裕はなさそうなケースがほとんどです。

外部マイクを最初から使っていればこんな事にならなかったかもしれません。

AmiVoice SP2(Windows)

PCで使える音声認識ソフトはAmiVoiceの他にも、ドラゴンスピーチというソフトウェアが有名です。(Mac版は「dragon dictation」)

どちらがすぐれているか……という検証をしているサイトもたくさんあるようです。いろいろと見てみると、ドラゴンスピーチの音声認識もかなりよくできているようです。

とはいえ、音声認識ソフトそこそこ値段が高いので、無料で使いたい人は次のような選択肢もあります。

Googleドキュメントは、「ツール」→「音声入力」で音声入力が可能になります。そのままドキュメントになるので、お金を使わずに音声認識ソフトウェアを使うなら、この方法がオススメです。

音声認識精度も高いのでストレスなく入力ができると思います。検索分野の大御所ということもあり、認識するキーワードも最初から多いような気がします。(もっとも、そもそもキーワード登録はできませんが)

その他ではWatsonの「Speech To Text」も無料で音声認識を使えます。精度もなかなかのようですが、対話形式での出力になりますので、そのままドキュメント作るのであれば、Googleドキュメントを使った方がいいかもしれません。

過度の期待を持たずに使う

今から10年後の未来ではもう少し状況が変わっているかもしれませんが、現時点の技術では、音声認識を完全に信頼しきった文字入力は難しいのが現実です。

また、滑舌のよさも試されるため、ソフトだけではなく利用者のスキルアップも必要となります。そのため早口でしゃべると、あとから修正の都合ばかり増えるということも起こります。慣れがある程度必要です。

実はこの文章もほとんど音声認識で書いてみました。手入力とのコラボレーションで、肩凝りに苦しむこともなく快適に入力することできました。慣れてきたこともあると思いますが。

繰り返しになりますが、基本的には自分でタッチタイピングをして、面倒なところだけ音声認識にするという使い方が実にオススメです。
文字入力に音声認識を使う価値は十分にあると思います。

無料のサービスでも一度使ってみて便利体験をぜひしてみてください。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA