口述筆記を育てるアプリ「Dragon Dictation」松村太郎のiPhone生活

» 2011年09月08日 23時19分 公開
[松村太郎,ITmedia]

 先日、ニュアンスコミュニケーションズを訪問し、同社のクラウド音声認識のSDKであるNMSP(Nuance Mobile Speech Platform)を活用した無料アプリ「Dragon Dictation」についてお話を伺ってきた。このアプリ、タイピングやフリック入力を介さずに、アイディアや頭にある言葉をテキストに起こすツールとして使えそうだ。

意外と選択肢が少なかったiPhoneの文字入力方法

 今、急に気付いたわけではないが、iPhoneの文字入力方法は、漢字変換システムなどを自由に選べるAndroidに比べると限られている。

 iPhoneで快適に日本語の文字を入力するには、「フリック入力に慣れる」という、タッチパネルとiOSのユーザーインタフェースに“我々が合わせる”という方法が最も確実である時点で、その選択肢の少なさを物語っている。その善し悪しはともかくとして、ストレスなくスピードを稼ぎたいなら、そうするしか現状はなさそうだ。

 他のソリューションを考えると、ATOK Padのようにかな漢字変換、予測変換の賢さを高めて文字入力のそもそものスピードを高める工夫も有効だ。あるいはフリック入力もフルキーボードからの入力も苦手という場合は、MetaMoJiの7notes miniが良さそうだ。手書きでかなと漢字を交ぜながら入力することができるようになり、そもそもPCを使っていなかったユーザーにとって親しみやすくなる。

 もし人に情報を伝えるということだけにフォーカスしたなら、文字やイラストをカメラで撮影してメールで送信することもできるだろう。標準のカメラアプリを使ってもいいし、少しスキャンしたようにキレイに送りたければ、JotNot Scannerなどのアプリで加工すればくっきりと見やすいメモにできる。これはEvernoteなどのクラウドノートに送り込む際にも便利だ。しかし情報がテキストデータになっておらず、画像として扱う意外には難しいのが問題だった。

Dragon Dication、音声入力をiPhoneで

Photo Dragon Dictationはボタンを押してしゃべるだけの簡単操作がポイント。最長60秒までの音声を連続で文字に変換してくれる

 バーチャルキーボード、手書きに続く第三の方法としては、音声入力がある。しかし、iOSには文字入力に利用できる音声入力システムは搭載されていない。そこで冒頭で触れたニュアンスのアプリDragon Dictationを活用してみた。

 使い方は簡単。アプリを起動して、録音ボタンを押すだけ。あとは普通の口語で喋り、「、」(てん)や「。」(まる)、「改行」といったキーワードを織り交ぜながら話しかけると、1セッション60秒まで連続して認識させることができる。続けて何回かのセッションに分けて認識させることで、文章を完成させられる。文字列をタップすれば削除、もしくは他の候補を選択することができるほか、キーボードを使った修正をすることもできる。

 認識させたメモは、SMS、メール、Facebook、Twitter、コピーと選べて、他のアプリやサービスに直接流し込むことができる。ぜひこれはEvernoteにも対応してほしいところだが、メールで送信することもできるので、Evernoteに音声認識をさせたテキストを送り込むことは可能だ。

 さて。ここからはウォーキング中の音声認識セッションをそのままコピペしてみよう。

 最近思うのは、限りある時間をどうやって有効活用しようかということです。多分考える仕事をしている人も、アウトプットしなければいけないし、人に伝えるときには、直接喋るか、文字などにする必要があります。すると、情報を伝える時間というのはかなり限られた環境になってしまいます。

 僕は文章書くという仕事柄、パソコンのキータイプは全くストレスがありません。しかし、裏を返せばストレスなく文字を入力する環境というのは、パソコンの前でもあります。つまり、思考を気持ちよくアウトプットする場所というのは、パソコンの前に縛られているということでもあります。

 では、もしもこの文章は、パソコンのキーボードの前ではない場所から書けたらどうでしょう。

 まさにここまでは、恵比寿から神泉まで歩いている間に、声て入力した文章です。 ニュアンスコミュニケーションズのDragon Dictationというアプリを使っています。iPhoneにイヤホンマイクを接続して、ウォーキングのスピードで歩きながら、ぶつぶつやっています。旧山手通りはウォーキングのメッカなので、すれ違うときには恥ずかしいんてすけれども。

 このDragon Dictationというアプリは、ニュアンスが持っているクラウド音声認識技術を活用して作られています。音声をクラウドで認識させるため、非常に高い音声認識効率を発揮してくれます。そのため、ここまでの文章は直さず入力ができています。

 さらに、クラウドの中にプロファイルをつくってくれるため、使えば使うほど音声認識の効率が高まっていきます。また、クラウドには音声で言語モデルを持っているため、アメリカの地方によって英語の発音が違う場合でも、iPhoneのGPSで、地方ごとに最適な音声認識を実現してくれます。」

 ここまで、Dragon Dictationで歩きながら認識させた文章だった。さすがにちょっと喋りながら歩いているのは奇妙なので、どちらかというとイヤホンマイクよりはiPhoneを耳に当てる電話スタイルの方が街中だと良さそうだ。

 あとは口調。どうしても音声認識が相手だと、「良く認識してもらおう」という気持ちが働くのか、改まったですます調になってしまいがちだ。しかしDragon Dictationでは、わりと砕けた言葉遣いでもちゃんと認識してくれて、自分の口調の特徴も学習してくれる。

 思っていること、頭の中にある言葉、アイデアをとりあえず紙やキーボードに書き出してみる「プライベートライティング」のセッションをよく実践しているが、場合によってはDragon Dictationをプライベートライティングならぬ、プライベートトーキングのセッションに活用すれば、ライティングとは違ったセッションになることも考えられる。

 アナウンサーとしてご活躍されている梶原しげる(@shigerukajiwara)さんに以前聞いた話では、140文字をアナウンスのスピードで読むとおよそ30秒程度になるそうだ。1回の認識は60秒までだが、聞き取りやすい速度で喋っても280文字。原稿を読むのでない限りは、相当頭の中がクリアにまとまっていないと、一続きに280文字喋ることもなかなか難しいのではないかと思う。

 さて、ユーザーとしては無料で優秀なクラウド型音声認識アプリを活用できるが、開発者もこのエンジンを活用することができる。冒頭にも書いたNMSPの開発者プログラム「NMDP」を2011年1月にスタートさせた。この開発者プログラムを利用すれば、自分のアプリの中に音声認識と文字化、音声合成、声紋認証、音声検索といった音声の入出力にまつわるサービスを入れることができるようになる。

 Appleに買収された音声対話型のコンシェルジュサービス「Siri」で使われているエンジンもニュアンスのもの。タッチインタフェースの次の音声入力のスタンダードとも目されている技術を、Dragon Dictationで体験してみてはいかがだろうか。

PhotoPhotoPhoto 録音したそばからテキスト化される。一度切って、続きを認識させることもできる。修正が必要な場合はソフトウェアキーボードで文字が変更可能。認識した結果はSMSやメールで送ったり、Facebookなどで共有したりできる
Button

プロフィール:松村太郎

Photo

東京、渋谷に生まれ、現在も東京で生活をしているジャーナル・コラムニスト、クリエイティブ・プランナー、DJ(クラブ、MC)。慶應義塾大学SFC研究所上席所員(訪問)。1997年頃より、コンピュータがある生活、ネットワーク、メディアなどを含む情報技術に興味を持つ。これらを研究するため、慶應義塾大学環境情報学部卒業、慶應義塾大学大学院政策・メディア研究科修士課程修了。大学・大学院時代から通じて、小檜山賢二研究室にて、ライフスタイルとパーソナルメディア(ウェブ/モバイル)の関係性について追求している。


Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年