返信先: Google音声認識を利用した他のWindows用ソフト

#66424
みち
ゲスト

わいひらさま

確かに気温差があると風邪をひいたり体調を調崩しやすいですね。
布団もかけすぎると暑かったり、かといってかけないと寒かったり厄介ですね。
僕は新潟に住んでいるのですが、今日は寒い一日でした。

■補正テーブルの初期設定について

こちら、「ひらがなのの」とかだと何か問題がありましたでしょうか。

すみません。「なにぬねののの」と投稿したのはミスでした。
ただこちらに関しては、色々と試してみた結果以下のようにしたいと思います。
・「何々の」⇒「の」
・「何々と」⇒「と」
・「何々に」⇒「に」
上記のように頭に「何々」をつけた時に「何々」を除去して入力するようにすれば、一文字だけ入力する場合も、後に言葉を続けて入力する場合も自然に音声入力できるように思います。

※もし今まで使っていた補正テーブルを使用したい場合は、使用したい補正テーブル(旧バージョンの補正テーブル)を名前を変更するなどしてから新しいバージョンの「補正テーブル」フォルダにコピーしてもらえればそのまま使えます。

■引用符の音声入力方法について

ここは、カッコみたいに「とじ」だと何か問題がありましたでしょうか。
カッコと引用符の発生が統一されていた方が覚えやすいかなと思いまして。

こちらに関しては、実は最初は僕も「とじ」にしようと思っていたのですが、「いんようふとじ」と発音させて音声認識させてみるとGoogleの音声認識結果は「引用太字」や「24太字」や「引用二次」など意味の通じないような認識結果になって、安定してうまく「’」を音声入力できないかもしれないと思い。
「いんようふとじる」のようにしました。

ただ、わいひらさんのおっしゃる通り統一した方が覚えやすいように思いますので、引用符に関しては「いんようふとじ」でも「いんようふとじる」でもどちらでも音声入力できるようにしておこうと思います。

■その他記号の音声入力方法について
一部の記号については前回の投稿した入力方法から若干変更を加えています。
「プラス」や「マイナス」などはカタカナで入力したい場合もあると思いますので、
「+」、「-」の入力方法は「ぷらすきごう」や「まいなすきごう」のようにしています。

また「バックスラッシュ」に関してはSokki Voiceの画面では「¥」と表示されるので、入力方法は「えんきごう」としました。
他にも文字で入力したい時の妨げにならないように微調整加えています。

■ブラウザーの外からの音声認識のオンオフ切替について

こちらに関しては今回は断念しましたが、いつになるか分かりませんがいつか対応したいと思いますので、気長に待っていただけたらと思います。

そういう仕様なんですね。残念。
バックグランドでは常にアクティブにしておいて、GoogleのAPIに「送信する/送信しない」みたいにはできないんですね。

今回試したのはjavascriptの「setTimeout」や「setInterval」を利用して一定の間隔で音声認識画面からSpeech_Input.exeに通信を試みる方法でした。上記の関数は音声認識画面がアクティブな場合は指定したタイマーで動いてくれますが、アクティブではない場合(他のタブが表示されている場合など)では、どんなに短いタイマーを設定しても1秒に一回以上は動いてくれない等、こちらが意図したとおりに動かないケースがあることが今回分かりました。
前回の投稿で5分経つと動かなくなると書きましたが、全く動かないわけではなく動く頻度が極端に落ちると言った感じです。そしてまた音声認識画面を表示すると指定したとおりに動き出すといった感じです。

※音声認識(音声入力)自体は音声認識画面がアクティブじゃない状態が5分以上続いてもできています。

音声認識アクティブの場合は、発声するとブラウザが即座にAPIを使っちゃうみたいな感じなんでしょうか。

Google ChromeとGoogleのサーバーでどのように通信が行われているかまでは情報がないので分かりません。
ただ推測になりますが、Google Chromeがマイクが検出した「ノイズを含む音」と「人の話した声」を区別しているということは考えにくいので、音声認識中は発声の有無に関わらず、マイクが検出した音(無音時のノイズも含む)を全てGoogleのサーバーに送信しているのではないかと推測します。
そしてGoogleのサーバーが送られてきた音の中に「人の話した声」が含まれている場合はその声をテキストに変換してGoogle Chromeに送信しているのではないかと思います。

GoogleのサーバーからGoogle Chromeに音声認識がから送られてくると、そこでイベントが起きるので音声認識画面がアクティブではなくても、音声認識結果をSpeech_Input.exeに送信することができています。

僕は、10月25日から骨の手術のため数週間入院予定なので、バージョンアップ時期がちょうど重なってしまい動作確認をさせていただくとしても、退院後になると思います。
恐れ入りますがよろしくお願いいたします。

そうだったのですね。お体を大事にして無理はなさらないでください。
また大変参考になる意見を色々とありがとうございます。

こちらこそよろしくお願いいたします。

NO IMAGE
この記事をお届けした
寝ログの最新ニュース情報を、
いいねしてチェックしよう!