Google音声認識を利用した他のWindows用ソフト

ホーム フォーラム お問い合わせ・ブログや記事に関する質問など Google音声認識を利用した他のWindows用ソフト

  • このトピックには43件の返信、1人の参加者があり、最後にみちにより5日、 14時間前に更新されました。
15件の投稿を表示中 - 16 - 30件目 (全44件中)
  • 投稿者
    投稿
  • #66233 返信
    みち
    ゲスト

    わいひらさま

    Amazon のギフト券確かに届きました。
    ありがとうございます。
    ソフトウェア開発に有効活用させていただきます。

    また何かありましたら連絡下さい。

    よろしくお願いします。

    #66362 返信
    わいひら
    キーマスター

    「話してパソコン入力」で、発声をしてから外部アプリに転送するまでの時間、何も出ない時間が結構気になります。
    特に音声変換に長い時間かかると、認識失敗なのか、認識しているけど結果が出ていないだけなのか、結構な時間待つ必要があります。そして認識失敗していると、また同じ時間待つ必要があります。

    Googleに送って戻ってくるまで時間がかかるので、待ち時間はしょうがないと思います。
    そこで、例えばなんですけど、AmiVoiceの場合は対象アプリに対して音声変換中、以下のように変換内容が表示されます。

    もちろん、ここまで詳細な情報は必要ないのですが、対象アプリのカーソル部分に発声した音声だけでも文字として表示することはできないでしょうか。

    Chromeのタブを見たところを、発声した声はGoogleに送信する前に即座に表示はできているみたいなので

    ですので、AmiVoiceのようにアプリのカーソル部分に表示するとまではいかなくても、発声中のダイアログ表示みたいな感じで、音声変換中はその部分に「発声したテキスト(間違っててもよい)」だけでも表示させることはできないでしょうか。

    そのようにすることで、同じ待ち時間であってもストレスが少なくなるように思います。
    ※テキスト表示が無理であれば、ダイアログに変換中みたいなアニメーション等。

    インストールなどをするのに、待ち時間がある場合、プログレスバーがあれば同じ待ち時間でも短く感じるみたいな効果があればと思いました。
    発声から出力まで長いときは10秒くらいかかる時もあるので、以下の待ち時間対策的な効果があるものがあれば幸いです。
    https://www.use-eng.co.jp/appdev/post/765

    #66364 返信
    わいひら
    キーマスター

    あと、半角英数字等に変換された場合、単語の前後に半角スペースがなくすことができるオプションなどをつけることはできますでしょうか。

    もしAPIとかにそういったオプションがあれば変更できるようにしていただけると幸いです。
    APIでできなそうであれば難しそうではありますが^^;

    #66365 返信
    みち
    ゲスト

    わいひらさま

    ウェブサイトにソフトの愛称を反映させました。

    次回のアップデートは10月中を目標にしてますが、最近いろいろ仕事が忙しくてもしかしたら11月に入ってしまうかもしれません。構想はあるのですが、まだ実際にプログラムを試せていません。
    遅くなった場合はすみません。

    ■次に、リアルタイムでのブラウザ外への認識結果の表示は難しいかもしれません。

    現在の「音声検出」ダイアログは変換がはじまると表示されて、変換が終わると閉じるダイアログになります。なので「音声検出ダイアログ」が表示されている間は変換中だと思っていただいて構いません
    さしあったて次のアップデートで「音声検出」の文字を「変換中」に変更しようと思います。

    このソフトの実行ファイル「Speech_Input.exe」はブラウザと通信するローカルサーバーソフトです。
    ベクターへのソフト公開前ですが、ChromeとSpeech_Input.exeの通信でちょくちょくエラーが起こる現象が起きていました。はっきりした原因はわかりませんでしたが、短い時間の中で連続で通信しないように制御したところこのエラーが起こらなくなりまた(その辺のトライ&エラーでJavaScriptのソースコードはかなりゴタゴタしました)。
    リアルタイムでブラウザ外で認識結果を表示するためには、短時間の間に何度も通信する必要があるのでソフトがちゃんと動くかわかりません。

    あと言い訳っぽく聞こえるかもしれませんがGoogleの音声認識は、変換中の文字が確定する時にガラッと変わる事が結構あるので、実装できたとしてもどの確定前の認識結果がどの程度参考になるか疑問があります。

    私は変換が上手くいってようがいっていまいが、最後まで話しきってから、誤認識の部分を選択して、再度音声入力で修正しています。

    ・・・とはいいつつも私も入力先アプリへのリアルタイム表示は気になっている部分でもありますが。

    ■AmiVoiceのような入力先アプリへのリアルタイムでの表示については、私の知識不足でインターフェースが良くわかりません・・・もう少しWindowsに関する深い知識が必要です。

    ■半角スペースの除去については、私ももう少しなんとかしたいと思っていました。
    APIのオプションはありませんが、検討してみたいと思います。

    よろしくお願いします。

    #66396 返信
    みち
    ゲスト

    わいひらさま

    すみません。
    外部アプリへ入力するのタイムラグについてですが、投稿内容の読み間違いをしてました。

    ブラウザに表示されている認識結果はすでにGoogleで変換された結果になります。

    投稿された動画を見ると認識結果が確定したあとにタイムラグが発生していますが、これに関してはブラウザとSpeech_Input.exeの通信と外部アプリへの送信に時間がかかっている事によるタイムラグだと思われます。

    私の端末(2台)では、あまりタイムラグは発生してません。

    もし、カーソルが外部アプリにあっているにもかかわらず、ブラウザの確定した変換結果(赤い文字)が外部アプリに入力されない事があるようでしたら、それはブラウザとSpeech_Input.exeの間で通信エラーが発生してるのだと思います。

    #66397 返信
    みち
    ゲスト

    すみません。

    タイムラグに関しては、どの外部アプリに入力するときも同程度発生すのるでしょうか?

    あと起動しているアプリの数によってタイムラグの増減があるのかなど教えていただけたらありがたいです。

    それと大変申し訳無いのですが、このタイムラグに関しては対策が難しいかもしれません。

    #66400 返信
    わいひら
    キーマスター

    タイムラグに関しては、どの外部アプリに入力するときも同程度発生すのるでしょうか?

    返信が遅くなり申し訳ありません。
    僕の環境だと以前では「音声検出」のダイアログが出てから(長い場合は)5~10秒くらいたってアプリに送信されていました。
    けれど、その後パソコンを再起動することがあったのですがそれ以降はかなり早くなりました。

    僕の試したアプリは、大昔にDelphiで自作したメモ用アプリです。
    https://nelog.jp/wp-content/uploads/2021/09/r-1.gif
    Windows のメモ帳で試したら更に早くなりました。
    https://nelog.jp/wp-content/uploads/2021/09/r1.gif
    もう10年以上前に作った自作のアプリのため、それが原因の可能性も高いかもしれません。
    今度から、メモ帳で書くようにし送信が遅くなったら再起動しようと思います。

    #66401 返信
    わいひら
    キーマスター

    ブラウザに表示されている認識結果はすでにGoogleで変換された結果になります。

    Webを通しているから時間がかかっているのかと思いましたが、だとしたらめちゃくちゃレスポンスが早いんですね。

    これに関してはブラウザとSpeech_Input.exeの通信と外部アプリへの送信に時間がかかっている事によるタイムラグだと思われます。

    アプリへの送信に時間がかかっていたんですね。
    パソコンを再起動してからはめちゃくちゃ早くなりました。
    僕の環境に問題があったようです。失礼いたしました。

    #66402 返信
    わいひら
    キーマスター

    ソフトの愛称は「Sokki Voice」にしました(2021/9/24)。
    https://circle-road.com/

    ソフトの愛称は「Sokki Voice」になったんですね。
    短い上に、ある程度どんなことができるソフトか分かるいい名前ですね。

    次回のアップデートは10月中を目標にしてますが、最近いろいろ仕事が忙しくてもしかしたら11月に入ってしまうかもしれません。構想はあるのですが、まだ実際にプログラムを試せていません。
    遅くなった場合はすみません。

    承知いたしました。
    バージョンアップされましたら、愛称「Sokki Voice」で記事を書こうと思います。

    #66404 返信
    わいひら
    キーマスター

    本日計測してみたところ、アプリによる出力時間の違いはそこまで変わりませんでした。
    どうやら、Windows を長いこと再起動していなかったこと、もしくは「Sokki Voice」を何日間も起動したままにしておいたのが原因だったのかもしれません。

    次に同様の症状になりましたら、まずは「Sokki Voice」を再起動して症状が改善するかを確認し、次に Windows を再起動して確認し、どっちが原因だったのかを特定したいと思います。

    #66405 返信
    みち
    ゲスト

    わいひらさま

    とりあえずはソフトの動作が速くなって良かったです。

    タイムラグが5秒~10秒も発生するという事があるというのは考えてませんでした。
    (私の端末では大体0.02秒くらいの体感できないレベルのタイムラグでした。)

    私も通信が遅くなる原因を調べてみたのですが、今回のケースとは関係ないかもしれませんが、
    セキュリティソフトが通信内容をチェックするために待ちが生じて通信に時間がかかかるという
    ような可能もあるかもしれません。Sokki VoiceはPC内の通信なので、セキュリティソフトがチェックするか
    どうかはわかりませんが。
    その場合は信頼済みのURLに登録するなどすれば良いようです。

    次にアップデートに関してですが、
    ■半角スペースの削除に関して:
    アルファベット間の半角スペースとアルファベットと数字の間の半角スペースは残して、それ以外の半角スペースは削除する事は可能でしたので次回アップデートに含めようと思います。

    ■ブラウザー外からの音声認識オンオフの切り替えについては、
    二つの方法を試してみました。

    ・一つ目は、タスクバーのアイコンを選択して、音声認識オンオフを切り替えるダイアログをクリックして切り替える方法

    ・二つ目は、ディスプレイの下の方(タスクバーの少し上)の邪魔にならない位置に常に最前面に小さいダイアログを表示して、そのダイアログ内にON/OFF切り替えボタンと現在の状態を表示して、音声認識のオンオフを切り替える方法です。

    実際に試してみた感じとしては操作性については二つ目の方が良さそうでした。
    ただこちらに関しては、タイムラグが発生する場合などイレギュラーなケースにどう対応するかなども検討が必要で、少し慎重に進めたいと思いますので、10月のアップデートには含めない可能性が高いです。

    よろしくお願いします。

    #66410 返信
    わいひら
    キーマスター

    体調不良によりサイトはあまり見ておらず、返信が遅れてしまって申しわけありません。

    タイムラグが5秒~10秒も発生するという事があるというのは考えてませんでした。
    (私の端末では大体0.02秒くらいの体感できないレベルのタイムラグでした。)

    僕の環境の場合、電源は常につけっぱなしのため一か月以上も稼働させていたのも良くなかったのかもしれません。
    とりあえず、前回の書き込みから今日までは以前ほどのタイムラグは発生していないようです。

    セキュリティソフトが通信内容をチェックするために待ちが生じて通信に時間がかかかるというような可能もあるかもしれません。

    今のところ使っているセキュリティソフトは Windows デフォルトのものですが、頭の中に入れておきます。

    ■半角スペースの削除に関して:
    アルファベット間の半角スペースとアルファベットと数字の間の半角スペースは残して、それ以外の半角スペースは削除する事は可能でしたので次回アップデートに含めようと思います。

    それは消す作業が省けるのでありがたいです。ありがとうございます

    ・二つ目は、ディスプレイの下の方(タスクバーの少し上)の邪魔にならない位置に常に最前面に小さいダイアログを表示して、そのダイアログ内にON/OFF切り替えボタンと現在の状態を表示して、音声認識のオンオフを切り替える方法です。

    AmiVoice も似たような感じですよね。確かにこちらの方が、ひと手間省けるので楽かもしれませんね。

    ただこちらに関しては、タイムラグが発生する場合などイレギュラーなケースにどう対応するかなども検討が必要で、少し慎重に進めたいと思いますので、10月のアップデートには含めない可能性が高いです。

    承知いたしました。
    アップデートを楽しみにしております!

    #66413 返信
    みち
    ゲスト

    わいひら様

    体調不良によりサイトはあまり見ておらず、返信が遅れてしまって申しわけありません。

    お体は大丈夫ですか?返事はいつでもいいので無理はしないでください。

    次回のアップデートの内容が確定しました。

    ■「」などの記号の入力について
    現在:補正テーブルで設定して入力する形。

    アップデート後:チェックボックスにチェックを入れると、選択している補正テーブルにかかわらずあらかじめ設定してある発音方法で音声入力できるようになります。(ユーザーの設定は不要)
    記号を追加したい場合は補正テーブルから追加することも可能。

    ソフトの画面から入力する記号と発音のリストを確認できるようにします。(「 ⇒ かぎかっこ etc)

    ■補正テーブルの初期設定について
    「なにぬねののの」などを追加します

    ■EXEファイル名とショートカットのリンク名
    今回のアップデートでSpeech_Input.exeをSokkiVoice.exeに変更します。
    ショートカットのリンク名はSokki Voiceに変更します。

    ■半角スペースの処理に対して
    前回の投稿内容の通りです。

    ■音声認識されない空白の時間が発生する問題に対修正
    標準モードで音声認識画面がアクティブではない状態で、音声入力後やく2秒程度音声が認識されない
    時間が発生する問題を修正しました(音声入力後すぐに次の音声認識がされない)。
    一言モードでも音声が認識されない時間が発生しますが0.7秒程度で、実用する上では問題ないレベルでした。一言モードに対しても同様に修正しています。

    ■ブラウザ外からの音声認識のON/OFF切り替えについて
    今回は断念しました。実は画面も作っていたのでできれば取り入れたかったのですが・・・

    ブラウザから一定の時間間隔で繰り返しSpeech_Input.exeに現在のステータスなどを送信して、その応答で音声認識のON/OFFを切り替えようと思っていましたが、音声認識画面がアクティブではない状態が5分続くと、繰り返しの処理が中断されてしまう事が決定的な理由です。(ブラウザの仕様だと思います)。

    ブラウザ外からの音声認識のON/OFF切り替えをするためには、Speech_Input.exe起点でブラウザに情報を送信できるようにしなければならず、こちらに関しては実装方法の調査から始めないとなので、ちょっと時間がかかりそうです。

    ■音声検出ダイアログの文字変更
    「音声検出」⇒「変換中」

    ■補正処理の順番で結果が変わってくる問題に対して
    実際に影響を受ける場合というのは、「」を補正機能で入力するときくらいのような気がするので、
    記号の入力をデフォルト設定にすればほぼ問題ないと思うので、
    補正処理のロジックは現状のままにします。ロジックを複雑にするとユーザーが逆に混乱する場合もあると思いますのでそのままにします。

    返信が大変であれば、返信しなくても大丈夫です。
    お体をお大事にして無理しないください。

    アップデートのタイミングは今月末から来月1週目くらいかなと思います。

    #66414 返信
    みち
    ゲスト

    チェックボックスで利用可能(音声入力可能)な記号ですが、
    今のところ下記の内容を設定しています。
    他に設定しておいて欲しい内容があれば教えていただければ反映します。
    (左が入力内容、右が発音内容)

    。 くてん
    、 とうてん
      ぜんかくすぺーす 全角スペースを入力
    はんかくすぺーす 半角スペースを入力
    「 かぎかっこ
    」 かぎかっことじ
    ( まるかっこ
    ) まるかっことじ
    『 にじゅうかぎかっこ
    』 にじゅうかぎかっことじ
    [ かくかっこ
    ] かくかっこかっことじ
    〈 やまかっこ
    〉 やまかっことじ
    〔 きっこうかっこ
    〕 きっこうかっことじ
    【 すみつきかっこ
    】 すみつきかっことじ
    《 にじゅうやまかっこ
    》 にじゅうやまかっことじ
    { なみかっこ
    } なみかっことじ
    ‘ いんようふ
    ’ いんようふとじる
    “ にじゅういんようふ
    ” にじゅういんようふとじる
    ※ 米印
    ~ チルダ
    ^ キャレット
    ! ビックリマーク
    ! ビックリ、マーク
    $ ドルマーク
    $ ドル、マーク
    % パーセント
    & アンド
    ; セミコロン
    : コロン
    . ピリオド
    ? はてなマーク
    ・ 中黒
    _ アンダーバー
    \ バックスラッシュ
    / スラッシュ
    – ハイフン
    # シャープ
    # 全角#
    # 全角、#
    @ アットマーク
    * アスタリスク
    + プラス
    – マイナス
    = イコール

    #66415 返信
    みち
    ゲスト

    すみません。

    投稿したリストの後半は発音(右がわ)がカタカナだったり記号のままだったりで違っていました。
    実際には発音(右がわ)はソフトではひらがなで表記します。

15件の投稿を表示中 - 16 - 30件目 (全44件中)
返信先: Google音声認識を利用した他のWindows用ソフト
あなたの情報:




スポンサーリンク
レクタングル(大)広告
レクタングル(大)広告
NO IMAGE
この記事をお届けした
寝ログの最新ニュース情報を、
いいねしてチェックしよう!