ストリーミング音声認識の方針について #62

shibukazu · 2023-01-08T11:45:37Z

shibukazu
Jan 8, 2023
Maintainer

ストリーミング音声認識のための方針を決定したいです。
まずはじめにwhisper.cppのストリーミング音声認識の仕様は以下のとおりです。
https://yasutakaodo.notion.site/4faefcf935bd41b4a5bd958fc181f44b
上記を踏まえて以下の2パターンを検討しています。

1
- パターン1をベースとし、stepごとの認識は行わず、特定の重複のない区間(length)ごとに認識を行う
- ~~発話区間が汚くなることを防ぐために過去の発話音声のうち3s程度を毎回利用する~~
- 発話区間が汚くなることを防ぐために、前回の推論の最終タイムスタンプより先の部分の音声を毎回利用する(1/9変更)
- 認識ごとにpromptを更新する
  - whisper.cppではpromptを毎回初期化しているが、実際にはある程度は保持し続けても問題ないのでは？
- lengthごとの音声ファイル書き出しのみでよいため、認識が容易
2
- なんらかの方法で認識に有利な区間検出をする
  - VADによる無音区間検出で無音区間が発見されるごとに音声ファイルを生成し、無音区間と無音区間の間の音声を推論する
  - 前の推論結果に含まれる句点や句読点など意味的な区切りを利用するなど....
- 検出した区間ごとに音声ファイルを書き出し、認識を行う
- VADを行うために2sなど細かい時間単位でのファイル書き出し、もしくはリアルタイムバッファへの書き出しが必要となり、ハードルが少し高い

ご意見をお願いします。

jumon · 2023-01-08T14:25:56Z

jumon
Jan 8, 2023
Maintainer

パターン1の

発話区間が汚くなることを防ぐために過去の発話音声のうち3s程度を毎回利用する

というのは、例えば、length=30秒とすると0秒~30秒の音声をまず認識して、次に30秒以降の音声を認識したいが、3秒前の音声も含めて27秒~57秒の音声を認識するって感じで合ってるでしょうか？そうすると27秒~30秒の音声の内容が二度重複して認識されないかと思ったのですが。

6 replies

jumon Jan 8, 2023
Maintainer

Whisperのタイムスタンプを利用して区切る方が認識結果は良くなりそうな気がします。
whipser.cppのstream exampleの実装全く見てないんですけど、これはその重複するような実装なんですか？（whisperの出力するタイムスタンプで区切るとかはしてない？）

shibukazu Jan 8, 2023
Maintainer Author

タイムスタンプで区切ったりはしていないです。
固定の長さの分の過去の音声を毎回利用しています。

jumon Jan 8, 2023
Maintainer

なるほど。それで重複とか起きないんですかね。
whisperのタイムスタンプ使って区切る実装が面倒であれば、whisper.cpp風の実装で問題ないと思います

shibukazu Jan 8, 2023
Maintainer Author

固定の長さが十分短い（200ms）だからあまり重複していないのかもしれないですね...

jumon Jan 8, 2023
Maintainer

なるほど200msとかちょっとpadding程度に付け足してる感じなんですね。それだと重複はそこまで起きないと思いますが、認識精度には悪影響出るとは思います。whisper.cppでは実装の簡易性を取って多少精度は犠牲にしてるのだと思われます。

ooyamatakehisa · 2023-01-08T17:13:45Z

ooyamatakehisa
Jan 8, 2023
Maintainer

whisper.cppのパターン1なんやけど、stepごとに毎回length分切り出して推論っているのは毎回前回の入力音声とlength-step分は重複してるっていうことではない？

8 replies

ooyamatakehisa Jan 8, 2023
Maintainer

あー完全に理解した。length ms区間の始まり位置も毎回stepごとずれていくんかと思ってたけど、stepはほんとにリアルタイムにユーザーに示すためだけにあるってことか。

計算リソース的に余裕があるならUX的にはstepごとに結果が更新されていくwhisper.cppのver1が良い気もするなー。30秒とか待たないと何も出てこないのは結構あれなきもする。(clova noteは最後まで何も出てこないけど)

重複箇所は処理むずいですね。200msならほぼ意味なさそうだし増やせば重複のマージむずいし

shibukazu Jan 8, 2023
Maintainer Author

その理解であってると思います。
なのでwhisperのタイムスタンプを利用してkeepのサイズを決定するのが妥当な判断な気がします。
一応lengthの長さも短くはできるので15sとかごとの表示も可能だとは思います。精度は下がりそうですが...

ooyamatakehisa Jan 9, 2023
Maintainer

なのでwhisperのタイムスタンプを利用してkeepのサイズを決定するのが妥当な判断な気がします。

というのはwhisperの前のlength塊の最後の(上図における)begin timeからlengthの間隔をkeepにするってことやんな？この場合じゅもんもいっている重複発生しそうやけど，この場合はどうなんやっけ

jumon Jan 9, 2023
Maintainer

begin timeからlengthの間隔をkeepにするってことやんな？

これは正しいと思います。

重複が発生しないのは、whisperのtimestampの仕様がかなり理解しにくいんだけど以下のようになっているからです。

whisperは30秒の音声の最後が中途半端なところで切れてそうな場合は、最後にbegin timeトークンだけを出力してtext tokensやend time トークンを出力しません。以下whisper論文からの引用

When a final transcript segment is only partially included in the current 30-second audio chunk, we predict only its start time token for the segment to indicate that the subsequent decoding should be performed on an audio window aligned with that time.

なので、whisperが最後にbegin-timeトークンだけを出力していたら、次のデコードはそのbegin-timeからの音声を使えば良いです。
whisperの認識の最後がend-timeトークンで終わっていれば、その30秒の音声は中途半端なところで途切れてないということなので、次のデコードは前の音声と重なりなしで次の30秒の音声を使えば良いです。

ooyamatakehisa Jan 9, 2023
Maintainer

なるほど。すばらしい。なら2つ目のパターンつかわんでも、パターン1のその方式でよさそうですね。あとはstepごとに推論を行うかどうか？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ストリーミング音声認識の方針について #62

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 2 comments 14 replies

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Select a reply

ストリーミング音声認識の方針について #62

shibukazu Jan 8, 2023 Maintainer

Replies: 2 comments · 14 replies

jumon Jan 8, 2023 Maintainer

jumon Jan 8, 2023 Maintainer

shibukazu Jan 8, 2023 Maintainer Author

jumon Jan 8, 2023 Maintainer

shibukazu Jan 8, 2023 Maintainer Author

jumon Jan 8, 2023 Maintainer

ooyamatakehisa Jan 8, 2023 Maintainer

ooyamatakehisa Jan 8, 2023 Maintainer

shibukazu Jan 8, 2023 Maintainer Author

ooyamatakehisa Jan 9, 2023 Maintainer

jumon Jan 9, 2023 Maintainer

ooyamatakehisa Jan 9, 2023 Maintainer

shibukazu
Jan 8, 2023
Maintainer

Replies: 2 comments 14 replies

jumon
Jan 8, 2023
Maintainer

jumon Jan 8, 2023
Maintainer

shibukazu Jan 8, 2023
Maintainer Author

jumon Jan 8, 2023
Maintainer

shibukazu Jan 8, 2023
Maintainer Author

jumon Jan 8, 2023
Maintainer

ooyamatakehisa
Jan 8, 2023
Maintainer

ooyamatakehisa Jan 8, 2023
Maintainer

shibukazu Jan 8, 2023
Maintainer Author

ooyamatakehisa Jan 9, 2023
Maintainer

jumon Jan 9, 2023
Maintainer

ooyamatakehisa Jan 9, 2023
Maintainer