Replies: 2 comments 14 replies
-
パターン1の
というのは、例えば、length=30秒とすると0秒~30秒の音声をまず認識して、次に30秒以降の音声を認識したいが、3秒前の音声も含めて27秒~57秒の音声を認識するって感じで合ってるでしょうか?そうすると27秒~30秒の音声の内容が二度重複して認識されないかと思ったのですが。 |
Beta Was this translation helpful? Give feedback.
6 replies
-
whisper.cppのパターン1なんやけど、stepごとに毎回length分切り出して推論っているのは毎回前回の入力音声とlength-step分は重複してるっていうことではない? |
Beta Was this translation helpful? Give feedback.
8 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
ストリーミング音声認識のための方針を決定したいです。
まずはじめにwhisper.cppのストリーミング音声認識の仕様は以下のとおりです。
https://yasutakaodo.notion.site/4faefcf935bd41b4a5bd958fc181f44b
上記を踏まえて以下の2パターンを検討しています。
発話区間が汚くなることを防ぐために過去の発話音声のうち3s程度を毎回利用するご意見をお願いします。
Beta Was this translation helpful? Give feedback.
All reactions