-
Notifications
You must be signed in to change notification settings - Fork 670
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Roadmap #22
Comments
先来占个坑,目前正在做
|
这个不错。提几个需求:想要个video panel,audio panel 显示声音(很方便看到是不是停顿太多),一个可以编辑的字幕panel。光标换到某一行时能同步(2x速)播放视频和声音。能在audio panel移动来微调字幕的时间搓。多少有点像一个视频编辑器,但还是想以文本字幕为主panel。 |
目前计划是先把字幕生成;字幕筛选,剪切视频做出来。后续再加编辑功能。video panel,audio panel都问题不大。现在主要是被ffmpeg卡住了,视频上传是直接拿到了bytes,我不想保存本地再用ffmpeg读取;想直接使用bytes,但是目前有点问题;我再开个issue看看有没有人能帮忙解决 |
@chenqianhe @zcf0508 wenet同学提到这个产品,我没用过,但看上去挺不错。UI的设计可以考虑参考他们 https://www.descript.com/ |
使用 Dynamic Quantization 加速测试
代码self.quantized_model = torch.quantization.quantize_dynamic(
self.whisper_model, {torch.nn.Linear}, dtype=torch.qint8
)
whisper.transcribe(
self.quantized_model if self.args.device == 'cpu'
else self.whisper_model,
...) 测试结果测试使用 Intel i7-8700 @3.2GHz ,代码基于 69b6a39 修改
测试一测试视频: 02:09 长度、4.91 M 的一个 mp4 文件
测试二测试视频: 07:16 长度、15.2 M 的一个 mp4 文件
|
出乎意料的没有加速。感觉要么是CPU对int8支持不好,要么是加速库没有装好? |
https://github.com/chidiwilliams/stable-ts 这个库支持按字生成时间戳,可以参考一下 |
按字生成确实不错,但是之后字合并成句子又麻烦了,也不能直接按字数合并。不过是个不错的库 |
我领这个吧 目前完成
|
哪个test有问题呢?目前test是我这边写的 |
我的test都是在mac上写的,应该不会跑不了;可以一起看下 |
报这个错 环境 mac m1 16 promax python 3.10 |
应该是环境问题了;低版本py会有吗?我用的是M2 Air |
加 CI,测试windows,linux,macos下的运行 Done. |
我可以试试 |
@mli @yihong0618 FYI, check this C++ implementation whisper.cpp for CPU inference. |
yes I noticed that, but there's no python binding for now, we need some hack |
tried, not good. |
多进程测试测试环境基于 ec82c7a 进行修改,使用 测试结果
测试过程中观察 CPU 占用,默认情况下 CPU 利用率最高为96% ,12个逻辑核心只要2个核心为满负荷运行,而在多进程下 CPU 使用率为 100%,12个逻辑核心全部跑满。 疑惑在 openai/whisper#432 (comment) 帖子中提到,whisper 已经使用了全部 CPU 核心,所以不确定在单个进程下没有完全占用 CPU 是不是有意为之。 |
CTranslate2实现了whisper加速推理,并且有python bindings。文档链接 |
@BrightXiaoHan 谢谢,我学习一下 |
说到descript这个产品,我试用了一下。我感觉除了它本身的一些feature外,还有一个比较好的点是:它在句子的识别和分割上,做得比较好。 咱们autocut对这块儿有什么想法?会进一步优化吗? |
https://github.com/m-bain/whisperX 这个项目也还挺有意思的 |
这是 TODO 列表。欢迎有兴趣的同学来报名贡献:
The text was updated successfully, but these errors were encountered: