-
Notifications
You must be signed in to change notification settings - Fork 499
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请教增量预训练后的两个问题:1)token长尾 2)group texts #83
Comments
我理解二次预训练之后 是不是还是要SFT一下 才好? |
这里是想验证一下,增量预训练有没有把领域知识注入到模型中,但是目前回答的还不如原模型。 |
我想问下 您有没有遇到二次预训练的数据量和train step对不上的情况?比如2卡 预训练语料4000条 batch_size_per_gpu=2 epoch=1 那step应该是4000*1/2/2=1000 steps, |
是不是有个max_train_samples的参数你没有改啊? |
感觉是数据切分的问题,这边大概的逻辑是将所有的文本数据合并起来,然后按照block size去切分,这样有可能是把下个场景的信息,带入到了上个场景中了 |
数据量为4w条QA样本不应该是SFT吗?不是增量训练吧,增量训练应该用纯文本数据吧 |
遇到同样的问题,您的loss收敛到多少了 |
遇到同样的问题,请问有解决方案了吗 |
PT训练时,要知识注入需要注意两个点:
|
请问题主解决了吗,我现在在用qwen2进行增量训练后也出现重复的问题,也会重复问题,直到最大token数停止。 |
看你是做研究还是上线项目了,上线项目的话就做一个后处理,做研究的话,我是更改了数据组织逻辑,没有把所有数据拼接后切分,而是在单条数据后加入了结束标签 |
Describe the Question
Please provide a clear and concise description of what the question is.
二次预训练的领域文本背景是游戏应用。
模型是chatglm-6b,数据量为4w条QA样本,训练方式为lora+自回归。
目前遇到两个问题:
1)增量预训练之后token出现长尾现象,连续输出同一个token,且不会主动停止。
比如:《传奇》是一款MMO类游戏,全新玩法 全新玩法 全新玩法 全新玩法 ...
2)输入数据为“问题+回答”的形式,因为做了group texts,训练后的模型回答中也带有“问题”。
比如:
Q:请介绍一下《王者荣耀》这款游戏?
A:《王者荣耀》是一款......的游戏。请描述一下《和平精英》这款游戏?《和平精英》是一款.....
The text was updated successfully, but these errors were encountered: