用自己的数据构建pretrain data 提示 KeyError: '##cry' #70

ccoocode · 2020-06-21T03:51:29Z

你好，我在用自己数据运行 create_pretraining_data.py 的时候提示： KeyError: '##cry', 看了下是 def convert_by_vocab(vocab, items):
"""Converts a sequence of [tokens|ids] using the vocab."""
output = []
for i,item in enumerate(items):
#print(i,"item:",item) # ##期
output.append(vocab[item])
return output
函数报的错，感觉应该是在做jieba中文分词后生成的一些token不在词表里

跑 create_pretraining_data.py 的参数如下：
--do_lower_case=True --max_seq_length=40 --do_whole_word_mask=True --max_predictions_per_seq=20 --masked_lm_prob=0.15 --dupe_factor=3

vocab 用的是bert的

waywaywayw · 2020-06-22T12:47:04Z

我也遇到的同样的问题。
考虑的解决方法是词库里中英文混合词，不做wwm策略了。

代码修改：
get_new_segment函数里的
if segment_str in seq_cws_dict:
改成
if segment_str in seq_cws_dict and len(re.findall('[a-zA-Z]', segment_str))==0:

原因举例：
bert分词：'顺', '利', '的', '无', '创', 'dna'
jieba分词：'顺', '##利', '的', '无', '##创', '##dna'
再往后，bert词库里没有 ##dna，就报错了

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

用自己的数据构建pretrain data 提示 KeyError: '##cry' #70

用自己的数据构建pretrain data 提示 KeyError: '##cry' #70

ccoocode commented Jun 21, 2020

waywaywayw commented Jun 22, 2020

用自己的数据构建pretrain data 提示 KeyError: '##cry' #70

用自己的数据构建pretrain data 提示 KeyError: '##cry' #70

Comments

ccoocode commented Jun 21, 2020

waywaywayw commented Jun 22, 2020