BERT-CH-NER: 基于BERT的中文命名实体识别

基于BERT 的中文数据集下的命名实体识别(NER)

一搜狐比赛

https://www.biendata.com/competition/sohu2019/

在搜狐这个文本比赛中写了一个baseline，使用了bert以及bert+lstm+crf来进行实体识别。

其后只使用BERT的结果如下，具体评测方案请看比赛说明，这里的话只做了实体部分，情感全部为POS进行的测试得分。

1557228899471

使用bert+lstm+crf 结果如下

1557228995787

训练验证测试

export BERT_BASE_DIR=/opt/hanyaopeng/souhu/data/chinese_L-12_H-768_A-12
export NER_DIR=/opt/hanyaopeng/souhu/data/data_v2
python run_souhuv2.py \
                    --task_name=NER \
                    --do_train=true
                    --do_eval=true \
                    --do_predict=true \
                    --data_dir=$NER_DIR/ \
                    --output_dir=$BERT_BASE_DIR/outputv2/ \
                    --train_batch_size=32 \
                    --vocab_file=$BERT_BASE_DIR/vocab.txt \
                    --max_seq_length=256 \
                    --learning_rate=2e-5 \
                    --num_train_epochs=10.0 \
                    --bert_config_file=$BERT_BASE_DIR/bert_config.json \
                    --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \

代码

在souhu文件下

souhu_util.py 文件是取得预测的label后，转换为实体的数据处理代码。
lstm_crf_layer.py 是lstm+crf层的代码
run_souhu.py 只用bert的代码
run_souhuv2.py bert+lstm+crf

注意

因为在处理中文时，会有一些奇怪的符号，比如\u3000等，需要你提前处理，否则label_id和inputs_id对应不上，因为bert自带的tokenization会处理掉这些符号。所以可以使用bert自带的BasicTokenizer来先将数据文本与处理一下。

tokenizer = tokenization.BasicTokenizer(do_lower_case=True)
text = tokenizer.tokenize(text)
text = ''.join([l for l in text])

二

基于上课老师课程作业发布的中文数据集下使用BERT来训练命名实体识别NER任务。

之前也用了Bi+LSTM+CRF进行识别，效果也不错，这次使用BERT来进行训练，也算是对BERT源码进行一个阅读和理解吧。

虽然之前网上也有很多使用BERT的例子和教程，但是我觉得都不是很完整，有些缺乏注释对新手不太友好，有些则是问题不同修改的代码也不同，自己也在路上遇到了不少的坑。所以记录一下。

数据集

tmp 文件夹下

1553264280882

如上图，对数据集进行了分割，其中source是训练集中文，target是训练集的label。

test1 测试集，test_tgt 测试集label。 dev 验证集 dev-lable 验证集label。

数据格式

 需要将数据处理成如下格式，一个句子对应一个label.句子和label的每个字都用空格分开。
 如: line = [我 爱 国 科 大 哈 哈]   str
     label = [O O B I E O O]       str的type 用空格分开
    
具体请看代码中的NerProcessor 和 NerBaiduProcessor

注意

数据有一些有问题

比如输入叩问澳门 =- =- =- 贺澳门回归进入倒计时，label :O O B-LOC I-LOC O O O O B-LOC I-LOC O O O O O O O

text = tokenization.convert_to_unicode(line[0])会把输入的=- 处理成两个字符，所以会导致label对应不上，需要手动处理一下。

类别

1553304765330

其中共设置了10个类别，PAD是当句子长度未达到max_seq_length时，补充0的类别。

CLS是每个句首前加一个标志[CLS]的类别，SEP是句尾同理。（因为BERT处理句子是会在句首句尾加上这两个符号。）

代码

其实BERT需要根据具体的问题来修改相对应的代码，NER算是序列标注一类的问题，可以算分类问题吧。

然后修改的主要是run_classifier.py部分即可，我把修改下游任务后的代码放到了run_NER.py里。

代码中除了数据部分的预处理之外，还需要自己修改一下评估函数、损失函数。

训练

首先下载BERT基于中文预训练的模型（BERT官方github页面可下载），存放到BERT_BASE_DIR文件夹下，之后将数据放到NER_DIR文件夹下。即可开始训练。sh run.sh

export BERT_BASE_DIR=/opt/xxx/chinese_L-12_H-768_A-12
export NER_DIR=/opt/xxx/tmp
python run_NER.py \
          --task_name=NER \
          --do_train=true \
          --do_eval=true \
          --do_predict=true \
          --data_dir=$NER_DIR/ \
          --vocab_file=$BERT_BASE_DIR/vocab.txt \
          --bert_config_file=$BERT_BASE_DIR/bert_config.json \
          --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
          --max_seq_length=256 \     # 根据实际句子长度可调
          --train_batch_size=32 \    # 可调
          --learning_rate=2e-5 \
          --num_train_epochs=3.0 \
          --output_dir=$BERT_BASE_DIR/output/

实验结果

1553304598242

可以基于验证集看到的准确率召回率都在95%以上。

下面可以看看预测测试集的几个例子。

1553305073652

下图为使用BERT预测的类别。可以与真实的类别对比看到预测还是很准确的。

1553305053823

真实类别如下图。

1553305543516

总结

其实在读了BERT的论文后，结合代码进行下游任务的微调能够理解的更深刻。

其实改造下游任务主要是把自己数据改造成它们需要的格式，然后将输出类别根据需要改一下，然后修改一下评估函数和损失函数。

如下图根据具体的下游任务修改label即可。如下图的第四个就是在NER上进行修改，

1553306691480

之后会写一篇Attention is all you need 和 bert论文的详解，会结合代码来解释一下细节，比如Add & Norm是如何实现的，为什么要Add & Norm。 ==感觉不用写了 bert已经火遍大街了不重复造轮子了。建议大家直接莽源代码和论文。

觉得pytorch版本的bert似乎更好用233，比如更方便的冻结BERT中间层，还可以在训练过程中梯度累积。

最后BERT还有很多奇淫技巧需要大家来探索。。比如可以取中间层向量来拼接，再比如冻结中间层等等。

参考：

https://github.com/google-research/bert

https://github.com/kyzhouhzau/BERT-NER

今天又出来一个叼模型，20项任务全面碾压BERT，CMU全新XLNet预训练模型屠榜（已开源）

留坑，哈哈读读论文看看代码去。

https://mp.weixin.qq.com/s/29y2bg4KE-HNwsimD3aauw

https://github.com/zihangdai/xlnet

yasiping / BERT-CH-NER

基于BERT 的中文数据集下的命名实体识别(NER)

一搜狐比赛

训练验证测试

代码

注意

二

数据集

数据格式

注意

类别

代码

训练

实验结果

总结

今天又出来一个叼模型，20项任务全面碾压BERT，CMU全新XLNet预训练模型屠榜（已开源）

简介

发行版

贡献者

近期动态

yasiping / BERT-CH-NER .gitee-modal { width: 500px !important; }

基于BERT 的中文数据集下的命名实体识别(NER)

一 搜狐比赛

训练验证测试

代码

注意

二

数据集

数据格式

注意

类别

代码

训练

实验结果

总结

今天又出来一个叼模型，20项任务全面碾压BERT，CMU全新XLNet预训练模型屠榜（已开源）

简介

发行版

贡献者

近期动态

搜索帮助

yasiping / BERT-CH-NER

一搜狐比赛