中文分词、词类标注、命名实体识别对序列标注算法的应用差异

1 中文分词

目前网络可找到资料的多为3,4,6类型标注, 在无全局归一时（HMM,MEMM均为局部归一, CRF是全局归一），同样的任务,标注类型适当增多可明显得到更优的效果，或许这是因为类型隐含更久远上下文依赖，但这样会增加对标记语料的数量需求。一般使用类型数量为4的BMES标注方法

BMES标注类型说明：

B: 多字成词开始
M: 多字成词中间
E: 多字成词结束
S: 单字成词

可参考中文分词词性和序列标注之HMM 理解实际应用。

分词特征如用线性模型，则需要手工设置特征模版，只能靠反复尝试，而用bilstm-crf时，需要大量语料预训练word2vec向量, 但这实际上比设置模版扫描更容易实施。

关于分词规范国家标准GB/T13715-92 《信息处理用现代汉语分词规范》 (从未看过)做语料标注工作需知晓。

在各种文章介绍中: BEMS分隔最为常见。

2 词类标注

中文词类/性标注请查看参考信息中提供的说明，在网上可公开下载的一般为 98年1月人民日报语料（大约8.8M左右，200万字）。

词类标注特征工程和中文分词不同，在分词时最小元素是字，而词类标注虽然是针对词语序列做标签，可是每个词语的组成成分可能对标签有所影响，特别是在训练语料中缺失某词语时更需要参考词语的组成元素，例如首字，尾字，大小写等。在BI-LSTM-CRF模型中，可将每个词语的字向量输入LSTM(每个词语单独的LSTM网络)然后把其隐层和词向量连接。再接双向lstm->投影层->crf进行序列标注。参考链接2中有示范案例。

关于词类具体数量，这个并不定，有些是规范中的26类，有些扩展到40多类，实际工程中以能找到的语料为准（例如人民日报语料）。

3 命名实体识别

NER任务目的是识别人名、地名、机构名、MISC；数字：钱、数字、序号、百分比；时间：日期，时间、持续序列、集合等实体。示意标注类型如下：

使用 BIO 三类型标注，B表示实体词开始，I表示实体词内部，O表示外部（不是实体词），在B,I的后接实体类型以区分不同的实体。例如:

三峡	旅行社	组织	小明	和	其	家人	到	三峡	旅游
B-ORG	I-ORG	O	B-PER	O	O	O	O	B-LOC	O
组织名称开始	组织名称内部		人名					地名

如识别数字、时间、货币等类似实体时，可能还需进一步规范标签。

参考:
[1] 现代汉语语料库加工规范 ——词语切分与词性标注 1999 年 3 月版北京大学计算语言学研究所 http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdf
[2] sequence tagging with tensorflow: https://guillaumegenthial.github.io/sequence-tagging-with-tensorflow.html

Shi Zhuolin's Blog

This guy is lazy, leaving nothing left.

中文分词、词类标注、命名实体识别对序列标注算法的应用差异

1 中文分词

2 词类标注

3 命名实体识别

zhuolin

Leave a Reply Cancel reply

中文分词、词类标注、命名实体识别对序列标注算法的应用差异

1 中文分词

2 词类标注

3 命名实体识别

zhuolin

Recent Posts

Leave a Reply Cancel reply