中文分词词性和序列标注之二阶HMM

使用二阶HMM分词,考虑分词标记更长远的历史标记状态。标记状态为2-gram. 因考虑更长历史状态会造成更多0转换概率,故使用 TnT平滑

中文分词词性和序列标注之HMM

将分词过程看待为通过观察语句的字序列估计隐藏的分词标注序序列任务。 基于字统计分词算法,无需词表,对新词识别友好。

中文分词之最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时,按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语,则同一语句会出现多种切分结果。计算每种切分结果的概率,选取概率最高的切分作为最终分词切分。

中文分词之最大匹配算法

准备分词词表,将待分词语句按从左到右的切分顺序与词表匹配,查找到的最长词语为分词结果,并且当前切分位置为下个词语切分开始位置,如切分片段在在词表中无对应词语,则顺移到待切分语句下一个字继续切分,把跳过的片段切分为独立词语

中文分词效果评估

将算法分词结果与人工标注的分词结果对比,以此评估分词效果优劣。人工标注分词文本通常被看作公认的“黄金”标准。主要使用处理速度、精确率、召回率和F值四个指标衡量分词算法的性能。

Proudly powered by WordPress   Premium Style Theme by www.gopiplus.com