中文分词词性和序列标注之MEMM-3-最大熵模型求解

使用lagrange转化为无约束优化问题,并使用极大似然求解对比。

中文分词词性和序列标注之MEMM-2-最大熵模型

承认在已知信息(特征函数约束)以外可能有未知信息会对判断y造成影响。但无法确定未知信息会对识别每个y的具体值造成何种影响,为了风险最小化,不对未知信息对Y的决策影响做任何主观倾向假设,而是认为未知信息对所有y的影响程度都是趋于相同的,于是风险被平摊。

中文分词词性和序列标注之MEMM-1-比较HMM

使用最大熵模型解决HMM不能直接计算P(Q|O)和使用更复杂特征的问题。

中文分词词性和序列标注之二阶HMM

使用二阶HMM分词,考虑分词标记更长远的历史标记状态。标记状态为2-gram. 因考虑更长历史状态会造成更多0转换概率,故使用 TnT平滑

中文分词词性和序列标注之HMM

将分词过程看待为通过观察语句的字序列估计隐藏的分词标注序序列任务。 基于字统计分词算法,无需词表,对新词识别友好。

Proudly powered by WordPress   Premium Style Theme by www.gopiplus.com