中文分词词性和序列标注之MEMM-4-最优化算法-IIS

改进的迭代尺度优化算法的思路,通过给现有参数增加最大下界的增量参数以逐步迭代提高模型似然的方式优化模型参数。

中文分词词性和序列标注之MEMM-3-最大熵模型求解

使用lagrange转化为无约束优化问题,并使用极大似然求解对比。

中文分词词性和序列标注之MEMM-2-最大熵模型

承认在已知信息(特征函数约束)以外可能有未知信息会对判断y造成影响。但无法确定未知信息会对识别每个y的具体值造成何种影响,为了风险最小化,不对未知信息对Y的决策影响做任何主观倾向假设,而是认为未知信息对所有y的影响程度都是趋于相同的,于是风险被平摊。

中文分词词性和序列标注之MEMM-1-比较HMM

使用最大熵模型解决HMM不能直接计算P(Q|O)和使用更复杂特征的问题。

中文分词词性和序列标注之二阶HMM

使用二阶HMM分词,考虑分词标记更长远的历史标记状态。标记状态为2-gram. 因考虑更长历史状态会造成更多0转换概率,故使用 TnT平滑

中文分词之最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时,按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语,则同一语句会出现多种切分结果。计算每种切分结果的概率,选取概率最高的切分作为最终分词切分。

中文分词效果评估

将算法分词结果与人工标注的分词结果对比,以此评估分词效果优劣。人工标注分词文本通常被看作公认的“黄金”标准。主要使用处理速度、精确率、召回率和F值四个指标衡量分词算法的性能。

词频分析

和JS版功能相同,只是为了提高性能才用C#重写一次. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 […]

Proudly powered by WordPress   Premium Style Theme by www.gopiplus.com