zhuolin | Shi Zhuolin's Blog

中文分词词性和序列标注之MEMM-5-最优化算法-LBFGS-PKU效果

使用BFGS/LBFGS算法优化MEMM模型并得到pku评分.

改进的迭代尺度优化算法的思路,通过给现有参数增加最大下界的增量参数以逐步迭代提高模型似然的方式优化模型参数。

使用lagrange转化为无约束优化问题，并使用极大似然求解对比。

承认在已知信息（特征函数约束）以外可能有未知信息会对判断y造成影响。但无法确定未知信息会对识别每个y的具体值造成何种影响，为了风险最小化，不对未知信息对Y的决策影响做任何主观倾向假设,而是认为未知信息对所有y的影响程度都是趋于相同的，于是风险被平摊。

使用最大熵模型解决HMM不能直接计算P(Q|O)和使用更复杂特征的问题。

nginx proxy

使用二阶HMM分词，考虑分词标记更长远的历史标记状态。标记状态为2-gram. 因考虑更长历史状态会造成更多0转换概率，故使用 TnT平滑

将分词过程看待为通过观察语句的字序列估计隐藏的分词标注序序列任务。基于字统计分词算法，无需词表，对新词识别友好。

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语，则同一语句会出现多种切分结果。计算每种切分结果的概率，选取概率最高的切分作为最终分词切分。

准备分词词表，将待分词语句按从左到右的切分顺序与词表匹配，查找到的最长词语为分词结果，并且当前切分位置为下个词语切分开始位置，如切分片段在在词表中无对应词语，则顺移到待切分语句下一个字继续切分，把跳过的片段切分为独立词语