中文分词词性和序列标注之CRF-4-查找最大概率序列
使用维特比算法解决序列标注第二个问题,查找给定x序时具有最大概率的y序列。
中文分词词性和序列标注之CRF-3-向前向后算法
线性链条件随机场的向前向后算法,计算给定输出序列概率
中文分词词性和序列标注之CRF-2-线性链条件随机场
线性链条件随机场,参数化形式(势函数),内积和矩阵表现形式。
中文分词词性和序列标注之CRF-1-概率无向图
无向图,子图,团,最大团,无向图因子分解.
中文分词词性和序列标注之MEMM-5-最优化算法-LBFGS-PKU效果
使用BFGS/LBFGS算法优化MEMM模型并得到pku评分.
中文分词词性和序列标注之MEMM-4-最优化算法-IIS
改进的迭代尺度优化算法的思路,通过给现有参数增加最大下界的增量参数以逐步迭代提高模型似然的方式优化模型参数。
中文分词词性和序列标注之MEMM-3-最大熵模型求解
使用lagrange转化为无约束优化问题,并使用极大似然求解对比。
中文分词词性和序列标注之MEMM-2-最大熵模型
承认在已知信息(特征函数约束)以外可能有未知信息会对判断y造成影响。但无法确定未知信息会对识别每个y的具体值造成何种影响,为了风险最小化,不对未知信息对Y的决策影响做任何主观倾向假设,而是认为未知信息对所有y的影响程度都是趋于相同的,于是风险被平摊。
中文分词词性和序列标注之MEMM-1-比较HMM
使用最大熵模型解决HMM不能直接计算P(Q|O)和使用更复杂特征的问题。
中文分词词性和序列标注之二阶HMM
使用二阶HMM分词,考虑分词标记更长远的历史标记状态。标记状态为2-gram. 因考虑更长历史状态会造成更多0转换概率,故使用 TnT平滑