说说中文分词

Posted on 2015年06月24日 Tagged 分词, 有0条评论

中文分词在具体算法上分为3种

字符串匹配(正序、逆序、最少切分、最大切分等)
基于理解（词法，句法等方式处理）
基于统计

字符串匹配

匹配方法

正向最大匹配 (MM)
逆向最大匹配 (RMM)
双向最大匹配 (BM)

消除歧义

交叉歧义（字符串AJB，AJ和JB都是一个汉语词汇，会存在多种切分交叉在一起）：“你说的确实在理”，“的确”和“确实”就是交叉型歧义片段。
组合歧义（字符串AB是一个词汇，A和B同时也是词汇，会存在不同语义下切分不同）：“这个人手上有颗痣”，“目前人手紧缺”。前者是“人”/“手”两个实体词，后者是“人手”一个实体词。
真歧义（怎么切分都合理）：“乒乓球拍卖完了”，切分为以下两种情况都是合理的，“乒乓球拍/卖/完了”，“乒乓球/拍卖/完了”

在一个常见的分词MMSeg中，有2种匹配模式:

Simple
Complex

在complex分词算法中，MMSeg将切分的相邻三个词作为词块（chunk），应用如下四个消歧义规则：
- 最大匹配 (Maximum matching)，即三个词的词长之和最大；
- 最大平均词长（Largest average word length），即要求词长分布尽可能均匀；
- 最小词长方差（Smallest variance of word lengths）,最小词长方差，也就是找出词长方差最小的语块，并选取其第一个词语作为正确的词语切分形式；
- 最大单字词语语素自由度之和（Largest sum of degree of morphemic freedom of one-character words）,对"三词语块"中的单字词语频率取对数并求和。选取其中和最大的三词语块作为最佳的词语切分形式。

待补充