互零云
分享

企业网站建设

    网页文本基于词典的分词方法是将待分类的汉字字符串与一个含词量比较丰富的词典中的词条通过定策略进行匹配,若在词典中扫描到某个 ...

企业网站建设
立即查看
//基于词典的Web文本分割

基于词典的Web文本分割

时间 : 2020-01-17 22:10栏目 : 企业网站建设
  

  网页文本基于词典的分词方法是将待分类的汉字字符串与一个含词量比较丰富的词典中的词条通过定策略进行匹配,若在词典中扫描到某个字符串,则匹配成功。按照不同的字符串扫描方向划分,又能分为正向匹配、逆向匹配和双向匹配,按照优先策略也能分为最大匹配和最小匹配。

  在全部的分词算法中,最小匹配法是最先被开发研究的。该算法是从待分词中文文本字符选取前两个汉字字符与词典进行匹配,如若成功,则继续从第三个汉字字符开始选取两个汉字字符与词典匹配;如果失败,则选择待分类中文文本的前三个汉字字符串与词典匹配。以此类推,直到选取字符数达到预先设定的阈值。虽然这种方法分词速度快,但其分类的效果并不理想达不到预想的准确率,所以这种方法基本上已经很少被采用。

  正向最大匹配法:假设词典里最长的词的汉字个数为按照从句首向句尾的匹配方向扫描待分类文本语句的前个汉字字符串与词典匹配,若成功,则分出该词,然后从待分词语句的第处继续选择个汉字与词典进行匹配;如果匹配失败,则留下前个字符再与词典匹配,如此循环,直到匹配成功。即从待分词文本能够与分词词典成功匹配的词条中选择最长的那个词进行切割,做到最大匹配。譬如:“你们是哪里人”。
 


 

  将“你们是哪里人”作为字符串与词典匹配,如果匹配成功,则继续获取下组字符串与词典匹配,直到整个中文文本语句完成切割分词;如果匹配失败,那么就用“你们是哪里与词典匹配。如此往复,直到匹配到你们,匹配成功就在“你们”后面添加空格输出到待特征选择的文件中。继续同样方法处理“是哪里人”,直到分别匹配到“是”,“哪里,“人”。记录“你们是哪里人”作为进行下一步特征选择数据处理的基础。最大匹配法的目的是确保在每分一个词时使其与词典中的成功匹配的词的长度最大。这种方法充分考虑了中文的语言习惯,是自然语言处理过程中最常用的中文文本分词方法之一。

  逆向最大匹配法:与正向最大匹配法相反,逆向最大匹配法从中文文本语句的尾部开始,按照从句尾向句首的匹配方向扫描中文文本字符串,取文本的前个汉字串与词典匹配,匹配成功则选择下一组个汉字串。如果失败,则去掉第个汉字字符,利用剩下的个汉字串再与词典匹配,直到匹配成功。大量的自然语言处理实验结果表明,这种方法的分词准确率比正向最大匹配算法要高,因此这种方法得到了很好的推广和较为深入的研究。更多相关资讯欢迎随时关注互零网络—— 广州网站制作专业的公司!


本篇文章《基于词典的Web文本分割》由<互零云>原创,如需转载请加上来源!

  • 0

准备开始您的项目吗?

联系