互零云
分享

企业网站建设

    分词算法概述  分词方法根据语种连续性特点的不同而不同:英文分词、英文文本相邻两词之间是由空格或标点符号间隔的,是一种天然 ...

企业网站建设
立即查看
//网页文本预处理有几种方法?

网页文本预处理有几种方法?

时间 : 2020-01-18 06:10栏目 : 企业网站建设

  

  分词算法概述

  分词方法根据语种连续性特点的不同而不同:英文分词、英文文本相邻两词之间是由空格或标点符号间隔的,是一种天然的分词。

  英文分词

  是指通过策略还原英文单词原型,或者说,是将很多基于某个单词的变种变为同一个原型。根据语法需要,英文文本单词的变换形式多种多样,通过英文分词算法处理得到单词原型。虽然英文不涉及分词,但可以通过划分短语来取得更好的效果,目前英国剑桥大学计算机实验室的算法是比较好的英文分词算法。
 



 

  中文分词

  中文分词技术属于自然语言处理技术的范畴,是信息检索、信息挖掘的研究基础。由于中文文本与西方语言文本不同,是一串无间隔的连续的攻字字符文本语言,即一个句子里的词与词之间没有空格或分隔符。同时,由于中文语法复杂,句式灵活,同义词繁多,所以中文文本语句的切分方法也很灵活大多数分词算法是为中文文本设计的。文本分词过程是计算机通过程序在中文文本的词与词之间自动加入空格,将无间隔的字序列按照一定的规则切割成独立的词的过程,它是中文文本的特征选择和量化的基础,分词精度会影响到后面的文本分类算法。目前,比较成熟的分词算法有三种:基于词典的分词方法,基于理解的分词方法和基于统计的分词。


本篇文章《网页文本预处理有几种方法?》由<互零云>原创,如需转载请加上来源!

  • 0

准备开始您的项目吗?

联系