互零云
分享

企业网站建设

    Web网页大部分都是使用HTML(Hyper Text Markup Language)语言来进行编写,但HTML是半结构化的,并且网页格式灵活,没有统一的标 ...

企业网站建设
立即查看
//如何预处理网页文本?

如何预处理网页文本?

时间 : 2020-01-18 05:10栏目 : 企业网站建设
  

  Web网页大部分都是使用HTML(Hyper Text Markup Language)语言来进行编写,但HTML是半结构化的,并且网页格式灵活,没有统一的标准,这使得抽取网页文本信息的任务变得非常复杂。大致有三种常用的方法用来提取网页中相对有用的信息:

  (1)将网页中所有文字都认为是有用的信息,这将造成文本中包含有大量的噪声信息;

  (2)将网页标题,网页正文,字体加粗文字等看作是有用信息,而把其他的无关信息过滤掉,这种方法能够达到较好的效果;

  (3)依据一些特定的规则判断出应该要保留哪些信息,对于有固定模板的网页分类而言,它们有特定的规则,这种方法在预处理中是最好的,但是无法适用于所有网页。本文介绍的网页预处理过程包括网页文本去噪、分词、停用词移除(stop word removal)和词干提取(stemming)等。
 


 

  1、网页文本去噪

  在网页中,很多标签(比如“”、“”等)不包含任何有用信息,对于网页所属的类别的确定没有任何作用,还会对分类的性能带来干扰,应该 将 它 们 当 作 噪 声 去 除。 网 页 中 还 有 一 些 标 签 ( 比 如 “”、“”等)标注的特征项,在网页文本中起到非常重要的作用,对网页所属的类别有强调作用,这些标签不仅需要保留,还应该对标记的特征项进行加权处理。

  2、分词对网页文本进行去噪

  处理和特征项加权后,还需将网页文本转换为适合于分类任务的表示形式。之前的研究表明,使用单词(word)作为文本的特征项能够很好地表示网页的内容,因此从网页文本中提取特征项是预处理的关键一步。在英语中,特征词提取过程相对简单,因为每个特征词之间都是通过空格自然分开的;由于汉语自身的特点,对中文文本进行特征项提取时,需要先对文本进行分词处理,分词质量的好坏直接影响到最后分类结果的准确性。

  3、停用词移除和词干提取

  在特征集中有些特征词出现次数非常多,它们作为句子的组成成分,却不能表达出文本的任何内容,对于分类几乎没有什么作用,因而可以被忽略,这样的特征项称为停用词。英文中常用的停用词包括“a”,“of”,“the”,“that”,“by”等,中文中的停用词包括“的”,“啊”,“这个”等。

  在许多语言中,一个词在不同的语境中有不同的语法形式,比如“walks”,“walking”和“walker”都是有词干“walk”变化而来。词干提取的含义是简化单词,直到变成它们的词根或者词干。一个词干是一个单词移除它的前缀和后缀之后剩下的部分,词干提取有助于降低特征项数目,提高分类的查全率。


本篇文章《如何预处理网页文本?》由<互零云>原创,如需转载请加上来源!

  • 0

准备开始您的项目吗?

联系