互零云
分享

企业网站建设

    网页的预处理主要是指通过一定的技术对网页的噪声进行去除,提高网页信噪比,从而对后续文本分类处理提供良好的训练样本。影响网页 ...

企业网站建设
立即查看
//网页预处理技术

网页预处理技术

时间 : 2020-01-17 22:10栏目 : 企业网站建设
  

  网页的预处理主要是指通过一定的技术对网页的噪声进行去除,提高网页信噪比,从而对后续文本分类处理提供良好的训练样本。影响网页分类的网页噪声,从广义上讲主要有三种:第一种是指在一系列网页中,重复性网页或者内容相似度很大网页;第二种是指网页之间大量存在的相互引用的关系链接,这种链接常常是采用迎合搜索引擎所用的排名算法原理策略,来达到提高网页在搜索引擎中排名的目的;第三种是指网页内与网页的主题不相一致的内容,譬如网页中的广告栏、导航条、联系方式、版权说明等信息,这种噪声与第二种噪声都属于网页的局部噪声,在网页的预处理环节应该去除。总的来看,需要不断提高网页去噪的方法,这在网页分类过程中使比较重要的。

  大多数网页,通常都包含与主题无关的内容,比如与主题内容无关的导航条、广告信息、版权信息、联系方式以及评论框等内容,我们称之为“网页噪音”。而另一部分内容则提供了网页的主题信息,譬如在新闻网页中的新闻部分,这部分就是正文内容,分类通常关心的就是正文内容,网页噪音般存在于主题内容周围的页面不太重要的位置上,有时也夹杂在主题内容中间。
 


 

  目前大多数网页去噪方法都是以启发提示方法或者机器学习的方法的基础上实现的,这些方法不仅需要一些启发提示的规则,同时还需要用到机器学习的概念来辅助。近些年来,国内外专家对网页去噪方法进行了大量的研究与设计,将网页去噪方法进行改善提高。随着网站规模的进步发展扩大,越来越多的网站为了统一风格,提高网站内容更新速度,同时减少网站设计人员的编码工作负荷,对其站内的网页采用了统一的模板,并为网页设计了不同的区域来承载不同的主题内容。网站利用模板,一方面可以放置广告赚取高额利润,另一方面可以在页面下方为页面使用者提供联系方式,版权等信息。

  根据网页去噪处理过程中所使用的模板数不同,网页去噪的方法可分为单模型去噪方法和多模型去噪方法。顾名思义,针对大量具有不同风格的网页集合,利用同一个类型的模板来检测噪声的方式称为单模型去噪方法,利用不同类型的模板来检测噪声的方式便称为多模型去噪方法。出于多模型去噪方法针对不同风格的网页,会重新设计针对该类型的模板进行去噪处理,这种方法更加接近网页去噪总体方法的思想实质。

  多模型去噪方法般具有很高的准确性,但与此同时它也有很多缺陷:

  首先,这种方法识别出来的网页模板的正确率依赖于所取网站网页的模板的充分性和普遍性,如果所取网站网说的校板恰好比较特别或者模板的数量够充分,就会大大降低该方法的准确率。

  其次,该方法需要对每个网站确定一个模板,就要对网页文档进行多次遍历扫描。单模型去噪方法在保证与多模型去噪方法准确性相差不大的基础上,在检测模板模型的效率方面会有很大的提高,适合于处理有限样本的网页数据集的某些目标任务(比如,专门去除广告栏或者导航条的任务)。同样的,单模型去噪方法的缺点也存在一些缺陷,就在于其不易捕捉网页中内容格式和布局样式的易变性,站点内网页的内容格式和布局样式技术发展迅速,常常有新的方法应用在其网页的模板中,这就要求单模型去噪提高其启发规则的动态更新速度。

  再次,与单模型去噪方法结合使用的是可以获得局部最优解的贪焚策略,更适合处理有限样本网站的模板去噪工作。另外,组合具有不同良好效果的单模型的启发式规则,建立的新的单模型,去噪效果的推广能力不佳。更多相关资讯欢迎随时关注互零网络—— 广州网页制作专业的公司!


本篇文章《网页预处理技术》由<互零云>原创,如需转载请加上来源!

  • 0

准备开始您的项目吗?

联系