网页正文提取方法研究

时间:2106-02-07 14:28 来源:未知作者:论文通点击:次

文章导读

总览评价赵明明 1，，陶华 2，，伏虎 2，，李昕 3，* （ 1、北京邮电大学网络与交换国家重点实验室； 2、河南省电力公司朝阳供电公司； 3、北京邮电大学网络与交换国家重点实验室，北京100876；）摘要：网络成为人们获取信息的重要途径。而网

总览
评价

赵明明^1，，陶华^2，，伏虎^2，，李昕^3，*

（ 1、北京邮电大学网络与交换国家重点实验室； 2、河南省电力公司朝阳供电公司； 3、北京邮电大学网络与交换国家重点实验室，北京100876；）

摘要： 网络成为人们获取信息的重要途径。而网页上的内容除了主题内容外，还有如广告、版权信息、欢迎信息等与主题无关的内容，如何将网页中的正文内容提取出来已经成为机器学习和数据挖掘界的一个研究热点。本文将对网页正文提取方法的研究现状做一个简要介绍，并对未来的研究工作进行展望。
关键词： 网页正文提取；DOM树；VIPS算法

ZHAO Mingming^1,， Tao Hua^2,， Fu Hu^2,， LI Xin^3,*

（ 1、State Key Laboratory of Networking and Switching, Beijing University of Posts and Telecommunications； 2、HeNan Electronic Power Company, Xinyang Power Supply Company； 3、State Key Laboratory of Networking and Switching, Beijing University of Posts and Telecommunications, Beijing 100876；）

Abstract： Network has become an important way for people to obtain information. The web pages contents include subject matter, in addition, there also including advertising, copyright information, welcome message and other topics unrelated with the contents, how to extract the contents of Web pages out of the body has become a research focus for machine learning and data mining sector. This articleal will make a brief introduction of the gorithm research extracting the body of the page, and make prospects for future research work.

Tag：
点此返回栏目查看更多>>>参考论文

上一篇：泡沫铝压缩性能数值模拟

下一篇：以“应用型人才培养”为导向的土木类基础力学课程教学研究

热点内容

基于ABAQUS的混凝土重力坝优化设

小变形情况下的奇异屈服面弹塑性

三维编织复合材料尺寸效应的实验

考虑逐步失效的层合板低速冲击下

平稳随机激励下的岩层

基于互相关函数幅值向量和小波变

外加电场对纳米结构弹性力学性能

湿度场下膨胀岩的粘弹塑性模型研

基于互相关函数幅值向量的复合材

突变理论研究重力坝的抗滑稳定安

有限厚度压电层表面金属电极脱层

温度拉应力共同作用下砂岩破坏的

径向辛体系一种新的差分格式

基于原子尺度的fcc金属纳米线材

一种特殊的各向同性弹塑性本构模

如何用EndNote将参考文献格式化

SCI论文中图和表的大小和格式

如何用Adobe Reader软件进行修改

如何书写SCI论文的致谢

SCI论文如何引用参考文献（二）