WEB网页结构化信息抽取技术介绍(网页库级)-softiger-ChinaUnix博客

softiger的IT&nbsp;BLOGsoftiger.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

softiger

博客访问： 2587882
博文数量： 709
博客积分： 12251
博客等级：上将
技术积分： 7905
用户组：普通用户
注册时间： 2005-07-17 00:00

个人简介

实现有价值的IT服务

文章分类

全部博文（709）

IT管理工具（9）
软件工程（0）
IT管理框架（29）
书籍（2）
话里有话（39）
Tivoli（0）
finance（1）
个人工具（21）

工作（20）
技术--java编程--（2）
运营--myweb（0）
文化--人物（1）
生活--搞笑“梨花（1）
运营--互联网要闻（8）
运营--电子商务研（0）
运营--静看电子商（15）
运营--静看互联网（25）

运营--团队管理（0）
运营--团队建设（6）
文化--人文沙龙（6）
管理--项目管理与（17）
文化--历史（7）
技术--模式（0）
技术--J2EE（98）

javascript dom（0）

css（5）

xml处理（1）

Java模式（2）

servlet学习（9）
文化--西方哲学（2）
文化--古诗词（3）
技术--建模（3）
技术--Windows 管（2）
文化--传统文化（30）
技术--JavaScript（8）

drw（3）
随笔（65）

名词解释（7）
运营--Web2.0（18）

运营--web2.0--pi（7）
技术--MySql（49）
技术--网络运用（3）
经常使用站点（2）
运营--网站建设与（11）
运营--社区（0）
运营--Seo技能（2）
技术--安全（5）
技术--Java编程（96）

技术--Java编程--（32）

技术--Java编程--（3）

技术--Java编程--（4）
技术--Web服务器（51）
技术--Ms Sql 相（14）
技术--Oracle相关（2）
技术--Shell编程（10）
技术--Linux系统（41）

网络命令（4）

系统命令（1）
未分配的博文（5）

文章存档

2012年（7）

2011年（147）

2009年（3）

2008年（5）

2007年（74）

2006年（431）

2005年（42）

我的朋友

最近访客

推荐博文

WEB网页结构化信息抽取技术介绍(网页库级)

分类： IT职场

2007-02-13 11:20:15

2006-3-7 14:20:18 sigz

关键词：

注意：原创文章，无版权，可以任意转载，但必须完整转载全文、url和内部解释性链接

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是和通用搜索引擎最大的差别。
　　如：比较购物搜索那就需要抓取网页后，对网页中的商品信息进行抽取，抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
　　房产信息搜索那就应该抽取出那应该抽取出：类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话……
　　公司企业信息搜索那就应该抽取出：公司名称、地址、电话、联系人……
　　…………
　　结构化信息抽取有两种方式可以实现，比较简单的是模板方式，还有一种是。

　　是事先对特定的网页进行配置模板，抽取模板中设置好的需要的信息，可以针对有限个网站的信息进行精确的采集。
　　特点：简单、精确、技术难度低、方便快速部署。
　　缺点：需要针对每一个信息源的网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理，不是搜索引擎级的应用，很难满足用户对查全率的需求。

网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法，自动抽取结构化的数据。
　　特点：可对任意的正常网页进行抽取，完全自动化，不用对具体网站事先生成模板，对每个网页自动实时得生成抽取规则，完全不需要人工干预。智能抽取准确率高，不是机械的匹配，采用智能分析技术，准确率能达到98%以上。能保证较快处理速度，由于采用页面的智能分析技术，先去除了垃圾块，降低分析的压力，是处理速度大大提高。通用性较好，易于维护，只需设定参数、配置相应的特征就能改进相应的抽取性能；一般的非专业人员经过简单培训就能维护。
　　缺点：技术难度高，前期研发成本高，周期长。适合和搜索的高端应用。

我们的技术是对网页不依赖的web结构化信息抽取技术，适合高端的垂直搜索应用或者高端的竞争情报分析系统。

阅读(1224) | 评论(0) | 转发(0) |

上一篇：如何做好一个垂直搜索引擎

下一篇：垂直搜索引擎技术

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6