Chinaunix首页 | 论坛 | 博客
  • 博客访问: 100059
  • 博文数量: 41
  • 博客积分: 2016
  • 博客等级: 大尉
  • 技术积分: 560
  • 用 户 组: 普通用户
  • 注册时间: 2008-09-30 17:40
文章分类
文章存档

2011年(7)

2010年(5)

2009年(19)

2008年(10)

我的朋友
最近访客

分类: 系统运维

2010-04-08 09:07:30

MetaStudio是描述网页语义结构并自动生成网页数据抓取规则的工具。通常,网页数据抓取规则是手工编写的,很容易出错,需要比较麻烦的调试 和测试,而且需要使用多个样例网页进行验证,经过多次修正,最终才能获得一个合适的网页数据抓取规则。另外,由于目标网页结构会改变,届时,又得花费很多 时间修改原先定义的网页数据抓取规则。MetaStudio将上述所有这些费时且易错的工作自动化,网页数据抓取规则自动生成,并即时进行验证,如果今后 页面结构变化了,只需要使用MetaStudio的友好的图形化界面修正一下即可,而且,由于采用了专利技术, 锁定目标页面结构变化的能力很强,即使页面结构进行了比较大的改变,MetaStudio生成的网页数据抓取规则也能适应新结构。

MetaStudio V4.x版本进一步提高了, 在自动生成网页数据抓取规则的基础上,引入了两个层面的手工自定义抓取规则:自定义XPath节点定位表达式和自定义XSLT网页语义块抓取指令,而且将 自定义的抓取规则无缝集成到自动生成的网页抓取规 则文件中,使用单一网页数据抓取规则文件即可完成特定主题页面的数据 抽取任务。

详细的版本特性参见

通过阅读本手册,您可以掌握 MetaStudio 的使用方法,即

  • 描述Web页面语义结构,存储于信息结构描述 文件中
  • 自动生成网页数据抓取规则
  • 验证网页数据抓取规则的有效性
  • 对以前定义的信息结构进行维护和修改,以适用变化了的网页结构
  • 维护用户帐户和语义结构数据库

通过MetaSeeker提供的友好的图形用户界面(GUI),定义一个新主题的网页数据抓取规则仅仅需要几分钟时间,接下来的章节将详细展示怎样 使用该工具。

阅读(1043) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~