分类: 系统运维
2010-04-08 09:07:30
MetaStudio是描述网页语义结构并自动生成网页数据抓取规则的工具。通常,网页数据抓取规则是手工编写的,很容易出错,需要比较麻烦的调试 和测试,而且需要使用多个样例网页进行验证,经过多次修正,最终才能获得一个合适的网页数据抓取规则。另外,由于目标网页结构会改变,届时,又得花费很多 时间修改原先定义的网页数据抓取规则。MetaStudio将上述所有这些费时且易错的工作自动化,网页数据抓取规则自动生成,并即时进行验证,如果今后 页面结构变化了,只需要使用MetaStudio的友好的图形化界面修正一下即可,而且,由于采用了专利技术, 锁定目标页面结构变化的能力很强,即使页面结构进行了比较大的改变,MetaStudio生成的网页数据抓取规则也能适应新结构。
MetaStudio V4.x版本进一步提高了, 在自动生成网页数据抓取规则的基础上,引入了两个层面的手工自定义抓取规则:自定义XPath节点定位表达式和自定义XSLT网页语义块抓取指令,而且将 自定义的抓取规则无缝集成到自动生成的网页抓取规 则文件中,使用单一网页数据抓取规则文件即可完成特定主题页面的数据 抽取任务。
详细的版本特性参见
通过阅读本手册,您可以掌握 MetaStudio 的使用方法,即
通过MetaSeeker提供的友好的图形用户界面(GUI),定义一个新主题的网页数据抓取规则仅仅需要几分钟时间,接下来的章节将详细展示怎样 使用该工具。