Web信息提取带来双赢的案例-geo898-ChinaUnix博客

Web信息提取（抓取）一般采用screen scraping或者web scraping等方法，通常情况下，这些方法经常遭到信息提供者的抵制，他们往往认为自己的信息被“窃取”了，实际上，几乎所有搜索引擎（包括所有的巨头）都采用了类似的抓取方法，只是搜索引擎对抓取到的信息的进一步处理往往会给信息提供者创造价值。实际上，screen scraping和web scraping等只是技术方法，关键要看使用者是否能够在信息加工过程中带来双赢的效果。最近，媒体报道了一个双赢案例。

我们越来越感觉到行业冬天的寒意，找一个工作比以往更困难了，我们可以求助于工作搜索网站，但是，所有网站同样在接受冬天的洗礼，所以，找到一个双赢的途径可以让整个产业链安全度过寒冬。

据报道，爱荷华州劳动发展部维护了一个网站服务iowajobs.org，定期从雇主处收集工作岗位信息，然后输入到网站中，这个过程需要很多人工，例如，输入信息操作由人完成，容易出错。最近，该网站使用了一个Web信息提取工具，定期从雇主的网站上提取工作岗位信息，这样，各个雇主网站只管维护自己网站上的工作信息即可，同时iowajobs.org网站也减少了很多人工，现在，他们只需要一个全职的IT人员负责系统的运营，另加1.5个全职人员负责信息的质量审查。

这是使用Web信息提取工具实现Web信息服务集成的成功案例。中的具有很强的语义注解能力，使Web信息提取过程变成Web信息语义结构化的过程，语义结构化是Web服务集成的关键基础。