一文简单地说明了该技术方法的技术路线,本文进一步阐述FreeFormat技术方法的价值,也就是所谓的社区性或社会性,而且可以改变Web信息提取的用途,使其能够回馈互联网大社区。
万维网(Web)给人们的信息和知识管理带来了巨大改变,现在,人们逐渐习惯了到万维网上寻找知识和问题的答案,以前需要花费几个小时甚至更长时间 翻阅图书资料,现在可能只需要几分钟。如果,万维网中的内容能够被计算机进一步处理加工,可以肯定,能够创造更大的价值。然而,计算机凭借现有的算法和能 力无法像人一样阅读和理解万维网中的内容。人工智能是一种解决方案,然而,根据现有的研究进度,人工智能的目标还是比较遥远的。其实,有另外一种更实用的 解决方案:将现有互联网中的内容进行结构化改造,首先汇聚网络内容语义结构元数据,然后利用该元数据将互联网上的内容提取出来并转换成结构化数据。这样, 现有的非结构话信息转变成了像关系数据库一样的结构化信息,使计算机的进一步处理加工成为可能。
事实上,从万维网(Web)上提取信息早在上个世纪就出现了,随着万维网上内容的增加,人们自然想到要使用计算机进一步加工这些信息,以创造更多价 值。各种信息提取算法层出不穷,而且随着计算机技术的发展,用新计算机语言和技术不断武装以前算法,其能力大大增强,然而,本质上所有这些算法和技术的基 础没有改变,我们知道,万维网上的内容是用HTML文档呈现给人们的,即使服务器使用了各种先进的动态页面管理技术,客户端浏览器面对的仍然是HTML文 档,几乎所有的信息提取算法和技术都是利用HTML文档中的各种标签,使用字符串正则表达式或者DOM结构遍历技术,从文档中指定位置提取信息。随着一些 新技术的出现,例如,XPath, XSLT, XQuery等,信息提取的效率和能力大大提高,然而,没有质的改变,其局限性主要提现在下面三点:
信息提取技术的应用是分散的
信息提取的应用十分普遍,几乎每个互联网领域的公司和个人都或多或少地需要从现有的万维网内容中提取需要的信息。当前,计算机编程语言发展的十分强 大,编写一段信息提取的代码也许只需要几个小时,因此,这些公司和个人几乎都有编写定制的信息提取代码的经历。虽然单个个体的开发投入很小,而整个产业领 域的开发投入总量是巨大的,所以,当前这种分散状态耗费了可观的资源。
信息提取开发成果是无法继承和积累的
由于信息提取系统的开发是分散的,每个个体的开发成果无法继承和积累,个体开发的信息提取代码都是为特定目的的,随着应用场景的改变,从技术上这些 代码无法重用,例如,目标页面改变了就需要新代码应对新的文档结构;开发人员到一个新项目中,因为项目环境的变化,他很可能选择开发一个全新的信息提取代 码;开发人员替换后,继任者很有可能抛弃前任的成果,重新开发。成果不能继承是一项损失,再加上重复开发的支出,都对企业盈利造成损害,如果,再将这些损 失扩大到产业领域甚至整个人类社会领域,总量是巨大的,这跟万维网的理念是相悖的。
信息提行为往往是不受欢迎的
信息提取通常被看作是一种信息攫取行为,实际上,其底层技术跟当前的搜索服务的技术有很多相似之处,例如,其前端都使用相同的网络爬虫技术,然而很 多信息提取行为与当前的搜索服务的进一步加工和使用信息的目的和方法不同,相比于搜索服务,很多信息提取活动不能回馈互联网产业和社会,不能产生增值,很 多信息提取活动是单方向的,甚至非法拷贝别人的内容。因此,信息提取行为经常受到抵制。
以上这些弱点严重损害了信息提取的应用和发展,问题关键在于现有的技术与万维网的理念相悖。万维网是全球共享的知识库,人们自发创造内容,补充到万 维网知识库中,同时享受别人的创造成果,这是一个价值增值的回馈循环。显而易见,当前的信息提取技术没有参与到这个回馈循环中。
FreeFormat方法和成 功地解决了这个问题,使信息提取行为不再是备受争议的攫取行为,而是积极参与万维网价值增值的回馈循环。使用FreeFormat方法和工具,网络用户能 够参与到万维网内容语义结构的定义和共享活动中,随着参与度的增加,定义出来的语义结构将联系成一张语义网络,使用这些语义结构,能够有效地对网络内容进 行结构化改造,而且,由于这些语义结构是共享发布的,能够有效地减少重复劳动造成的消耗。网络用户不再需要重复定制大量的信息提取程序,使用本发明的方法 和装置,先搜索是否已经存在满足需求的别人共享出来的语义结构,如果存在,只需生成自己的信息提取指令即可。