分类:
2012-03-26 16:40:44
原文地址:自然语言处理中的模式(模式0:模式无处不在模式) 作者:张俊林say
自然语言处理中的模式(模式0:模式无处不在模式)
CopyMiddle:张俊林
TimeStamp:2010年7月
对于模式这个概念,身为IT技术人员应该对此不陌生了。四人帮的巨著《设计模式》已然成为经典。那么,模式仅仅局限于软件设计领域吗?显然非也,最初四人帮归纳设计模式的诱发因素也是建筑设计领域的模式。对于自然语言处理领域,同样是存在模式的,这里的模式主要是针对相关专业研究人员的,可以认为是帮助研究人员从宏观上理解某个领域的研究模式。当然,我相信任何其他研究领域也存在类似的研究模式。所以,这也可以认为是一个模式,即模式0:模式无处不在模式。
所谓模式无处不在,即任何领域都存在模式,比如历史事件中的模式,如果你读过一些历史的话,会发现很多人在很多场合做的很多决策以及其决策的结果有非常相似的重合之处,这里显然就是模式的影子了,举个大点的例子,有没有觉得抗日战争时期和三国时期有非常相似之处?中共,国民党和鬼子之间的关系以及决策和魏、蜀、吴是否能够找到对应关系?其实,再抽象一步,你可以从中归纳出三个政治实体博弈的一个基本模式出来,这是历史上的模式。相似的,比如在政治模型,经济方法,技术手段等等各种五光十色五花八门的领域中,这种模式的痕迹几乎无处不在,几无例外。此谓模式无处不在。
深入思考一下,模式到底是什么东西呢?所谓模式实际是某个领域内过去经验地系统总结。不论是哪个领域,只要这个领域已经存在,那么就存在经验,经验有成功的有失败的,存在经验就有对经验地评价,将对经验的评价进行分析总结就是模式。所以,模式无处不在,因为经验无处不在,模式本质上是一种经验主义思考方法,是一种归纳法。模式有助于快速掌握别人流传下的经验,让新人快速上手解决复杂问题,但是,仅仅依靠模式是难以创造新的东西的,如果能够结合演绎法,就可以指导实际,创造出新的东西。也就是说:经验总结-->归纳法-->模式-->演绎法-->将已经证明的模式应用在没有用过的领域--->新的产出--->形成新的经验 依此反复,这个才是模式真正威力所在。
回到自然语言处理研究中的模式上来,自然语言处理相关的国际会议有ACL,COLING,EMENP等等,如果你经常跟踪会议论文并整理子领域的研究进展脉络的话,会发现在这个领域的研究中一样存在着固定的研究模式,其子领域的发展是有路径可循甚至是可以预测其发展方向的。举个比较明显的子领域,比如统计机器翻译,从最初的单词对的翻译加上顺序调整,到扩展为短语对的翻译加上顺序调整,再到目前比较热的字符串到树结构的映射,树结构之间的映射等,其发展脉络非常清楚,这种走向其实也是研究模式的一种具体表现,如果是有经验的研究人员是很容易看出其整体发展趋势的,那么对于自己的选择课题是非常有帮助作用的。
过去我接触过很多博士生,对于如何创新好像始终摸不住脉,看了一大堆论文,但是自己的想法无从谈起,其实这是对研究模式理解不够深入导致的,我相信如果熟悉一些NLP研究领域中比较常见的研究模式,对于做一些理论探索和创新是非常有帮助的。
在后续的文章里,我会逐步把我在2006年之前归纳出的若干常见的NLP研究领域的研究模式一一列出,分享观点,抛砖引玉,也希望能对谁有所帮助。