专利深度|自然语言处理的专利分析

自然语言处理(NLP)是指计算机对自然语言的形、音、义等信息的处理,即字、词、句、章的输入、输出、识别、分析、理解和生成。实现人机之间的信息交流是人工智能、计算机科学和语言学共同关注的重要问题。

近年来,科技巨头和创业公司相继投入资源和成本进行商业化探索。但是自然语言处理除了语音和机器翻译,在很多方面都没有很大的进展。比如句子识别,主要包括识别一个句子中的动词、名词、形容词,这些都是很简单很基础的任务。但从2009年到2017年,其准确率增长不到1%,目前准确率只有57%。虽然自然语言处理已经成为人工智能的热门子行业,但该技术本身仍有足够的成长空间,仍处于早期阶段。

基于此,国家知识产权局专利分析普及推广项目人工智能关键技术研究组从专项技术和通用技术出发,围绕专利技术发展路线和重要申请人对自然语言处理行业进行深入分析,供行业参考。

深度学习推动自然语言处理专利申请快速增长。

自然语言处理专利申请趋势及其技术演进路径

自然语言处理技术从1970左右开始,一直到1985,每年最多申请不超过30个。

1985之后,随着网络技术和计算机技术的发展,丰富的语料库成为现实,硬件不断更新完善,自然语言处理的趋势从理性主义转向经验主义,基于统计的方法逐渐取代了基于规则的方法。申请数量开始快速增长,到2000年,每年申请数量达到780个。Jarinik和他的IBM Watson实验室是推动这一变化的关键。他们使用基于统计的方法将语音识别率从70%提高到90%。在这个阶段,基于数学模型和统计学的自然语言处理方法取得了实质性的突破,从实验室走向了实际应用。

从2008年到现在,受图像识别、语音识别等领域成果的启发,人们逐渐开始引入深度学习做自然语言处理研究。从最初的词向量到2013的word2vec,深度学习与自然语言处理的结合达到了一个高潮,在机器翻译、问答系统、阅读理解等领域取得了一定的成功。年申请量从2008年的1258。深度学习是一个多层神经网络,从输入层开始,经过层层非线性变化得到输出,从输入到输出做端到端的训练。准备输入到输出对的数据,设计并训练一个神经网络,然后执行预期的任务。RNN一直是自然语言护理最常用的方法之一,GRU、LSTM等模式引发了一轮又一轮的热潮。正因如此,自2009年以来,自然语言处理相关专利申请迎来了新一轮增长。

中国和美国是这一领域最具竞争力的国家

从来源国来看,中国和美国是该领域专利数量最多的国家,是主要的技术储备国和来源国。

中国和美国的专利申请趋势

在该领域,从中美两国的申请趋势来看,两国的专利申请量都呈现出稳定增长的趋势,说明两国对自然语言处理技术的研发和专利储备相对重视。总体来说,虽然早期中国与美国有一定差距,但经过长期积累,中国在2012年超过美国成为世界专利申请量最高的国家,达到526件/年;然后差距进一步拉大。201668,中国达到1668,是美国856的两倍。中国已经超过美国成为全球年申请量最高的国家,未来几年很有可能成为全球专利储备最多的国家。

百度进入全球前十。

我国创新主体专利储备有待加强。

主要申请人专利申请的全球排名

在全球主要申请人排名中,IBM在申请数量上有很大优势,属于第一阵营;相比IBM,微软的应用量不足400,是IBM的4/5,属于第二阵营;排名第三的NTT通信距离排名第十的富士康不足300片,属于第三阵营。在中国,百度排名第八,有457款应用;中国台湾省的富士康也进入了世界前十。我国创新主体专利储备有待加强。

技术迭代的加速推动了自然语言处理技术的快速发展

(1)深度学习推动词性标注技术快速发展。

词性标注就是给自然语言中的每一个单词都加上一个词性标签。正确的词性标注是自然语言处理的一个基本步骤,错误的词性判断可能会导致对整个句子的错误理解。

词性标注技术的发展路线

从技术发展路线来看,1980之前的词性标注专利申请很少。在1980到1990期间,出现了基于规则的词性标注方法,这是人们提出的比较早的方法。基于规则的基本思想是建立标注规则集,并使标注规则集尽可能准确,然后利用标注规则集对待标注语料进行标注,从而得到正确的标注结果。基于规则的词性标注的缺点是针对性太强,难以进一步升级,也难以根据实际数据进行调整,在实际使用中不够好。

1990之后,发展了基于统计的词性标注技术,将隐马尔可夫、条件随机场等模型应用于词性标注。所有知识都是通过语料库的参数训练自动获取的,可以获得良好的一致性和高覆盖率。因此,基于统计的词性标注方法被广泛使用。然而,基于统计的方法也有缺点和局限性。比如建立模型参数时,需要大量的训练语料,训练语料的选取会影响精度。

由于基于规则的方法和基于统计的方法都不能令人满意地处理一些问题,有人提出了基于规则和统计相结合的词性标注方法,主要是将词典和统计模型相结合。这种组合式词性标注方法在很大程度上弥补了单一方法对标注结果的影响,充分发挥了基于规则的方法和基于统计的方法的优势。实际上,两种方法的结合就是理性主义和经验主义的结合。

近年来,基于人工智能的方法也被应用于词性标注。与前三种方法相比,该方法具有适应性强、精度高的优点。来自中国的申请人在这方面做了大量的研究,他们的技术是爆炸性的,他们取得了一系列的研究成果。

(2)无监督学习是词级语义的主要发展方向,创新主体加速进入,布局各异。

语义分析的目标是通过建立有效的模型和系统,实现各种语言单位(包括词、句、章)的自动语义分析,从而理解整个文本的真实语义。词汇语义分析的重点是如何获取或区分词的语义。

面向词级语义分析的专利技术发展路径

词级语义分析的方法有很多种。从发展的角度来看,词典语义、语法结构、双语词典和Yarowsky算法在基于词典的语义分析中不再产生新的重要的相关专利申请。基于实例和统计模型的重要专利申请很少;由于关键词提取技术的发展,基于语义词典的相关技术在2017仍然产生了相关的关键专利,这将是未来的发展重点之一。同时,基于无监督学习,在大数据、算法和芯片技术的驱动下,由于不需要专门的语料库,扩展性强,将成为未来的主要发展方向。

中国重要语义申请词分析

截至2065438+2008年8月,中国申请人中,拥有3件以上专利申请的申请人有6人,其中齐鲁工业大学排名第一,其次是昆明理工大学、百度、腾讯、富士通、IBM。至于在中国的外国申请人,IBM在1999开始提交基于双词典的消歧专利申请,随后分别在20114提交基于上下文首字母缩略词和单词包的专利申请。富士通于2012年提交了首个基于双语消歧技术的专利申请,随后分别于2012年和2016年提交了基于组合概率和针对缩减单词的专利申请。昆明理工大学于2008年提交了一份基于改进信息贝叶斯方法的消歧技术专利申请。腾讯的相关专利申请侧重于利用词的流行度、基于文本的内容、基于基础词词典和短语词典等领域,同时提交一份词典构建相关的专利申请;百度于2012提交了首个专利申请,研究方向包括多粒度词典的构建、用户选择的使用、基于歧义词消解的搜索等。2018,百度提出了基于无监督神经网络的词级语义分析专利申请。

早期,清华大学、北京大学、中科院声学研究所、哈工大、日本电气(中国)、谷歌等科研院所和企业都在国内申请了相关专利。随着技术的发展和对创新学科的重视,南京邮电大学、华东师范大学、富士康、上海交通大学等也进行了相关领域的研究。2014之后,苏州大学、南京大学、中山大学等高校也加入了词级消歧研发。

值得注意的是,虽然中国申请人参与了各个时期的词级消歧研究,但除昆明理工大学外,大部分前期实力较强的中国申请人并未持续提交相关专利申请。在引领词级消歧技术发展的无监督消歧中,只有百度提交了相关专利申请。

(3)神经网络是机器翻译发展的重点,IBM积累很多,百度加速追赶。

20世纪40-50年代,机器翻译的相关技术处于理论研究阶段,计算机的发明和信息论的研究为机器翻译奠定了理论基础。在此期间,没有提出相关的专利申请。

机器翻译系统产业和技术的发展

从20世纪60年代开始,进入了基于规则的机器翻译系统时代。相关专利开始零星出现,其中IBM作为计算机领域的先行者,在这一时期扮演了非常重要的角色,积累了大量关于正规机器翻译系统的基础专利。此外,大学和政府研究机构是这一时期的重要组成部分。类似Systran系统的机器翻译产品诞生于大学实验室,通过政府项目合作得以生存和发展。

从1980年到1990年,机器翻译系统逐渐成熟并走向市场。在此期间,专利申请数量开始爆发,主要来自企业。但是从21世纪开始,互联网公司在这个领域的优势就显现出来了。随着互联网语料库和算法的巨大积累,谷歌、微软、百度等互联网公司已经超越了IBM、东芝等老牌公司,特别是随着近年来深度学习带来的技术革命,数据资源的重要性大大降低。近年来,革命性的技术都来自于系统算法框架的创新。

展望未来

虽然美国和日本早期在自然语言处理领域积累不少,但中国近年来加速追赶。中国已成为世界上专利申请量最多的国家,专利储备居世界第二。未来的竞争将主要在中国和美国展开。同时,人工神经网络与自然语言处理的结合,促进了词法分析、句法分析、语义分析、语言模型、知识图谱技术等通用技术的快速发展,加速了机器翻译、自动文摘、自动问答、情感分析等专用技术的落地。加大基于神经网络的自然语言处理技术的研发,有助于中国和国内创新者弯道超车,抢占人工智能高地。

尹启亮叶盛罗强|国家知识产权局专利分析普及工程人工智能关键技术研究组