作者:曹赞华 来源:中国科学报 发布时间:2018-12-12 5:3:15
选择字号:
专利评估模型进化论

 

■曹赞华

专利评估长久以来都是一个热门话题,不仅是热在概念的谈论,更热在背后算法的开发。专利作为知识产权的一个重要分支,自存在之日起就集合了工商界的各种承载。其与生俱来的法律属性、技术属性与市场属性使每一个拥有者和旁观者都迫不及待地想探究其真正蕴涵的价值。而我们现在的时代刚好是人工智能崛起的时代,摩尔定律作用下的算力狂欢和学者与资金多重加持下的算法狂奔,都是人工智能时代的真实写照。专利文献作为天生的齐次规整大数据源更是补齐了人工智能发展所需的铁三角的最后一角。因此,这个时代正是解密专利价值的黄金时代。

我们不妨稍微向前追溯一下专利价值评估的发展历程,早期的西方论文对此有很多见解,后期如美国的数据商也实实在在地推出了相关产品。事实上在这个时代,中国的发展也是相当快,特别是奥运会成功举办后的十年里,中外各家专利数据库服务商如雨后春笋般迅猛发展,并无一例外地将专利价值评估考虑到了产品中来。而传统的思路彼此之间一直是大同小异,即将专利这个法律文件分解开来,庖丁解牛,拆分成若干的表征参数。比如,权利要求一共有多少个,其中又有多少是独立权利要求,独立的权利要求里面又有多少是方法类权利要求,分类号一共有多少个,各自是什么,分到了几点组,有多少个申请人,又有多少个发明人,有没有同族,同族都去了多少国家去布局,有没有引用其它在前申请,有没有被其它在后申请引用,等等。参数的选择看起来非常多,但是也存在很多的问题。

一是参数是否越多越好,二是参数彼此是否都很重要,三是参数权重如何平衡。其实明眼人一看便知上述是递进问题。

首先,参数真的是越多越好,这个有理论基础,就是香农的信息论。作为一代泰斗,香农早就指出,只要是相关的信息,越多的提供则越是有助于接近你所想要知道的真理。那么扣除掉毫无意义的信息,专利本身可以被表征的信息自然是越多越好。

但是业内人士都明白,同样是一个专利有关的信息,怎么看也不是彼此分量都一样。举例而言,一个专利的独立权利要求1中的实体词的个数可以很好地表征这个独立权利要求1的保护范围。了解专利的人都知道,独立权利要求1就是一个专利的基石,它也是后期诉诸法律保护的一个认定基础。可以说实体词的拆解很好地量化了这个指标,让不同的专利文件之间具备了一定程度的可比性。因此被拆解出来的参数是一个非常重要的参数。但是与此同时,独立权利要求1的整体字数这一参数是否有价值呢?如果上来就说其完全没有价值则过于武断,但是任何懂得自然语言处理或者说稍微有常识的人都明白,其实字数本身对于中文来讲并不是最小的信息承载单元,词、词汇、特别是实体有意义的词,即不是“之乎者也、的地得”这类词才能很好地体现中文的信息。因此同样是拆解专利文献并提炼信息,两个参数貌似在表征的重要性上就有了很大的差别,似乎前者非常重要,后者可以忽略。

此时,我们刚好接下来回答上段第三个问题,即参数的权重如何平衡。基于最简单、最便利的操作方式自然是可以通过专家的头脑去人为解读涉及各个参数的权重并写出一个经验公式。但是这样做的后果就是,其科学性、权威性会受到各种质疑。还好数学的发展给了我们更多的操作空间,如主层次分析法等数据处理方法会让各种参数的配比看起来更具科学性。当然,更上一层楼且更有时代符号的解决方案当然就是机器学习了。机器学习本身就是为此而生,通过学习优质的样本集而反馈各个参数的最佳配比。机器学习的过程近乎完美地解决了专利评价模型所面临的最大挑战之一。此时此刻,再多的参数恐怕也不是问题了,但是另一个问题也随之而来,即优质的、可供学习的样本集何在?

业内事实上已经有很多商业专利数据商在进行类似的工作,大家普遍采用诉讼文件集合或专利评奖集合。但是这部分集合本身有两个致命缺陷。首先就是其并非最佳样本,业内所期望的高质量的专利并不一定是经受过诉讼的专利,两者之间并没有必然的因果关系,而专利金奖等奖项的获得由各种因素影响,其本身同样不能等同于高质量专利。其次,即便考虑上述样本都可以使用,但是其数量对于机器学习的诉求来讲还是杯水车薪。因此,打造一个真正意义上的可供机器学习的优质样本库就变成了最直接的挑战。

对于这个问题,实施上类似于李飞飞当年的做法,征集大量的志愿者来共同完成标引工作会是一个选择。但是不同于标引图像,专利是一个高度专业化的文件体现,普通人群并不具备阅读并理解的能力。因此,类似专利审查员这样的群体,其具有人数多、专业性强以及相对集中便于统一标引标准等绝对优势,这个人群会是进行相应的样本集合标引的不二人选群。

在不是完结的完结之处,再次简短回顾,依靠算力与算法的到位,现在已经将专利评估这项工作正式推到了人工智能的大门口。而推开大门的这股力量一定来自于能够标引出地表最强数据集的专业人群的力量。

(作者单位:国家知识产权局专利局审协北京中心)

《中国科学报》 (2018-12-12 第8版 知识产权)
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
相关新闻 相关论文

图片新闻
薇甘菊“三招”重塑根际氮循环占先机 首次发现,SpaceX火箭坠毁催生空气污染
228米!最长岩芯从南极而来 最新AI模型“星衍”突破天文观测极限
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文