-
专利检索中先布尔再语义还是先语义后布尔,这
- 时间:2023-04-02 12:51来源:www.52zhuanli.com.cn
#本文仅代表作者观点,不代表www.jiqunzhihui.net立场,未经作者许可,禁止转载#
来源:www.jiqunzhihui.net中文网(www.jiqunzhihui.net.cn)
作者:吴正明 常州市权航专利代理有限公司
原标题:先布尔再语义还是先语义后布尔,这是一个问题
随着专利数据库的发展,数据量全已经是一个最基本的评判指标了,智能化的傻瓜型检索方式能够帮助企业非专业的IPR经过短期培训也能够胜任普通的检索要求;因此,为了使专利数据库的使用更加人性化,语义检索也成为各大专利数据库宣传的重点。本文对一件“基石”专利价值评估值38万美金的专利进行检索分析。
前段时间有分析师分析了国内数据库的申请情况,同时根据被引用次数,找出了一家数据库被19次引用的,这件被认为是该数据库的“基石”,引用这件美国申请的企业都是微软、阿里巴巴、百度、LEXIS NEXIS等国内外互联网巨头,体现了这件在相关技术上的先进性。分析师指出,这件名为“Method and System for Re-ranking Search Results”的,背后是基于自然语义分析的新一代智能搜索技术,通过超大规模计算智能,能自动理解不同文献中蕴含的各种主题。
带着强烈的好奇心,笔者找出了这件,进行了分析。这件“基石”价值评估值38万美金。
专利的优先权是中国专利CN200810105725.1(对搜索结果重新排序的方法和系统),这件在授权时遇到一些波折,经历了一次复审,也就是说审查员曾经做出过驳回决定。以下是最终授权版本的权利要求1。
权利要求1很简单,也说明了保护范围较大,创新比较原始,从保护内容来看,实质上是布尔检索和语义检索联合使用时的一种应用场景。翻译过来大概是:
1、计算机搜索用户输入的关键词等布尔检索式,获得检索结果;
2、计算机根据用户输入的语义检索式(重排序表达式),对第一步的结果进行重新排序;
3、显示排序后的所有检索结果。
看来这件应该属于自然语义分析的新一代智能搜索技术的应用,而与自然语义分析本身没太大的关系,在说明书中也是引用了一些文献,并且核心算法并未在说明书中直接公开,仅公开了一些显性操作过程和执行过程。
这件中国在授权的权利要求1中主要改变了两个特征,一是增加了“其中重排序表达式与搜索表达式同时输入”,二是删除了对部分文档进行排序和显示部分文档的技术方案(根据重排序表达式,对部分文档进行重排序,以所述排序来显示所述搜索结果中的部分文档),只保留了对所有文档进行排序并显示所有文档的技术方案。
同族的美国授权中也增加了“重排序表达式为搜索查询附带的文本字符串,在从数据源生成搜索结果时不进行任何操作”的限定。也就是说,语义排序对布尔搜索结果只作排序,不进行再次限定等会影响布尔检索式搜索结果的操作。
这件保护的实际是先布尔限定后语义排序的检索方式,这种技术可以“使得搜索结果不减少的情况下,与用户的关注点相关的结果会显示在结果的最前面。使得用户能够首先关注他特别最期望看到的结果,同时又可以完整地看到其它结果。而且,用户可以对同一个搜索结果根据需要进行多个不同的排序,只要修改排序表达式即可。使用用户个性化定制的重排序表达式可以很好的满足用户个性化的需求,提高了对搜索结果的浏览效率,能够更快更准确地获得需要的结果。”
这件申请日是2008年,当时国内数据库方面还停留在关键字检索方式上,基本未涉及语义检索,所以该数据库能提出这样的检索模式和检索思路,同时被如此多的巨头引用,也说明了这件在数据库检索上的技术贡献和应用前景是比较可观的,带领了国内数据库从布尔检索转向智能化检索具有里程碑的意义。
随着数据库的发展,数据量全已经是一个最基本的评判指标了,智能化的傻瓜型检索方式能够帮助企业非专业的IPR经过短期培训也能够胜任普通的检索要求;因此,为了使数据库的使用更加人性化,语义检索也成为各大数据库宣传的重点。经研究过后,笔者发现当前布尔与语义的配合存在两种方式,一种是先布尔限定后语义排序的方式;第二种是先语义检索出固定量的(例如2000条),再用布尔限定在其中继续筛选,也就是先语义后布尔的方式。
以下是笔者基于国内两大数据库演示三种检索模式。
一、先布尔后语义
1.数据库1
先用布尔检索,在全文中搜索具有“多旋翼 or 四轴 or 多轴”关键词的,一共111335件。
添加语义排序条件“CN106494640B”对结果进行排序。
最终的表达式为R:(“CN106494640B”) AND (TACD_ALL:(多旋翼 or 四轴 or 多轴)),其中R:(“CN106494640B”)部分为语义排序表达式,(TACD_ALL:(多旋翼 or 四轴 or 多轴))部分为布尔限定表达式,结果仍是111335件,只不过排序方式发生了变化,CN106494640B的公开版本CN106494640A排在了第一个。与该数据库在帮助中心的介绍相同。
在顶部输入框可直接输入语义排序表达式和布尔限定表达式,R:(“CN110641729A”) AND (TACD_ALL:(无人机)),检索结果数量变成了123382件,CN110641729A自身排在了检索结果第一个。
单独使用布尔检索式(TACD_ALL:(无人机))检索,与布尔+语义的检索结果相同,也是123382件,但检索结果排序发生了变化。
2.数据库2
数据库2中可直接同时输入布尔检索和语义排序(超级排序)的内容进行检索,在“标题、摘要、权利要求”中搜索具有“多旋翼 or 四轴 or 多轴”关键词的,同时根据“CN106494640B”进行排序。
最终的表达式为R=(CN106494640B) AND (TIABC=(多旋翼 OR 四轴 OR 多轴)),其中R=(CN106494640B)部分为语义排序表达式,(TIABC=(多旋翼 OR 四轴 OR 多轴))部分为布尔限定表达式。检索结果一共52999件,其中每件都标记了相关度百分比,CN106494640B的公开版本CN106494640A排在了第二个,相关度是63.27%。
删除语义表达式,单独使用布尔检索式(TIABC=(多旋翼 OR 四轴 OR 多轴))检索,与布尔+语义的检索结果相同,也是52999件,但检索结果排序发生了变化。
我们也尝试了在顶部输入框直接输入语义排序表达式和布尔限定表达式,R=(CN106124517A) AND (TIABC=(无人机)),检索结果发生了变化,检索结果数量变成了75229件。
单独使用布尔检索式(TIABC=(无人机))检索,与布尔+语义的检索结果相同,也是75229件,但检索结果中无相关度百分比,排序发生了变化。
二、先语义后布尔
在各数据库独立的语义检索模块中操作时,检索模式并非先布尔后语义的模式,而是采用了相反的先语义后布尔的模式,具体来说,是先通过语义检索先找出固定数量的相关(例如2000条),再使用布尔限定在已找出来的固定数量的中继续筛选符合布尔检索条件的,因此这种模式下,最终的检索数量一定小于等于通过语义检索筛选出的数量,同时也一定小于等于仅布尔检索条件的检索结果数量。
1.数据库1
先在语义搜索中输入语义搜索条件CN106494640B。
检索结果中可得到1000条检索结果,每个结果都有相关度百分比,并且是逐渐降低的,也就是说系统截取了最相关的1000个检索结果,语义检索表达式是一串加密的代码。
在语义检索基础上,使用布尔检索条件限定IPC号为B64F5/60,进行二次过滤。
过滤后检索结果为75条,也就是原1000条相关中,有75件的IPC分类号为B64F5/60。
而单独检索IPC号为B64F5/60的为3588条,也就是说此种方式并不是先布尔限定后语义排序,而是先语义检索出1000条,在1000条结果中,再限定IPC分类号为B64F5/60的,共75条。
2.数据库2
先在语义搜索中输入语义搜索条件CN106494640B。
检索结果中可得到2000条检索结果,每个结果都有相关度百分比,并且是逐渐降低的,也就是说系统截取了最相关的2000个检索结果。
在语义检索基础上,使用布尔检索条件限定IPC号为B64F5/60,进行二次过滤。
过滤后检索结果为45条,也就是原2000条相关中,有45件的IPC分类号为B64F5/60。
而单独检索IPC号为B64F5/60的与数据库1相同,也是3559条,也就是说此种方式并不是先布尔限定后语义排序,而是先语义检索出2000条,在2000条结果中,再限定IPC分类号为B64F5/60的,共45条。
三、先布尔后语义+截断
1.数据库1
在数据库1独立的语义检索模块中操作时,界面下方还可以同时输入一些布尔限定条件,看起来类似先布尔后语义的模式,但从检索结果看,仍是1000条结果。
使用IPC号B64F5/60对结果进行二次限定,检索结果仍是1000条,并且检索结果排序未发生变化。也就是说原检索结果中所有的都具有IPC分类号B64F5/60,这种模式应该是先布尔后语义,同时做了相应的截断处理,未显示完整所有的布尔检索结果。
2.数据库2
在数据库2独立的语义检索模块中同时输入布尔限定条件,检索结果也仍是2000条结果。
使用IPC号B64F5/60对结果进行二次限定,检索结果仍是2000条,并且检索结果排序未发生变化。也就是说与数据库1一样,原检索结果中所有的都具有IPC分类号B64F5/60,这种模式应该也是先布尔后语义,同时做了相应的截断处理,未显示完整所有的布尔检索结果。
四、小结
由此以上分析,当前语义+布尔的检索模式一共三种,并且各主要数据库都支持这三种模式。先布尔后语义的模式是先使用关键词检索等布尔条件检索出一个集合,再使用语义排序对这个集合进行相关度排序,并且显示集合中所有的;因此,检索结果仍然是布尔检索的结果,只是排序发生了改变;先语义后布尔的模式是先使用语义检索以检索出固定数量(一般为1000或2000)的,在这个范围内,再使用布尔检索条件进一步限定,检索结果是两者的交集,数量小于等于语义检索条件以及布尔检索条件;最后一种先布尔后语义+截断的模式,则是在先布尔后语义的模式下,不显示所有检索结果,而是截断至前1000个或2000个。
综上,从上述检索结果可以看出,目前国内数据库巨头基于上述三种方式检索反馈的结果数据量是不相伯仲的,那有没有相应公司能够开发一套具有全新检索方式和检索思路的数据库,咱们拭目以待。
来源:www.jiqunzhihui.net中文网(www.jiqunzhihui.net.cn)
作者:吴正明 常州市权航专利代理有限公司
编辑:www.jiqunzhihui.net王颖 校对:www.jiqunzhihui.net纵横君
注:原文链接:(点击标题查看原文)
「关于www.jiqunzhihui.net」
www.jiqunzhihui.net是具有全球影响力的知识产权媒体,致力于连接全球知识产权与科技创新人才。汇聚了来自于中国、美国、欧洲、俄罗斯、以色列、澳大利亚、新加坡、日本、韩国等15个国家和地区的高科技公司及成长型科技企业的管理者及科技研发或知识产权负责人,还有来自政府、律师及代理事务所、研发或服务机构的全球近100万用户(国内70余万+海外近30万),2019年全年全网页面浏览量已经突破过亿次传播。
(英文官网:www.jiqunzhihui.net.com 中文官网:www.jiqunzhihui.net.cn)
本文来自www.jiqunzhihui.net中文网(www.jiqunzhihui.net.cn)并经www.jiqunzhihui.net.cn中文网编辑。转载此文章须经权利人同意,并附上出处与作者信息。文章不代表www.jiqunzhihui.net.cn立场,如若转载,请注明出处:“http://www.www.jiqunzhihui.net.cn/