Hive 查询各类型专利 top10 申请人及专利申请数

Hive 查询各类型专利 top10 申请人及专利申请数

一、背景

在专利数据处理中,我们常常需要分析不同类型专利下申请人的活跃度。例如,给定一个专利明细表 t_patent_detail,其中包含专利号、专利名称、专利类型、申请时间、授权时间和申请人等信息,且一个专利可能有多个申请人(以分号隔开)。我们的目标是找出各类型专利 top10 申请人以及他们对应的专利申请数。

二、数据结构

我们的数据存储在名为 t_patent_detail 的表中,其表结构如下:

  • 专利号(patent_id):每个专利的唯一标识符。
  • 专利名称(patent_name):专利的名称,描述专利的内容。
  • 专利类型(patent_type):例如发明创造、实用新型等不同类型的专利分类。
  • 申请时间(aplly_date):专利申请的日期。
  • 授权时间(authorize_date):专利获得授权的日期。
  • 申请人(apply_users):一个或多个申请人的名称,多人之间以分号分隔。

以下是一些示例数据:

patent_idpatent_namepatent_typeaplly_dateauthorize_dateapply_users
CN201821413799.7一种用于合金板棒材的往复式感应加热设备发明创造2018/8/302019/8/9朱春野
CN201911153500.8转化 DNA 回收率的检测方法及引物发明创造2019/11/222020/1/10陶启长;韦东
CN202011144174.7一种经修饰荧光探针及其应用发明创造2020/10/232020/11/20陶启长;韦东;余明伟
CN201920792416.X适用于中型桌面仪器的隔离装置实用新型2019/5/292020/4/17许亦琳;余明伟;杨华
CN201920973176.3一种高性价离心管冻存盒实用新型2019/6/262020/4/17许亦琳;余明伟;邬剑星;王敏生

三、查询思路

  1. 第一步:处理申请人字段
    由于每个专利可能有多个申请人,我们需要将申请人字段“炸裂”(使用 Hive 的 explode 函数),将每个申请人拆分成单独的行。这里使用 split 函数将以分号分隔的申请人字符串拆分成数组,然后使用 explode 函数将数组中的每个元素(即每个申请人)展开。
  2. 第二步:分组统计
    对处理后的申请人进行分组,并使用 count(*) 函数统计每个申请人的专利申请数。同时,使用 rank() 函数按照专利申请数进行排名,以便后续找出 top10 申请人。

四、Hive 查询语句解析

以下是实现上述功能的 Hive 查询语句:

--各类型专利 top10 申请人,以及对应的专利申请数
select t1.apply_name `申请人`,count(*) `专利申请数`,rank() over(order by
count(*) desc) `专利数排名`
from (--先将申请人字段炸裂select d.*, t1.coll `apply_name`from t_patent_detail dlateral view explode(split(apply_users,';')) t1 as coll
) t1
group by t1.apply_name; --按照申请人分组
  • 在子查询中:
    • from t_patent_detail d 从专利明细表开始查询。
    • lateral view explode(split(apply_users,';')) t1 as coll 这部分是关键。首先,split(apply_users,';')apply_users 字段(申请人字段)按照分号进行拆分,得到一个申请人名称的数组。然后,explode 函数将这个数组展开,每个元素(申请人名称)成为单独的一行。t1 是一个临时表别名,coll 是展开后的申请人名称列的别名。d.* 表示选择原始表中的所有其他列。
  • 在外部查询中:
    • group by t1.apply_name 按照申请人名称进行分组。
    • count(*) 统计每个申请人的专利申请数。
    • rank() over(order by count(*) desc) 使用 rank 函数按照专利申请数降序排名,这里虽然没有筛选 top10 的步骤,但可以根据这个排名在后续进一步处理得到 top10 的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59697.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ STL标准模板库详解:深入探索算法、容器与迭代器

C的STL(Standard Template Library,即标准模板库)是C最重要的组成部分之一,它为开发者提供了一组高效的算法和数据结构,极大地简化了代码的开发。STL主要由三大部分构成:算法、容器和迭代器。以下&#xff…

pytest插件精选:提升测试效率与质量

pytest作为Python生态系统中备受推崇的测试框架,以其简洁、灵活和可扩展性赢得了广泛的认可。通过合理使用pytest的各种插件,可以显著提升测试效率、增强测试的可读性和可维护性。 pytest-sugar:提升测试体验 pytest-sugar是一款增强版的py…

低代码环境中的领域与根实体解析

在现代软件开发中,低代码平台的兴起使得开发者能够更快速地构建应用程序。在这一过程中,理解领域(Domain)和根实体(Root Entity)的概念变得尤为重要。这些概念不仅帮助开发者组织和管理复杂系统中的数据和业…

Linux-c TCP服务模型

1、TCP模型,服务端与客户端的搭建时序图 2、TCP模型,在创建阶段和通信阶段,对套接字的理解 2.1、tcp连接阶段 2.2、tcp通信状态 一个服务端与多个客户端的通信状态 TCP与UDP的对比 (下图是笔者理解所画,可能也许有错…

卡码网KamaCoder 127. 骑士的攻击

题目来源:127. 骑士的攻击 C题解(来源A * 算法精讲 (A star算法) | 代码随想录):Astar Astar 是一种 广搜的改良版。 有的是 Astar是 dijkstra 的改良版。 其实只是场景不同而已 我们在搜索最短路的时候&…

浅谈语言模型推理框架 vLLM 0.6.0性能优化

在此前的大模型技术实践中,我们介绍了加速并行框架Accelerate、DeepSpeed及Megatron-LM。得益于这些框架的助力,大模型的分布式训练得以化繁为简。 然而,企业又该如何将训练完成的模型实际应用部署,持续优化服务吞吐性能&#xf…

软著补正有哪些类型

软著补正是指在软著申请过程中,版权局在审核软著申请材料时,发现一些部分不符合规定的内容,从而对申请材料提出补正要求,要求申请人修改或补充申请材料。软著补正通常涉及以下几种类型: 一、申请材料填写有误 软件名称…

闯关leetcode——3222. Find the Winning Player in Coin Game

大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/find-the-winning-player-in-coin-game/description/ 内容 You are given two positive integers x and y, denoting the number of coins with values 75 and 10 respectively. Alice and Bob a…

GitLab 中文发行版最新版重点功能解读

GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料: 极狐GitLab 官网极狐…

大数据数据存储层MemSQL, HBase与HDFS

以下是对 MemSQL、HBase 和 HDFS 的详细介绍,这些工具在分布式数据存储和处理领域有着重要作用。 1. MemSQL MemSQL(现称为 SingleStore)是一种分布式内存数据库,兼具事务处理(OLTP)和分析处理(OLAP)的能力,专为高性能实时数据处理设计。 1.1 核心特点 内存优先存储…

斗破QT编程入门系列之二:GUI应用程序设计基础:UI文件(四星斗师)

斗破Qt目录: 斗破Qt编程入门系列之前言:认识Qt:Qt的获取与安装(四星斗师) 斗破QT编程入门系列之一:认识Qt:初步使用(四星斗师) 斗破QT编程入门系列之二:认识…

《二分查找算法:在有序数组中搜索目标值》

目录 一、问题分析 二、二分查找算法原理 三、代码实现 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target,我们要写一个函数来搜索 nums 中的 target,如果目标值存在就返回它的下标,否则返回 -1。 …

【Qt】QTreeView 和 QStandardItemModel的关系

QTreeView 和 QAbstractItemModel(通常是其子类,如 QStandardItemModel 或自定义模型)是 Qt 框架中的两个关键组件,它们之间存在密切的关系。 关系概述 QTreeView: QTreeView 是一个用于显示和编辑层次数据的视图小部…

高级 HarmonyOS主题课—— 帮助快速构建各种文本识别应用的课后习题

天地不仁&#xff0c;以万物为刍狗&#xff1b; 圣人不仁&#xff0c;以百姓为刍狗。 天地之间&#xff0c;其犹橐龠乎&#xff1f; 虚而不屈&#xff0c;动而俞出。 多闻数穷&#xff0c;不若守于中。 本文内容主要来自 <HarmonyOS主题课>帮助快速构建各种文本识别应用 …

达梦数据库DM管理工具增删改不生效怎么办?如何设置事务自动提交?

前言 我在使用达梦数据库DM时&#xff0c;一开始使用的是达梦数据库自带的连接工具DM管理工具。自带的有它自己的好处&#xff0c;起码对于修改新增字段等是比较兼容的。后面我发现DBeaver也是支持连接达梦数据库的&#xff0c;所以后面用DBeaver也在连接达梦数据库。 我在一…

力扣排序455题(分发饼干)

假设你是一位很棒的家长&#xff0c;想要给你的孩子们一些小饼干。 但是&#xff0c;每个孩子最多只能给一块饼干。 对每个孩子 i&#xff0c;都有一个胃口值 g[i],这是能 让孩子们满足胃口的饼干的最小尺寸;并且每块饼 干j&#xff0c;都有一个尺寸 s[j]。如果 s[j]> g[i]&…

Hadoop---MapReduce(3)

MapTask工作机制 &#xff08;1&#xff09;Read阶段&#xff1a;MapTask通过InputFormat获得的RecordReader&#xff0c;从输入InputSplit中解析出一个个key/value。 &#xff08;2&#xff09;Map阶段&#xff1a;该节点主要是将解析出的key/value交给用户编写map()函数处理&…

ssm052游戏攻略网站的设计与实现+vue(论文+源码)-kaic

毕 业 设 计&#xff08;论 文&#xff09; 题目&#xff1a;游戏攻略网站设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本游戏攻略网站就是在这…

Python中的extend()方法与+操作符和list.append()方法的异同

在Python编程中&#xff0c;我们经常需要将一个列表的元素添加到另一个列表中。有几种方法可以实现这一点&#xff0c;包括extend()方法、操作符和list.append()方法。本文将详细讨论这三种方法的异同&#xff0c;帮助你更好地理解它们在实际编程中的应用。 1. extend()方法 e…

Word大珩助手:超大数字怎么读?35位数字?69位数字?

俄罗斯日前对谷歌开出了20000000000000000000000000000000000&#xff08;35位数字&#xff09;美元的罚款 这一数字远超全球GDP总和&#xff0c;消息一出很快就登上热搜。 面对这样一个庞大的数字&#xff0c;人们不禁好奇&#xff0c;这样的数字该如何读出来&#xff1f; …