佰腾科技:专利大数据的云上裂变之路

公司简介

我们江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新整体解决方案。2014年起,我们公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。

业务痛点

  • 急需大数据的处理能力。
    • 上百项数据维度的高效存储和高效处理是我们公司目前急需解决的问题。提升了大数据的处理能力,才能加快专利信息应用的步伐、满足客户更多的需求。
    • 现在的数据维度比较多,处理环节非常多,需要实现数据处理流程的自动化编排。
  • 数据平台的可扩展问题。

    我们公司的专利巴巴产品架构中几十个组件都要维护,每有一个客户需求都需要做组件,需要解决数据平台的扩展性,以便快速支撑各种需求的应用。

解决方案

图 1. 专利巴巴业务架构

专利巴巴业务架构

  • 数据处理能力:
    • 使用MaxCompute平台代替数据库。我们上云之前的原始数据处理和数据维度分析都使用了数据库集群,现在将这两部分放入了MaxCompute,大幅提升整个数据存储和处理的效率。
    • 通过使用MaxCompute的任务平台,来编排处理任务。数据都存在MaxCompute表里,因此可以定义MaxCompute函数,访问表里的内容,并进行相应处理。Shell任务对原始数据进行数据包拆解,拆包后把数据放到MaxCompute,然后通过SQL任务对数据维度进行拆解和分析,这时会用到定义的MaxCompute函数,最后还可以调用一个Shell任务,对数据维度索引,供上层应用使用。
  • 数据应用需求:
    • 平台架构分层化设计。按照专利大数据的处理流程和职责明确做了设计,核心是数据维度数据库。
      • 数据获取层:负责从数据源拉取数据,检验数据的完整性。
      • 数据处理层:对原始数据进行数据维度的挖掘。
      • 数据应用层:对数据维度进行各类索引以便应用。
      • 数据服务层:负责对外提供统一的数据服务接口,保障服务质量。
      • 数据管控层:负责对整个数据平台进行运行监控。
    • 数据维度规范化处理。我们对于数据维度做了大量的规范性要求:
      • 为每个数据维度明确其应用目标。
      • 明确数据维度的数据样式规范。
      • 明确数据维度的质量标准。
    • 数据维度规范化应用。
      • 引擎组件:各类引擎组件用不同的方式对数据维度进行编码索引,并提供各种特性的数据应用功能。
      • 模型系统:对引擎组件的能力进行编排,实现可重用的数据分析能力,提高数据分析应用的复杂度。

上云价值

  • 数据的测算之前基于RDS的数据存储,一个维度的数据处理需要2-3天,现在处理时间缩短到3-6个小时,整个性能提升非常之大;而且,在大量数据处理时,很多时候是处理到80%的时候才会发现数据处理有问题,若处理时间过长,当发现问题时会一切重新开始,浪费的时间非常长。所以在这个场景下,MaxCompute的性能非常可靠。
  • 上云之后的大数据处理流程比之前的流程简单很多。所有数据处理流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。

相关产品

  • 大数据计算服务 · MaxCompute

    MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

    更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页。

  • 云服务器ECS

    云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

    更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页。

  • 云数据库RDS MySQL版

    MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。

    更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页。

  • 数据传输服务DTS

    数据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。

    更多关于数据传输服务DTS的介绍,参见数据传输服务DTS产品详情页。

  • 对象存储OSS

    阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。

    更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516501.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

27年前研发出国内首台小型机的浪潮,如何怎么样了?

IDC数据显示,2019年浪潮商用机器有限公司在面向关键计算的RISC/EPIC服务器领域,市场份额达到73.5%,保持市场第一的领导地位。 浪潮商用机器有限公司在成立不到一年时就推出了基于POWER处理器的K1Power产品线,在成立仅两年时便取…

springboot elasticsearch vue ik中文分词器 实现百度/京东全文搜索

背景:实现和百度搜索一样效果的,全文搜索引擎支持关键词高亮显示 文章目录1. 企业级搜索引擎解决方案2. 创建索引规则3. 数据拉取4. 搜索高亮5. 自定义词库6. 效果图7. 开源源码1. 企业级搜索引擎解决方案 分词器:english、standard、ik_max…

学习笔记之数据可视化(一)——项目适配方案

目录 最终效果展示1. 数据可视化适配方案1.1 项目需求1.2 PC端适配方案1.3 使用到的技术2. 数据可视化项目开发项目准备1.1 文件准备1.2 引入js和css文件1.3 CSS样式初始化1.4 VS code 插件安装(任选一款)1.4.1 Live Server1.4.2 Preview on Web Server**~更多内容,请阅读下…

上海鸥新:基于大数据的商场实时客流分析系统

公司介绍 上海鸥新软件有限公司专注于室内定位技术和客流统计与分析的研发,如室内定位引擎、客流统计与分析系统。在用户导入客流系统的同时,为商业零售实体店提供了网络覆盖、微信上网,定时定地点向客户进行精准化商业信息推送等一体化解决…

常见的Ubuntu命令30条(二)

Ubuntu命令是指在Ubuntu操作系统中用于执行各种任务和操作的命令行指令。这些命令可以用于管理系统、配置网络、安装软件、浏览文件等。Ubuntu命令通常在终端(Terminal)应用程序中输入并执行。 history:显示命令行历史记录。grep&#xff1a…

Elasticsearch的使用RestHighLevelClient

文章目录一、准备1. 导入依赖2. 测试数据二、全文搜索2.1. 匹配搜索(会拆词)2.2. 短语搜索2.3. queryString搜索2.4. 多字段匹配搜索三、词条级搜索3.1. 词条级搜索3.2. 词条集合搜索(terms query)3.3. 范围搜索( range query)3.4. 不为空搜索(exists qu…

手把手带你搭建一个自己的云服务器并部署Web程序

一. 服务器的购买 我选择的是阿里云的服务器,学生价9.5元一个月,百度直接搜索阿里云,然后点击右上角登录,推荐大家用支付宝扫码登录,方便快捷。阿里云官网的东西比较多,登录后我找了很久也没有找到学生服务…

QingStor分布式存储全线升级:自研需要勇气,成功还要看实力

数据量的爆炸式增长和企业对数据价值挖掘的渴求,正在让存储市场迎来前所未有的发展机遇。一方面,分布式存储正在经历快速的增长时期,IDC 2019年市场预测报告显示,无论是对象存储、文件存储还是块存储,分布式存储在未来…

加入阿里技术团队三年,哪些习惯让我在工作上持续受益?

2017年研究生毕业,我加入阿里巴巴数据库技术团队,从事分布式数据库研发,如今算来已经有三年时间了,在这期间,我深度参与了双十一背后的数据库PolarDB-X从设计到实现的全过程。在这三年的时间里,于我而言&am…

学习笔记之数据可视化(二)——页面布局(上)

~续上一章 2. 项目页面布局2.1 基础布局2.1.1 PC端屏幕宽度适配设置2.1.2 主体容器viewport背景图片2.1.3 HTML结构2.1.4 css样式代码2.2 边框图片2.2.1 使用场景2.3 面板公共样式开发2.3.1 面板边框图片尺寸测量2.3.2 面板 Panel 子容器`.inner`2.3.3 子容器 .inner 边距调整2…

阿里每天究竟要抵御多少攻击

知乎上曾经有一个很有趣的问题。 黑客为什么不攻击淘宝? 这个问题有趣就有趣在,这是典型的外行思维,看似很有道理,但其实问都问错了。 正确的问题是,黑客到底有哪天不在攻击淘宝? 答案是,0.…

征战多云时代,Nutanix这款Kubernetes多云PaaS新利器,你Get到了吗?

当前,全球企业上云步伐加快,企业都有相同的目标:尽快将业务迁移上云,从而减少基础架构成本,提高员工效率,缩短业务研发时间,提供性能可靠的IT系统。 当下,以容器、服务网格、微服务…

学习笔记之数据可视化(二)——页面布局(中)

续上一章 2.6 监控区域布局2.6.1 布局结构解析:2.6.2 样式描述:2.6.3 HTML结构及CSS样式代码2.6.3 ### 监控区域-效果2.6.7 点位区域(point)2.6 监控区域布局 监控区域 monitor盒子高度: 480px,布局划分及内部盒子类名如下: 2.6.1 布局结构解析: .tab样切换:tabs 标…

OFD文件、pdf文件相互转换、ofd文件在线预览

文章目录一、在线预览1. api使用2. 案例3. 效果二、ofd转odf2.1. api使用2.2. 参考案例三、odf转ofd3.1. api使用3.2. 参考案例3.3. 开源项目一、在线预览 1. api使用 ofd文件在线预览: 使用方式: 格式:/ofdViewer/viewer.html?file1.ofd相对路径 2.…

视频会议应用空间广阔 未来“上云”将成趋势

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 此次疫情推动云计算产业迎来加速发展期。此前,根据国务院发展研究中心发布的报告显示,2019年我国云计…

【开发者成长】Vue.js 中有哪些性能陷阱

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 我内心深处对游戏的热爱,让我一直渴望能自己制作一些电子游戏。几个月前我开始将这种梦想变为现实,并…

学习笔记之数据可视化(二)—— 页面布局(下)

续上一章 2.7 地图区域(.map)2.7.1 实现步骤:2.8 用户统计模块2.8.1 布局:2.8.2 柱状图2.9 订单模块2.9.1 订单区域布局2.9.2 订单区域(order)-交互效果(此部分后续补充)3.0 销售统计( sales )3.0.1 布局3.1 渠道分布、季度进度模块3.1.1渠道分布(channel)-雷达图3.1.2…

【职业生涯】这样的开发人员每个团队都想要

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 合作是你职业生涯中不会缺少的一个部分。 什么是团队?团队就为了共同目标而努力的一群人。一个团队实现目标的过…

elasticsearch-7.15.2 同时支持中文ik分词器和pinyin分词器

文章目录1. 自定义分词器2. 映射模型3. 效果图1. 自定义分词器 ES如何支持拼音和中文分词 ? 自定义分词器 支持拼音和中文分词 PUT /jd_goods {"settings": {"analysis": {"analyzer": {"ik_smart_pinyin": {"type&…

【数字康复治疗】自闭症市场能否走出供求困境

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 世界卫生组织将每年的4月2日设为“世界提高自闭症意识日”,旨在提高人们对自闭症和相关研究与诊断以及自闭症患者…