手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

摘要: 最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch,所以花了点时间好好研究了下,用过之后发现效果不错,自带分词、云数据库同步功能,在研究过程中也发现了一些问题,分享给大家。

背景

最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch,所以花了点时间好好研究了下,用过之后发现效果不错,自带分词、云数据库同步功能,在研究过程中也发现了一些问题,分享给大家。

接下来,我们开始用阿里云MaxCompute(原名ODPS)和OpenSearch来搭建一个影讯检索的搜索引擎Demo,我有大约10GB数据,服务搭建只用了15分钟,数据同步建索引大概用1个小时。因为选择弹性计费,实验费用大概花了几十元。

先晒一下搜索效果,支持一些常用分词语法,而且OpenSearch自带了丰富的SDK和API,可以很方便的集成到线上业务。

图片描述

图片描述

图片描述

实验架构图

图片描述

搜索引擎架构在OpenSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用,免运维,低成本。对大量信息的索引与搜索都可以在近乎实时的情况下完成,能够快速实时搜索数十亿的文件以及PB级的数据。

分布式数据库架构在MaxCompute之上,是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

实验准备工作

1、注册阿里云用户,实名认证并绑定支付宝;
2、开通数加服务;
3、开通MaxCompute、OpenSearch 后付费服务。

实验任务

1、用MaxCompute导入公开数据集;
2、用OpenSearch 创建应用,配置数据/索引结构、分词;
3、全量导入数据,构建索引;
4、搜索效果测试。

第一步:购买并开通OpenSearch、MaxCompute、大数据开发套件服务

1.1 开通Opensearch服务

访问https://www.aliyun.com/product/opensearch,点击立即开通,选择后付费(按量付费)。

图片描述

图片描述

1.2 开通MaxCompute&大数据开发套件服务

1.2.1 开通 MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ,开通 MaxCompute,选择按量付费进行购买。

图片描述

图片描述

图片描述

1.2.2 创建 MaxCompute project

进入数加管理控制台,前面开通 MaxCompute 成功页面,点击管理控制台,或者导航产品->大数据(数加)->MaxCompute 点击管理控制台。

图片描述

创建项目

进入控制台页面后导航至“大数据开发套件->项目列表“,点击”创建项目”,如图所示:

图片描述

在弹出框中选择 I/O 后付费的付费方式,输入项目名称:

图片描述

创建 MaxCompute 表

进入大数据开发套件的数据开发页面,以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台,点击项目列表下对应项目操作栏中的进入工作区。

注意:如果首次使用数加平台,需要先注册数加开通AK。

第二步:通过大数据开发套件导入数据集到MaxCompute

进入大数据开发套件工作区后,我们先导入一份测试数据。

数据说明:笔者这里引用了一份MaxCompute公开数据集(正在公测),地址:https://yq.aliyun.com/articles/89763,目前MaxCompute开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。所有的数据均被存储在 MaxCompute 产品中的 public_data 项目中。

接下来,我们引用一份影视票房数据。

图片描述

使用非常简单,前提条件是开通MaxCompute&大数据开发套件;

在大数据开发套件中,新建脚本,命名opensearch_demo,在窗口执行如下语句。

add user ALIYUN$everyone;

执行完成后用户项目空间下的所有成员均可读取各公开数据集合。

验证一下:

select * from public_data.dwd_product_movie_basic_info  where movie_name like '%生化危机%' limit 10; 

图片描述

拷贝一份数据到自己的Project项目下,注意:OpenSearch里有主键概念,所以我们需要在MaxCompute中建主键,这里通过UUID函数实现。

在窗口执行如下语句:

create table alian.demo_opensearch_case2 asselect uuid() as id,* from public_data.dwd_product_movie_basic_info ;

图片描述

执行成功后,验证一下数据;

select count(1) from alian.demo_opensearch_case2;

可以看到数据集已经创建好;

图片描述

第三步:创建开放搜索应用

3.1 进入OpenSearch控制台,点击“创建应用”

图片描述

3.2 选择产品版本,笔者开通的是标准版。如果需要多表关联搜索,请开通高级版,如果是单表查询,标准版就可以。

图片描述

3.3 输入应用名称MaxCompute_OpenSearch_Demo,地域选华东1(杭州),因为MaxCompute目前只有华东,否则数据链路不通,点击下一步。

图片描述

3.4 选择“通过数据源方式创建应用结构”。可以快速由源表结构创建出初始的应用结构,节省手动构造的工作量,降低出错概率。

图片描述

3.5 选择ODPS,刚才创建的表。

图片描述

选择刚才创建的ODPS项目及表demo_opensearch_case2

图片描述

【注意】对于ODPS表中的STRING类型需要转换为LITERAL后建主键。

图片描述

3.6 配置索引、分词及搜索展示内容

选择movie_name、 director、scriptwriter、area、actors、type、movile_date、movie_language字段做索引,设置默认中文分词方式。

图片描述

添加展示字段,设置搜索结果内容。

图片描述

3.7 创建完成

图片描述

图片描述

第四步:同步数据并创建索引

4.1 激活应用

选择配额及QPS,我们用的数据集大概8G,所以开通的是10G配额,QPS采用默认项。

注意:MaxCompute(原ODPS)的数据是压缩过的,我们用的数据SIZE压缩后2GB,但实际是8GB,笔者之前购买了3GB的OpenSearch配额,结果导入失败。

图片描述

4.2开始构建索引

这里主要就是等等,笔者等了一个小时。

图片描述

可以查看索引构建进度

图片描述

第五步:搜索测试

打开应用管理->搜索测试,输入任意影片,比如最近刚上映的摔跤 爸爸,然后自动匹配出相应的影讯信息,完成实验。

MaxCompute提供的数据集很赞,数据量多、新鲜度很高。

图片描述

总结:到这里,我们就完成了整个实验,OpenSearch+MaxCompute笔者认为还是很方便,非常适合数据规模在100GB以上并且不希望高昂的运维成本和IT成本的企业。

原文链接

干货好文,请关注扫描以下二维码:
图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522071.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

再获绿色等级5A称号!揭开腾讯数据中心节能环保黑科技

9月3日北京,腾讯目前位于深圳最大的数据中心,“腾讯光明中国移动|万国数据数据中心二期”荣获运行5A绿色数据中心称号,达到了“数据中心绿色等级评估”的最高等级。该数据中心绿色分级评估由ODCC联合中国信通院、绿色网格TGGC发起&#xff0c…

MaxCompute_2_MaxCompute数据迁移文档

摘要: 乍一看标题会以为是不是作者写错了怎么会有从MaxCompute到MaxCompute迁移数据的场景呢在实际使用中已经有客户遇到了这种场景比如两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还有网络不通的两个MaxCompute项目数据迁…

printf 指针地址_指针搞都不懂,好意思说自己会C语言?

C语言面试必问知识点之「指针」一、指针相关概念指针与地址我们使用的计算机,系统为了更好地管理我们的内存,就为内存区的每一个字节都分配一个唯一编号,这就是“地址”。指针的实质就是地址,就是这一个个编号。指针变量变量在编译…

开启数据科学职业生涯的8个基本技巧

摘要: 本文为数据科学家开创数据科学事业铺平了道路。只要按照这八个小贴士来做,你就能让自己的职业生涯有一个良好的开端。Nick Bostrom(译者注:Nick Bostrom是牛津大学哲学系的教授,是人类未来研究院的创始人和主任。…

WIAC上,华为展区都有点儿啥?

戳蓝字“CSDN云计算”关注我们哦!谈及计算产业的变迁,我们了解到其先后经历了大型计算机、小型机/x86服务器阶段,并同时开创了敏捷、创新、体验好、省成本的Cloud 1.0以及Cloud 2.0时代,在云计算、5G与AI等创新技术不断叠加发展的…

【技术系列】浅谈GPU虚拟化技术(第一章)

摘要: GPU深度好文系列,阿里云技术专家分享 第一章 GPU虚拟化发展史 GPU的虚拟化发展历程事实上与公有云市场和云计算应用场景的普及息息相关。如果在10年前谈起云计算,大部分人的反应是“不知所云“。但是随着云计算场景的普及,概…

php如何删除数据mysql数据库_php如何删除数据库

php如何删除数据库1、首先查看有哪些数据库2、使用php删除test2<?php $dbhost localhost; // mysql服务器主机地址$dbuser root; // mysql用户名$dbpass root; // mysql用户名密码$conn mysqli_connect($dbhost, $dbuser, $dbpass);if(! $conn ){die(连接失败: . mysq…

Mac 神兵利器(二) 极简软件清单

摘要&#xff1a; 作为一个非常爱好折腾的Mac重度用户&#xff0c;在尝试了不少于50次重装系统经历以及安装了几乎所有软件类别的N多软件后&#xff0c;决定分享一下自己的软件清单。 选择app的三个原则&#xff1a; 尽量使用系统原生软件&#xff0c;比如日历&#xff0c;提醒…

解决 idea 运行 Spring Boot 项目启动慢的问题

同事win10启动Spring Boot工程只要3秒左右&#xff0c;我的启动要30秒。开始以为是CPU差距太大&#xff0c;后来才觉得不是这样&#xff01; 解决方案 hostname命令查看自己的 hostname 注意修改 hosts 文件时&#xff0c;ip 与域名之间要换成两个 tab 键。 127.0.0.1 PC-2…

亚马逊首席科学家李沐「实训营」国内独家直播,马上报名 !

开学了&#xff0c;别人家的学校都开始人工智能专业的学习之旅了&#xff0c;你呢&#xff1f;近年来&#xff0c;国内外顶尖科技企业的 AI 人才抢夺战愈演愈烈。华为开出200万年薪吸引 AI 人才&#xff0c;今年又有 35 所高校新增人工智能本科专业&#xff0c;众多新生即将开展…

Windows Server Version 1709 管理之入门篇

摘要&#xff1a; 相信有部分同学们会有这样的体验&#xff0c;在公有云上购买了Windows Server Version 1709数据中心版的虚拟机&#xff0c;通过远程连接进去之后&#xff0c;里面全是黑乎乎的一个命令行&#xff0c;其它啥也没有。这&#xff0c;一脸懵懂啊。 相信有部分同学…

切面是异步还是同步操作‘_细说JS异步发展历程

知其然知其所以然&#xff0c;首先了解三个概念&#xff1a;1.什么是同步&#xff1f;所谓同步&#xff0c;就是在发出一个"调用"时&#xff0c;在没有得到结果之前&#xff0c;该“调用”就不返回。但是一旦调用返回&#xff0c;就得到返回值了。换句话说&#xff0…

数据科学家需要掌握的10项统计技术,快来测一测吧

摘要&#xff1a; 本文给出了数据科学应用中的十项统计学习知识点&#xff0c;相信会对数据科学家有一定的帮助。无论你是不是一名数据科学家&#xff0c;都不能忽视数据的重要性。数据科学家的职责就是分析、组织并利用这些数据。随着机器学习技术的广泛应用&#xff0c;深度学…

java获取mysql的自增列_java - MyBatis如何获取Mysql自增id

问 题INSERT INTO USER(name,age,address,loan_type)VALUES(#{name},#{age},#{address},#{loanType});user表中id自增&#xff0c;添加过一条数据后&#xff0c;可以得到主键id&#xff1b;DEBUG [main] - > Preparing: INSERT INTO USER(name,age,address,loan_type) VALUE…

hosts文件位置在哪里

C:\Windows\System32\drivers\etc\hosts

反转!2019程序员吸金榜来了,AI程序员刷爆了..

前两天在网上发现一个热门话题&#xff1a;“做开发一年&#xff0c;在北京月薪不到1万&#xff0c;有点迷茫。” 其中&#xff0c;这个回答我永远忘不了&#xff1a;在这短短的一条信息里&#xff0c;小编佩服不仅仅是毕业一年的AI程序员拿到年薪60万&#xff0c;而是这一番回…

前端详细设计文档怎么写_UI设计师简历应该怎么写?

像这种分享&#xff0c;常规开篇都应该说说当前的就业趋势啦&#xff0c;分析分析行业形势啦这类的但我不想按流程写行业不论什么时候分析&#xff0c;它都没好过&#xff0c;什么红利期什么风口&#xff0c;那更是从来没赶上过。但凡我能跟点风&#xff0c;我也不能到现在还没…

阿里云携领先SDN能力,亮相全球网络技术盛会ONS

摘要&#xff1a; 网络通讯届盛会Open Network Summit(ONS)于3月29日落下了帷幕。作为开源网络届首屈一指的世界性大会&#xff0c;今年在洛杉矶举办的ONSNA2018已经是第七年举办了。参会者囊括了来自电信运营商、云服务提供商、网络设备制造商、芯片厂商、网络软件开发商、研究…

容器开启数据服务之旅系列(一):Kubernetes如何解自建PostgreSQL运维之痛

摘要&#xff1a; 通过阿里云Kubernetes容器服务,开启你的数据服务之旅 &#xff08;一&#xff09;云上运维自建数据库之痛&#xff0c;使用容器服务自动恢复数据库postgresql实例 概述 本文为大家介绍一种容器化的数据服务 posgresql db on ACK&#xff0c;通过使用云盘自动挂…

今日头条技术架构分析

戳蓝字“CSDN云计算”关注我们哦&#xff01;今日头条创立于2012年3月&#xff0c;到目前仅4年时间。从十几个工程师开始研发&#xff0c;到上百人&#xff0c;再到200余人。产品线由内涵段子&#xff0c;到今日头条&#xff0c;今日特卖&#xff0c;今日电影等产品线。一、产品…