第四篇: 用Python和SQL在BigQuery中进行基础数据查询

用Python和SQL在BigQuery中进行基础数据查询

在大数据分析领域,Google BigQuery 提供了一种快速且经济高效的数据处理方式。对于想要使用SQL查询大规模数据的读者来说,BigQuery的公共数据集资源丰富、操作简便,是学习和实践SQL基础操作的理想平台。

以下是一个通过Python和BigQuery进行基础SQL查询的实际案例,我们将使用Google的一个公共数据集,并以一个简单的查询示例来演示SQL在BigQuery中的应用,涵盖查询、过滤、排序和聚合操作。

1. 准备工作:选择数据集

在BigQuery中,有多个免费的公共数据集可供选择。这里我们选择了一个大家容易理解的公共数据集——Google Analytics的ecommerce数据集。该数据集包含电商网站的访问记录,包括访问者的地理位置、设备类型、访问时间以及产品销售情况等信息,非常适合用来进行电商数据分析。

示例:电商产品销售分析

假设我们是一家在线零售商,我们想要了解不同国家的销售情况,并分析销售额较高的市场。这个分析有助于公司决定将更多营销资源投入到哪些国家市场中。

2. 使用SQL进行基础查询

我们将从数据集中选择所需的字段并进行简单查询。以下是一个基本SQL查询:

SELECT geoNetwork.country AS country,SUM(totals.transactionRevenue) AS total_revenue
FROM `bigquery-public-data.google_analytics_sample.ga_sessions_20170801`
WHERE totals.transactionRevenue IS NOT NULL
GROUP BY country
ORDER BY total_revenue DESC
LIMIT 10;
查询解释
  • geoNetwork.country: 查询国家字段,以便知道每个交易来自哪个国家。
  • totals.transactionRevenue: 使用总收入字段来计算每个国家的总销售额。
  • WHERE totals.transactionRevenue IS NOT NULL: 排除没有销售额的记录,使得查询只关注实际交易。
  • GROUP BY country: 按国家分组,统计每个国家的总销售额。
  • ORDER BY total_revenue DESC: 按总销售额从高到低排序,以便查看销售额最高的国家。

3. 在Python中执行查询

接下来,我们将通过Python代码在BigQuery中执行此查询,并提取结果以进行进一步分析。我们将使用Google的BigQuery Python客户端库来实现这一目标。以下是Python代码示例:

from google.cloud import bigquery# 创建BigQuery客户端
client = bigquery.Client()# 定义查询
query = """SELECT geoNetwork.country AS country,SUM(totals.transactionRevenue) AS total_revenueFROM `bigquery-public-data.google_analytics_sample.ga_sessions_20170801`WHERE totals.transactionRevenue IS NOT NULLGROUP BY countryORDER BY total_revenue DESCLIMIT 10;
"""# 执行查询
query_job = client.query(query)
results = query_job.result()# 输出结果
for row in results:print(f"{row.country}: {row.total_revenue}")

代码运行结果示例:

United States: 8301950000
Finland: 2990000Process finished with exit code 0

4. 分析和解释结果

运行查询后,我们可以看到每个国家的总销售额。通过这些数据,我们可以得出一些商业见解:

  • 识别高价值市场:在销售额最高的几个国家中,可以发现潜在的高收益市场,并优先考虑投入资源。
  • 优化广告投放:基于这些数据,公司可以在销售额较高的国家增加广告预算,从而提升整体收益。
  • 区域趋势分析:分析不同国家的消费模式,帮助制定个性化的市场策略。

5. 小结

本文介绍了如何使用BigQuery和SQL进行电商数据分析,展示了通过简单的SQL查询、数据过滤、排序和聚合来获取商业洞见的基本方法。这种分析可以应用于更多实际场景,例如用户行为分析、广告投放效果评估等。对于数据科学家和数据工程师来说,BigQuery是一种非常实用的工具,它让处理大规模数据变得更为简便和高效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring学习笔记_19——@PostConstruct @PreDestroy

PostConstruct && PreDestroy 1. 介绍 PostConstruct注解与PreDestroy注解都是JSR250规范中提供的注解。 PostConstruct注解标注的方法可以在创建Bean后在为属性赋值后,初始化Bean之前执行。 PreDestroy注解标注的方法可以在Bean销毁之前执行。 2. 依赖…

11.4模拟赛总结

文章目录 时间安排成绩反思 时间安排 7 : 40 − 8 : 00 7:40 - 8:00 7:40−8:00 开题。把题都看了一遍。 T 1 T1 T1 看起来有点神秘。 T 2 T2 T2 想很难的构造。 T 3 T3 T3 看起来像比较正常的计数题。 T 4 T4 T4 应该是扫描线 8 : 00 − 9 : 20 8:00 - 9:20 8:00−9:20 尝试…

ffmpeg视频滤镜:膨胀操作-dilation

滤镜介绍 dilation 官网链接 > FFmpeg Filters Documentation 膨胀滤镜会使图片变的更亮,会让细节别的更明显。膨胀也是形态学中的一种操作,在opencv中也有响应的算子。此外膨胀结合此前腐蚀操作,可以构成开闭操作。 开操作是先腐蚀…

多线程和线程同步基础篇学习笔记(Linux)

大丙老师教学视频:10-线程死锁_哔哩哔哩_bilibili 目录 大丙老师教学视频:10-线程死锁_哔哩哔哩_bilibili 线程概念 为什么要有线程 线程和进程的区别 在处理多任务的时候为什么线程数量不是越多越好? Linux提供的线程API 主要接口 线程创建 pth…

jeecgbootvue2菜单路由配置静态文件夹(public)下的html

需求:想要在菜单配置src/assets/iconfont/chart.html显示页面(目的是打包上线以后运维依然可以修改数据) 官网没有相关数据:菜单配置说明 JeecgBoot 开发文档 看云 问题现象: 我把文件放在src/assets/iconfont/chart.html然后在vue中作为 iframe 的 src 属性&am…

3种AI黑科技,让照片中的人物开口说话的简易方法,快进来学!

本文背景 用AI工作这么久了,我经常碰到各种关于AI的问题,比如制作让照片中人物开口说话的数字人。 很多小伙伴想知道是怎么弄的,不知从何下手。不过不用担心,今天就给大家带来三种实用的方法,快来一起试试吧。 首先是腾…

【docker compose】docker compose的hello world

安装docker desktop后在终端使用以下命令,代表安装成功,并查看当前安装的版本 docker-compose --version示例docker-compose.yml文件 version: 3.8 # 指定 Docker Compose 文件的版本services:scau_jwc: # 定义一个名为 scau_jwc 的服务image: scau_…

【js逆向学习】某多多anti_content逆向(补环境)

文章目录 声明逆向目标逆向分析逆向过程总结 声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的…

【C++】动态内存

一、内存区域分布 首先我们来看一段代码并尝试解决以下问题: 1. GlobalVar是全局变量,存储在数据段(静态区),选C。2. staticGlobalVar是静态全局变量,也存储在数据段(静态区)&#x…

基于STM32的温湿度监测器教学

引言 随着科技的发展,温湿度监测在农业、仓储、环境监测等领域的应用越来越广泛。本文将指导您如何基于STM32开发一个简单的温湿度监测器,使用常用的DHT11或DHT22传感器进行数据采集,并将监测结果显示在LCD或OLED屏幕上。 项目名称 STM32温湿…

哈希表,哈希桶及配套习题

我们今天带大家简单了解哈希表是怎样的,和简单模拟哈希桶,还有几道练习题 一,哈希表 什么是哈希表,哈希表是一种非常非常高效的数据结构,它用来搜索我们想要的数据,我们之前学过很多查找方法,最…

二百七十四、Kettle——ClickHouse中对错误数据表中进行数据修复(实时)

一、目的 在完成数据清洗、错误数据之后,需要根据修复规则对错误数据进行修复 二、Hive中原有代码 insert into table hurys_db.dwd_queue partition(day) selecta3.id,a3.device_no,a3.source_device_type,a3.sn,a3.model,a3.create_time,a3.lane_no,a3.lane_…

Golang | Leetcode Golang题解之第530题二叉搜索树的最小绝对差

题目&#xff1a; 题解&#xff1a; func getMinimumDifference(root *TreeNode) int {ans, pre : math.MaxInt64, -1var dfs func(*TreeNode)dfs func(node *TreeNode) {if node nil {return}dfs(node.Left)if pre ! -1 && node.Val-pre < ans {ans node.Val -…

CentOS Linux教程(12)--常用编辑器

文章目录 1. 背景2. nano编辑器2.1 检查安装2.2 安装nano2.3 使用nano 3. emacs编辑器3.1 检查安装3.2 安装emacs 3.3 使用emacs 1. 背景 我们经常需要编辑文件内容&#xff0c;windows上这个工作可以用记事本来做。 linux上对应的&#xff0c;我们可以使用nano或者emacs编辑…

Android Studio打包时不显示“Generate Signed APK”提示信息

Android Studio打包时&#xff0c;默认显示“Generate Signed APK”提示信息&#xff0c;如下图所示&#xff1a; 如果在打包时不显示“Generate Signed APK”提示信息&#xff0c;解决办法是&#xff1a; Android Studio菜单栏&#xff0c;“File->Settings->Appearan…

手游和应用出海资讯:可灵AI独立APP即将上架;Rollic在英国推出芭比合并解谜手游

NetMarvel帮助游戏和应用广告主洞察全球市场、获取行业信息&#xff0c;以下为10月第四周资讯&#xff1a; ● 苹果开发全新游戏中心应用 ● Meta计划开发人工智能搜索引擎 ● 微软已拥有20个游戏IP&#xff0c;收入达10亿美元 ● OpenAI计划在12月推出其下一代前沿模型Orion ●…

js中多let与var

在 JavaScript 中&#xff0c;let 和 var 都用于声明变量&#xff0c;但它们有一些关键的区别。主要区别包括作用域、变量提升、可重复声明、以及在全局作用域中的行为。 1. 作用域&#xff08;Scope&#xff09; let&#xff1a;块级作用域。用 let 声明的变量只在其所在的代…

qt管理系统框架(好看界面、漂亮界面、好看的界面、漂亮的界面)

概述 最近一个项目用QT开发&#xff0c;然后找了美工帮设计了下界面。总算完工&#xff0c;后想一下干脆抽出一个基础框架&#xff0c;方便以后用。 功能 支持mysql、echarts。 支持加载动态权限菜单&#xff0c;轻松权限控制。 支持遮罩对话框、抽屉 支持开机启动动画界面 内…

使用Java内存级方式 和 Redis Lua 脚本方式实现滑动窗口限流

日常业务系统中&#xff0c;限流一般分为两种限流场景&#xff1a; 1、基于服务自身保护的应用自身限流。比如每一个启动的 springboot 实例服务都可以受理最大每秒150个请求的量&#xff0c;服务需要保护自身不被击垮对启动的每一个服务实例都进行限流处理。2、基于业务系统入…

CSharp OpenAI

微软有个开源框架&#xff0c;可以使用C#调用OpenAI接口。地址如下&#xff1a; GitHub - microsoft/semantic-kernel: Integrate cutting-edge LLM technology quickly and easily into your apps 今天研究了下&#xff0c;看如果使用国内代理来使用OpenAI的API。 国内代理…