数据分析-数据清洗8大类方法|数据采集|电商数据API接口

数据分析首先我们需要坐数据采集

jd API 接入说明

  1. API地址:

  2. 调用示例:

  3. 参数说明

    • 通用参数说明
      • url说明 ……/平台/API类型/ 平台:淘宝,京东等, API类型:[item_search,item_get,item_search_shop等]
      • version:API版本
      • key:调用key,测试key:test_api_key
      • secret:调用secret,测试secret:(不用填写)
      • cache:[yes,no]默认yes,将调用缓存的数据,速度比较快
      • result_type:[json,xml,serialize,var_export]返回数据格式,默认为json
      • lang:[cn,en,ru] 翻译语言,默认cn简体中文
      • secret:密钥
    • API:item_search 参数说明:

      • q:搜索关键字
      • cat:分类ID
      • start_price:开始价格
      • end_price:结束价格
      • sort:排序[bid,bid,bid2,_bid2,_sale,_credit]
        (bid:总价,bid2:商品价格,sale:销量,credit信用,加
        前缀为从大到小排序)
      • page:页数
      • page_size:每页宝贝数量,默认40
      • seller_info:是否获取商家信息[yes,no],默认yes
    • API:item_get 参数说明: num_iid:宝贝ID

  4. 此API目前支持以下基本接口:

    • item_get 获得JD商品详情
    • item_search 按关键字搜索商品
    • item_search_img 按图搜索京东商品(拍立淘)
    • item_search_shop 获得店铺的所有商品
    • item_history_price 获取商品历史价格信息
    • item_recommend 获取推荐商品列表
    • buyer_order_list 获取购买到的商品订单列表
    • buyer_order_datail 获取购买到的商品订单详情
    • upload_img 上传图片到JD
    • item_review 获得JD商品评论
    • cat_get 获得jd商品分类

数据清洗(Data cleaning)即对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

可以理解为所谓的数据清洗,也就是ELT处理,包含抽取Extract、转换Transform、加载Load这三大法宝。根据不同业务的需求,数据清洗主要包括这几种应用方法。

图片

数据清洗的8大类方法

01

处理缺失值

02

删除重复项

03

处理离群值

04

转换格式和类型

05

归一化数据

06

集成数据

07

转换数据

08

简化数据

图片

01

处理缺失值

处理缺失值: 指的是在数据分析过程中处理缺失值(即数据集中缺少的数据)的方法。常通过以下几种方式完成(选择哪种方法取决于缺少的数据量和手头的具体问题),包括:

  • 删除:删除行/列中缺失的值

  • 归纳:用统计数据(均值,中位数,模态)或预测(回归,kNN)填充缺失值

  • 插值:根据其他样本的值估计缺失值

  • 外推:根据趋势预测缺失值

  • 匿名化:掩盖或扰乱缺失的值以保持隐私。

02

删除重复项

删除重复项: 指的是识别并消除数据集中重复或冗余的条目。这是数据清理和预处理中的一个重要步骤,可以确保对唯一且准确的数据执行分析。重复可能是由于人为错误、数据输入错误或数据源中的不一致造成的。有几种方法可以删除重复项(方法的选择将取决于数据的具体要求和正在执行的分析),包括:

  • 删除:删除所有重复的行,

  • 保留首行:保留重复行的首行数据,并删除其余的行

  • 保留末行:保留重复行的末尾数据,并删除其余的行

  • 自定义:定义一个自定义方法来确定要保留或删除哪些副本。

03

处理异常值

处理异常值: 是指识别和处理数据集中与其余数据显著不同的极端值的过程。异常值可能会对数据分析的结果产生重大影响,如果处理不当,可能会使结果发生偏差。处理异常值有几种方法,包括:

  • 移除:移除离群数据点

  • 修剪:只保留指定百分比的数据,丢弃极端值

  • 替换:用更接近其他数据点的指定值替换极端值

  • 归纳:将异常值替换为统计值,例如平均值或中位数

  • 转换:转换数据以减少异常值的影响,例如log-transformation。

方法的选择将取决于数据的具体要求和正在执行的分析。重要的是要考虑异常值对结果的潜在影响,并仔细选择适当的方法来处理它们。

04

转换格式和类型

格式和类型转换: 是指将一种数据格式转换为另一种格式或数据类型的过程。例如,将字符串转换为数字,或将数字格式化为特定的字符串形式。

05

归一化数据

数据归一化: 是指将数据标准化为具有相同量纲和相对大小关系的数据集。这有助于防止特定数据特征在模型中具有过多影响力,并且提高了模型的稳健性和准确性。常见的数据标准化方法包括Min-Max,Z-Score等。

06

集成数据

数据集成: 是指将来自多个来源的数据组合到单个统一视图中的过程。目标是协调数据源之间的差异,消除冗余信息,并提供一致、准确的数据表示。这使组织能够更全面地了解他们的数据,并更好地将其用于决策和分析。

07

转换数据

数据转换: 是指将数据从一种格式或结构转换为另一种格式或结构,以使其更适合分析或满足特定要求的过程。此过程涉及到将数据从源格式映射到目标格式,并且通常涉及到操作聚合或在该过程中过滤数据。数据转换的目标是确保数据的一致性、准确性和可用性,并且可以轻松地与其他数据源集成。

08

简化数据

数据简化: 是指对数据进行简化或汇总,以减少数据的大小或复杂性,使其更易于管理、分析和可视化的过程。数据缩减的目标是保留最重要和最相关的信息,同时消除冗余或不相关的数据。这可以通过数据压缩、聚合或降维等技术来实现。通过减少数据的大小,组织可以缩短处理时间,使其更容易处理大型数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/807207.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云微调chatglm3-6b---只有一个python解释器但gradio要求版本不兼容怎么办

安装LLAMA参考博文http://t.csdnimg.cn/6yYwG 在用LLAMA微调大模型的时候总是出现connected error out并且出现这样的界面 这是由于LLMA所要求的gradio版本>4.0.0,<4.2.0&#xff0c;然而chatglm3-6b要求的gradio版本需要gradio3.39.0才能显示出web_demo_gradio.py渲染…

C++反向迭代器的实现

一、反向迭代器的定义 在容器中从尾元素向首元素反向移动的迭代器 对于反向迭代器&#xff0c;递增和递减的含义会颠倒过来 递增一个反向迭代器会移动到前一个元素 递减一个迭代器会移动到下一个元素 二、反向迭代器的实现 // 适配器 -- 复用 template<class Iterator,…

Weblogic任意文件上传漏洞(CVE-2018-2894)漏洞复现(基于vulhub)

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【Java、PHP】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收…

数据库安全(二),3天拿到网易网络安全岗offer

数据脱敏厂家 国外&#xff1a;Informatica国内&#xff1a;比特信安、美创、安华、神州数码 由于敏感数据的重要性以及特殊性&#xff0c;一般不建议使用国外产品。 数据库漏扫 又叫数据库安全评估系统 漏扫对象 DBMS脆弱点&#xff1a;已知的DBMS自身存在的漏洞弱口令缺…

力扣HOT100 - 160. 相交链表

解题思路&#xff1a; /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode(int x) {* val x;* next null;* }* }*/ public class Solution {public ListNode getIntersectionNode(ListNode headA, ListNode headB) {if…

笔记本会不会自动升级win11,win10会自动升级到win11吗

众所周知,win11是微软新推出的pc端操作系统,从发布到现在也有一年的时间了,不少用户想要安装使用。但是问题来了,笔记本会不会自动升级win11呢?答案是,并不会自动更新,如果你是正版win10系统,可以通过收到的升级通知进行升级win11。 win10会自动升级到win11吗 升级win1…

批量修改文件名后缀,支持自定义重命名并更改扩展名,高效管理文件

你是否曾经因为需要修改大量文件的扩展名而头疼不已&#xff1f;手动一个个修改&#xff0c;既耗时又容易出错。现在&#xff0c;有了这款批量修改文件名后缀的神器&#xff0c;只需一键操作&#xff0c;即可轻松完成所有文件的扩展名修改。无论是图片、文档、视频还是音频&…

关于QEMU模拟器本身以及和CXL功能模拟相关内容的学习

前言&#xff1a;在写Paper的时候&#xff0c;发现直接引用QEMU官网关于QEMU的介绍实在是一个图省事儿的方法&#xff0c;但是并不可取。即使是一小段&#xff0c;也要去真正了解QEMU的基本原理&#xff0c;如何实现功能模拟&#xff0c;以及目前实现的与CXL相关的内容。 注&am…

成功的环保企业:四大核心能力的深度剖析|中联环保圈

在追求可持续发展的道路上&#xff0c;环保企业不仅承载着社会责任&#xff0c;还要面对市场的考验。为了在激烈的竞争中脱颖而出&#xff0c;环保企业需要练就四大基本功&#xff1a;挣钱、要钱、省钱和花钱。这四大能力相互关联&#xff0c;共同构成了企业稳健运营的基石&…

Web 前端性能优化之七:数据存储与缓存技术

7、数据存储 在开发Web应用的过程中&#xff0c;会涉及一些数据的存储需求&#xff0c;常见的存储方式可能有&#xff1a; 保存登录态的Cookie&#xff1b; 使用浏览器本地存储进行保存的Local Storage和Session Storage&#xff1b; 客户端数据持久化存储方案涉及的Web SQ…

关于MCU产品开发参数存储的几种方案

关于MCU产品开发参数存储的几种方案 Chapter1 关于MCU产品开发参数存储的几种方案Chapter2 单片机参数处理[保存与读取]Chapter3 嵌入式设备参数存储技巧Chapter4 STM32硬件I2C的一点心得(AT24C32C和AT24C64C) Chapter1 关于MCU产品开发参数存储的几种方案 原文链接 在工作中…

【随笔】Git 高级篇 -- 纠缠不清的分支 rebase | cherry-pick(二十四)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

位图布隆过滤器的原理及实现

目录 位图的概念&#xff1a; 位图的前置知识&#xff1a;位运算 位图的实现&#xff1a; 位图的基本参数和构造方法&#xff1a; 位图的插入&#xff1a; 位图的查找&#xff1a; 位图的删除&#xff1a; 布隆过滤器概念&#xff1a; 布隆过滤器的实现&#xff1a; …

TI-ST论文速读

Domain Adaptation for Medical Image Segmentation Using Transformation-Invariant Self-training 摘要 能够利用未标记数据的模型对于克服不同成像设备和配置中获取的数据集之间的巨大分布差距至关重要。在这方面&#xff0c;基于伪标记的自训练技术已被证明对半监督域适应…

微商商城源码小程序好用么?

商城APP作为电子商务行业的重要组成部分&#xff0c;已经成为了人们购物的主要方式之一。为了在竞争激烈的市场中脱颖而出&#xff0c;开发一款专业且思考深度的商城APP方案显得尤为关键。本文将从专业性和思考深度两个方面&#xff0c;探讨商城APP的开发方案。 一、专业性的重…

HTML+CSS+JS实现京东首页[web课设代码+模块说明+效果图]

系列文章目录 Web前端大作业htmlcss静态页面–掌****有限公司 Web前端大作业起点小说静态页面 Web前端大作业网易云页面 Web前端大作业商城页面 Web前端大作业游戏官网页面 Web前端大作业网上商城页面 HTMLCSS淘宝首页[web课设代码模块说明效果图] 文章目录 系列文章目录前言一…

Java Set基础篇

目录 前言一、常用Set1.1 Set1.1.1 特点 1.2 HashSet1.2.1 特点1.2.2 使用 1.3 TreeSet1.3.1 特点1.3.2 使用 1.4 LinkedHashSet1.4.1 特点1.4.2 使用 二、对比总结 目录 前言 一、常用Set 1.1 Set Set是一个继承自Collection的接口&#xff1a; public interface Set<…

如何在Rust中操作JSON

❝ 越努力&#xff0c;越幸运 ❞ 大家好&#xff0c;我是「柒八九」。一个「专注于前端开发技术/Rust及AI应用知识分享」的Coder。 前言 我们之前在Rust 赋能前端-开发一款属于你的前端脚手架中有过在Rust项目中如何操作JSON。 由于文章篇幅的原因&#xff0c;我们就没详细介绍…

基于SSM的教材管理系统

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的教材管理系统2拥有两种角色 管理员&#xff1a;教师管理、分类管理、教材管理、入库和出库管理、教材申请管理等 教师&#xff1a;查看教材、申请教材 1.1 背景描述 SSM教材管…

服务器数据恢复—EqualLogic PS6100系列存储数据恢复案例

服务器数据恢复环境&#xff1a; 某品牌EqualLogic PS6100系列存储阵列是一款容错功能较强的存储设备&#xff0c;具有较高的安全性能。一些硬件故障或者误操作也会破坏该系列存储内的数据&#xff0c;下面分享一个北亚企安数据恢复工程师接到的一个关于EQ PS6100存储的数据恢复…