数据分析首先我们需要坐数据采集
jd API 接入说明
-
API地址:
-
调用示例:
-
参数说明
- 通用参数说明
- url说明 ……/平台/API类型/ 平台:淘宝,京东等, API类型:[item_search,item_get,item_search_shop等]
- version:API版本
- key:调用key,测试key:test_api_key
- secret:调用secret,测试secret:(不用填写)
- cache:[yes,no]默认yes,将调用缓存的数据,速度比较快
- result_type:[json,xml,serialize,var_export]返回数据格式,默认为json
- lang:[cn,en,ru] 翻译语言,默认cn简体中文
- secret:密钥
-
API:item_search 参数说明:
- q:搜索关键字
- cat:分类ID
- start_price:开始价格
- end_price:结束价格
- sort:排序[bid,bid,bid2,_bid2,_sale,_credit]
(bid:总价,bid2:商品价格,sale:销量,credit信用,加前缀为从大到小排序) - page:页数
- page_size:每页宝贝数量,默认40
- seller_info:是否获取商家信息[yes,no],默认yes
-
API:item_get 参数说明: num_iid:宝贝ID
- 通用参数说明
-
此API目前支持以下基本接口:
- item_get 获得JD商品详情
- item_search 按关键字搜索商品
- item_search_img 按图搜索京东商品(拍立淘)
- item_search_shop 获得店铺的所有商品
- item_history_price 获取商品历史价格信息
- item_recommend 获取推荐商品列表
- buyer_order_list 获取购买到的商品订单列表
- buyer_order_datail 获取购买到的商品订单详情
- upload_img 上传图片到JD
- item_review 获得JD商品评论
- cat_get 获得jd商品分类
数据清洗(Data cleaning)即对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
可以理解为所谓的数据清洗,也就是ELT处理,包含抽取Extract、转换Transform、加载Load这三大法宝。根据不同业务的需求,数据清洗主要包括这几种应用方法。
数据清洗的8大类方法
01
处理缺失值
02
删除重复项
03
处理离群值
04
转换格式和类型
05
归一化数据
06
集成数据
07
转换数据
08
简化数据
01
处理缺失值
处理缺失值: 指的是在数据分析过程中处理缺失值(即数据集中缺少的数据)的方法。常通过以下几种方式完成(选择哪种方法取决于缺少的数据量和手头的具体问题),包括:
-
删除:删除行/列中缺失的值
-
归纳:用统计数据(均值,中位数,模态)或预测(回归,kNN)填充缺失值
-
插值:根据其他样本的值估计缺失值
-
外推:根据趋势预测缺失值
-
匿名化:掩盖或扰乱缺失的值以保持隐私。
02
删除重复项
删除重复项: 指的是识别并消除数据集中重复或冗余的条目。这是数据清理和预处理中的一个重要步骤,可以确保对唯一且准确的数据执行分析。重复可能是由于人为错误、数据输入错误或数据源中的不一致造成的。有几种方法可以删除重复项(方法的选择将取决于数据的具体要求和正在执行的分析),包括:
-
删除:删除所有重复的行,
-
保留首行:保留重复行的首行数据,并删除其余的行
-
保留末行:保留重复行的末尾数据,并删除其余的行
-
自定义:定义一个自定义方法来确定要保留或删除哪些副本。
03
处理异常值
处理异常值: 是指识别和处理数据集中与其余数据显著不同的极端值的过程。异常值可能会对数据分析的结果产生重大影响,如果处理不当,可能会使结果发生偏差。处理异常值有几种方法,包括:
-
移除:移除离群数据点
-
修剪:只保留指定百分比的数据,丢弃极端值
-
替换:用更接近其他数据点的指定值替换极端值
-
归纳:将异常值替换为统计值,例如平均值或中位数
-
转换:转换数据以减少异常值的影响,例如log-transformation。
方法的选择将取决于数据的具体要求和正在执行的分析。重要的是要考虑异常值对结果的潜在影响,并仔细选择适当的方法来处理它们。
04
转换格式和类型
格式和类型转换: 是指将一种数据格式转换为另一种格式或数据类型的过程。例如,将字符串转换为数字,或将数字格式化为特定的字符串形式。
05
归一化数据
数据归一化: 是指将数据标准化为具有相同量纲和相对大小关系的数据集。这有助于防止特定数据特征在模型中具有过多影响力,并且提高了模型的稳健性和准确性。常见的数据标准化方法包括Min-Max,Z-Score等。
06
集成数据
数据集成: 是指将来自多个来源的数据组合到单个统一视图中的过程。目标是协调数据源之间的差异,消除冗余信息,并提供一致、准确的数据表示。这使组织能够更全面地了解他们的数据,并更好地将其用于决策和分析。
07
转换数据
数据转换: 是指将数据从一种格式或结构转换为另一种格式或结构,以使其更适合分析或满足特定要求的过程。此过程涉及到将数据从源格式映射到目标格式,并且通常涉及到操作聚合或在该过程中过滤数据。数据转换的目标是确保数据的一致性、准确性和可用性,并且可以轻松地与其他数据源集成。
08
简化数据
数据简化: 是指对数据进行简化或汇总,以减少数据的大小或复杂性,使其更易于管理、分析和可视化的过程。数据缩减的目标是保留最重要和最相关的信息,同时消除冗余或不相关的数据。这可以通过数据压缩、聚合或降维等技术来实现。通过减少数据的大小,组织可以缩短处理时间,使其更容易处理大型数据集。