AI交互及爬虫【数据分析】

各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据清洗前 基本技能
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
AI交互爬虫前 必看
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
数据分析—数据整理操作及众所周知
数据分析—统计学基础及Python具体实现
数据分析—数据可视化Python实现超详解
数据分析—推断统计学及Python实现
数据分析—线性及逻辑回归模型

目录

  • AI概述
  • AI在编程领域的应用
  • 主流AI
  • AI注意事项
  • 数据分析领域AI作用及爬虫

AI概述

在这个时代 AI 我们每个 息息相关
1956年 在美国召开了第一场人工智能研讨会,由此人类开始了对人工智能道路探索。
在这场会议上纽维尔西蒙演示了一个名为"逻辑学家"的程序充分展示了机器能做类似推理的工作。在这个会议上人工智能获得了定义
1978年 国内第一所 人工智能与智能控制研究组在清华大学成立,并且同年招收了第1批硕士生。那时主要以智能机器人作为主要研究方向。
1990年智能技术与系统国家重点实验室正式建立,标志着中国第1次开始正式开展人工智能相关研究
时间发展至今,人工智能已经有三个阶段第一代人工智能,第二代人工智能,第三代人工智能。
最初的第一代人工智能,让机器像人一样思考,培养从已知知识出发推出新的结论新的知识的能力。
第二代人工智能主要基于人工神经网络模拟人脑脑神经网络的工作原理
但是第二代人工智能由于所有训练的数据 均来自客观世界,从而它的识别只能识别不同的物体,并不能真正的认识物体。
第三代人工智能则是依靠模型和算法来支持发展,并在此过程中发展了一系列人工智能理论
而目前市面上的AI大语言模型,则是将第一代人工智能的知识为驱动,和第二代人工智能的数据以及提炼出的算法和模型以及算力同时运用而成
大语言模型的,来自于两个"大"
第1个"大"是大的人工神经网络
人工神经网络可以用来分类学习数据中间关联关系,也可以用来预测
第2个"大"是大的文本
由于第1个大的发展,导致所有文本不用经过任何预处理就可以学习,所以文本就由最初的GB量级发展为TB量级
大模型的局限性
缺乏主动性(依赖于提示工程)且输出质量不可控(会出现计算机"幻觉"), 且AI工具尚不能准确分辨对错,也难以主动进行自我迭代(也需要不断花钱去砸算力)。
但目前人工智能最大的问题是:
专用人工智能(在 特定 的领域用 特定 的模型完成 特定 的任务)
接下来人工智能将向通用人工智能进行发展
除此以外,人工智能应要具有身体,所以说必须通过机器人与客观世界连在一起
在未来,越来越多的人学习AI是大势所趋,而学习AI的人要么向各行各业转移,为各行各业进行赋能;要么就和其他技术结合,发展出新的产业
各位,人工智能对各行各业都有重大影响,但大多数帮助人类提高工作质量和效率而非取代人类进行工作。(这里应该放一个链接哈)
送上喜欢的一句话:
"让混沌重生,然后掌握混沌"
未来已来不因物喜不以己悲,需要的是坚持不懈的努力天道酬勤

在这里插入图片描述

AI在编程领域的应用

  • 解释概念
    可用详细且易懂的回答,并且尽可能配合简单的例子对不懂的概念进行解释

在这里插入图片描述

  • 解决报错
    报错信息进行分析并修正

在这里插入图片描述

  • 找Bug
    可提交自己写的代码本身预期

在这里插入图片描述

  • 给知识点出题
    可让其提出相应知识点练习并附上答案

在这里插入图片描述

  • 提示代码质量
    提交自己代码问如何改进.
    在这里插入图片描述

主流AI

目前市面上主要的AI有:
1. Open AI官网,访问需翻墙)
2. Meta AI官网,访问需翻墙)
3. 通义千问
4. 智谱清言
5. 文心一言
6. 讯飞星火

AI注意事项

  • 使用AI前先给予AI一个身份 帮助更好提高准确回答质量
    与此同时 衍生出提示工程prompt(一个庞大的领域【截至2024年6月20日,OpenAI、斯坦福等多所机构筛选出1565篇论文发布大模型《提示技术报告》】(要翻墙哈,若不想翻墙,也想看,可以联系我) 可以帮助提高AI回答质量

在这里插入图片描述

在这里插入图片描述

  • AI幻觉
    AI有些时候会一本正经的胡说八道,应该有自己的分辨能力,所以学习和掌握分析相关的技能去检验生成AI生成的结果(例如:可以将AI生成的Python代码去运行,若成功运行且符合预期则表示成功

在这里插入图片描述

数据分析领域AI作用及爬虫

前言
在Jupyter notebook中内置有专门的Jupyter AI

  • 可以直接在写代码的环境中与AI进行交互

安装Jupyter AI(Python版本应高于或等于3.8

  • 输入pip install jupyter_ai
    在这里插入图片描述
    选择AI大模型
    安装相应AI大模型Python库

在这里插入图片描述
例如:安装gpt4all

在这里插入图片描述

具体领域

  • 什么具体指标值得分析

在这里插入图片描述

  • 数据集哪不干净怎么清洗
    在这里插入图片描述

  • 数据集得到什么结论
    在这里插入图片描述

  • 找数据集

    • 官方网站可供下载查看的数据集
      需查看是否开启了网页浏览模式
      若用OpenAI,则先创建OpenAI账户及Open AI密钥和Open AI的Token数量上限

在这里插入图片描述

  • APIA pplication P rogramming Interface 应用程序编程接口) 从官方获取数据
    优点:
    更可靠(因为通常是官方提供的
    更合规爬虫可能违反违规
    易解析( API返回数据更易解析 API返回的格式更结构化
    更准确(有些提供的数据比网页上更加全面和准确
1. **第一步** **确定API端点**(**不同**功能的**API有特定端点**)
2. **第二步**  **请求方法**(绝大部分**API是基于HTTP**  即所有要**知道各个端点所对应的HTTP方法**)

GET方法 requests.get
- 获得数据

   **PUT方法 requests.put**- **更新数据** **POST方法 requests.post**- **提交数据****DELETE方法 requests.delete**- **删除数据**
  1. 第三步 查询参数(指定额外的信息) 请求体数据(比查询参数信息包含更多)

  2. 第四步 响应格式
    响应的格式一般是XMLJSON(常见),用Python实现

在这里插入图片描述

注意有些条件也很关键是否要求认证信息是否只有认证通过,有授权的用户才能访问官方文档会把这些说明清楚,所以搜索和查阅文档是一项很重要的能力

  • 网络爬虫 便捷且低成本获取数据

    1. 第一步获取网页内容
      主要的是Requests库

在这里插入图片描述

HTTPHypertext Transfer Protocol 超文本传输协议请求和响应

在这里插入图片描述

HTTP请求

在这里插入图片描述
User-Agent:

在这里插入图片描述
Accept:

在这里插入图片描述

常用的两种请求方法

  • GET方法
    浏览器向网页获取数据
    request.get(“完整路径”) HTTP请求
    生成一个实例
    head={ }
    可以自定义传入的HTTP的请求头内容
    正常浏览器浏览会发出GTE请求 即会自带浏览器的内容和版本及电脑操作系统等
    正常程序中不会带有浏览器的内容和版本,则此时一些服务器就会拒绝响应该请求,此时就可以更改这个user-Agent,更改成含有浏览器的内容和版本,从而可以将爬虫程序伪装成正常浏览器

在这里插入图片描述

  • POST方法
    创建数据

注意事项

  • 客户端请求数量和频率 不能太多,否则无异于DDOS攻击发送海量请求让网站资源无法服务正常用户,让用户无法正常访问
  • 若网站有反爬机制不要去强行突破
  • 应该查看网站的robots文件,查看了解可爬取的网页路径范围
  • 不要
    • 公民隐私 国家事务/国防 尖端科技领域的计算机系统
      图5

HTTP响应

在这里插入图片描述

状态码主要有
200 OK 客户端请求成功
2表示成功,请求完成
301 Moved Permanently 资源被永久移动到新地址
3表示重定向,需要进一步操作
400 Bad Request 客户端被服务器理解
401 Unauthorized 请求未经授权
403 Forbidden 服务器拒绝提供服务
404 Not Found 请求资源不存在 例如:请求里面有错误 请求的资源无效
4表示客户端错误
500 Internal Server Error 服务器发生不可预期错误
503 Server Unavailable 服务器当前不能处理客户端的请求 例如:出现问题 正在维修
5表示服务器错误

在这里插入图片描述

get实例.status_code 返回回答的编码
get实例.Ok 属性可看请求是否成功
get实例.text字符串形式储存内容

在这里插入图片描述

  1. 第二步解析网页内容 HTML网页结构
    主要是BeautifulSoup库
    pip install bs4 BeautifulSoup 安装BeautifulSoup库

在这里插入图片描述

from bs4 import BeautifulSoup 导入相应的模板

在这里插入图片描述

一个网页有三大技术要素

  • CSS 定义网页的格式(可以增加美观度

  • JavaScript 定义用户和网页的交互逻辑

    • 前两大技术非数据分析重点,这里不加以赘述
  • HTML 定义网页的结构和信息

    • 写HTML一般使用PycharmVscode等主流编辑器,我这里采用Vscode编辑器(打开速度很快)
      若将vscode的编辑器改成中文字体
      在这里插入图片描述
      在这里插入图片描述

HTML 格式

  • < !DOCTYPE HTML> 告知浏览器该文件类型为HTML
  • < html> html文件起始 表示开始(是HTML文档的根
  • < /html> html文件闭合 表示结束
  • < head>…< /head> html标题
    • 一般放 < title>…< /title> 定义HTML网页页面标题
  • < body>…< /body> html主体
    • 一般放html标签

在这里插入图片描述

在这里插入图片描述

HTML 标签
层级类标签
< h1>…< /h1> < h2>…< /h2> < h3>…< /h3> …… < h6>…< /h6> 表示文本层级

在这里插入图片描述

换行类标签
< p>…< /p> 默认换行
< br> 在文本段落中强制换行只有起始标签,没有闭合标签

在这里插入图片描述

顺序类标签
< ol>…< /ol> 表示有序列表的标签
< ul>…< /ul> 表示无序列表的标签

  • < li>…< /li>有序或者无序搭配使用,表示顺序

在这里插入图片描述

文字类标签
< b>…< /b> 进行文字加粗
< i>…< /i>文字变成斜体
< u>…< /u>文字加下划线

在这里插入图片描述

图片类标签
< img src=" 图片路径"> 添加图片

  • width=" " 图片宽度
  • height=" " 图片高度

在这里插入图片描述

表格类标签
< table> …< /table> 表示表格

  • border=“数字”参数表示表格边框的大小 默认为0,即没有边框
    • < thead>…< /thead> 表示表格头部
    • < tbody>…< /tbody> 表示表格主体
    • < tr>…< /tr> 定义表格行
    • < td> 定义表格数据

在这里插入图片描述

链接类标签
< a href=路径”>自定义输出 文字 < /a> 添加超链接

  • target=" " 该参数指定窗口打开方式
    • _self 表示当前页面打开窗口
    • _blank 表示新页面打开窗口

在这里插入图片描述

class属性

  • 定义元素的类名称,从而帮助分组
    例如:
    < pclass=“content”>给岁月以文明< /p>
    < pclass=“content”>而不是给文明以岁月< /p>
    < pclass=“review”>好评!< /p>

在这里插入图片描述

容器类标签
容器 本身不包含任何内容
< div>…< /div> 块级元素独占自己的一块一行最多一个< div>作为其中子元素
< span>…< /span> 内联元素不会独占一块一行可以多个span元素

在这里插入图片描述

HTML元素类型很多
可以在浏览器里点击右键(显示网页源代码

在这里插入图片描述

或者
可以在浏览器点击右键检查再点一下窗口左上角小箭头,这样点击页面任何一个东西都会显示其元素
在这里插入图片描述

在这里插入图片描述

BeautifulSoup函数get实例“html.parser”

  • "html.parser"解析器
  • 生成BeautifulSoup实例
    该实例包含特别多方法和属性
    例如:
    BeautifulSoup实例.p 获取html第1个p元素
    BeautifulSoup实例.img 获取htm还有一个img图片元素

在这里插入图片描述

soup.fillAII() 能根据标签属性等方法找出所有符合要求的元素

  • (“标签”,attrs={“想找的属性”:" 想找的"}) 返回可迭代对象
  • 可迭代对象.string属性标签包围的文字返回 还可以使用切片[ : ]
    find()获取第一个对象
    在这里插入图片描述

爬虫技术要求,要随机应变爬取自己想要的信息,爬虫总需要我们跟网站斗智斗勇

  1. 第三步 储存式分析数据(由于具体需求具体处理,这里不加以赘述)
    若要收集数据集 则将数据储存进数据库
    若要分析数据趋势 则将数据进行可视化
    若要舆情监控 则将AI文本情绪分析

在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

实不相瞒,写的这篇博客写了13个小时以上(加上自己学习(反复学习了5遍)和纸质笔记(写了满满的6页),共十五小时吧),很累希望大佬支持

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/859808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s学习--chart包开发(创建chart包)

文章目录 chart包应用环境一、安装helm客户端工具二、chart包目录结构三、创建不可配置的chart1.创建目录和chart.yaml2.创建deployment.yaml3.创建service.yaml4.使用chart安装应用5.查看和验证 四、创建可配置的Chart1.官方的预定义变量2.新增values.yaml文件3.配置deploy引用…

网络安全协议

1. 概述 1.1 网络安全需求 五种需求&#xff1a; 机密性&#xff1a;防止数据未授权公开&#xff0c;让消息对无关听众保密 完整性&#xff1a;防止数据被篡改 可控性&#xff1a;限制对网络资源&#xff08;硬件和软件&#xff09;和数据&#xff08;存储和通信&#xff0…

计算机网络 交换机的安全配置

一、理论知识 1.交换机端口安全功能介绍 交换机端口安全功能是针对交换机端口进行安全属性的配置&#xff0c;以控制用户的安全接入。主要包括以下两种配置项&#xff1a; ①限制交换机端口的最大连接数&#xff1a;控制交换机端口连接的主机数量&#xff1b;防止用户进行恶…

kafka基础概念

目录 1、kafka简介 2、kafka使用场景 3、kafka基础概念 3.1、消息 3.1.1、消息构成详解 3.1.2、消息存储设计 3.2、topic 3.3、partition 3.4、offset 3.5、replication 3.5.1、replication简介 3.5.2、副本角色 3.5.3、副本类型 3.5.3.1、副本类型简介 3.5.3.2、…

30分钟学习如何搭建扩散模型的运行环境【pytorch版】【B站免费视频教程!】【解决环境搭建问题】

30分钟学习如何搭建扩散模型的运行环境【B站免费视频教程&#xff01;】【解决环境搭建问题】 动手学习扩散模型 点击以下链接即可进入学习&#xff1a; B站免费视频教程环境配置安装&#xff08;配套讲解文档&#xff09; 视频 讲解主要内容 一、环境设置 1.本地安装&…

用Python设置Excel工作表网格线的隐藏与显示

Excel表格界面的直观性很大程度上得益于表格中的网格线设计&#xff0c;这些线条帮助用户精确对齐数据&#xff0c;清晰划分单元格。网格线是Excel界面中默认显示的辅助线&#xff0c;用于辅助定位&#xff0c;与单元格边框不痛&#xff0c;不影响打印输出。然而&#xff0c;在…

fyne的对话框

对话框 import "fyne.io/fyne/v2/dialog"dialog包 定义了应用程序GUI的标准对话框窗口。 NewError NewError()为应用程序错误在指定的窗口上创建一个对话框。该消息是从提供的错误中提取的&#xff08;不应为nil&#xff09;。创建后&#xff0c;您应该调用Show()…

gpu测试渲染网站有哪些?免费GPU渲染平台介绍

GPU作为渲染领域的核心硬件&#xff0c;对于提高渲染速度和质量起着决定性作用。尽管购买高性能GPU的成本相对较高&#xff0c;但是通过GPU云渲染平台&#xff0c;用户可以以较低的成本享受到高效渲染服务的便利。现在&#xff0c;探索一些提供免费试用的GPU云渲染服务网站&…

怎么查找企业的经营动态信息?

很多人都会查询企业的经营动态&#xff0c;比如很多投资者会关注企业的财务状况&#xff0c;市场战略&#xff0c;经营决策等信息&#xff1b;职场上也需要了解竞争对手和合作伙伴的相关经营动态&#xff0c;新品发布&#xff0c;技术专利申请等等。还有一些行业研究人员需要了…

Qt源码阅读笔记:初步了解QtCore模块目录结构

Qt框架是一个跨平台的C应用程序框架&#xff0c;广泛用于开发图形用户界面程序以及用于无界面后台操作的工具和服务器。它由多个模块组成&#xff0c;其中QtCore模块提供了核心的非GUI功能。 QtCore 提供了元对象系统&#xff0c;扩展了c 在元对象系统的基础上&#xff0c;qt又…

14、电科院FTU检测标准学习笔记-录波功能2

作者简介&#xff1a; 本人从事电力系统多年&#xff0c;岗位包含研发&#xff0c;测试&#xff0c;工程等&#xff0c;具有丰富的经验 在配电自动化验收测试以及电科院测试中&#xff0c;本人全程参与&#xff0c;积累了不少现场的经验 ———————————————————…

光猫BOB 功率调测误差分析与校验指南

DDM&#xff08;Digital Diagnostic Monitoring&#xff09;数字诊断监控技术&#xff0c;是光模块中使用的技术&#xff0c;以便用户能够监控光模块的实时参数。这些参数包括工作温度、工作电压、工作电流、发射和接收光功率等&#xff0c;还可以显示模块的常规波长、速率、传…

工控机和电脑一直ping不通

问题 工控机和电脑通过网线直连&#xff0c;电脑端是USB-网口转换器&#xff0c;一直互相ping不通&#xff0c;反复确认两端的IP地址、子网掩码及路由配置是对的。 原因 具体原因不明。 解决办法 但是通过将电脑端网卡的速度和模式属性由原来的“自动检测”修改为“100 Mb…

持续增强国产适配 | 宁盾身份域管与南大通用、飞腾完成产品兼容性认证

随着党政、央国企、金融信创国产化改造日益深入&#xff0c;企业对国产 IT 基础设施生态兼容适配的需求日益迫切。为践行给企业提供“开箱即用”的交付体验承诺&#xff0c;宁盾身份域管持续增强多元异构产品的兼容适配。近日&#xff0c;宁盾身份域管与天津南大通用数据技术股…

电子设备抗震等级与电子设备震动实验

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/139923445 红胖子(红模仿)的博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…

solidworks安装教程 - 解决安装后服务不能自动启动问题

Solidworks安装教程&#xff0c;有些同学的电脑过于复杂&#xff0c;产生了正常的服务不能启动。 前面的有个重要的操作操作界面有&#xff0c;大家应该是执行了&#xff1a; 那么我们有变通的方法可以让这个服务启动&#xff1a; 1. cmd用管理员启动 2. 测试下如下命令是否…

electron-builder创建桌面应用

一、利用vue-cli创建vue项目 二、添加淘宝 electron 源&#xff0c;防止超时 //npm设置淘宝镜像 npm config set registry https://registry.npm.taobao.org/ //electron添加淘宝镜像 npm config set ELECTRON_MIRROR http://npm.taobao.org/mirrors/electron/三、 保存之后&…

web应用-Nginx学习笔记01-应用的组成结构,配置项的分类和理解

参考来源&#xff1a; 在线文档&#xff1a;Nginx开发从入门到精通&#xff0c;https://docs.pythontab.com/nginx/nginx-book/ 极客专栏&#xff1a;nginx核心100讲&#xff0c;作者:陶辉 书籍&#xff1a;《深入理解Nginx&#xff1a;模块开发与架构解析》第二章 参考来源&a…

HTML5休闲小游戏《猫猫超市》源码,引流、刷广告利器

HTML5休闲小游戏《猫猫超市》源码&#xff0c;直接把源码上传到服务器就能使用了&#xff01; 下载链接&#xff1a;https://www.huzhan.com/code/goods467910.html

「邀请函」相约广州!科东软件诚邀您参加2024亚洲电力展&亚洲新型电力及储能论坛

能源电力行业盛会-2024亚洲新型电力系统及储能展览会将于6月26日在广州广交会展馆B区一楼盛大开幕&#xff01;展会同期&#xff0c;由南方电网主办&#xff0c;科东软件协办的2024亚洲新型电力及储能论坛也将同步召开&#xff0c;高峰论坛将为能源领域提供领先的前瞻资讯、技术…