毕业设计:日志记录编写(3/17起更新中)

目录

  • 3/17
    • 1.配置阿里云python加速镜像:
    • 2. 安装python3.9版本
    • 3. 爬虫技术选择
    • 4. 数据抓取和整理
    • 5. 难点和挑战
  • 3/24
    • 1.数据库建表信息
    • 2.后续进度安排
    • 3. 数据处理和分析

3/17

当前周期目标:构建基本的python环境:运行爬虫程序

1.配置阿里云python加速镜像:

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

安装chrome驱动到python安装目录下

在这里插入图片描述

2. 安装python3.9版本

在这里插入图片描述

3. 爬虫技术选择

爬虫技术是采集数据的主要手段之一。以下是一些常用的爬虫技术:

Requests + Beautiful Soup: 对于静态网页,使用 Python 的 Requests 库获取网页源代码,然后使用 Beautiful Soup 解析数据。

Scrapy: 对于动态网页或需要大规模数据采集的情况,可以考虑使用 Scrapy 框架,它提供了强大的爬虫功能和数据处理能力。

Selenium: 如果需要模拟用户操作,比如登录或者触发 JavaScript 事件,可以使用 Selenium 这样的工具。

4. 数据抓取和整理

针对短视频平台的数据采集,你可能需要考虑以下内容:

视频信息: 包括标题、描述、发布时间、观看次数、点赞数、评论数等。

评论信息: 获取视频的评论内容、评论者的信息(如用户名、头像、粉丝数等)以及评论时间等。

用户信息: 可能需要获取用户的基本信息和行为数据,比如关注数、粉丝数、发布的视频数量等。

5. 难点和挑战

反爬虫机制: 很多网站会有反爬虫机制,你可能需要应对验证码、IP 封锁等问题。

数据量和频率限制: 确保你的爬虫不会给目标网站造成过大的负担,遵守网站的访问频率限制。

数据存储和处理: 采集到的数据可能会很庞大,你需要考虑如何高效地存储和处理这些数据,以及如何建立合适的数据库结构。

3/24

周期目标:编写运行爬虫程序,拿到抖音用户和评论数据,并持久化存入MySQL:

1.数据库建表信息

创作者视频信息表设计:

CREATE TABLE douyin_aweme (id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增IDuser_id VARCHAR(64),  -- 用户IDsec_uid VARCHAR(128),  -- 用户sec_uidshort_user_id VARCHAR(64),  -- 用户短IDuser_unique_id VARCHAR(64),  -- 用户唯一IDnickname VARCHAR(64),  -- 用户昵称avatar VARCHAR(255),  -- 用户头像地址user_signature VARCHAR(500),  -- 用户签名ip_location VARCHAR(255),  -- 评论时的IP地址add_ts BIGINT,  -- 记录添加时间戳last_modify_ts BIGINT,  -- 记录最后修改时间戳aweme_id VARCHAR(64),  -- 视频IDaweme_type VARCHAR(16),  -- 视频类型title VARCHAR(500),  -- 视频标题`desc` TEXT,  -- 视频描述create_time BIGINT,  -- 视频发布时间戳liked_count VARCHAR(16),  -- 视频点赞数comment_count VARCHAR(16),  -- 视频评论数share_count VARCHAR(16),  -- 视频分享数collected_count VARCHAR(16),  -- 视频收藏数aweme_url VARCHAR(255)  -- 视频详情页URL
);

普通用户评论信息表设计:

CREATE TABLE douyin_aweme_comment (id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增IDuser_id VARCHAR(64),  -- 用户IDsec_uid VARCHAR(128),  -- 用户sec_uidshort_user_id VARCHAR(64),  -- 用户短IDuser_unique_id VARCHAR(64),  -- 用户唯一IDnickname VARCHAR(64),  -- 用户昵称avatar VARCHAR(255),  -- 用户头像地址user_signature VARCHAR(500),  -- 用户签名ip_location VARCHAR(255),  -- 评论时的IP地址add_ts BIGINT,  -- 记录添加时间戳last_modify_ts BIGINT,  -- 记录最后修改时间戳comment_id VARCHAR(64),  -- 评论IDaweme_id VARCHAR(64),  -- 视频IDcontent TEXT,  -- 评论内容create_time BIGINT,  -- 评论时间戳sub_comment_count VARCHAR(16)  -- 评论回复数
);

2.后续进度安排

1.编写后端程序,进行分模块管理
2.将目前拿到的实验数据(视频信息38条,用户评论信息1000条)进行数据清洗
3.构思后端逻辑
4.前端UI设计

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 数据处理和分析

采集到的数据可能需要进行清洗、去重、分析等处理,以便后续的应用。你可以考虑使用 Pandas、NumPy、或者其他数据处理工具进行数据分析和挖掘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/768830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C enum(枚举)

枚举是 C 语言中的一种基本数据类型,用于定义一组具有离散值的常量,它可以让数据更简洁,更易读。 枚举类型通常用于为程序中的一组相关的常量取名字,以便于程序的可读性和维护性。 定义一个枚举类型,需要使用 enum 关…

【Postman】工具使用介绍

一、postman工具介绍 1.什么是postman postman是谷歌开发的一款网页调试和接口测试工具,能够发送任何请求类型的http请求,支持GET/POST/PUT/DELETE等方法。postman简单易用,可以直接填写URL,header,body就可以发送一…

训练自己的声音模型,效果超级逼真,最牛的开源声音克隆项目 GPT-SoVITS

GPT-SoVITS 是一个开源的声音克隆项目,可以训练自己的声音模型。 效果非常好,使用超级简单。 如果你有声音克隆的需求,必须要试试这个项目。 不说废话,直接看怎么训练自己的声音模型。 1. 安装 我的是Windows系统&#xff0c…

Linux中的常用基础操作

ls 列出当前目录下的子目录和文件 ls -a 列出当前目录下的所有内容(包括以.开头的隐藏文件) ls [目录名] 列出指定目录下的子目录和文件 ls -l 或 ll 以列表的形式列出当前目录下子目录和文件的详细信息 pwd 显示当前所在目录的路径 ctrll 清屏 cd…

go的限流

背景 服务请求下游,oom,排查下来发现是一个下游组件qps陡增导致 但是司内网络框架比较挫,竟然不负责框架内存问题(有内存管理模块,但逻辑又是无限制使用内存) 每个请求一个r、w buffer,请求无限…

c 语言 三元搜索 - 迭代与递归(Ternary Search)

计算机系统使用不同的方法来查找特定数据。有多种搜索算法,每种算法更适合特定情况。例如,二分搜索将信息分为两部分,而三元搜索则执行相同的操作,但分为三个相等的部分。值得注意的是,三元搜索仅对排序数据有效。在本…

快速部署一个devops平台onnedev

简介 1、强大的代码管理:OneDev提供内置的Git服务器,可实现代码版本控制、分支管理和代码协作。您可以轻松地进行代码查找、导航和讨论,并且可以设置代码保护规则,确保代码的质量和安全性。 2、灵活的CI/CD流程:OneD…

实现Spring Web MVC中的文件上传功能,并处理大文件和多文件上传

实现Spring Web MVC中的文件上传功能,并处理大文件和多文件上传 在Spring Web MVC中实现文件上传功能并处理大文件和多文件上传是一项常见的任务。下面是一个示例,演示如何在Spring Boot应用程序中实现这一功能: 添加Spring Web依赖&#x…

SOC 子模块---中断控制器

中断控制器对soc 中的各个外设进行中断管理&#xff0c;进行优先权排队&#xff0c;并送出IQR信号给CPU&#xff1b; 中断控制器在整个系统中的结构&#xff1a; IRQ<n>来源于不同的中断源&#xff0c;比如&#xff1a;I2C,SPI等&#xff0c;INTC收集这些中断&#xff0…

定时器使用场景与解决方案

概况 定时器的作用是可以实现延迟执行某段代码或周期性地执行某段代码&#xff0c;常见的应用场景包括动画效果、定时刷新数据、定时发送请求等。清除定时器是指取消之前设置的定时器&#xff0c;以防止代码在不需要执行的情况下继续执行。在JavaScript中&#xff0c;可以使用c…

HTTP状态码(3)

HTTP 状态码负责表示客户端 HTTP 请求的返回结果、标记服务器端的处理是否正常、通知出现的错误等工作 状态码告知从服务器端返回的请求结果 状态码的职责是当客户端向服务器端发送请求时&#xff0c;描述返回的请求结果。借助状态码&#xff0c;用户可以知道服务器端是正常…

AIGC实战——Transformer模型

AIGC实战——Transformer模型 0. 前言1. T52. GPT-3 和 GPT-43. ChatGPT小结系列链接 0. 前言 我们在 GPT (Generative Pre-trained Transformer) 一节所构建的 GPT 模型是一个解码器 Transformer&#xff0c;它逐字符地生成文本字符串&#xff0c;并使用因果掩码只关注输入字…

面试问题——redis——缓存穿透、击穿、雪崩

HR&#xff1a;你在项目中的那些场景用到了redis&#xff1f; 1. 缓存穿透问题 &#xff08;项目中使用的方法&#xff09; 2. 缓存击穿 解决办法1&#xff1a;加互斥锁。大量并发时&#xff0c;先让一个人去查&#xff0c;其他人等着。这样剩下人就可在缓存直接获取值。&#…

Web实现名言生成器:JavaScript DOM基础与实例教程

&#x1f31f; 前言 欢迎来到我的技术小宇宙&#xff01;&#x1f30c; 这里不仅是我记录技术点滴的后花园&#xff0c;也是我分享学习心得和项目经验的乐园。&#x1f4da; 无论你是技术小白还是资深大牛&#xff0c;这里总有一些内容能触动你的好奇心。&#x1f50d; &#x…

Linux-安装redis

安装指令 sudo apt-get install redis-server 启动服务 sudo systemctl start redis 查找redis路径 find / -name "filename" linux redis修改密码 sudo nano /etc/redis/redis.conf 找到 "requirepass" 这一行&#xff0c;取消注释并设置新的密码&…

跳蚱蜢(蓝桥杯)

文章目录 跳蚱蜢题目描述答案&#xff1a;20bfs 跳蚱蜢 题目描述 本题为填空题&#xff0c;只需要算出结果后&#xff0c;在代码中使用输出语句将所填结果输出即可。 如下图所示&#xff1a; 有 9 只盘子&#xff0c;排成 1 个圆圈。 其中 8 只盘子内装着 8 只蚱蜢&#xff…

包含多个段的程序

文章目录 包含多个段的程序在代码段中使用数据在代码段中使用栈将数据、代码、栈放入不同的段 包含多个段的程序 在代码段中使用数据 考虑这样一个问题&#xff0c;编程计算以下8个数据的和&#xff0c;结果存在ax 寄存器中&#xff1a;0123H&#xff0c;0456H&#xff0c;07…

自动驾驶技术中大模型的应用与挑战分析

自动驾驶技术中大模型的应用与挑战分析 1. 背景介绍 自动驾驶技术是近年来人工智能领域的研究热点&#xff0c;它通过计算机视觉、传感器融合、决策规划等技术的综合应用&#xff0c;实现车辆的自主驾驶。随着深度学习技术的快速发展&#xff0c;大模型在自动驾驶领域得到了广…

电机无感算法采集电流的作用

电机无感算法中采集电流的作用是通过测量电机终端的电流&#xff0c;从中获得电机的状态信息&#xff0c;进而实现对电机旋转位置的估算。 采集电流的作用有以下几个方面&#xff1a; 电机模型建立&#xff1a;通过测量电流&#xff0c;可以获得电机的输入量和输出量之间的关系…

ctfshow web入门 反序列化

254 分析代码&#xff1a; 如果用户名和密码参数都存在&#xff0c;脚本会创建一个 ctfShowUser 类的实例 $user。 接着&#xff0c;调用 $user->login($username, $password) 方法尝试登录。如果登录成功&#xff08;即用户名和密码与类中的默认值匹配&#xff09;&#…