Python 全栈系列252 一些小计划

说明

最近整体进展还比较顺利,不过也因为这样,好几个线头怎么继续平衡和推进需要稍微捋一下。

内容

按重要|紧急方法来看,线头1是重要且紧急的,QTV200也算重要且紧急,其他都算是重要不紧急。

线头1: 数据清洗

虽然用到的技术相对麻烦一点,但还算是数据清洗的内容。业务和某个具体的模型/算法并不是我最关注,在这个项目上我更关心方法与架构。

在这个项目里,方法上要求了模式-模型二级法,这也是之前一直想做的内容,这也可以使QTV200的决策能力提升一个层级。在架构上,很巧的也需要用到之前构想的数据流才能更好的处理。这既有开发上的,也有执行效率上的点。

模式部分,所需要区分的模式我已经标完。这里一个体会是,首先要将特征离散化,然后才好标记模式。离散化本身可能设计到较为复杂的算法,例如HMM。实时上通过这几天也证明了,一般性数据至少有50%是可以非常快穷举出来快速处理的,而不必走大模型。

架构部分,因为之前的积累,所以这次很快就完成了连通性测试,这样也比较容易赶得上接下来的进度。

本次使用了Redis和ClickHouse两种数据库,用于做队列和持久化。由MongoEngine管理任务对象,而Flask-APS-Celery负责流的定义和执行。

还需要做的部分:在进行开发测试的同时,将数据准备好

  • 1 在4090主机上建立数据流环境,后续可能需要持续使用1个月
  • 2 算网主机上,从clickhouse中分批取出数据,向4090发起持续的数据请求。写入stream1_in
  • 3 worker1: 从stream1_in中取数,先将数据进行UCS编号后存4090ch,同时将数据同步写入stream2_in(test),如果不能写入直接抛弃
  • 4 worker2 :从stream2_in中取数,进行模式识别,然后将结果分发到二级队列(目前有11个队列),对应的工作是将最近的模式识别程序封装为类似程序包的格式(现在十几个模式识别处理放在一个程序里太冗长了)stream2_tier2_in
  • 5 worker3s: 在多个队列下分别进行开发,然后进行调度。结果写入stream2_tier2_out
  • 6 worker4: 将stream2_tier2_out的结果汇聚到stream2_out
  • 7 worker5: 将stream2_out写到ch进行持久化。

这里会涉及到大量任务设置与调度执行,可以让我更快的完成数据流体系的磨合。另外就是看数据迁移这一块了,如何在ch中设置字段,然后将数据从节点A挪到节点B。

线头2:QTV200

这个是我最期望月底能完成的项目,具有特别重要的意义。

第一步是要建立数据流,从源头上重新

目前把之前的采集程序找到了,本来运行的也没有问题,不过现在转入数据流方法,使用Flask-APS-Celery来进行效率更高的取数。

先尽快把数据流搭好,然后把VV部署为服务。

线头3:GLM4

前不久智谱也开源了GLM4,我相信在Function Call上,应该能初步满足我的要求了

这个再等一等吧,写在这就不会忘了。

线头4:强化学习

开了个头,但没有时间把里面的内容钻一遍

总之,强化学习框架是我下一阶段的主要方法,本身也是设想在QTV200阶段开始应用的。试着跑了一下,看起来是我要的样子,在算力极大丰富的情况下,用分布式强化是非常合适的,机器再也不会有闲着的时候了。做一些有意义的算法,让算力燃烧在对的地方是我的理想。
在这里插入图片描述

在conda3下安装包 rllib, 需要pytorch

pip3 install ray[tune] -i  https://mirrors.aliyun.com/pypi/simple/
pip3 install gymnasium  -i  https://mirrors.aliyun.com/pypi/simple/
pip3 install dm_tree   -i  https://mirrors.aliyun.com/pypi/simple/
pip3 install typer   -i  https://mirrors.aliyun.com/pypi/simple/
pip3 install scikit-image -i  https://mirrors.aliyun.com/pypi/simple/
# 会自己下载并安装对应的gpu版本包 | 很大,最好留够十个G
pip3 install torch   -i  https://mirrors.aliyun.com/pypi/simple/Downloading https://mirrors.aliyun.com/pypi/packages/b6/9f/c64c03f49d6fbc56196664d05dba14e3a561038a81a638eeb47f4d4cfd48/nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 23.7/23.7 MB 777.5 kB/s eta 0:00:00
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)Downloading https://mirrors.aliyun.com/pypi/packages/eb/d5/c68b1d2cdfcc59e72e8a5949a37ddb22ae6cade80cd4a57a84d4c8b55472/nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 823.6/823.6 kB 786.7 kB/s eta 0:00:00
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch)Downloading https://mirrors.aliyun.com/pypi/packages/7e/00/6b218edd739ecfc60524e585ba8e6b00554dd908de2c9c66c1af3e44e18d/nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 14.1/14.1 MB 859.9 kB/s eta 0:00:00
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch)Downloading https://mirrors.aliyun.com/pypi/packages/ff/74/a2e2be7fb83aaedec84f391f082cf765dfb635e7caa9b49065f73e4835d8/nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╸ 723.9/731.7 MB 829.6 kB/s eta 0:00:10import ray
from ray import tune
from ray.rllib import train# 初始化Ray
ray.init()# 运行一个简单的PPO算法示例
tune.run("PPO", config={"env": "CartPole-v0"})2024-06-14 14:44:30,330	WARNING services.py:2009 -- WARNING: The object store is using /tmp instead of /dev/shm because /dev/shm has only 67092480 bytes available. This will harm performance! You may be able to free up space by deleting files in /dev/shm. If you are inside a Docker container, you can increase /dev/shm size by passing '--shm-size=10.24gb' to 'docker run' (or add it to the run_options list in a Ray cluster config). Make sure to set this to more than 30% of available RAM.
2024-06-14 14:44:30,449	INFO worker.py:1753 -- Started a local Ray instance.

在这里插入图片描述
在这里插入图片描述

线头5:遗传算法

正好有一个场景可以开始这个实践

可以先这么干,把要做的随机任务先发到RabbitMQ,然后算力机使用不同模型和数据进行随机训练打分。

然后,使用遗传算法优化随机选取的效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/27384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenGL3.3_C++_Windows(10)

最终演示 ​ demo演示 Assimp模型渲染 模型导入库Assimp:导入很多种不同的模型文件格式,加载至Assimp的通用数据结构(树形)中,不论导入的是什么种类的文件格式,用同一种方式访问我们需要的数据。 Assimp库…

【python-AI篇】人工智能技能树思维导图

大致总结一下得出如下思维导图,如不完善日后迭代更新 1. python基础三方库 1.1 科学计算库 ---- numpy库 1.2 科学计算库 ---- Scipy库 1.3 数据分析处理库 ---- pandas库 1.4 可视化库 ---- matplotlib库 1.5 可视化库 ---- seaborn库 1.6 机器学习和数据挖掘库 …

这世上又多了一只爬虫(spiderflow)

让我们一起默念: 爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫 接着大声喊出来: 一!只!爬!虫!呀!爬!呀!爬&#xf…

高考志愿填报选专业,兴趣爱好和就业前景哪个优先?

每个人都有自己的兴趣与爱好,而高考志愿填报是在为自己选择职业方向。最理想的状态就是把自己的兴趣和爱好与自己的职业统一起来,让兴趣和爱好促进职业的发展,为职业增添动力。但现实生活中,这种理想的状态并不是每个人都能达到的…

AXI 1G/2.5G Ethernet Subsystem IP核使用过程中参数配置全解

AXI 1G/2.5G Ethernet Subsystem 是一个为FPGA设计的以太网子系统,它支持1Gbps和2.5Gbps的数据传输速率,使得FPGA能够直接进行高速以太网通信。这个子系统通常包含以太网MAC控制器、GMII(千兆媒体独立接口)或RGMII(简化…

抖音视频素材在哪找无版权?免版权可以剪辑视频素材网站分享

在抖音视频制作中,素材的选择至关重要。今天,我就为大家推荐几个宝藏网站,帮你找到既好用又无版权纠纷的视频素材。无论你是新手还是老手,这些网站都能满足你的需求。 蛙学府 首先推荐的是蛙学府。这个网站提供丰富的视频素材&am…

[CUDA编程] cuda graph优化心得

CUDA Graph 1. cuda graph的使用场景 cuda graph在一个kernel要多次执行,且每次只更改kernel 参数或者不更改参数时使用效果更加;但是如果将graph替换已有的kernel组合,且没有重复执行,感觉效率不是很高反而低于原始的kernel调用…

Linux-笔记 设备树插件

目录 前言: 设备树插件的书写规范: 设备树插件的编译: 内核配置: 应用背景: 举例: 前言: 设备树插件(Device Tree Blob Overlay,简称 DTBO)是Linux内核和嵌入式系统…

【Ardiuno】使用ESP32单片机网络功能调用API接口(图文)

接着上文连通wifi后,我们通过使用HTTPClient库进行网络相关操作,这里我们通过http协议进行接口调用。 为了简化操作,小飞鱼这里使用了本地服务器上的文件作为接口,正常操作时会调用接口后,将服务器返回的数据进行解析…

门控循环单元GRU与长短期记忆网络LSTM

门控循环单元与长短期记忆网络 门控隐状态 问题提出:对于一个序列来说不是每个观察值都是同等重要想只记住相关的观察需要: 能关注的机制(更新门)能遗忘的机制(重置门) 第一个词元的影响至关重要。 我们…

【第10章】Vue之Element Plus常用组件

文章目录 前言一、表格1. 带斑马纹表格2. 展示 二、分页1.国际化(中文)2.分页代码3. 展示 三、表单1. 表单代码2. 展示 四、卡片1. 卡片代码2. 展示 总结 前言 通过上一章的快速入门,我们已经学习了按钮使用,接下来学习Element Plus的常用组件&#xff…

统计信号处理基础 习题解答10-12

题目: 如果,其中: 对某个,令。证明当时使最大。另外,证明。它们为什么是相同的?如果,基于的的MMSE估计量是什么? 解答: 根据多维高斯分布的定义,可以得到&am…

有监督学习——线性回归

1. 线性模型 有监督学习是通过已知的样本产生预测模型的学习方法,任何有监督学习模型都可被想象成一个函数: 其中,\(x_1,x_2,x_3…x_n\)是模型的n维的特征值,\(y\)是要预测的目标值/分类,当\(y\)是可枚举的类型时&…

11.docker镜像分层dockerfile优化

docker镜像的分层(kvm 链接克隆,写时复制的特性) 镜像分层的好处:复用,节省磁盘空间,相同的内容只需加载一份到内存。 修改dockerfile之后,再次构建速度快 分层:就是在原有的基础镜像上新增了服…

2024 年最新 Python 基于百度智能云实现短语音识别、语音合成详细教程

百度智能云语音识别 采用国际领先的流式端到端语音语言一体化建模算法,将语音快速准确识别为文字,支持手机应用语音交互、语音内容分析、机器人对话等场景。百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景…

CSS实现经典打字小游戏《生死时速》

🌻 前言 CSS 中有这样一个模块:Motion Path 运动模块,它可以使元素按照自定义的路径进行移动。本文将为你讲解这个模块属性的使用,并且利用它实现我小时候电脑课经常玩的一个打字游戏:金山打字的《生死时速》。 &…

ERP、CRM、MRP、PLM、APS、MES、WMS、SRM系统介绍

一、ERP系统 ERP系统,即企业资源计划(Enterprise Resource Planning)系统,是一种集成管理软件系统,旨在帮助企业实现资源的有效管理和优化。以下是对ERP系统的详细介绍: 1、定义与功能 ERP是企业资源计划…

小白跟做江科大32单片机之定时器

原理部分 1. 计数器每遇到一个上升沿就会计数值1,。 72MHZ72000000 72000000/65536/655360.0167638063430786132812559.652323555555554 (s) 2. 3. 计数时钟每来一个上升沿,计数值1,自动运行。如果计数值与存储在自动重装载寄存器中的值相等&#…

2024年心理学研究、现代化教育与社会发展国际学术会议(PRMESD 2024)

2024年心理学研究、现代化教育与社会发展国际学术会议(PRMESD 2024) 2024 International Conference on Psychological Research, Modern Education and Social Development 会议地点:南京,中国 网址:www.prmesd.com 邮箱: prmesdsub-con…

杨氏矩阵和杨辉三角的空间复杂度较小的解题思路

文章目录 题目1 杨氏矩阵题目2 杨辉三角 题目1 杨氏矩阵 有一个数字矩阵,矩阵的每行从左到右是递增的,矩阵从上到下是递增的,请编写程序在这样的矩阵中查找某个数字是否存在。 要求:时间复杂度小于O(N); 思路: 我们可以通过题目…