【最后203篇系列】001 - 2024回顾

说明

最早在CSDN上写文章有两个目的:

  • 1 自己梳理知识,以备日后查用
  • 2 曾经从别人的文章中得到过帮助,所以也希望能给人帮助

所以在这个过程中,我的文章基本上完全是原创,也非常强调落地与工程化。在不断写作的过程中,我也得到了许多好处,教学相长的感觉。

不过,万事都有个尽头,我给自己一个小目标:1000篇博客。在接下来的1~2年内,我会完成这个目标。

内容,还是以我自己的体会、实践为主,如果有人觉得有用固然好,自己写写也挺享受的。

内容

快到年底了,又是一年。完结篇从一个年度回顾开始吧。

大概围绕:架构、大模型应用、算法与量化展开。

1 架构

我大约是从2020年开始,决定搞这方面的。最初的动力是来自于需求无法被满足。我所设想的算法世界很有趣,但是似乎找不到可以支撑的结构,我碰到的很多项目都是传统项目,过于古老而简陋。

于是我从装机器、装系统、布服务一点点搞,差不多4年时间,我觉得终于可以告一段落了。架构的世界也很大,我不是高手,只是觉得到这里基本结构可以了,我的兴趣还是在算法。

顺着时间线,5月份之前的记忆有点模糊了,忘了搞了什么。

1.1 ClickHouse - 6月

这是一个很棒的列式数据库,非常适合做备份、快速统计等,以前在我的数据库里缺了这一块。

1.2 ORM - 7月

原来我比较排斥ORM,觉得效率不够高。这大概是我过去经常是做块状数据操作,而且交互量也不大的原因。后来突然发现,世界是有两极的,批量操作和单条操作是不可能互相取代的,各有用武之地。

所以我把SQLAlchemy捡了起来,然后做了大量的对接工作:MySQL、Postgres、Clickhouse、SQLite 等一系列的对接,将使用习惯扭转过来。感觉好极了。

之后用MongoEngine 做了和Mongo的对接。

1.3 异步并发 - 8月

因为要调用大模型,所以对线程和协程异步并发也重新拉出来Review,然后算是成熟应用了。踩了一些坑,比如协程最好在脚本里只调一次run之类的。

1.4 Pydantic - 9 月

很早就像对数据的接口做规范。这次终于发现这个宝藏包,挺好的。

1.5 InfluxDB - 10 月

突然发现,我一直少了一块数据库:时序数据库。这次也补上了,未来可以用来做事件的存储分析,特别是量化的数据。

1.6 FastAPI - 10月

之前是有点偷懒的,想着既然掌握了Flask、Tornado 是不是也就够了。后来发现FastAPI还是很有必要的,特别是天然的异步可以结合异步包进行单条的数据库操作。

1.7 Prefect - 11月

在调度这块,我一直是比较缺失的。我基于Celery、FlastAPScheduler等其实已经自研了80%左右,还缺前端。但是Prefect可以更快让我动起来,我还可以借鉴一些成熟的做法,这样也几乎补上了这块短板。

1.8 队列 - 6-11月

前前后后,我尝试了RabbitMQ、Redis Stream、Kafka 三种队列。今年主要把Kafka弄好了,这个的作用比较大。当然,我又发现这几种队列又是没法互相取代的(轻、重队列)。

1.9 MatterMost -12 月

搭建了自己的服务,方便之后使用大模型加持:比如整理知识、自动安排提醒以及消息推送等。

1.10 Milvus 11月

以前做过实验性的,终于在生产上用起了Milvus。

1.11 Neo4j 10月

以前做过实验性的,终于在生产上用起了Neo4j。

1.12 DogPile 11月

开始在生产上用了Cache

其他

还有一些是零零散散做的,比如

  • 1 日志。以前一直没有记日志的习惯,大部分时候是提供一个足够好的无状态服务。
  • 2 Ansible。用于自动化部署。
  • 3 Grafana。用于展示数据。
  • 4 Telegraf。 和InfluxDB搭配的收集和解析指标工具。
  • 5 Logstash。另一个生态ELK下的组件。
  • 6 Nginx。开始用带健康检测的方式实现AB服务的部署。
  • 7 Mysql 升到了8。
  • 8 Mongo升到了8。

除了这些工具性的东西,我还做了大量的与之适配的开发。总之,今年可以说从程序设计、程序调度、IO并发以及存储等多个方面都有了大提升,够我实现一些基础算法能力了。

比较可惜的是,今年还是没有时间 把Dask和Ray搞好,得要2025年了。

2 大模型应用

今年应该算是大模型应用元年。

2.1 智谱时间(3、4月)

早些时候,智谱还是最好的选择。那时候我还手工部署和使用过glm2,glm3,还用自己的显卡实现过一些简单的项目。后来调他们的官方接口也做过一些任务。

2.2 Ollama时间(5、6月)

那时还是以自己搞小模型为主,当时出了Llama2啥的,性能有了提升,但还没太大用。

2.3 LangChain-ChatChat(7月)

虽然还是一个基于小模型的工具,但是从前台到后台,把RAG的东西展示清楚了,也触发了我去搞Agent、Function-Calling的想法。

2.4 DeepSeek(8、9月)

从这里开始是一个分水岭。DeepSeek重新定义了大模型的价格,以及效果。很快还退出了缓存技术,这都是很大的进步,让我们的项目可以以更大的规模去使用大模型。

2.5 豆包(10,11月)

如果说DeepSeek是ToC的,那么豆包就是ToB的。同级别的效果,更大的并发和更低的价格。我们的应用量更大了。

到现在,我们非常明确,大模型对于产品和业务,应该怎么去配合,以及发挥价值。(外在)

对我来说,更重要的还是RAG、Agent和Function-Calling。从现在的评估来看,大模型的能力基本没有问题了,工具也基本查探和准备好了,下一步就可以结合我的工作方式 丰富,并在实际的业务中发挥很大作用。(内在)

大模型白热化竞争以及飞速迭代的背后,让我更加肯定一些模糊的想法。既要顺着主流,把大模型用好 ,当下就产生巨大推力;另外,也要看到未来发展的趋势,有些是必然的,比如机器换人。还有一些是现在主流技术的盲区,但随着大模型的影响力,这些盲区可能会被打开。

总之,现在更专注与加速是最正确的决定。

3 算法

算法是目前我最“亏欠”的一块

我最初是搞算法的,这是我最感兴趣的一块。中间因为建设架构的原因,很大一部分精力都不在算法。然而这才是价值实现的最关键步骤。

我的算法最终目标是模拟+推演。

如果说传统机器学习是基于解析法的,我所要研究的方向就是近似法。在模拟和推演的基础上,可以进行发现,也可以进行博弈。

3.1 实体识别重构(3-5月)

最早有一版实体识别,但是比较早了。后来需要进行迭代,里面的从打标、训练到输出,整个流水线很长。所以我对整个模型的流水线进行了重构。
感觉更多的还是“炒冷饭”,但是为了业务也没办法。

3.2 实体识别及匹配(7-8月)

这个更多是奔着业务去的,但是在这个过程中有方法性的收获。

  • 1 信息角度。向量法对于特别短的文本效果是不好的,这时候熵太大了。所以不能用向量,而是要用类似词袋的方法。所以这是一个两极问题。
  • 2 层次。先模式识别,再模型处理。一个基本的总分结构是要有的。

3.3 开启强化学习(9-10月)

有了一个完整的开始,也完成了一些入门级实验。

  • 1 强化学习的基本概念。
  • 2 QLearning的再次剖析,后续打算以这个为抓手重新切入。

3.4 语义向量的使用(8-11)

这也算是炒冷饭吧,好歹也用上了。效果如预期,不错。

3+个应用点,都是用向量去重。

诶,就是这些。感觉自己都很丢脸,一点深度都没有。明年开始要改变了,期待在未来的4年内,算法再上一个台阶,量化为证。

我大致把算法分为以下几部分:

  • 1 判别算法。包含聚类和分类算法,主要的目的是将数据归为某类,并给出量化的度量。这模拟人类的基础判别逻辑,归纳和演绎。
  • 2 遗传算法。主要的目的是进行探索,找到更合适的解。与之相关的是线性规划,一种更简单的优化方法。
  • 3 推理算法。目前还不明确,但应该是以图为基础的算法。模拟人的链式推理。
  • 4 强化学习。主要目的也是进行探索,但与遗传算法不同,强化学习的目标是更泛化的通用目标,更接近人的学习方式。
  • 5 时间序列模型。特别强调在时间序列上的特征计算与判别,比较有代表性的是HMM的隐含序列。
  • 6 推荐算法。从时间和空间两个大的维度进行推荐。

一些比较明确的想法:

  • 1 LR、GBDT、XGBoost差不多是判别模型的代表。
  • 2 KMeans, DBScan是聚类的代表。
  • 3 图的聚类,或者说子图分割是一个重要的切入点。
  • 4 遗传算法+LR+矩阵计算可以产生很强大的应用,我称为MPLR(Matrix Parralel LR)
  • 5 QLearning可以视为是强化学习的LR。

4 量化

产生了一些新的想法,更新了认知,也有了新的工具准备。

认知1: 中国的股市完全不同于美国股市(但不意味着无价值,只是方法不同)
认识2: 投资债券可能是更好的方式
认知3: 简单技术路子是行不通的,虽然能比一般的固收高,但肯定不划算
认知4: 模式+模型是对的方式
认知5: 先实现成熟的策略,再进行变体,是对的方式

工具1:Numba。极大加速了数值型For循环的效率。
工具2:Pybroker。可以用来进行参照和对比。

我希望明年一月份可以完成V2版的第一次迭代,V1版要准备退出舞台了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/64922.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cobalt Strike 4.8 用户指南-第十四节 Aggressor 脚本

14.1、什么是Aggressor脚本 Aggressor Script 是Cobalt Strike 3.0版及更高版本中内置的脚本语言。Aggressor 脚本允许你修改和扩展 Cobalt Strike 客户端。 历史 Aggressor Script 是 Armitage 中开源脚本引擎Cortana的精神继承者。Cortana 是通过与 DARPA 的网络快速跟踪计…

Vue(四)

1.Vuex 1.1 Vuex是什么 Vuex 是一个插件,可以帮我们管理 Vue 通用的数据。例如:购物车数据、个人信息数据。 1.2 vuex的使用 1.安装 vuex 安装 vuex 与 vue-router 类似,vuex 是一个独立存在的插件,如果脚手架初始化没有选 v…

基础9 CRTP 与 Expression Templates

目录 一、奇异递归模版(CRTP) 二、表达式模板 🍉 概要 🍇 奇异递归模板模式(CRTP) 动机与原理 🍓 表达式模板(Expression Templates) 动机与原理 🍈 示例代码 &#x1f35…

分布式协同 - 分布式事务_TCC解决方案

文章目录 导图Pre流程图2PC VS 3PC VS TCC2PC(Two-Phase Commit,二阶段提交)3PC(Three-Phase Commit,三阶段提交)TCC(Try-Confirm-Cancel)2PC、3PC与TCC的区别2PC、3PC与TCC的联系 导…

脑肿瘤检测数据集,对9900张原始图片进行YOLO,COCO,VOC格式的标注

脑肿瘤检测数据集,对9900张原始图片进行YOLO,COCO,VOC格式的标注 数据集分割 训练组 70% 6930图片 有效集 20% 1980图片 测试集 10% 990图片 预处理 静态裁剪: 24-82&…

步进电机接线和stm32引脚分配

实验设备 24v(12-48 v)直流电源 stm32f103最小系统板 步进电机驱动器 采用混合式二相步进电机J-5718HBS2401-野火42步进电机,驱动器为野火EBF-MSD4805 本人参考接线方式如下: 如上图所示通常采用共阴接线方式,具体…

极乐 15.2.6 | 清爽版简约美观音乐软件,支持网易云歌单导入

极乐是一款使用起来非常轻松的音乐播放软件,它拥有清新简洁的画面,专注于音乐播放功能。最新版本全面升级了64位架构,带来了前所未有的性能提升和更稳定的体验。通过优化内存管理,降低了应用对系统资源的占用,确保设备…

4、mysql高阶语句

mysql高阶语句是对复杂的条件进行查询的操作。 排序—order by 加了desc表示由大到小 1、查询name和score,地址都是云南西路的按id进行由小到大排序 2、查询name和score,先按hobbid进行排序,再把结果按id进行排序 第一段字段必须要有相同的…

Docker部署GitLab服务器

一、GitLab介绍 1.1 GitLab简介 GitLab 是一款基于 Git 的开源代码托管平台,集成了版本控制、代码审查、问题跟踪、持续集成与持续交付(CI/CD)等多种功能,旨在为团队提供一站式的项目管理解决方案。借助 GitLab,开发…

hadoop中hive本地模式安装mysql源不成功

目录 1.更改DNS配置 2.替换yun源 3.替换掉后,在执行 4.重新安装mysql源 hive本地模式安装mysql源出错 yum install mysql mysql-server mysql-devel -y 解决: 1.更改DNS配置 vi /etc/resolv.conf 添加下面内容: nameserver 8.8.8.8 …

RISC-V架构的压缩指令集介绍

1、压缩指令集介绍 RISC-V的压缩指令集(C扩展)‌是一种设计用于减少代码大小和提高性能的技术。标准的RISC-V指令是32位,压缩指令集可以将部分32位的指令用16位的指令替代,从未减小程序占用存储空间的大小,提高指令密…

Day13 苍穹外卖项目 工作台功能实现、Apache POI、导出数据到Excel表格

目录 1.工作台 1.1 需求分析和设计 1.1.1 产品原型 1.1.2 接口设计 1.2 代码导入 1.2.1 Controller层 1.2.2 Service层接口 1.2.3 Service层实现类 1.2.4 Mapper层 1.3 功能测试 1.4 代码提交 2.Apache POI 2.1 介绍 2.2 入门案例 2.2.1 将数据写入Excel文件 2.2.2 读取Excel文…

集星獭 | 高性能编排:为实时数据集成而生!

概要介绍 服务编排作为集星獭驱动业务流、数据流中不可或缺的重要环节,其基于分布式架构打造,提供了高可用、易扩展的可视化流程任务调度功能。 原服务编排的设计初衷是专注于任务调度,提供高性能任务调度,但是在实时调用方面的…

达梦8-达梦数据的示例用户和表

1、示例库说明: 创建达梦数据的示例用户和表,导入测试数据。 在完成达梦数据库的安装之后,在/opt/dmdbms/samples/instance_script目录下有用于创建示例用户的SQL文件。samples目录前的路径根据实际安装情况进行修改,本文将达梦…

windwos defender实现白名单效果(除了指定应用或端口其它一律禁止)禁止服务器上网

一、应用场景说明 当我们的一台windows服务器中毒,变成别人肉鸡,不断向外请示非法网站或攻击其它服务器。 要彻底清除相关木马或病毒往往需要的时间比较长,比较有效的方法是禁止服务器主动向外发包除了网站端口和远程程序除外。 其实这就是一…

1 JVM JDK JRE之间的区别以及使用字节码的好处

JDK jdk是编译java源文件成class文件的,我们使用javac命令把java源文件编译成class文件。 我们在java安装的目录下找到bin文件夹,如下图所示: 遵循着编译原理,把java源文件编译成JVM可识别的机器码。 其中还包括jar打包工具等。主要是针对…

【机器人】机械臂轨迹和转矩控制对比

动力学控制和轨迹跟踪控制是机器人控制中的两个概念,它们在目标、方法和应用上有所不同,但也有一定关联。以下是它们的区别和联系: 1. 动力学控制 动力学控制是基于机器人动力学模型的控制方法,目标是控制机器人关节力矩或力&…

Pytorch | 从零构建ParNet/Non-Deep Networks对CIFAR10进行分类

Pytorch | 从零构建ParNet/Non-Deep Networks对CIFAR10进行分类 CIFAR10数据集ParNet架构特点优势应用 ParNet结构代码详解结构代码代码详解SSEParNetBlock 类DownsamplingBlock 类FusionBlock 类ParNet 类 训练过程和测试结果代码汇总parnet.pytrain.pytest.py 前面文章我们构…

Go1.21.0 到 Go1.23.0 的改动,向前兼容性和toolchain规则,Go1.21.0,必须升级你的Go啦

Go各版本Release Note Go1.21.0 2023-08-08 https://go.dev/doc/go1.21 内置方法 min & max:返回一个序列中的最大值最小值。 https://go.dev/ref/spec#Min_and_max clear:清空map和slice。 https://go.dev/ref/spec#Clear 标准库 log/slo…

Unity中的委托和事件(UnityAction、UnityEvent)

委托和事件 🎒什么是委托,委托的关键字是Delegate,委托是一种函数的容器,运行将函数做为变量来进行传递 通过Delegate关键字我们声明了一个无参无返回的委托,通过这个委托我们可以存储无参无返回的函数 public deleg…