TowardsDataScience 博客中文翻译 2018~2024(一百二十三)

TowardsDataScience 博客中文翻译 2018~2024(一百二十三)

引言

从 2018 年到 2024 年,数据科学的进展超越了许多技术领域的速度。Towards Data Science 博客依然是这个领域的关键平台,记录了从基础工具到前沿技术的多方面发展。本文将对 2018 至 2024 年间的 123 篇精选文章进行整理与翻译,系统梳理数据科学的进化轨迹。

文章目录

    • TowardsDataScience 博客中文翻译 2018~2024(一百二十三)
      • 引言
      • 第一部分:人工智能与自动化
        • 1. 自动化机器学习(AutoML)新时代
        • 2. 强化学习的商业应用
      • 第二部分:大语言模型与生成式 AI
        • 3. 大语言模型的核心原理
        • 4. 文本生成的伦理与挑战
      • 第三部分:可解释性与透明化
        • 5. 可解释机器学习(XAI)工具
        • 6. 透明 AI 的政策与趋势
      • 总结与展望

在这里插入图片描述


第一部分:人工智能与自动化

1. 自动化机器学习(AutoML)新时代

原文标题:“The New Era of AutoML”

摘要

  • AutoML 工具的普及降低了数据科学的门槛。
  • 流行工具:Google AutoML、H2O.ai、DataRobot。
  • 使用 AutoML 的典型工作流。
from h2o.automl import H2OAutoML
import h2o
h2o.init()# 导入数据
data = h2o.import_file("data.csv")
train, test = data.split_frame(ratios=[.8])# 自动化建模
aml = H2OAutoML(max_models=10, seed=42)
aml.train(y="target", training_frame=train)# 输出最佳模型
print(aml.leaderboard)
2. 强化学习的商业应用

原文标题:“Reinforcement Learning in Real-World Business”

摘要
强化学习(RL)从理论走向实际的典型案例:

  • 电商个性化推荐。
  • 供应链优化。
  • 游戏 AI。

常用框架

  • OpenAI Gym
  • Stable Baselines
import gym
import stable_baselines3 as sb3# 创建环境
env = gym.make("CartPole-v1")
model = sb3.PPO("MlpPolicy", env, verbose=1)# 训练模型
model.learn(total_timesteps=10000)# 测试模型
obs = env.reset()
for _ in range(1000):action, _states = model.predict(obs)obs, rewards, done, info = env.step(action)env.render()

第二部分:大语言模型与生成式 AI

3. 大语言模型的核心原理

原文标题:“The Principles of Large Language Models”

摘要

  • Transformer 架构的崛起。
  • BERT、GPT 系列模型的对比。
  • 应用场景:机器翻译、文本生成、对话机器人。

代码示例:使用 Hugging Face 加载 GPT 模型。

from transformers import GPT2LMHeadModel, GPT2Tokenizertokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")# 文本生成
def generate_text(prompt):inputs = tokenizer.encode(prompt, return_tensors="pt")outputs = model.generate(inputs, max_length=50, num_return_sequences=1)return tokenizer.decode(outputs[0], skip_special_tokens=True)print(generate_text("人工智能的未来是"))
4. 文本生成的伦理与挑战

原文标题:“Ethics and Challenges in Text Generation”

摘要

  • 偏见与歧视问题。
  • 生成内容的真实性验证。
  • 开源与商业模型的平衡。

温馨提示
“在部署生成式 AI 应用时,务必考虑多样性与公平性。”


第三部分:可解释性与透明化

5. 可解释机器学习(XAI)工具

原文标题:“Explainable AI: Tools and Techniques”

摘要

  • 可解释性方法:SHAP、LIME、Integrated Gradients。
  • 具体案例:银行业的信用评分模型。
import shap
import xgboost# 数据加载
X, y = shap.datasets.boston()
model = xgboost.XGBRegressor().fit(X, y)# SHAP 分析
explainer = shap.Explainer(model, X)
shap_values = explainer(X)
shap.summary_plot(shap_values, X)
6. 透明 AI 的政策与趋势

原文标题:“Policies and Trends for Transparent AI”

摘要

  • 全球政策框架:欧盟的 AI 法规、美国的 NIST 指南。
  • 企业实践案例:Google、Microsoft、OpenAI。

未来展望:透明化将成为 AI 系统发展的核心竞争力。


总结与展望

Towards Data Science 博客 2018-2024 系列文章不仅反映了数据科学的快速迭代,也展示了从基础技术到行业实践的全面发展。本系列中文翻译希望帮助更多国内开发者理解和应用这些技术。

技术趋势

  • 生成式 AI 的主流化。
  • 数据科学的行业标准化与规范化。
  • 新兴领域如量子机器学习的探索。

期待您持续关注下一阶段的翻译内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/65124.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker Build 命令详解:在 Ubuntu 上构建 Docker 镜像教程

简介 Docker 通过提供轻量级、可移植和高效的解决方案,彻底改变了软件开发和部署。docker build 命令是 Docker 镜像创建过程的核心。本文将探讨 docker build 命令、其语法、用法以及优化 Docker 构建的最佳实践。本教程的目标是手把手教你如何在 Linux 服务器上使…

Springboot应用开发:配置类整理

目录 编写目的 一、线程池 1.1 setCorePoolSize 1.2 setMaxPoolSize 1.3 setQueueCapacity 1.4 setKeepAliveSeconds 1.5 setThreadNamePrefix 1.6 setRejectedExecutionHandler 1.7 示例代码 二、Durid数据库连接池 2.1 ServletRegistrationBean 2.2 FilterRegist…

【Spring】深入解析 Spring 原理:Bean 的多方面剖析(源码阅读)

🔥个人主页: 中草药 🔥专栏:【Java】登神长阶 史诗般的Java成神之路 一、Bean的作用域 在 Java Spring 框架中,Bean 的作用域是一个关键概念,它决定了 Bean 的生命周期和实例化方式,对应用的性…

Excel 列名称转换问题 Swift 解答

文章目录 摘要描述题解答案Swift 实现代码:题解代码分析示例测试及结果 时间复杂度空间复杂度总结未来展望参考资料 摘要 本篇文章将通过 Swift 编程语言解答一个常见的算法问题:给定一个整数 columnNumber,将其转换为 Excel 表中的列名称。…

基于艾伦方差的频率稳定性分析

某个授时系统通过串口或网口采集时间间隔计数器、频率计数器、相位噪声分析仪设备的重要信息,用于评估和分析频率源的频率稳定度,确保测量的准确性和可靠性。 数据处理: 读取保存在文件中的时间间隔计数器测量的时差数据,计算时间稳定度(用TDEV表示)并保存。TDEV包括秒稳…

秒鲨后端之MyBatis【1】环境的搭建和核心配置文件详解

​ 别忘了请点个赞收藏关注支持一下博主喵!!!! ! ! Mybatis简介 MyBatis历史 MyBatis最初是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation迁移到了Google Code。随着开发团队转投Google Code旗下&#xff…

虚幻引擎结构之ULevel

在虚幻引擎中,场景的组织和管理是通过子关卡(Sublevel)来实现的。这种设计不仅提高了资源管理的灵活性,还优化了游戏性能,特别是在处理大型复杂场景时。 1. 场景划分模式 虚幻引擎采用基于子关卡的场景划分模式。每个…

CentOS7下的vsftpd服务器和客户端

目录 1、安装vsftpd服务器和ftp客户端; 2、配置vsftpd服务器,允许普通用户登录、下载、上传文件; 3、配置vsftpd服务器,允许anonymous用户登录、下载、上传文件; 4、配置vsftpd服务器,允许root用户登录…

系统思考—全局思维

昨天接到一个企业需求,某互联网公司VP希望N-1的核心团队一起学习系统思考,特别是在新业务快速发展的阶段。公司增长势头不错,但如何解决跨部门的协作问题,成为了瓶颈。全局思维就是关键。产品、技术、市场、运营、客服……如何打破…

美国加州房价数据分析01

1.项目简介 本数据分析项目目的是分析美国加州房价数据,预测房价中值。 环境要求: ancondajupyter notebookpython3.10.10 虚拟环境: pandas 2.1.1 numpy 1.26.1 matplotlib 3.8.0 scikit-learn1.3.1 2. 导入并探索数据集 通用的数据分析…

LabVIEW软件开发的未来趋势

LabVIEW软件开发的未来趋势可以从以下几个方面来分析: ​ 1. 与AI和机器学习的深度结合 趋势:LabVIEW正在向集成AI和机器学习方向发展,尤其是在数据处理、预测性维护和自动化控制领域。 原因:AI技术的普及使得实验和工业场景中的…

使用Amazon Bedrock的无服务器的智能工作流

使用Amazon Bedrock的无服务器的智能工作流 智能工作流基于用户输入处理不可预见的任务,比如发起API调用。无服务器架构可以高效地管理这些任务和不同的工作负载,而无需维护服务器,从而加快部署速度。 你将学习如何通过使用带有保护措施的智能…

近实时”(NRT)搜索、倒排索引

近实时(Near Real-Time, NRT)搜索 近实时(NRT)搜索是 Elasticsearch 的核心特性之一,指的是数据在被写入到系统后,可以几乎立即被搜索和查询到。虽然它不像传统数据库那样完全实时,但它的延迟通…

【NACOS插件】使用官网插件更换NACOS数据库

说明 nacos 2.3.1默认支持mysql和derby数据库,如果想要支持其他数据库,可以通过使用插件方式实现。对于该插件的使用,官方说明文档较为粗略(不过也没问题,实际上整个过程就是很简单,只是使用者想复杂了),网…

Pytorch | 利用FGSM针对CIFAR10上的ResNet分类器进行对抗攻击

Pytorch | 利用FGSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集FGSM介绍FGSM代码实现FGSM算法实现攻击效果 代码汇总fgsm.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器: Pytorch | 从零构建AlexNet对CIFAR10进行分类 Pytorch | 从零构建Vgg…

【IC验证】verilog及systemverilog特殊特性的分析

verilog及systemverilog特殊特性的分析 1.概述2.赋值延迟(0)总结(1)情况一:initial中进行阻塞赋值和非阻塞赋值(不延迟)a代码b 电路图c 结果 (2)时钟a 代码b 电路图c 结果…

考前96天 学习巩固 计算机、数学、英语

2024年12月24日到2025年3月29日共有 96​ 天 一、计算机基础 回顾: 三大思维: 数学 推理/理论 物理 证实/实验 计算机 构造/计算 本质——》抽象/自动化 计算复杂性:空间复杂性、时间复杂性 计算机系统的组成: 1️⃣硬件…

如何用digital实现一个4位的减法器?

文件可以在下方链接下载: https://download.csdn.net/download/dashuchengtian/90178176 组件拼接如下图所示: 其中A和B是一个4位的输入,Cin表示有无借位,S表示和,Cout表示的是借位输出。 运行结果如下,以…

C++之“流”-第5课.三军联动:流 +操作符+函数重载

如何针对特定函数类型重载流输出操作符&#xff1f;这样做有什么用处&#xff1f;C语言中&#xff0c;“流”、“操作符”、“函数重载” 这三大军团如何配合作战&#xff1f; 前言 C中&#xff0c;“流” 的日常运用&#xff0c;最基本的就是在你的代码里使用 << 和 &g…

并发编程(19)——引用计数型无锁栈

文章目录 十九、day191. 引用计数2. 代码实现2.1 单引用计数器无锁栈2.2 双引用计数器无锁栈 3. 本节的一些理解 十九、day19 上一节我们学习通过侯删链表以及风险指针与侯删链表的组合两种方式实现了并发无锁栈&#xff0c;但是这两种方式有以下缺点&#xff1a; 第一种方式…