[240529] llm.c 从头训练 GPT-2 | 六国公众对采用生成式 AI 的看法

- llm.c: 20美元 90分钟,从头训练 GPT-2
- 公众对新闻中生成式人工智能的看法 - 六国调查报告
- - 公众对生成式人工智能的意识和使用
  - 公众对生成式人工智能在不同领域应用的预期
  - 公众对新闻业中生成式人工智能使用的看法
  - 结论
  - 未来趋势

llm.c: 20美元 90分钟,从头训练 GPT-2

用 llm.c 在 90 分钟内以 20 美元复现 GPT-2 (124M) 模型

项目目标

使用 llm.c (一个约 4000 行 C/CUDA 代码的项目) 复现 GPT-2 (124M) 模型。
在 90 分钟内，花费约 20 美元完成模型训练。

项目可行性

GPT-2 (124M) 是 GPT-2 系列中最小的模型，即使在 GPU 较差的情况下也能运行。
llm.c 效率高，模型 flops 利用率高达 60%。
在 Lambda 上使用 8X A100 80GB SXM 节点，训练时间约为 90 分钟，成本约为 20 美元。

实验结果

在 FineWeb 验证集上优于 OpenAI 发布的 GPT-2 (124M) 检查点。
在 HellaSwag 基准测试中达到 29.9% 的准确率，超过 GPT-2 (124M) 的 29.4%。

复现步骤

安装 Miniconda、PyTorch、CUDA、cuDNN、MPI 等依赖项。
使用 fineweb.py 脚本对 FineWeb 数据集进行预处理。
编译 llm.c 代码。
使用 train_gpt2cu 命令训练模型。
使用 Jupyter Notebook 可视化训练过程和结果。

代码结构

train_gpt2.cu 文件包含大部分核心代码，包括 Transformer 层、GPT-2 模型、训练循环等。
dev/cuda 目录包含 CUDA 内核代码。

未来计划

复现更大规模的 GPT-2 模型 (350M、740M、1558M)。
优化代码、添加更多功能、支持多节点训练。

常见问题解答

问：可以用它进行采样吗？
答：可以，但效率不高。

问：可以和它聊天吗？
答：不可以，目前只支持预训练，不支持聊天微调。

问：可以进行多节点分布式训练吗？
答：原则上可以，但尚未经过充分测试。

问：你是按位确定的吗？
答：不是，但我们非常接近，还有一个内核需要修补。

问：你可以在 fp8 中训练吗？
答：不，我们目前主要在 bf16 中训练，但即将推出。

问：我有一个非 NVIDIA GPU（AMD、Apple Silicon 等），我可以运行 llm.c 吗？
答：不，llm.c 只支持 C/CUDA，但我非常乐意链接到“值得注意的 fork”部分下的任何 fork，或者接受 PR，这将使 llm.c 移植到其他平台更容易。

问：我只有一台 CPU，我可以玩吗？
答：你将无法复现 GPT-2 模型，但你可以通过在其他数据（例如 TinyShakespeare 或 TinyStories）上微调 OpenAI GPT-2 模型来承担有趣的项目。llm.c 中的 train_gpt2.c 中存在对这些数据集、初始化和 CPU 微调的支持。（不过它要简单得多，主要用作 CUDA 代码的参考）。

问：这与 PyTorch 相比如何？
答：llm.c 是一个“直接”的 C/CUDA 实现。train_gpt2.py 中的 PyTorch 代码没有完整的功能奇偶校验（例如，不进行分片数据加载等），并且更多地 meant to be more as a reference，但我认为你可以通过以下步骤获得类似于上述 124M 模型的步骤：torchrun --standalone --nproc_per_node=4 python train_gpt2.py --input_bin dev/data/fineweb10B/fineweb_train_000001.bin --write_tensors 0 --model d12 --batch_size 64 --sequence_length 1024 --total_batch_size 524288 --dtype bfloat16 --compile 1 --tensorcores 1 --flash 1 --num_iterations 18865 --weight_decay 0.1 --overfit_single_batch 0。我感兴趣的是，并且会接受 PR，使 PyTorch 训练更接近 llm.c 训练循环的功能奇偶校验。

问：你为什么如此关心 GPT-2？
答：GPT-2 是 LLM 的鼻祖，是现代 LLM 堆栈首次以可识别的现代形式组合在一起，并且参数由 OpenAI 发布。GPT-3 实际上并没有对模型做太多改变（上下文大小 1024 -> 2048，我想就是这样吧？）。GPT-4 的细节从未公布过。许多其他 LLM 也非常类似于 GPT-2，尽管它来自 2019 年，例如，从架构的角度来看，Llama 3 是 MLP 中的非线性变化，以及 RoPE 相对位置编码的添加。

此文章采用 Gemini Pro 1.5 生成，命令如下:

x jina 'https://github.com/karpathy/llm.c/discussions/481' | \@gemini -t 0 '以大纲方式 用中文整理'

参考原文：

https://github.com/karpathy/llm.c/discussions/481

公众对新闻中生成式人工智能的看法 - 六国调查报告

公众对生成式人工智能的意识和使用

认知度: ChatGPT 是最广为人知的生成式人工智能产品，六国（阿根廷、丹麦、法国、日本、英国和美国）约 50% 的网民听说过它。
- 阿根廷 (41%) 到丹麦 (61%) 的公众听说过 ChatGPT。
- Google Gemini、Microsoft Copilot 和 Snapchat My AI 等产品的认知度约为 15-25%。
- 19% (日本) 到 30% (英国) 的网民没有听说过任何流行的人工智能工具。
使用情况: ChatGPT 也是使用最广泛的工具，使用率是 Google Gemini 和 Microsoft Copilot 的两到三倍。
- 只有少数人经常使用 ChatGPT，每天使用 ChatGPT 的比例从日本 (1%) 到英国和法国 (2%) 再到美国 (7%) 不等。
- 年轻人 (18-24 岁) 比老年人 (55 岁以上) 更可能经常使用生成式人工智能产品 (56% vs 16%)。
使用目的: 获取信息 (24%) 和创作媒体内容 (28%) 是最常见的两种用途。
- 创作媒体内容包括图像 (9%)、音频 (3%)、视频 (4%)、代码 (5%) 和文本 (图 5)。
- 只有 5% 的受访者使用生成式人工智能来获取最新消息。
- 在美国，这一比例为 10%，这可能是因为 Google 在美国试用了 Search Generative Experiences (SGE)。

公众对生成式人工智能在不同领域应用的预期

影响力: 大多数人预计生成式人工智能将在未来五年内对几乎所有社会领域产生重大影响。
- 72% 的受访者认为生成式人工智能将对搜索和社交媒体公司产生重大影响。
- 66% 的受访者认为它将对新闻媒体和科学产生重大影响。
- 53% 和 51% 的受访者分别认为它将对国家政府和政党产生重大影响。
负责任的使用: 公众对不同机构负责任地使用生成式人工智能的信任度存在显著差异。
- 约有一半的受访者信任科学家和医疗保健专业人员。
- 不到三分之一的受访者信任社交媒体公司、政治家和新闻媒体。
总体预期:
- 公众对医疗保健、科学和日常活动（如交通、购物和娱乐）持乐观态度。
- 公众对法治、生活成本、平等、就业保障和新闻持悲观态度。
- 新闻和新闻业领域悲观情绪大于乐观情绪 (-8)，与娱乐领域形成鲜明对比 (+17)。

公众对新闻业中生成式人工智能使用的看法

使用现状: 许多人认为新闻工作者已经在使用生成式人工智能来完成某些任务。
- 43% 的受访者认为新闻工作者经常或总是使用人工智能来编辑拼写和语法。
- 29% 的受访者认为新闻工作者经常或总是使用人工智能来撰写标题。
- 27% 的受访者认为新闻工作者经常或总是使用人工智能来撰写文章正文。
质量控制: 约三分之一 (32%) 的受访者认为，在发布人工智能生成的内容之前，人工编辑会对其进行检查。
舒适度: 人们普遍对人类记者制作的新闻感到更舒服，而不是人工智能制作的新闻。
- 与“硬新闻”主题（包括国际事务 (-21) 和政治 (-33)）相比，人们对使用人工智能制作的“软新闻”主题（如时尚 (+7) 和体育 (+5)）感到更舒服。
披露和标签: 绝大多数受访者希望对人工智能生成的内容进行某种形式的披露或标签。
- 只有 5% 的受访者表示，我们列出的用例都不需要披露。
- 约有一半的受访者表示，“如果无法获得真实照片，则创建图像”(49%)、“撰写文章正文”(47%) 和“数据分析”(47%) 应标记为人工智能生成的内容。

结论

公众对生成式人工智能及其在新闻业中的作用仍存在很大程度的不确定性。
人们普遍认为，生成式人工智能在新闻制作中的使用将有助于降低出版商的成本，但很少有人认为这对他们自己有帮助。
新闻机构需要就生成式人工智能的使用方式做出自己的决定，并与受众进行沟通和解释。

未来趋势

年轻人对生成式人工智能的态度更为开放和乐观。
随着生成式人工智能产品使用越来越广泛，公众舆论可能会发生变化。

以上文章采用 Gemini Pro 1.5 生成摘要，命令如下:

x jina r 'https://reutersinstitute.politics.ox.ac.uk/what-does-public-six-countries-think-generative-ai-news' \| @gemini -t 0 '以大纲方式生成一份摘要，列举更多的数据支撑，用中文'

上述陈述有一个问题：

这是原文:

Younger people are much more likely to use generative AI products on a regular basis. Averaging across all six countries, 56% of 18–24s say they have used ChatGPT at least once, compared to 16% of those aged 55 and over.

这是生成的摘要文的陈述:

年轻人 (18-24 岁) 比老年人 (55 岁以上) 更可能经常使用生成式人工智能产品 (56% vs 16%)。

原文中的确讲了年轻人比年长者更可能经常使用AI。但原文所后续提到的56%和16%，指是至少使用过一次 AI 的比例，而非经常使用的比例。AI 生成的这段文字让别人误解是有 56% 的年轻人和 16%的年长者经常使用 AI。

该问题之所以被发现，是因为与摘要文中的上一条结论上有矛盾。上一条结论明确指出只有极其少数是经常使用 AI。并列举了 ChatGPT 的用户数据 – 只有 1%（日本），2%（英法），7%（美国）经常使用 ChatGPT – 虽然还有其它类似产品，但根据文中数据， ChatGPT 的使用率要比竞品高出2-3倍，因此这个数据估计最多 double一下，就以美国为例，经常使用 AI 不可能超过 15%。其余国家只会更低。

所以，经常用 AI 的人群不可能在达到 56% （年轻人）和 16%（年长者）这么高的比例。

原文:

https://reutersinstitute.politics.ox.ac.uk/what-does-public-six-countries-think-generative-ai-news

原文数据和内容非常充实，非常值得细读，上述生成文字仅为摘要。

BBC 也围绕该报告发表了一篇文章，标题是：

AI products like ChatGPT much hyped but not much used, study says
研究表明，像ChatGPT这样的 AI 产品被大肆宣传但使用率不高。( 采用 GPT-4o 翻译）

BBC文章原文:

https://www.bbc.com/news/articles/c511x4g7x7jo