每周AI新闻（2024年第4周）OpenAI GPT降价增效，ChatGPT支持对话@GPTs | 通义千问Qwen-VL升级

我是陌小北，一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00，准时解读每周AI大事件。
本文解读部分属于陌小北的梦话，言论与她本人以及她所在的“陌北有棵树”账号无关。

大厂动向

【1】OpenAI GPT-3.5 Turbo降价增效、GPT-4 Turbo“变懒”问题修复

OpenAI宣布推出两款全新文本嵌入模型，包括更小、更高效的text-embedding-3-small和更大、性能更强的text-embeddings-3-large。OpenAI还更新了GPT-4 Turbo预览模型，修复此前模型“变懒”情况，同时发布迄今最稳健的文本审核模型，并将于下周推出全新GPT-3.5 Turbo模型，将输入价格降低了50%，将输出价格降低25%。此外，OpenAI将推出两项平台改进，让开发人员更清楚地了解自己的使用情况，并对API密钥进行控制。

【陌小北解读】 照这个速度，5还会远吗？摩尔定律在大模型时代又一次被玩明白了，不过以前无论是Intel和微软，还是高通和各手机厂商，好歹都还有个互相制衡，如今的OpenAI却是直接ToC又ToB。在资本面前，理想主义卑微如尘,不太敢想象几年后的OpenAI会长成什么样…

【2】ChatGPT更新，可在对话中@任意GPTs

ChatGPT更新的新功能，用户可以在对话中@ 不同的GPTs，类似于建立一个团队群聊，每个GPTs都是用户的员工，可以实现复杂任务。同一个对话内的「员工」们具备上下文信息，适合用来让一堆受调教过的GPTs「员工」去实现一个复杂任务。

【陌小北解读】 甚至不用想象，就已经看到了女朋友开会大型现场…家人们，经过OpenAI的不懈努力，终于把妻妾成群这项业务的价格给你们打下来了，无需998，无需298，每月20美刀，三妻四妾领回家…

【3】通义千问视觉理解模型Qwen-VL升级

阿里云公布多模态大模型研究进展，通义千问视觉理解模型Qwen-VL再次升级，继Plus版本之后推出Max版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测评中获得佳绩，比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。

相比Qwen-VL，Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力，整体性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等测评中远超业界所有开源模型，在文档分析（DocVQA）、中文图像相关（MM-Bench-CN）等任务上超越GPT-4V，达到世界最佳水平。

目前Qwen-VL-Plus和Qwen-VL-Max限时免费，用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型API。

【4】谷歌发布AI视频生成模型

谷歌1月23日在预印本平台arXiv发布文本到视频扩散模型Lumiere。Lumiere可以基于用户的自然语言提示、图像+提示生成长达5秒的视频，或者根据用户上传的单个参考图像，生成基于提示词的同风格视频，还允许用户通过自然语言指令生成一致的视频风格。用户可以指定特定区域使Lumiere对图像内容进行动画处理。

论文地址：https://arxiv.org/abs/2401.12945

地址：https://lumiere-video.github.io/

【5】Yann LeCun称生成式模型不适合处理视频

在2024世界经济论坛的一次对话中，Meta首席AI科学家杨立昆（Yann LeCun）提到生成式模型不适合处理视频的观点。当主持人问如何让机器理解视频时，杨立昆称，目前最有希望的是图像识别，并不是生成式的。最有效的模型不是图像生成模型，不是重建，也不是直接预测。它做的是在一个抽象的表征空间中进行预测……我们需要在抽象表征空间中预测，而不是具体的像素空间。这就是为什么像素空间的预测都失败了，因为它太复杂了。

【陌小北解读】 按照杨立昆的观点，这就是，一只公鸡要下蛋，不是他的活他要干…

【6】谷歌云与Hugging Face建立战略合作伙伴关系

谷歌云与Hugging Face宣布双方建立战略合作伙伴关系。双方将在开放科学、开源、云和硬件方面进行合作，以便公司能够利用Hugging Face最新开放模型和谷歌云最新的云和硬件功能构建自己的AI。

【陌小北解读】 借用一句赵本山老师的名言：这个世界太疯狂，耗子都给猫当伴娘…

【7】腾讯文档智能助手开启公测

腾讯文档智能助手正式开启公测，全面应用于Word、Excel、PPT、PDF、智能文档、收集表、思维导图等文档类型。腾讯文档AI能力的升级涵盖了文本内容秒级处理、函数公式运算应用、表格数据精准呈现、PPT快速生成美化、收集结果自动分析、思维导图一键生成等多项能力，并支持跨品类文档内容畅通流转。即日起，智能助手将面向全体用户陆续开放体验。

创业 & 投融资

【1】ElevenLabs 最新融资 8000 万美元，跻身独角兽行列

AI语音合成初创企业 ElevenLabs 已获得 8000 万美元投资，估值达到 10 亿美元。其生成的合成声音自然度在市场内处于领先地位。 ElevenLabs 提供多种免费和付费 AI 服务方案，去年 1 月推出第一个产品作为 Beta 测试版，随后新增了商业合作伙伴关系和新产品。除可根据几分钟的音频样本克隆任意语音外，ElevenLabs 还包含一个拥有各种口音、发音方式和国籍的语音库。

【2】Pika联手北大斯坦福开源文生图框架

Pika在社交平台X上宣布，Pika实验室与北京大学和斯坦福大学推出开源最新文本到图像生成、编辑框架RPG-DiffusionMaster，RPG在上下文理解、组合语义对齐、多轮对话理解等方面有显著改进。

产品 & 模型

【1】哄哄模拟器爆火24小时用户达70万

一款名为“哄哄模拟器”的AI应用昨日爆火，24小时达成70万用户、烧完10亿tokens。该应用设定用户要想方设法哄好自己的虚拟女友/男友，以获取其原谅，模型会给用户能获得的原谅值打分。该应用已经风靡QQ群和QQ空间，被网友总结出各种花式哄人套路。开发者王登科自述做该应用的起因是自己和女朋友的一次争吵，他把女朋友想象成头顶一个怒气值进度条的机器人，不同的回复会让怒气值产生变化。

【陌小北解读】 为激发程序员的创作灵感，强烈建议公司增加福利:为广大单身程序员派发男/女朋友。不过再一想也不用了，OpenAI那边已经女朋友开会了，果然科技是第一生产力。

【2】Stability Al发布Stable LM21.6B模型

Stability AI发布一款拥有16亿个参数的小语言模型和指令调优版本。该基础模型基于英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语的多语言数据集在约2万亿个Tokens上进行了2个epochs的训练，利用了语言模型中最近的算法进步，在速度和性能之间取得了有利的平衡。Stable LM 2 1.6B在多数基准测试中的表现优于其他参数不超过2B的小型语言模型，包括微软Phi-2（2.7B）、TinyLlama 1.1B、Falcon 1B。根据MT Bench的结果，Stable LM 2 1.6B显示出媲美甚至超越更大模型的性能。

Hugging Face地址：https://huggingface.co/spaces/stabilityai/stablelm-2-1_6b-zephyr

【3】夸克上线大模型新产品AI PPT

夸克App推出全新产品“AI PPT”。用户仅需输入PPT主题，就能在几十秒内生成一份精美专业的PPT文档。“AI PPT”可根据用户输入的主题或按照内容分类生成PPT模板，并可根据用户提供的主题生成平均页数在25页以上的智能大纲，还能够在每页中在线调整结构、文字、图片。

【4】AI创作工具animix上线

开域集团自主开发的AI创作工具animix正式上线。animix是一款个性化的AI图片生成器，可根据用户本身形象定制化建模生成数字分身，并随意生图。该产品具有上手门槛低、独创性强、风格特效多样、超逼真角色还原、场景自定义生成、秒级出图等特点，让普通用户能“傻瓜式”地创建卡通形象，生成漫画、海报、梗图、头像等。每位玩家上传5~9张自拍照，即可快速创建自己的数字人物分身，并基于此分身创造出各种令人惊艳的动漫风格头像。

【5】其他有趣的产品&研究

OpenAOE 是一款开源的大语言模型群聊框架，它支持同时与多个大语言模型对话，并提供串行和并行两种对话模式：https://juejin.cn/post/7328213780311457832
Booking.com 推出AI旅行规划师：https://globetrender.com/?p=60564
QDAIF：通过AI反馈实现高质量多样性的创造性文本生成变革：https://hackernoon.com/revolutionizing-creative-text-generation-with-quality-diversity-through-ai-feedback?source=rss
You.com 发布了新的“AI 模式”，可以解决复杂的、多步骤的问题：https://venturebeat.com/ai/another-search-breakthrough-you-com-debuts-ai-that-can-answer-multi-step-questions/
Mashvisor 是一个帮助你做出更好投资决策的房产投资工具：https://mashable.com/deals/jan-25-mashvisor-real-estate-investment-tool
SnapLogic GenAI Builder是一款无需代码的应用程序开发工具，允许组织将GenAI掌握在自己手中，并使用大型语言模型（LLM）功能构建无限、安全的应用程序：https://www.snaplogic.com/?p=47749

如果觉得不错，随手点个赞、评论、转发吧。我是陌小北，一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章，欢迎关注。