6月24日至6月27日在旧金山举行的 AI 工程师世界博览会是AI 从业者和爱好者的首要活动之一。本次年度会议展示了人工智能技术的最新进展,并提供了对行业趋势的宝贵见解。
模型不是壁垒
大型语言模型(LLMs)的快速发展是会议的中心主题。OpenAI(GPT-4o)、Google(Gemma2.0)、Anthropic(Claude3.5Sonnet)、Mistral(8x22和C)和Cohere(Command-R)都展示了他们的最新模型,展示了令人印象深刻的性能。所以和去年相比,模型本身并不是竞争优势。前一年OpenAI是主要参与者。现在,开发人员可以使用许多高质量的替代方案。开发人员更多的需要关注构建特定领域的用例流程和工作流,使代码模块化,以便轻松适应新的模型版本。
Agent是会议的另一个热门话题,Langchain、LlamaIndex和AmazonQ发表了演讲。虽然这些解决方案显示出前景,但人们的共识是,代理商尚未完全做好生产准备。Agent目前只能处理简单、直接的任务。盲目地应用ReACT框架在生产环境中可能会有风险。
多模态处于热门状态
多模态模型正在兴起,这些模型可以处理多种类型的数据(文本、图像、音频)。例如,对于语音辅助,人类对话响应小于500毫秒。传统方法涉及几个步骤(语音转文本、文本生成、文本转语音),这些步骤需要时间来响应。多模型可以大大加快这一过程。GPT4o在会议上的现场演示感觉就像与人类交谈一样。
开放模型的兴起:Google(Gemma2.0)、Mistral(8x22和C)和Cohere(Command-R)展示了在各种基准测试中具有良好竞争力的模型。一般建议是,首先使用可靠且高性能的API开始构建解决方案,例如GPT4o和ClaudeSonnet3.5。一旦获得更多用户,就可以考虑如何针对特定领域的简单任务微调开放模型。
评估与可解释
Anthropic的“Golden Gate Claude”项目十分有趣,通过揭示神经元权重、特征和输出之间的关系,研究人员可以通过调整特定的神经元来调整模型行为。
有效评估LLMs成为一个关键主题。虽然它建立在MLOps和DevOps等既定概念之上,但它需要一些独特的方法。例如Hamel Husain等。不要使用通用数据进行测试。读者还是需要创建特定领域的语料和测试数据集。
CPU推理加速课题
虽然GPU提供卓越的性能,但若能充分的利用CPU,也是很不错的一种解决方案。
LlamaFile是Mozilla的一个开源项目,它使CPU推理速度提高了30-500%。它可以将开源LLMs转换为多平台可执行文件。可以在本地和私密地运行它,甚至无需访问Internet。
MAX来自Modular,它是一个新的AI平台,包括MAX引擎、MAXServing和Mojo编程语言。该平台声称新解决方案比Llama.cpp快~5倍,Mojo比Python快100-1000倍。尽管关于确切的性能比较存在一些争论,但相信它仍然是一种值得关注的有趣新语言,尤其是使用Python代码而不是CUDA配置GPU的潜在功能。
本次大会还是有很多干货,建议读者浏览官方会议网站和YouTB频道,以获取更多不同角度的声音。