✨ 1: 谷歌 I/O 2024
谷歌 I/O 2024 发布了众多新技术,包括 Gemini AI、大语言模型和通用 AI 智能体等,全面颠覆搜索体验。
谷歌 I/O 2024发布会带来许多令人兴奋的新功能和技术创新:
-
Gemini 1.5 Pro:一个极其强大的语言模型,具备多模态支持和超长上下文(长达200万token)。它可以处理视频、音频和大量文本,让用户能方便地进行各种复杂任务,如总结会议要点、处理电子邮件等。
-
Project Astra:一个多功能的通用AI智能体,具备视觉识别和语音交互功能,不仅能识别并分析环境,还能执行各种任务,比如帮助用户填写退货单、找城市服务等。
-
搜索重塑:在Gemini加持下,谷歌搜索发生了重大变化,可以提供个性化的AI总结和多步骤推理功能,让用户查询信息更加高效。
-
Veo:一个新的视频生成模型,可以生成高质量、长达1分多钟的1080p视频,为创作者提供更多的创作空间。
-
AI媒体工具:包括生成图像的Imagen 3、音乐创作的Music AI Sandbox等,帮助用户更好地进行跨媒体创作。
-
Astra项目和AR眼镜:结合AR和AI技术,为用户提供更为自然和高效的交互体验。
-
Gemini App和Gemini Advanced:提供个性化的AI助理和专家服务,让用户能够高效处理日常事务和专项需求。
-
Ask Photos:一个新的功能,可以帮助用户更快地找到和处理大量照片中的特定信息。
-
TPU第六代Trillium:提供强大的硬件支持,大幅提升性能和效率,为AI的训练和运行提供保障。
和昨天的OpenAI的发布会进行对比,你觉得如何?各有各的优势,谷歌的优势在于技术能力还很强,而且基本盘很稳,比如把AI加到搜索,手机等,这是OpenAI没办法做到的,
而OpenAI的技术和创新力可以算行内第一,可以很快的做出许多新颖的产品。这波你怎么看?
地址:https://io.google/2024/intl/zh/
✨ 2: Hunyuan-DiT
具备中英双语理解和多轮对话能力的多分辨率扩散式文本生成图像模型
腾讯宣布旗下的混元文生图大模型升级并对外开源Hunyuan-DiT,Hunyuan-DiT是一款多分辨率扩散Transformer 模型,专门用于中文和英文文本到图像的生成。它可以从输入的文本描述生成高质量的图像,并能够处理多轮对话的文生图任务(即根据用户的多个连续输入生成图像)。
国内互联网BAT巨头,就只有B没有开源了,哦,B在国内可能是2家公司。
地址:https://github.com/Tencent/HunyuanDiT
✨ 3: FunClip
基于阿里语音库的开源、精准、适用于本地部署的视频剪辑工具。
FunClip
FunClip 是一款开源、精准、方便的视频剪辑工具。它主要通过语音识别技术来帮助用户剪辑视频,并且用户可以轻松选择视频中的某些片段或说话人进行裁剪。FunClip集成了阿里巴巴通义实验室的 FunASR Paraformer 系列模型,能够准确地识别视频中的语音内容,生成时间戳,使得视频剪辑更加方便。
通过FunClip,用户无需了解复杂的视频编辑技术,即可实现精准、快捷的视频剪辑,非常适合需要频繁处理视频内容的工作场景。
地址:https://github.com/alibaba-damo-academy/FunClip
✨ 4: LLaVA-NeXT
一个强大的多模态大语言模型,支持图像和视频任务的零样本推理
LLaVA-NeXT 是一种开源的大型多模态模型,旨在提供强大的图像和视频理解能力。对于希望在实际应用中利用大型多模态模型的开发者和研究人员来说,LLaVA-NeXT 是一个非常有吸引力的选择。
地址:https://github.com/LLaVA-VL/LLaVA-NeXT
✨ 5: Devon
更高效地编程和管理代码库
Devon是一个开源的编程助手,旨在帮助开发者更高效地编程和管理代码库。使用Devon可以在很多情况下帮助你,比如当你需要编写代码、探索代码库、编写配置文件、编写测试、修复BUG或者探索软件架构的时候。Devon能够编辑多个文件,从而在整个代码库中提供帮助。然而,它主要针对Python语言,对于非Python语言的支持则有限。
无论你是在寻找帮助编写代码、优化你的工作流程还是想要加入一个开源项目并为之贡献力量,Devon都可能是一个值得尝试的工具。
地址:https://github.com/entropy-research/Devon
更多AI工具,参考国内AiBard123,Github-AiBard123