大模型日报
2024-06-17
大模型资讯
大模型产品
大模型论文
- VideoGPT+: 图像与视频编码器结合的视频理解
- 摘要: VideoGPT+结合图像和视频编码器的优势,提升视频理解性能。通过自适应池化策略处理视频,改进多项视频基准测试表现,并引入VCGBench-Diverse进行全面评估。
- MiCo:可扩展的多模态预训练范式
- 摘要: MiCo是一种可扩展的多模态预训练范式,显著提升了多模态学习能力,在多项评测中创下37项新纪录。
- 视觉模型与人类美学对齐方法研究
- 摘要: 本文提出一种基于偏好强化学习的方法,利用大语言模型和美学模型改进视觉模型的美学表现,并引入HPIR数据集进行评估。
- 高效长视频问答关键帧选择策略
- 摘要: 本文提出层次关键帧选择器和序列视觉LLM两种方法,减少冗余,提升长视频问答性能,LVNet在三大数据集上达最先进水平。
- LLAVIDAL: 日常生活活动大模型基准
- 摘要: 本文提出LLAVIDAL框架,通过ADL-X数据集微调,提升大语言视觉模型在日常生活活动中的表现,并引入ADLMCQ基准进行评估。
- 视觉-语言地理基础模型综述
- 摘要: 本文综述了视觉-语言地理基础模型,介绍其背景、核心技术及应用,探讨未来研究方向。
- 视频大模型基准测试的可扩展合成框架
- 摘要: VideoNIAH通过插入图像/文字'针'生成合成视频,创建多样化的测试集,用于评估视频大模型的时空理解能力。
- ElicitationGPT: 基于语言模型的文本评分机制
- 摘要: 本文开发了利用ChatGPT对比真实文本的评分机制,并在同行评审数据集上进行实证评估,结果与人工评分一致。
- 通过提示梯度对齐增强领域自适应
- 摘要: 本研究提出一种通过对齐每个目标梯度来增强领域自适应的新方法,并通过惩罚梯度范数防止过拟合。
- 基于离散语音单元的口语理解模型
- 摘要: 提出使用离散语音单元代替连续值语音编码器输出,增强大语言模型在口语问答任务中的表现。
大模型开源项目
- StableSwarmUI:模块化稳定扩散界面
- 摘要: StableSwarmUI 是一个模块化的稳定扩散 Web 用户界面,专注于易用的强大工具、高性能和可扩展性,使用C#编写。
- 强大模块化的Stable Diffusion界面
- 摘要: comfyanonymous项目提供了一个功能强大且模块化的Stable Diffusion GUI、API和后端,具有图形/节点界面,使用Python编写。
- 深度学习人声去除GUI工具
- 摘要: Anjok07开发的Python项目,提供基于深度神经网络的人声去除图形界面工具,适用于音频处理。
- NVIDIA高性能深度学习推理SDK
- 摘要: NVIDIA TensorRT是用于NVIDIA GPU的高性能深度学习推理SDK。本项目包含TensorRT的开源组件,使用C++编写。
- 高性能浏览器内LLM推理引擎
- 摘要: mlc-ai是一个用TypeScript编写的高性能浏览器内LLM推理引擎,旨在提升网页端的机器学习推理性能。
- Apple Silicon上的Whisper语音识别
- 摘要: argmaxinc项目实现了在Apple Silicon设备上运行Whisper语音识别模型,使用Swift语言编写,支持设备端推理。
- Python中的贝叶斯建模与概率编程
- 摘要: pymc-devs是一个用Python编写的项目,专注于贝叶斯建模和概率编程,为数据科学和统计分析提供强大工具。
- NVIDIA高性能GPU仿真与图形框架
- 摘要: NVIDIA推出的Python框架,专注于高性能GPU仿真与图形处理,提升计算与渲染效率。