【ScienceAI Weekly】DeepMind最新研究再登Nature；我国首个自研地球系统模型开源；谷歌推出医疗保健模型

AI for Science 的新成果、新动态、新视角抢先看——

* DeepMind 最新研究 FunSearch 登 Nature

* 谷歌推出医疗保健行业模型 MedLM

* 晶泰科技冲刺港交所，AI+机器人赋能 AI for Science

* GHDDI 与微软研究院科学智能中心达成合作

* 用于地震学处理分析的 AI 工具开源

* 我国首个自主研发的地球系统模型宣布开源

* 百度飞桨螺旋桨团队构建蛋白质-小分子对接构象预测模型 HelixDock

* 国内研究团队公开基于混合机器学习的碳排放预测方法及系统

* 苹果芯片「专属定制版」机器学习框架开源

更多内容详见下文~

企业动态

DeepMind 最新研究 FunSearch 登「Nature」

谷歌 DeepMind 最新研究 FunSearch 是一种搜索数学和计算机科学新解决方案的方法。FunSearch 的工作原理是将预先训练好的大模型 (LLM) 与自动「评估器」配对使用，前者的目标是以计算机代码的形式提供创造性的解决方案，后者则负责防止出现幻觉和不正确的想法。通过这两个组件之间的来回迭代，初始解决方案「进化」为新知识。FunSearch 发现了上限集问题的新解决方案，这是数学领域的一个长期未决问题，代表了利用大模型首次发现科学或数学领域具有挑战性的开放问题。论文地址：http://nature.com/articles/s41586-023-06924-6

谷歌推出医疗保健行业模型 MedLM

近日，谷歌宣布推出一套新的医疗保健专用人工智能模型 MedLM，旨在帮助临床医生和研究人员进行复杂的研究、总结医患互动等。这一举措标志着谷歌将医疗保健行业人工智能工具货币化的最新尝试，也是医疗行业数字化转型的一个重要里程碑。首先，MedLM 能够帮助临床医生和研究人员进行复杂的研究和数据分析，提高医疗诊断的准确性和效率。其次，MedLM 能够总结医患互动，为医生提供更好的患者管理和服务体验。此外，MedLM 还能够为医疗保健机构提供更好的数据管理和分析工具，提高医疗资源的利用效率。

晶泰科技冲刺港交所，AI+机器人赋能 AI for Science

QuantumPharm Inc. (晶泰科技) 于上月正式向港交所递交招股说明书，拟以 18C 规则主板挂牌上市。18C 规则主要针对特专科技公司，对于行业的科技属性要求较高，涉及新一代信息技术、先进硬件及软件、先进材料、新能源及节能环保、新食品及农业技术等行业领域。晶泰科技是全球少数同时拥有基于量子物理的第一性原理计算、先进的人工智能技术及自动化湿实验室能力的药物及材料科学研发公司之一，也是全球少有的量子物理+AI+自动化驱动的药物及材料科学研发平台之一。

GHDDI 与微软研究院科学智能中心达成合作

近日，全球健康药物研发中心 (Global Health Drug Discovery Institute, GHDDI) 与微软研究院科学智能中心 (Microsoft Research AI4Science) 宣布达成合作，双方将共同研发全球健康传染病领域的生成式人工智能与基础大模型技术，聚焦落地转化，加速创新药物研发。此前，双方已成功在结核分枝杆菌以及冠状病毒关键靶蛋白的研究中设计出多种全新结构的小分子抑制剂。

百奥几何与智谱AI共建自然语言-生命语言多模态大模型

北京百奥几何生物科技有限公司和北京智谱华章科技有限公司近日宣布达成战略合作，共同致力于建设自然语言-生命语言多模态大模型。该模型预期将增进生成式人工智能平台在生命科学与医药研究领域的实用性。

工具资源

用于地震学处理分析的 AI 工具开源

用于地震学处理分析的开源工具，目前包括：震相拾取、极化、频散提取。工具已经开源中国地区 100Hz 模型，部分模型基于 CSNCD 数据集训练，PgSgPnSn 四种震相的拾取模型精度最高。访问地址：https://gitee.com/cangyeone/seismological-ai-tools

我国首个自主研发的地球系统模型宣布开源

日前，中国科学院大气物理研究所发布了我国首个具有自主知识产权的「完整」地球系统数值模型，并宣布释放其源代码。这套模型包含完整的气候系统和生态环境系统，集成了大气环流、海洋环流等 8 个分系统模式，同时也是国家重大科技基础设施「地球系统数值模拟装置」的核心软件，总计约270万行程序代码，被称为「地球实验室」。

百度飞桨螺旋桨团队构建蛋白质-小分子对接构象预测模型 HelixDock

百度飞桨螺旋桨团队通过构建大规模的模拟数据集、升级基于几何的神经网络等手段，构建蛋白质-小分子对接构象预测模型 HelixDock，大幅度提升了构象预测的准确度。更多结果详见HelixDock文章：https://arxiv.org/abs/2310.13913
飞桨螺旋桨访问地址：https://paddlehelix.baidu.com/

国内研究团队公开基于混合机器学习的碳排放预测方法及系统

国内研究团队公开了一种基于混合机器学习的碳排放预测方法及系统，通过目标组合模型对数据集合进行处理，得到碳排放预测结果；其中，目标组合模型为通过目标计算权重实现了将单变量时序预测和多变量驱动因素模型进行最优加权组合，兼顾各个模型的优点，提升了碳排放预测的准确性。访问地址：https://cprs.patentstar.com.cn/Search/Detail?ANE=9HFF9IBA9GDC5BCA8GBA9FHE9AHA8BCA9DFB9CFF9GFF7BDA

苹果芯片「专属定制版」机器学习框架开源

MLX 是一个专为苹果芯片设计的机器学习框架（点击查看详细解读），旨在保证用户友好的前提下，支持高效地在苹果芯片上训练及部署模型。其设计理念简单，参考了 NumPy、PyTorch、Jax 和 ArrayFire 等框架，包括延迟计算 (Lazy computation)、动态图构建等关键功能。访问地址：https://github.com/ml-explore/mlx/tree/main/examples

科研成果DANTE ：面向大规模光电智能计算

Training large-scale optoelectronic neural networks with dual-neuron optical-artificial learning

* 来源：Nature Communications

* 领域：神经网络，光电智能

* 作者：清华大学电子工程系方璐课题组

研究团队提出了面向大规模光电智能计算的光学-人工双神经元学习架构 (DuAl-Neuron opTical-artificial lEarning，DANTE)。其中光学神经元精准建模光场计算过程，人工神经元以轻量映射函数建立跳跃连接助力梯度传播，全局人工神经元与局部光学神经元以交替学习的机制进行迭代优化，在确保学习有效性的同时，大大降低了训练的时空复杂度，使得训练更大更深的光电神经网络成为可能。

阅读原文：https://www.nature.com/articles/s41467-023-42984-y

卷积神经网络框架 PtyNet ：同步辐射海量数据处理

An efficient ptychography reconstruction strategy through fine-tuning of large pre-trained deep learning model

* 来源：iScience

* 领域：数据挖掘，卷积神经网络

* 作者：中国科学院团队

研究团队开发了一个名为 PtyNet 的卷积神经网络框架，用于从 X 射线 Ptychography 实验数据中恢复出物体的精确投影。在强大的计算集群的支持下，PtyNet 可以快速地从同步辐射光源获取数据进行训练，并快速地对用户的实验数据进行图像重建。

阅读原文：https://doi.org/10.1016/j.isci.2023.108420

通过序列聚类和 AlphaFold2 预测多种构象

Predicting multiple conformations via sequence clustering and AlphaFold2

* 来源：Nature

* 领域：生物信息学

* 作者：布兰迪斯大学和霍华德·休斯医学研究所、哈佛大学和剑桥大学的研究团队

研究团队通过序列相似性对多序列比对 (MSA) 进行聚类，使 AF2 能够以高置信度对已知变形蛋白 (metamorphic protein) 的交替状态进行采样。同时，研究人员使用 AF-Cluster 方法，研究了变形蛋白 KaiB5 的预测结构的进化分布，发现两种构象的预测都分布在 KaiB 家族的簇中。

阅读原文：

https://www.nature.com/articles/s41586-023-06832-9

ProRefiner：逆向蛋白质折叠设计模型

ProRefiner: an entropy-based refining strategy for inverse protein folding with global graph attention

* 来源：Nature Communications

* 领域：生物基因，深度学习

* 作者：香港中文大学、之江实验室、华为诺亚方舟实验室和南京医科大学研究团队

研究团队引入了 ProRefiner，一种内存高效 (memory-efficient) 的全局图注意力模型，可以充分利用去噪上下文，并且证明了 ProRefiner 在重新设计转座子相关转座酶 B (TnpB) 方面的适用性，提出的 20 个变体中有 6 个表现出改进的基因编辑活性。

阅读原文：https://www.nature.com/articles/s41467-023-43166-6

KPGT：自监督学习框架

A knowledge-guided pre-training framework for improving molecular representation learning

* 来源：Nature Communications

* 领域：生物分子，药物发现

* 作者：清华大学、西湖大学和之江实验室研究团队

研究团队提出了知识引导的图 Transformer 预训练 (Knowledge-guided Pre-training of Graph Transformer，KPGT)，这是一种自监督学习框架，通过显著增强的分子表征学习提供改进的、可泛化和稳健的分子特性预测。KPGT 框架集成了专为分子图设计的图 Transformer 和知识引导的预训练策略，以充分捕获分子的结构和语义知识。阅读原文：https://www.nature.com/articles/s41467-023-43214-1