来源:ScienceAI
作者:Immunai 联合创始人兼 CEO,Luis Voloch
编译:绿萝
数字生物学与 90 年代的互联网处于同一发展阶段(早期、激动人心和变革性)。当时,IP 地址的概念还很新,「精通技术」意味着你知道如何使用互联网。快进三十年,今天我们在互联网上享受工业化的通信,而无需了解它的工作原理。互联网拥有成熟的基础设施,整个世界都从中受益。
我们需要把类似的工业化带到生物领域。充分发挥其潜力将帮助我们对抗癌症等毁灭性疾病。A16z 将其著名的座右铭「软件正在吞噬世界」改写为「生物学正在吞噬世界」。生物学不仅仅是一门科学;它也正在成为一门工程学科。我们越来越接近能够为诊断和治疗目的「编程生物学」。
将机器学习等先进技术融入药物发现等领域,将有可能加速数字化生物学的进程。然而,要实现这一目标,还需要克服巨大的挑战。
数字化生物学:在数据海洋中畅游
在千兆字节的生物数据被认为是很多之后不久,我们预计未来几年生成的生物数据将以艾字节计。处理这些规模的数据是一项巨大的挑战。为了应对这一挑战,该行业必须开发和采用现代数据管理和处理实践。
生物技术行业还没有成熟的数据管理文化。实验结果以各种凌乱的格式收集并存储在不同的位置。这是为机器学习训练准备数据和快速进行分析的重大障碍。准备用于分析的数字化数据和生物数据集可能需要数月时间。
推进生物数据管理实践还需要描述数字化生物学和生物数据的标准,类似于我们的通信协议标准。
在中央数据存储中索引数据集并遵循,已成为软件行业主流的数据管理实践,将让准备和使用我们共同需要的规模的数据集变得更加容易。为此,生物制药公司将需要最高管理层的支持,以及广泛的文化和运营变革。
欢迎来到模拟世界
运行一个生物实验可能要花费数百万美元。如此巨额的成本使得我们无法以我们需要的规模进行实验,例如,为医疗保健带来真正的个性化——从药物发现到治疗计划。应对这一挑战的唯一方法是使用模拟(in-silico 实验)来增强生物实验。这意味着我们需要将机器学习 (ML) 工作流程整合到生物研究中作为重中之重。
随着 AI 行业的蓬勃发展以及专为机器学习工作负载设计的计算机芯片的开发,我们很快将能够在几天内运行数百万次 in-silico 实验,其成本与运行单个实时实验在几个月的时间里所需的成本相同。
当然,模拟实验相对于生物实验而言缺乏保真度。克服这一问题的一种方法是,在体外或体内进行 in-silico 实验以获得最有趣的结果。整合来自体外/体内实验的计算机数据会导致反馈循环,其中体外/体内实验的结果成为未来预测的训练数据,从长远来看会提高准确性并降低实验成本。一些学术团体和公司已经在使用这种方法,并将成本降低了 50 倍。
这种使用机器学习模型来选择实验并始终如一地将实验数据提供给 ML 训练的方法应该成为行业标准
宇宙大师
正如 Steve Jobs 曾经说过的那样:「那些疯狂到以为自己可以改变世界的人,才是真正做到了的人。」
过去二十年在基因组测序、软件开发和机器学习方面带来了史诗般的技术进步。所有这些进步都立即适用于生物学领域。我们所有人都有机会参与并创造可以显着改善整个人类状况的产品。
生物学需要软件工程师、更多的基础设施工程师和更多的机器学习工程师。没有他们的帮助,生物学数字化需要几十年的时间。主要的挑战是生物学作为一个领域非常复杂,以至于它吓坏了人们。从这个意义上说,生物学让我想起了 80 年代后期的计算机科学,当时开发人员需要了解电气工程才能开发软件。
对于软件行业的任何人,也许我可以提出一种不同的方式来看待这种复杂性:将生物学的复杂性视为机遇而不是不可逾越的挑战。计算和软件已经变得足够强大,可以将我们带入一个全新的生物学理解工具。你是第一代有这个机会的程序员。用双臂抓住它。
将你的技能、智力和专业知识带入生物学。帮助生物学家扩展 CRISPR、单细胞基因组学、免疫学和细胞工程等技术的能力。帮助发现治疗癌症、阿尔茨海默氏症以及我们数千年来一直无能为力的许多其他疾病的新疗法。
参考内容:
https://venturebeat.com/2021/11/29/ml-driven-tech-is-the-next-breakthrough-for-advances-in-digitized-biology/
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”