Remora
Remora 模型能够独立于碱基识别过程预测甲基化/修饰碱基的状态。Remora 仓库专注于准备修饰碱基训练数据和训练修饰碱基模型。此外,还提供了一些用于运行 Remora 模型和调查原始信号的功能。对于生产环境中的修饰碱基识别,建议使用 Dorado <https://github.com/nanoporetech/dorado>
。对于推荐的修饰碱基下游处理,建议使用 modkit <https://github.com/nanoporetech/modkit>
。对于从“随机序列”中进行更高级的修饰碱基数据准备,请参阅 Betta 发布社区说明 <https://community.nanoporetech.com/posts/betta-tool-release>
_,并通过客户支持(customer.support@nanoporetech.com)咨询访问权限。
安装
从 pypi 安装:
pip install ont-remora
从 GitHub 源代码安装以进行开发:
git clone git@github.com:nanoporetech/remora.git
pip install -e remora/[tests]
建议在虚拟环境中安装 Remora。例如:
python3 -m venv venv; source venv/bin/activate
对于使用 torch 进行 GPU 优化,请确保安装了与系统 GPU/CUDA 驱动程序兼容的 torch 版本。请注意,Remora 不会尝试解决正确的 torch 版本。有关兼容的驱动程序和安装说明,请参阅 torch 安装页面 <https://pytorch.org/get-started/locally/>
_。
例如,要使用 CUDA 11.8 驱动程序安装 Remora,可以使用以下命令:
pip install torch --index-url https://download.pytorch.org/whl/cu118
pip install ont-remora
使用 -h
标志查看任何 Remora 子命令的帮助信息。
入门指南
Remora 模型通过锚定在纳米孔读取的参考序列或标准碱基识别结果上来预测修饰碱基。
Remora 训练/预测输入单元(称为“块”)由以下部分组成:
- 归一化信号片段
- 与信号片段相关的标准碱基
- 这两者之间的映射关系
块的信号长度在数据准备/模型训练时定义,并保存在 Remora 模型中,以便在推理时以相同方式提取块。块内定义了一个固定位置作为“焦点位置”,围绕该位置提取固定长度的信号块。默认情况下,该位置是模型正在质询的“焦点碱基”的中心。
标准碱基和信号映射(即“移动