依赖标签分类任务Smin值计算(蛋白质功能预测,GO标签)

前言

Smin是在蛋白质功能预测中比较流行的一个指标,具体由来我也不甚清楚,只是在最近复现的几篇论文中反复出现了,所以记录一下。

计算方法

(图来自于PSPGO论文)

其中𝜏表示阈值,t表示GO标签,Pa(t)表示该GO标签依赖父亲。

Prob(t|Pa(t))使用频率估算,是描述整个Protein-GO数据集的统计值。

Pi(𝜏)表示在阈值𝜏下的第i个蛋白质的预测GO集合,Ti表示第i个蛋白质实际GO标签集合。

这个计算流程比较复杂,得先用频率估计概率求出ic(相信大部分GO预测论文里面都有对应代码)

然后枚举Threshold值,对每个蛋白质计算 当前预测GO标签传递闭包 与 真实标签的传递闭包 的差集(Ti-Pi的差集和Pi-Ti的差集),统计这两部分的ic值各自的平均数,然后求这两个平均数的评分平均数作为S值。

最后找到最小的S值就是Smin了。

一些疑问的解答

1、为什么求传递闭包?

(什么是传递闭包?请看《离散数学》图论部分)

首先GO标签依赖关系是一个DAG(这里只考虑is_a和part_of关系,加入regulates之后就可能存在环了!)

然而一般数据库给出go.gaf文件都只是给出最具体的标签部分,更上层的GO标签未必有记录,但是有子标签必然是有父标签的,所以我们需要读取go.obo文件建立DAG图,然后求每个子标签的传递闭包的并,这才能得到一个蛋白质完整的GO标注数据。

2、ic值的计算

首先ic值也必须建立在所有蛋白质的GO标注都求过传递闭包的基础上。

在一个点有两个父亲的情况应该怎么办,例如:

在一些论文中,我们选取的是Prob(t|Pa(t))更大的作为这里标签的ic值(也就是选取父亲出现次数更少的进行计算)。另一些论文中可能会有不同的处理。

3、计算Smin的时候能否先对预测结果做一遍传递闭包?

复现论文是发现的细节,有些论文在计算Smin的时候巨慢无比,原来是每次都会把预测结果传递一遍再来求ru和mi值。

这样按照理论,得到的Smin值会更优一些,因为可以避免掉一些预测误差导致的中间某个GO标签缺失的情况。

实战来说,确实可以这么做,毕竟预测结果肯定是可以先传递一遍,再给别人拿去用的。

但有些老实的论文并没有做传递,得到的Smin值可能就会略有偏高。

4、关于Smin计算的优化

在复现PO2Vec论文时发现的问题,算一个thresh得花我十多分钟,实在受不了了,就给他优化了一把。

优化思路:提前保存每个GO标签的传递闭包结果,更改计算顺序,利用two-pointers计算每个蛋白质对各个阈值下的rumi的贡献。

在优化前,在swissprot数据集下,计算一次mf的Smin需要约10个小时,在优化后,只需要不到一个半小时。

主要优化的evaluate_cafa3.py中的evaluate_model_predicion函数。

def evaluate_model_prediction(labels, terms, model_preds, go_rels, ont):ru_list = []mi_list = list()# go setgo_set = go_rels.get_namespace_terms(NAMESPACES[ont])go_set.remove(FUNC_DICT[ont])# labelslabels = list(map(lambda x: set(filter(lambda y: y in go_set and y in terms, x)), labels))ancs = {}for go_id in tqdm(go_rels.ont,desc="calc ancs..."):ancs[go_id] = go_rels.get_ancestors(go_id)lim_set = go_set.intersection(terms)ru_list = [0]*101mi_list = [0]*101total = 0for x in labels:if len(x) > 0:total+=1assert len(labels) == len(model_preds)for label,pred_score in tqdm(zip(labels,model_preds)):tmp_lis = list(zip(pred_score,terms))tmp_lis.sort(reverse=True)j=0new_annots = set()for t in reversed(range(101)):threshold = t/100.0while j<len(tmp_lis) and tmp_lis[j][0]>threshold:new_annots |= ancs[tmp_lis[j][1]]j+=1new_annots = new_annots.intersection(lim_set)tp = new_annots.intersection(set(label))fp = new_annots - tpfn = label - tpfor go_id in fp:mi_list[t] += go_rels.get_ic(go_id)for go_id in fn:ru_list[t] += go_rels.get_ic(go_id)ru = np.array(ru_list)/totalmi = np.array(mi_list)/totalsmin = np.min(np.sqrt(ru * ru + mi * mi))return smin

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/55915.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Maven入门到进阶:构建、依赖与插件管理详解

文章目录 一、Maven介绍1、什么是Maven2、Maven的核心功能 二、Maven核心概念1、坐标GAVP1.1、GroupId1.2、ArtifactId1.3、Version1.3.1、版本号的组成 1.4、Packaging 2、POM、父POM和超级POM2.1、POM (Project Object Model)2.1、父POM&#xff08;Parent POM&#xff09;2.…

django连接mysql数据库

存在问题&#xff1a; django如何连接mysql数据库 解决方案&#xff1a; 创建工程和项目APP&#xff1b;修改Django的settings.py文件&#xff08;根据自己的数据库配置信息修改&#xff09;&#xff1b; 并在setting.py文件中添加app DATABASES {default: {# ENGINE: djang…

python 爬虫 入门 二、数据解析(正则、bs4、xpath)

目录 一、待匹配数据获取 二、正则 三、bs4 &#xff08;一&#xff09;、访问属性 &#xff08;二&#xff09;、获取标签的值 &#xff08;三&#xff09;、查询方法 四、xpath 后续&#xff1a;登录和代理 上一节我们已经知道了如何向服务器发送请求以获得数据&#x…

关于SSD1306的OLED的显示的研究

文章目录 函数作用参数解释嵌套函数分析主代码分析逻辑流程总结 难点的解析&#xff1a;生成器的主要逻辑分解&#xff1a;每次生成的元组 (pixel_x, pixel_y, pixel_mask)&#xff1a;生成器的整体流程举例总结 反转后的文本绘制竖直布局有问题的旋转180度旋转坐标轴绘制矩形绘…

SVM(支持向量机)

SVM&#xff08;支持向量机&#xff09; 引言 支持向量机(Support Vector Machine,SVM)&#xff0c;可以用来解答二分类问题。支持向量(Support Vector)&#xff1a;把划分数据的决策边界叫做超平面&#xff0c;点到超平面的距离叫做间隔。在SVM中&#xff0c;距离超平面最近…

【配色网站分享】

个人比较喜欢收藏一些好看的插画、UI设计图和配色&#xff0c;于是有了此篇&#xff0c;推荐一些配色网站&#xff0c;希望能对自己和大家有些帮助。 1.uiGradients 一个主打渐变风网站&#xff0c;还可以直接复制颜色。 左上角的“show all gradients”可以查看一些预设的渐…

upload-labs靶场Pass-02

upload-labs靶场Pass-02 分析源码 $is_upload false; $msg null; if (isset($_POST[submit])) {if (file_exists(UPLOAD_PATH)) {if (($_FILES[upload_file][type] image/jpeg) || ($_FILES[upload_file][type] image/png) || ($_FILES[upload_file][type] image/gif)) …

搭建Golang gRPC环境:protoc、protoc-gen-go 和 protoc-gen-go-grpc 工具安装教程

参考文章&#xff1a; 安装protoc、protoc-gen-go、protoc-gen-go-grpc-CSDN博客 一、简单介绍 本文开发环境&#xff0c;均为 windows 环境&#xff0c;mac 环境其实也类似 ~ ① 编译proto文件&#xff0c;相关插件 简单介绍&#xff1a; protoc 是编译器&#xff0c;用于将…

excel 表格中url转图片

待处理的单元格通过如下公式获取目标格式&#xff1a; "<table><img src"&A4&" height20></table>" 然后下拉后获取多列的单元格转换结果&#xff0c; 然后将这些转换后的结果拷贝到纯文本文档中&#xff0c; 然后再将纯文本…

音乐播放器-0.专栏介绍​

1.简介 本专栏使用Qt QWidget作为显示界面&#xff0c;你将会学习到以下内容&#xff1a; 1.大量ui美化的实例。 2.各种复杂ui布局。 3.常见显示效果实现。 4.大量QSS实例。 5.Qt音频播放&#xff0c;音乐歌词文件加载&#xff0c;展示。 6.播放器界面换肤。 相信学习了本专栏…

【Qt】Qt的介绍——Qt的概念、使用Qt Creator新建项目、运行Qt项目、纯代码方式、可视化操作、认识对象模型(对象树)

文章目录 Qt1. Qt的概念2. 使用Qt Creator新建项目3. 运行Qt项目3.1 纯代码方式实现3.2 可视化操作实现 4. 认识对象模型&#xff08;对象树&#xff09; Qt 1. Qt的概念 Qt 是一个跨平台的 C 图形用户界面应用程序开发框架。它是软件开发者提供的用于界面开发的程序框架&#…

Mysql(5)—函数

一、关于函数 1.1 简介 MySQL提供了许多内置的函数以帮助用户进行数据操作和分析。这些函数可以分为几类&#xff0c;包括聚合函数、字符串函数、数值函数、日期和时间函数、控制流函数等。 ​ ‍ 1.2 发展 早期版本&#xff08;MySQL 3.x 和 4.x&#xff09; : MySQL 最初…

无人机之三维航迹规划篇

一、基本原理 飞行环境建模&#xff1a;在三维航迹规划中&#xff0c;首先需要对飞行环境进行建模。这包括对地形、障碍物、气象等因素进行准确的测量和分析&#xff0c;以获得可行的飞行路径。 飞行任务需求分析&#xff1a;根据无人机的任务需求&#xff0c;确定航迹规划的…

Java最全面试题->计算机基础面试题->计算机网络面试题

计算机网络 下边是我自己整理的面试题&#xff0c;基本已经很全面了&#xff0c;想要的可以私信我&#xff0c;我会不定期去更新思维导图 哪里不会点哪里 1.说一下TCP/IP四层模型 TCP/IP协议是美国国防部高级计划研究局为实现ARPANET互联网而开发的。 网络接口层&#xff…

现代物流管理:SpringBoot技术突破

3系统分析 3.1可行性分析 通过对本智能物流管理系统实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本智能物流管理系统采用SSM框架&#xff0c;JAVA作为开发语…

【云从】九、CDN加速

文章目录 1、CDN基本概念2、CDN加速3、云CDN 1、CDN基本概念 源站&#xff1a;用户稳定运行的业务应用服务器 静态内容&#xff1a;用户多次访问某一资源&#xff0c;响应返回的数据都是相同的内容 例如:图片、视频、软件安装包、安卓 apk 安装包、压缩包文件等动态内容&…

【数据结构】栈和队列经典题目

目录 1.有效的括号【链接】 代码实现 2.用队列实现栈【链接】 代码实现 3.用栈实现队列 ​编辑 代码实现 4.循环队列&#xff08;数组实现&#xff09;【链接】 代码实现 1.有效的括号【链接】 题目描述&#xff1a; 给定一个只包括 (&#xff0c;)&#xff0c;{&…

Mycat 详细介绍及入门实战,解决数据库性能问题

一、基本原理 1、数据分片 &#xff08;1&#xff09;、水平分片 Mycat 将一个大表的数据按照一定的规则拆分成多个小表&#xff0c;分布在不同的数据库节点上。例如&#xff0c;可以根据某个字段的值进行哈希取模&#xff0c;将数据均匀的分布到不同的节点上。 这样做的好处…

数据结构7——二叉树的顺序结构以及堆的实现

在上篇文章数据结构6——树与二叉树中&#xff0c;我们了解了树和二叉树的概念&#xff0c;接着上篇文章&#xff0c;在本篇文章中我们学习二叉树顺序结构的实现。 目录 1. 二叉树的顺序存储结构 2. 堆的概念及结构 1. 堆的概念 2. 堆的结构 3. 堆的实现 1. 堆节点 2. 交…

R语言实现logistic回归曲线绘制

方式一&#xff1a;编制函数 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码快 f <- function(x){y 1/(1 exp(-x))plot(x,y)}#sigmoid函数 f(x)​ 方式二&#xff1a;Sigmoid函数代码 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码块 #y<-1/(1exp(-x)) y&…