大创项目技术总结(复试准备)

(一)项目特色

(1)AI助力阿尔兹海默症的“老药新用”:“老药新用”目前已成为现在的研究趋势。在我们的项目当中我们使用了LDA文本主题模型的机器学习方法来对相关论文文本数据进行文本挖掘并使用挖掘结果来构建知识图谱。根据我们的论文文本数据所构建的知识图谱,我们可以很快地发现阿尔兹海默症和一些“老药”的关系,优先验证最有潜力的“老药”,这样就可以有效的降低阿尔兹海默症在药物开发上的成本
(2)把肠道菌群也考虑进去了:在最新的研究中,肠道菌群也是AD的潜在影响因素。所以,在项目中,我们会同时从大量论文中提取出肠道菌群,药物,基因三者之间的联系。最后,基于AD,药物,基因,肠道菌群的关系,构建知识图谱,

(二)项目流程(我在本项目之中主要负责模型训练)

①数据预处理:从PubMed数据库中提取出有关神经退行性疾病的论文摘要数据,做出一个词频矩阵(分词+词形还原+去掉stopwords)
②模型训练(本人负责):
(1)主题模型训练。通过前面队友的数据预处理之后,我收到了一个统计好的词语出现次数的词频矩阵。并且为了防止常见的单词出现的频率过高,我使用了TF-IDF进行预处理。主题模型是对输入数据进行主题抽取,输出的是一个N*M的矩阵(N是主题个数,M为主题的单词数)。本实验采用LDA模型来进行主题抽取,其中LDA模型采用的是Gibbs Sampling算法实现,具体代码实现方法是采用gensim库中的LDA模型。
(2)词向量训练。在该过程中对每年的数据进行整体的词向量训练,使用的是word2vec中的skip-gram方法,目的是为了把主题里面的单词全部变成向量,便于处理。经过该步骤以后每一个主题都变成了一个矩阵。
(3)聚类模型训练。先把(2)处理过后的所有主题对应的主题矩阵拼接起来,变成一个三维张量。而后采用的是吸引子传播算法(AP聚类算法),并且以主题之间(矩阵之间)的余弦相似度作为聚类算法的相似度度量方法,主题模型的结果进行聚类处理,将主题模型输出类似的主题进行再次聚合。
③命名实体识别、可视化处理、AD知识图谱数据库构建(本人未参与故不做笔记)

(三)一些技术细节

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/725464.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安卓部分手机使用webview加载链接后白屏(Android低版本会出现的问题)

前言 大爷:小伙我这手机怎么打开你们呢这个是白屏什么都不显示。 大娘:小伙我这也是打开你们呢这功能,就是一个白屏什么也没有,你们呢的应用不会有病毒吧。 小伙:我的手机也正常; 同事:我的也正…

【数据结构】堆排序

大家好,我是苏貝,本篇博客带大家了解堆排序,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 一. 堆的概念二. 堆排序(以升序为例)三. 代码 一. 堆的概念 如果有一个…

rust入门(1)创建项目

安装 vscode 安装插件 rust-analyzerNative Debug vscode 配置自动格式化代码 settings.json{"editor.defaultFoldingRangeProvider": null,"[rust]": {"editor.defaultFormatter": "rust-lang.rust-analyzer", // Makes the magi…

3. 在Go语言项目中使用Zap日志库

文章目录 一、介绍二、 默认的Go Logger1. 实现Go Logger2. 设置Logger3. 使用Logger4. Logger的运行5. Go Logger的优势和劣势 三、Uber-go Zap1. 为什么选择Uber-go zap2. 安装3. 配置Zap Logger4. 定制logger4.1 将日志写入文件而不是终端4.2 将JSON Encoder更改为普通的Log…

GlusterFS性能调优

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 相关文章: 分布式存储——GlusterFS 关于GlusterFS的卷 GlusterFS—新手陷阱 GlusterFS常用命令集 GlusterFS系…

时间序列-AR MA ARIMA

一、AR模型(自回归) AR探索趋势和周期性 预测依赖于过去的观测值和模型中的参数。模型的阶数 p pp 决定了需要考虑多少个过去时间点的观测值。 求AR模型的阶数 p和参数 ϕ i \phi_i ϕi​ ,常常会使用统计方法如最小二乘法、信息准则(如AIC、BIC&#xf…

ChatGPT介绍

ChatGPT概述 ChatGPT是一种前沿的大型语言模型(Large Language Model, LLM),由人工智能研究组织OpenAI研发并推出。它基于Transformer架构,这是一种在自然语言处理(NLP)领域取得突破的深度学习方法。通过在…

testvue-common

1bus.js import Vue from vue;// 使用 Event Bus const bus new Vue();export default bus; 2directives.js import Vue from vue;// v-dialogDrag: 弹窗拖拽属性 Vue.directive(dialogDrag, {bind(el, binding, vnode, oldVnode) {const dialogHeaderEl el.querySelect…

安全先行,合规的内外网文件摆渡要重点关注什么?

内外网隔离在政府、军工部门、科研单位等已成为很常见的网络安全建设措施,内外网隔离是一种网络安全措施,用于保护内部网络免受外部网络的攻击和威胁。 内外网隔离的目的在于限制内外网之间的通信和数据交换,但网络隔离后,仍有数据…

JDK8 stream toMap方法介绍

JDK8 List转Map方法&#xff0c;有下3种方法。 toMap(keyMapper, valueMapper); toMap(keyMapper, valueMapper, BinaryOperator<U> mergeFunction); toMap(keyMapper, valueMapper, BinaryOperator<U> mergeFunction, Supplier<M> mapSupplier);keyMapper&a…

2024年(第十届)全国大学生统计建模大赛选题参考(一)

本届大赛主题为“大数据与人工智能时代的统计研究”&#xff0c;参赛队围绕主题自拟题目撰写论文。 1. 大数据分析与处理 研究思路 数据收集&#xff1a;首先确定数据来源&#xff0c;例如社交媒体、企业数据库或公开数据集&#xff0c;并使用爬虫技术或API收集数据。数据预…

少儿编程机器人技术开发公司的创新之路

行业背景&#xff0c;国家政策利好 随着科技的不断发展&#xff0c;少儿编程机器人技术作为一种新兴的教育方式逐渐受到人们的关注。这项技术将编程与机器人技术相结合&#xff0c;通过互动性强、趣味性高的方式&#xff0c;帮助儿童学习编程知识&#xff0c;培养逻辑思维和创…

springboot 下载 Excel 文件的 Controller 层案例

环境 pom.xml 中 springboot版本&#xff1a; <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.15</version></parent>Excel 文件依赖&#xff1a; &l…

大模型产业落地,安全运营能否迎来“自动驾驶”时刻?

科技云报道原创。 通过一段文字描述&#xff0c;就能生成60秒堪比大片的视频&#xff0c;来自大模型Sora的出色表现&#xff0c;让全球都为之震撼。 无论是ChatGPT还是Sora&#xff0c;都只是大模型走出实验室的第一步&#xff0c;大模型如何在产业中落地&#xff0c;为具体的…

华为CSS堆叠技术介绍与实现

厦门微思网络​​​​​​https://www.xmws.cn 华为认证\华为HCIA-Datacom\华为HCIP-Datacom\华为HCIE-Datacom Linux\RHCE\RHCE 9.0\RHCA\ Oracle OCP\CKA\K8S\ CISP\CISSP\PMP\ ​ 什么是CSS&#xff1f; CSS交换机系统CSS&#xff08;Cluster Switch System&#xff09;&am…

【解决(几乎)任何机器学习问题】:交叉验证

在上⼀章中&#xff0c;我们没有建⽴任何模型。原因很简单&#xff0c;在创建任何⼀种机器学习模型之前&#xff0c;我们必须知道什么是交叉检验&#xff0c;以及如何根据数据集选择最佳交叉检验数据集。 那么&#xff0c;什么是 交叉检验 &#xff0c;我们为什么要关注它&…

云原生基础知识:容器技术的历史

容器化的定义&#xff1a; 容器化是一种轻量级的虚拟化技术&#xff0c;将应用程序及其所有依赖项&#xff08;包括运行时、系统工具、系统库等&#xff09;打包到一个称为容器的单独单元中。容器提供了一种隔离的执行环境&#xff0c;使得应用程序可以在不同的环境中运行&…

linux 无法加载ntfx磁盘问题

#fix 参考教程 j教程2 使用ntfsfix解决Linux下无法挂载NTFS硬盘的问题&#xff0c;主要是由硬盘分区的$MFT文件出现了问题&#xff0c;可以在windows下使用chkdsk命令或者在Linux下使用ntfsfix来进行修复。 这里需要事先安装好ntfsprogs这个工具&#xff0c;ubuntu下也可以直…

【机器人学导论笔记】四、操作臂逆运动学

4.1 本章任务 本章是将思路逆转过来&#xff0c;已知机械臂的位置和姿态&#xff0c;计算关节角&#xff0c;由此即为逆运动学。 这个任务可以分为两个小问&#xff1a;第一&#xff0c;进行坐标系变换&#xff0c;求出相对于基坐标系&#xff5b;B&#xff5d;的腕部坐标系&…

【CSS】CSS 总结 ① ( CSS 引入方式 | CSS 选择器 | 基础选择器 | 复合选择器 ) ★

文章目录 一、CSS 引入方式1、CSS 的 3 种引入方式 ( 内联 | 内嵌 | 外链 ) 二、CSS 选择器1、CSS 基础选择器2、CSS 复合选择器后代选择器子元素选择器交集选择器并集选择器链接伪类选择器 一、CSS 引入方式 CSS 引入方式相关博客 : 【CSS】CSS 层叠样式表 ① ( 简介 | CSS 引…