(一)项目特色
(1)AI助力阿尔兹海默症的“老药新用”:“老药新用”目前已成为现在的研究趋势。在我们的项目当中我们使用了LDA文本主题模型的机器学习方法来对相关论文文本数据进行文本挖掘,并使用挖掘结果来构建知识图谱。根据我们的论文文本数据所构建的知识图谱,我们可以很快地发现阿尔兹海默症和一些“老药”的关系,优先验证最有潜力的“老药”,这样就可以有效的降低阿尔兹海默症在药物开发上的成本。
(2)把肠道菌群也考虑进去了:在最新的研究中,肠道菌群也是AD的潜在影响因素。所以,在项目中,我们会同时从大量论文中提取出肠道菌群,药物,基因三者之间的联系。最后,基于AD,药物,基因,肠道菌群的关系,构建知识图谱,
(二)项目流程(我在本项目之中主要负责模型训练)
①数据预处理:从PubMed数据库中提取出有关神经退行性疾病的论文摘要数据,做出一个词频矩阵(分词+词形还原+去掉stopwords)
②模型训练(本人负责):
(1)主题模型训练。通过前面队友的数据预处理之后,我收到了一个统计好的词语出现次数的词频矩阵。并且为了防止常见的单词出现的频率过高,我使用了TF-IDF进行预处理。主题模型是对输入数据进行主题抽取,输出的是一个N*M的矩阵(N是主题个数,M为主题的单词数)。本实验采用LDA模型来进行主题抽取,其中LDA模型采用的是Gibbs Sampling算法实现,具体代码实现方法是采用gensim库中的LDA模型。
(2)词向量训练。在该过程中对每年的数据进行整体的词向量训练,使用的是word2vec中的skip-gram方法,目的是为了把主题里面的单词全部变成向量,便于处理。经过该步骤以后每一个主题都变成了一个矩阵。
(3)聚类模型训练。先把(2)处理过后的所有主题对应的主题矩阵拼接起来,变成一个三维张量。而后采用的是吸引子传播算法(AP聚类算法),并且以主题之间(矩阵之间)的余弦相似度作为聚类算法的相似度度量方法,主题模型的结果进行聚类处理,将主题模型输出类似的主题进行再次聚合。
③命名实体识别、可视化处理、AD知识图谱数据库构建(本人未参与故不做笔记)