【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches

文章目录

  • 0.总结
  • 1.Introduction
  • 2.Preliminaries
    • 2.2 Scope and Related work
      • 2.2.1 Entity Linking=entity disambiguation
      • 2.2.2 Entity resolution=entity matching=deduplication=record linkage
      • 2.2.3 Entity resolution on KGs
      • 2.2.4 EA
  • 3.general框架
    • 3.1 Embedding Learning Module
    • 3.2 Alignment Module
    • 3.3 Prediction Module
    • 3.4 Extra Information Module
  • 4 实验分析
    • 4.1分类
    • 4.2数据集
      • 4.2.1 Metric
        • 4.2.2 比较的方法
    • 4.3 DBP15K
    • 4.4 SRPRS
    • 4.5 DWY100k
  • 4.6 速度分析
    • 4.7 无监督方法比较
    • 4.8 Module-Level Evaluation
    • 4.9总结
    • 4.10 指导和建议
  • 5. 新的数据集和未来的实验?
    • 5.1 数据集的构建DBP-FB
    • 5.2 实验
    • 5.3 unmatchable entities

0.总结

  1. "An Experimental Study of State-of-the-Art Entity Alignment Approaches".
    Xiang Zhao, Weixin Zeng, Jiuyang Tang, Wei Wang, Fabian Suchanek. TKDE, 2020 [paper][笔记]
  • 推荐结论:
    • 详尽的实验分析
    • 各种组件的功能性分析(各种技术排列组合)
    • 具有unmatch实体的数据集:DBP-FR
    • 对模型的选择提出了建议
  • 短评
    • 优点:实验分析好
    • 缺点:模型架构分类不清晰(不知道他指的是什么)
  • 类别:
    • 实体对齐
    • 基于embedding的实体对齐
    • 综述
    • DBP-FR
  • 数据集:
    • 自己提出的:DBP-FR
    • DWY100k:稠密,单语言,大
    • DBP15k:稠密,跨语言
    • SRPRS:稀疏
  • 图谱
    • wikidata/DBpedia/yago3/Freebase
    • 规模:15K/100K–候选实体也差不多这么多
  • 底层模型:
    • 监督、半监督、无监督
    • 关系嵌入
      • transE系列
      • GCN系列
    • 额外信息:属性嵌入(文本嵌入)/entity name
    • bootstrapping
    • ER用作EA
  • 速度
    • GCN可扩展性好:不会在大数据集上变得特别慢
  • 开源软件情况:无
  • 评估质量:-
    • P/R/F1
    • Hits@1,Hits@10,MRR

1.Introduction

动机

  • 比较:
    • 不公平
      • 经验估计
      • 设置不同
        • 只 用KG/用额外信息
        • 一次对齐/迭代训练
    • datasets
      • 完整的实验评估:没有在所有数据集上评测的方法,难以比较
        • 使用场景
          • 单语言/多语言
          • 稀疏/稠密
          • 大规模/中等规模
    • 与真实世界数据存在差异
      • 1v1:
        • dataset:1v1
        • 实际:1v0占大多数
      • 单语言名字歧义
        • dataset:同名同实体
        • 实际:同名不同实体/同实体不同名

贡献

  • a general EA framwork
  • 将方法分组,组内+组间评估
  • 在不同场景下评估
  • 新的数据集:
    • 单语言
    • unmatchable entity
    • ambiguous entity

2.Preliminaries

2.2 Scope and Related work

  • 实体对齐entity alignment
    • entity resolution
    • entity matching
    • record linkage
    • deduplication
    • instance/ontology matching
    • link discovery
    • entity linking/entity disambigution
    • 相关工作

2.2.1 Entity Linking=entity disambiguation

  • mention(自然语言)->实体(KG)
    • 所用信息
      • words:mention附近的
      • 目标实体的先验概率
      • 已经消歧的实体mentions
      • 背景知识(wikipedia)
    • entity alignment缺失上述信息
      • 实体描述的embedding(我们有)
      • 给定mention的entity linking的先验分布

2.2.2 Entity resolution=entity matching=deduplication=record linkage

  • 输入:relational data
    • 每个data有许多属性(文本信息) (我们也有)
  • 相似度
    • object间的
    • 用distance/similarity
      • names:Jaro-winkler distance
      • dates:numerical distance
  • 方法
    • 规则
    • 机器学习
    • 分类:匹配与否
    • 具体
      • 对齐属性
      • 计算属性值之间的相似度
      • 聚合属性的相似度->records的相似度

2.2.3 Entity resolution on KGs

  • ER
    • KG+二元关系:如graph-shaped data
      • 也用于instance/ontology matching methods
      • graph-shaped data:
        • 困难:
          • textual descriptive information:文本描述中实体很少出现或仅仅只有实体名
          • Open World Assumption:在KG中可能不存在实体的属性在现实中也可能存在(不完备)
            • 这是和数据库的差别
          • additional predefined semantics:
            • 最简单:有分类
            • 复杂:具备逻辑公理的本体论

2.2.4 EA

  • 分类:

    • Scope:
      • entity alignment<-本文只考虑这个
      • relation
      • 类别对齐:class of taxonomies of two KGs
      • 方法:有一次性执行三种任务的joint model
    • Background knowledge
      • OAEI:使用ontology(T-box)作为背景信息
      • 本文:不适用ontology的方法
    • Training
      • 无监督:PARIS,SIGMa
      • 有监督:基于pre-defined mappings的
      • 半监督
  • EA with deep leaning:

    • 基于graph representation learning technologies
      • 建模KG结构
      • 生成实体嵌入
  • 比较

    • 无监督
      • PARIS
      • Agreement-MakerLight(AML):使用背景信息
    • ER方法
      • goal相同:EA=ER–因为相同所以比较ER方法
  • Bechmarks:

    • 语言内+DBPedia
      • DBP15K
      • DWY15
      • 问题:现有的Bechmarks,只包含schema和instance信息。对不假设有可用的本体的EA方法来说。–所以本文不介绍本体?
  • PS:

    • OAEI:推广了KG track
    • 不公平

3.general框架

在这里插入图片描述

  • Embedding
    • transE
    • GCN
  • Alignment
    • 2个向量映射到一个空间
    • 训练一个相同的向量
    • Transition
    • Corpus-fusion
    • Margin-based
    • Graph matching
    • Attribution refined
  • Prediction:
    • 相似度计算:
      • cosine
      • euclidean
      • Manhattan distance
  • Extra information Module
    • 用以增强EA
    • 方法
      • bootstrapping(or self-learning:
        • 利用置信度高的对齐结果加入训练数据(下个iteration)
      • multi-type literal information
        • 属性
        • 实体描述
        • 实体名
        • 完善KG的结构
  • 模块级别的比较
    • 在个模块下介绍各方法如何实现该模块
      在这里插入图片描述

3.1 Embedding Learning Module

  • TransE
    • 有实体结构信息
    • 有相似邻居的实体距离更接近‘
    • 改变:
      • MTransE:
        • 训练:删除负的三元组,
        • 容易过拟合
      • BootEA,NAEA
        • loss:margin-based loss->a limit-based objective function
  • GCN
    • 直接在图结构上操作
    • 节点级嵌入:包含邻居信息
    • 可以获得几跳的实体信息
    • !!:GCN忽略关系
    • MuGNN:logistic loss
      • 基于attention的GCN
      • 给不同的邻居分不同的权重
    • KECG:
      • Graph attention network(GAT)+TransE获得图内结构和图内对齐信息
    • RDGCN:使用DPGCNN
  • loss:
    • BootEA,NAEA:a limit-based objective function
    • MuGNN:logistic loss
    • JAPE:design new loss?
  • 设计新的embedding models:
    • RSNs:使用RNN建模长期关系依赖,在实体间传递语义信息
      • RNN+residual learning
    • Trans Edge
      • new energy function:
        • 目的:测量实体嵌入之间边的错误传递(embedding学习中)
        • 边的嵌入:通过context compression 和projection建模

3.2 Alignment Module

  • 同一多个KG的embeddings
  • 方法
    • margin-based function

      • pos:seed entity pairs
      • neg:替换pos的实体
      • 作用:让两个KG的embedding–>一个向量空间
        • 特例:
          • GM-Align:通过最大化seed之间的匹配概率–匹配框架
      • 使用:GNN的方法
    • corpus fusion

      • 利用seed建立语料间的bridge
      • eg
        • BootEA and NAEA:交换seed entity pairs的实体产生新的三元组,来校准embedding到同一个空间
        • Others:
          • 将seed entity pairs的实体当做同一个实体对待,以此建立一个overlay 图,链接两个KG
    • transition functions:

      • 设计一种transition,将KG1=M KG2,map
      • 使用额外的信息:
        • 实体的属性
      • ->同一个空间

3.3 Prediction Module

  • 相似度计算:
    • 欧几里得
    • Manh
    • cos
  • GM-Align:
    • 对齐到原实体的目标实体具有更高的匹配概率
  • CEA:
    • 问题:不同的EA决策中有额外的相互依赖,导致错误的对齐
    • 解决:建模collective signal,形式化为稳定匹配问题(distance measure)

3.4 Extra Information Module

  • bootstrapping
    • (self-learning,Iterative training)
    • 上一步的预测,放入下一步的训练中
    • 可信实体对的选择策略不同
      • ITransE:
        • threshold-based strategy
        • 可以多对多
      • BootEA ,NAEA,TransEdge
        • a maxmum likelihood matching
        • 约束:1vs 1
  • multi-type literal information
    • statistical characteristics of attribute names:JAPE,GCN-Align,HMAN
    • generate attribute embeddings:AttrE ,MultiKE
  • entity names
    • 作为学习实体嵌入的输入特征:GM-Align,RDGCN,HGCN
    • CEA:利用实体名的语义级别和字符串级别的信息,作为individual features(个别特征?)
    • KDCoE:HMAN+描述增强:编码实体描述,作为实体对齐的特征
  • 问题:
    • 数据集缺乏textual information,对KDCoE,MultiKE,AttrE不利

4 实验分析

4.1分类

  • 组1:仅用KG结构
  • 组2:+bootstrapping
  • 组3:+额外信息

4.2数据集

  • Embedding数据集

    • FBK15
    • FBK15-237
    • WN18
    • WN18RR
  • 传统实体对齐数据集:

    • OAEI(since 2004)
  • embedding实体对齐数据集

    • DBP15K:

      • 跨语言:
        • zh-en,
          • zh:关系三元组数:70414,关系数1701,属性三元组数:248035
          • en: 关系三元组数:95142,关系数1323,属性三元组数:343218
        • ja-en,
          • ja:关系三元组数:77214,关系数1299,属性三元组数:248991
          • en: 关系三元组数:93484,关系数1153,属性三元组数:320616
        • fr-en
          • fr:关系三元组数:105998,关系数903,属性三元组数:273825
          • en: 关系三元组数:115722,关系数1208,属性三元组数:351094
      • 实体对齐连接数:15k(每对语言间)
      • 度的分布:大多在1,从2-10,度越大,实体数量下降
      • DBPedia
    • WK3L

    • DWY100K:

      • 每个KG实体数:100k
      • 单语言:
        • DBP-WD,
          • DBP:关系三元组数:463294,关系数330,属性三元组数:341770
          • WD:关系三元组数:448774,关系数220,属性三元组数:779402
        • DBP-YG
          • DBP:关系三元组数:428952,关系数302,属性三元组数:383757
          • YG:关系三元组数:502563,关系数31,属性三元组数:98028
        • (DBP:DBPedia,YG:Yago3,WD:wikidata)
      • 每对有100k个实体对齐连接
      • 度的分布:没有度为1or2的,峰值在4,之后递减
    • SRPRS

      • 认为以前的数据集太稠密了(DBP,DWY),度的分布偏离现实
      • 跨语言:
        • EN-FR,
          • EN:关系三元组数:36508,关系数221,属性三元组数:60800
          • FR:关系三元组数:33532,关系数177,属性三元组数:53045
        • EN-DE
          • EN:关系三元组数:38363,关系数220,属性三元组数:55580
          • DE:关系三元组数:37377,关系数120,属性三元组数:73753
      • 单语言:
        • DBP-WD,
          • DBP:关系三元组数:33421,关系数253,属性三元组数:64021
          • WD:关系三元组数:40159,关系数144,属性三元组数:133371
        • DBP-YG
          • DBP:关系三元组数:33748,关系数223,属性三元组数:58853
          • YG:关系三元组数:36569,关系数30,属性三元组数:18241
      • 每种有15k个实体对齐连接
      • 度的分布:很现实
        • 度小的实体多(精心取样)
    • EN-FR

    • DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)

      • DBP: 关系三元组数:96414,关系数407,属性三元组数:127614
      • FB:关系三元组数:111974,关系数882,属性三元组数:78740
  • 度的分布

    在这里插入图片描述
    在这里插入图片描述

  • EN-FR的统计
    在这里插入图片描述

4.2.1 Metric

  • 对齐质量:准确性和全面性
    • MR
    • MRR
    • Hits@m:m=1为precision
    • precision/recall/f1
      • 传统方法再用
  • 对齐效率:分区索引技术对候选匹配对的筛选能力和准确性
    • 缩减率
    • 候选对完整性
    • 候选对质量

4.2.2 比较的方法

JAPE -> JAPE-Stru
GCN-Align -> GCN

  • ER的方法
    • Lev:Levenshtein distance
    • Embed:name embedding 的cos
    • embedding:用fasttext (预训练的)
    • 多语言:MUSE word embedding

4.3 DBP15K

在这里插入图片描述

  • CEA
    • 输出实体对,而非排名
  • 仅使用KG结构
    • RSNs最好:长关系路径信息的获取–结构信息活动取得好
    • MuGNN==KECG
      • 共享的目标:their shared objective of completing KG
      • 协调差异性
      • Completing的实现
        • MuGNN:
          • 利用AMIE+引入规则
        • KECG:
          • harnesses transE
    • 其他三种较差:
      • MTransE和JAPE-Stru:使用TransE
        • JAPE-Stru好一点:因为MTransE在不同的空间中建模KG的结构,在转移时丢失了信息
      • GCN好于上面两个
  • +bootstrapping
    • 最差:
      • ITransE:
        • 原因1:两种embedding之间的translation 造成了信息丢失
        • 原因2:bootstrapping 太简单了,缺乏有效的抑制错误积累的方式
    • NAEA<BootEA<TransEdge
      • bootstrapping策略相同
      • NAEA<BootEA:使用attention–获得了邻居信息,理论上更好,但并没有
      • TransEdge:最好
        • edge-centric embedding:获得结构信息
          • 产生了更多精确的实体embedding–>更准确地alignment
  • +额外信息
    • 属性信息:超过了仅用结构的方法
      • JAPE
      • GCN-Align
      • HMAN>GCN-Align>JAPE:
        • HMAN考虑了关系类型(input)
    • entity name information:比用属性的效果好
      • RDGCN约等于HGCN>GM-Align:
        • 前二者用关系去优化entity-embedding 的学习–这个在GNN模型中被忽视
      • CEA:最好,有效利用和融合了可用的特征
  • name-based heuristics:ER
    • Embed:支持跨语言(好不了,但也不差,和基于结构的方法差不多)
    • Lev:支持相近语言和单语言
  • 类间比较
    • CEA最好的Hits@1
    • 其他的指标比较好的模型:
      • TransEdge
      • RDGCN
      • HGCN
      • 外加信息的胜利–>使用bootstraping和textual information有效
    • ER:
      • Embed:超过了大多没有用entity name的方法–precision上
        • ER对EA有效
        • 比不过其他使用entity name的方法(因为entity name有效所以Embed有效
    • 语言屏障
      • 组1/2:支持跨语言,egTransEdge
      • 使用实体名称的方法对跨语言支持弱
        • 支持相近/单语言
        • eg:Lev,HGCN

4.4 SRPRS

  • 稀疏的数据集
    在这里插入图片描述

  • 仅KG结构

    • RSNs最好
    • KECG:第二,但很接近RSNs了
    • 和DBP15k不同:MuGNN效果差,因为SRPRS没有对齐的关系,因为rule transfering失效
  • +bootstrapping:TransEdge依然最好

  • +额外

    • 属性:
      • GCN-Align:最好:因为他合并了属性
      • GCN/JAPE:
        • JAPE:合并属性信息对他没有贡献?
        • SRPRS中属性太少了
    • entity name:效果更好
      • CEA:100%,
  • ER:在单语言中entity name相同,所以效果都很好

    • Embed:单语言、跨语言都可
    • Lev :单语言/相近语言
  • 单语言KG间:相同的实体有相同的名字,仅比名字就效果不错—这在相近语言中也适用

    • 不一定,但大多
    • 电影电视剧之类的第几季还是有区别的
  • 类间

    • 和DBP15k不同:实体名称的方法
      • 原因
        • KG 结构不怎么有效在这个数据集上。
        • 实体名在单语言数据集和相近语言对的跨语言数据集上很重要(很有用)

4.5 DWY100k

在这里插入图片描述

  • RDGCN,NAEA:占内存大
    • 实验环境下跑不出来:n Intel Core i7-4790 CPU, an NVIDIA GeForce GTX TITAN X GPU and 128 GB memory
  • DWY100k:
    • 更丰富的KG结构信息:MuGNN和KECG效果好
    • Bootstrapping:
      • 进一步改进了结果
      • BootEA、TransEdge:效果略低于论文
    • +其他信息
      • CEA:100%ground-truth
    • ER
      • 类似SRPRS:LEv,Embed:ground-truth–100%

4.6 速度分析

在这里插入图片描述

  • DBP15k,SRPRS:GCN>
    • GCN:快,且结果一致(不同版本间)
    • ITransE,JAPE-Stru
    • Others:1000-10000s
    • NAEA<GM-Align:>10000s
  • DWY100k:
    • MuGNN,KECG,HMAN:由于内存所限不能用gpu,所以用了cpu
    • 1ws内:GCN-Align,GCN,ITransE
    • GM-Align:5天
    • 大多10000s-100,000s
    • 可伸缩性差:NAEA,RDGCN,GM-Align

4.7 无监督方法比较

在这里插入图片描述

  • 无监督的方法

    • PARIS:literal sim
    • AML:ontology+KG背景信息
  • 指标F1

  • PARIS/AML<CEA

    • CEA:效果好,但依赖于训练数据
    • 无监督虽然不用训练数据,但效果也不错
      • AML>PARIS:ontology information提升了对齐的结果
        • AML需要本体信息, 所以挖掘了本体信息,但只成功在 SRPRSEN-FR and SRPRSEN-DE上运行

4.8 Module-Level Evaluation

在这里插入图片描述

  • 组合不同的模块

  • embedding:

    • TransE
    • GCN
  • alignment:

    • margin-based loss(mgn)
    • corpus fusion strategy(cps)?(swap? )
  • 相似度

    • cos
    • manh
    • Euc
  • 额外的信息

    • ItransE的bootstrapping
    • 多种信息Mul
      • 语义
      • 实体名称
  • 组合

    • GCN+mgn
    • TransE+cps
  • 效果

    • bootstrapping:提升性能
    • Embedding:GCN+MGn>TransE+Cps
    • 距离:cos在TransE上好,在GCN上差
      • 引入entity name后,cos都好
    • 所有都用上,得到最好的效果

4.9总结

  • EA vs ER
    • EA:使用KG结构,图
      • 只依赖于KG结构的方法
        • 不擅长处理的实体类型:
          • 长尾
          • 邻居相似,但不是相同的实体(结构相似)
        • 解决:
          • +文本信息—可以用ER的方法
    • ER用于EA:
      • 很大程度依赖于文本相似性
      • 仅用结构<ER<结构+entity name
      • 文字相似性->实体等价性:这个可以用于EA
  • 不同数据集的影响
    • EA在不同数据集上差异巨大
    • 密集数据:普遍好
    • 语言:单语>k跨语言
      • 单语最好CEA,Lev,Embed
        • 100%
        • 等价实体=名字同
          在这里插入图片描述

4.10 指导和建议

  • 模型选择指南
  • 输入信息
    • 只有结构信息:从第一组和第二组中选择
    • 额外信息多:第三种方法中选
  • 数据规模
    • 一些效果好的方法,可伸缩性差(小数据可以,大了就挂了)
    • 大规模数据:简单却有效的方法:GCN-Align
  • 对齐的目的
    • 只关注对齐的实体:
      • GNN的模型:健壮+可扩展性强(容易扩展到大数据集上)
    • 还有其他任务:关系的对齐
      • KG表示的方法:TransE,本质上可以学习实体和关系的表示,而且关系对齐可以帮助实体对齐
  • bootstrapping的权衡
    • 有效,可以逐步增强数据集
    • 问题:错误累积,耗时
    • 是否用bootstrapping?依据数据集
      • 数据集简单:有丰富的文字信息且密度大(多大?)
        • 可以用bootstrapping
      • 很难的话就算了,错误会不断积累的
  • 未来研究的建议
    • 长尾 :
      • 有研究用额外的信息
      • [66] W. Zeng, X. Zhao, W. Wang, J. Tang, and Z. Tan. Degree-aware alignment for entities in tail. In SIGIR, 2020.
    • 多模态EA
      • 一个实体可以与多种形式的信息关联
      • [39] Y. Liu, H. Li, A. Garc´ıa-Dur´an, M. Niepert, D. O˜noro-Rubio, and D. S.
        Rosenblum. MMKG: multi-modal knowledge graphs. In P. Hitzler,
        M. Fern´andez, K. Janowicz, A. Zaveri, A. J. G. Gray, V. L´opez, A. Haller,
        and K. Hammar, editors, ESWC, volume 11503 of Lecture Notes in
        Computer Science, pages 459–474. Springer, 2019.
    • 开放世界
      • 现在大多EA的假设:源KG的实体总能在目标KG找到一个对齐的实体
      • 需要标注数据

5. 新的数据集和未来的实验?

  • 新的数据集
    • 目的:
      • 单语言数据集中同名同实体,但实际是有歧义的
      • 一个id对应一个或多个mention,但是是互相匹配的
        • 现实:同名的实体但可能不是一个实体
          • 在YAGO3中,34%的实体有一个由多个实体共享的名称。
        • 现有的数据集中没有这种情况(不然也做不到100%)
      • 一定会有对齐的实体
        • 实际不一定啊
      • 总之,数据集都太简单了

5.1 数据集的构建DBP-FB

  • 实体名称的id表示–实体名称的困难
    • 目标 用Freebase:id,且有同名实体
    • 源:DBPedia,包含Freebase的外部链接(有答案)
  • 构建
    • 包含参与三元组但不参与对齐

5.2 实验

在这里插入图片描述

  • 不存在不对齐实体的性能
  • 存在无对齐实体的EA性能
    • 现在的模型效果都比SRPRS差:因为结构的异构性更高
      • 实体分布也差异很大,难以用结构信息
    • 实体名称仍然会产生最好的结果,但比单语言数据集差
      • 实体名称模糊的挑战

5.3 unmatchable entities

在这里插入图片描述

  • CombEA
    • 召回高,精度低:因为给每一个源实体都匹配了一个目标实体
    • 现在的EA都有这个问题
  • 解决必有答案的问题d的策略:NIL阈值θ\thetaθ
    • 距离大于 θ\thetaθ就舍弃,不能对齐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

汽车生产线上的工业机器人是如何工作的?

来源&#xff1a;宝石部落 责任编辑&#xff1a;朱光明 审核人&#xff1a;王颖十年来&#xff0c;随着机器人在制造业的普遍应用&#xff0c;我国工业机器人产业规模快速增长。2021年&#xff0c;我国工业机器人产量达36.6万台&#xff0c;比2015年增长了10倍&#xff0c;市场…

【实体对齐·HGCN】Jointly Learning Entity and Relation Representations for Entity Alignment

文章目录1.动机2.输入输出3.相关工作4.模型4.1 GCN4.2 approximating relation representations4.3 joint entity and relation alignmentHGCN: “Jointly Learning Entity and Relation Representations for Entity Alignment”. Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wa…

Science:海马中如何实现选择性地招募神经元来巩固记忆?

来源&#xff1a;brainnews作者&#xff1a;brainnews创作团队神经元网络活性的标志是选择性地将神经元招募到活跃的集合中&#xff0c;形成暂时稳定的活动模式。在哺乳动物的海马体中这种神经元集合在ripples&#xff08;~200Hz&#xff09;振荡期间反复激活&#xff0c;支持空…

往年笔试题

文章目录1 概率1.1 条件概率.每天9点到10点&#xff0c;小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车&#xff0c;每5分钟一班{9:00, 9:05, 9:10, …}&#xff1b;小红坐102路公交车&#xff0c;每10分钟一班{9:00, 9:10, 9:20, …}&#xff0c;问小明和小红每天相…

量子生物学的未来:量子理论如何帮助理解生命?

导语2022年诺贝尔物理学奖授予了关于量子信息科学的基础性研究。一百多年前&#xff0c;量子革命为我们带来了晶体管和激光&#xff0c;今天&#xff0c;基于量子信息的新技术正在让我们进入一个新的量子信息时代。事实上&#xff0c;已有研究表明&#xff0c;在生命过程中也存…

【量化投资1】

文章目录0.相关包及常识1.股票买卖收益分析2.双均线策略2.1 均线2.2 双均线2.2.1 金叉死叉的获取量化投资0.相关包及常识 股票的买入卖出&#xff1a;最少为一手&#xff0c;100股 tushare open:开盘价格&#xff0c;close:收盘价格 1.股票买卖收益分析 每次至少买入1手最后…

超高效人工光电神经元成真?速度比自然神经元快3万倍,研究登Nature子刊

来源&#xff1a;悦智网作者&#xff1a;Charles Q. Choi翻译&#xff1a;机器之心原文链接&#xff1a;https://spectrum.ieee.org/neuromorphic-computing-superconducting-synapseAI系统越来越受限于为实现其功能的硬件。现在&#xff0c;一种新的超导光子电路问世&#xff…

2022年工业机器人的5大应用行业

来源&#xff1a;工业机器人前言截止至2022年&#xff0c;在中国60&#xff05;的工业机器人应用于汽车制造业&#xff0c;其中50&#xff05;以上为焊接机器人&#xff1b;在发达国家&#xff0c;汽车工业机器人占机器人总保有量的53&#xff05;以上。‍本文梳理了五大应用行…

【java spring学习1】IOC理论,spring用DI实现IOC

狂神说java spring:让java 开发更容易 IOC&#xff1a;控制反转 AOP&#xff1a;面向切面编程&#xff08;业务面&#xff09; 2. spring组成和扩展 2.1spring 组成 Sprint AOP ORM:对象关系映射 Context:UI界面、邮件验证等 2.4 拓展 学习路线&#xff1a; spring boot:构…

深度学习以最佳纳米尺度分辨率解决重叠单个分子的3D方向和2D位置,生成蛋白质图片...

编辑 | 萝卜皮偶极扩散函数 (DSF) 工程重塑了显微镜的图像&#xff0c;可以最大限度地提高测量偶极状发射器 3D 方向的灵敏度。然而&#xff0c;严重的泊松散粒噪声、重叠图像以及同时拟合高维信息&#xff08;包括方向和位置&#xff09;使单分子定向定位显微镜&#xff08;SM…

【大数据学习-hadoop1】大数据如何处理

文章目录1. 大数据启蒙1.1 意义1.1.1 查找元素1.1.2 单机处理大数据问题1.2 历史1.3 hadoop1. 大数据启蒙 学习视频 大数据多&#xff0c;复杂度很重要&#xff0c; 内存不够&#xff0c;分治处理IO仍成为瓶颈&#xff0c;多机器并行多机器间通信也可以并行&#xff0c;但仍是…

自动驾驶数据之争,走向合规

报道数字经济 定义转型中国撰文 | 泰伯网 编辑 | 鹿野2015年12月&#xff0c;一辆百度无人车从京新高速到五环进行了最高时速达100公里的全自动行驶&#xff0c;将国内自动驾驶推向大众视野。当自动驾驶产业随时间沉淀驶入商业落地的下半场&#xff0c;百度对这场自动驾驶持久…

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录1.架构1.1 大数据框架&#xff1a;lambda 架构的1.2.基本概念2. 推荐模型构建流程2.1 数据2.1.1 数据来源2.1.2 数据清洗、处理2.2 特征工程2.3 算法&#xff08;机器学习&#xff09;来源1.架构 推荐算法架构 召回 协同过滤基于内容的基于隐语义的 排序 召回决定了推…

DeepMind专题之创始人访谈|DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象...

来源&#xff1a;图灵人工智能作者&#xff1a;黄楠、王玥编辑&#xff1a;陈彩娴导读:DeepMind&#xff0c;位于英国伦敦&#xff0c;是由人工智能程序师兼神经科学家戴密斯哈萨比斯&#xff08;Demis Hassabis&#xff09;等人联合创立的Google旗下 前沿人工智能企业。其将机…

世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成...

来源&#xff1a;ScienceAI编辑&#xff1a;陈萍、杜伟如今&#xff0c;在蛋白质结构预测领域&#xff0c;各大厂也出现了「百家争鸣&#xff0c;百家齐放」。今年&#xff0c;DeepMind 公布了大约 2.2 亿种蛋白质的预测结构&#xff0c;它几乎涵盖了 DNA 数据库中已知生物体的…

谷歌用AI研发「乒乓球机器人」,4分钟对拉300多次,还能指哪打哪!

一个人怎么练习乒乓球&#xff1f;或许这事你可以问问谷歌。最近&#xff0c;谷歌又玩新花样&#xff0c;这回是乒乓球机器人AI 项目&#xff0c;号称和人类对战时能够连续接球340次&#xff1f;&#xff01;要知道&#xff0c;让解说员激动到破音的「乒乓球史上最疯狂一球」—…

【网络搜索】学习资料

文章目录1.综述2.相关技术3.课程4. 论文4.1综述召回预训练4.2 相关模型及论文5.书6. 博客6.1 电商搜索QP&#xff1a;Query Processor相关性1.综述 微软综述视频&#xff0c;较老但不过时 2.相关技术 相关技术目录 3.课程 北邮《网络搜索原理》2020 4. 论文 sigir 4.1综…

论文新鲜出炉 - 数学家张益唐攻克 Landau-Siegel 零点猜想(2022-11-05)

来源&#xff1a;北大大纽约校友会感谢钱朝晖师兄、贾德星师兄的分享。张益唐老师厉害&#xff0c;出来了&#xff01;虽然还有待数学权威机构认定&#xff0c;但以张老师的性格&#xff0c;没有攻克他不会轻易公开。看了一下PDF时间戳&#xff0c;是昨天的&#xff1a;2022-11…

神奇!一篇不足700字的论文,竟然能发表在Science上

来源&#xff1a;彭聃龄科学网博客 作者&#xff1a;彭聃龄&#xff08;北京师范大学教授&#xff09;文字&#xff1a;南方配图&#xff1a;南方排版 &#xff1a;南方一篇不足700单词的文章为什么能发表在国际顶级期刊 Science 杂志上&#xff1f;刊登在 Science 上的这篇文…

【搜索/推荐排序】FM,FFM,AFM,PNN,DeepFM:进行CTR和CVR预估

文章目录1.FM1.1代码-是否点击预测效果和参数量级1.3 和其他模型的比较SVMMF2. FFMone-hot的比较eg训练注意事项效果和参数量级实现3. AFM4.FNN/PNN4.1 FNN4.2 PNN5. DeepFM与Wide&Deep比较与NFMFM 本来就可以在稀疏输入的场景中进行学习&#xff0c;为什么要跟 Deep 共享稠…