nlp2-数学基础(信息论,概率论、词义消歧)

文章目录

  • 概率论
  • 信息论
        • 计算熵
        • 计算信息熵、条件熵、联合熵
        • 波利尼亚语
        • 熵率
        • 噪声信道模型
        • 建立一个翻译
    • 词义消歧(WSD
      • 贝叶斯
      • 最大熵的消歧方法

概率论

  • 在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符合二项式分布
  • 贝叶斯决策:
  • max p(x|w1)p(w1)—x可以是语音信号,而w1可以是我们希望得到的对应文字

信息论

熵(自信息)H(X)=−Σx∈Xp(x)log2p(x)=I(X;X)H(X)=-\Sigma_{x\in X}p(x)log_2p(x)=I(X;X)H(X)=ΣxXp(x)log2p(x)=I(X;X)熵越大,不确定性越大,越难分类
联合熵H(X,Y)=H(X)+H(Y∥X)=−Σx∈XΣy∈Yp(x,y)log2p(x,y)H(X,Y)=H(X)+H(Y\|X)=-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)log_2p(x,y)H(X,Y)=H(X)+H(YX)=ΣxXΣyYp(x,y)log2p(x,y)描述一对随机变量平均所需要的信息量
条件熵H(Y∥X)=Σx∈Xp(x)H(Y∥X=x)=−Σx∈XΣy∈Yp(x,y)log2p(y∥x)H(Y\|X)=\Sigma_{x\in X}p(x)H(Y\|X=x)=-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)log_2p(y\|x)H(YX)=ΣxXp(x)H(YX=x)=ΣxXΣyYp(x,y)log2p(yx)-
熵率Hrate=1nH(X1n)=−1nΣX1np(x1n)logp(x1n)H_{rate}=\frac{1}{n}H(X_{1n})=-\frac{1}{n}\Sigma_{X_{1n}}p(x_{1n})logp(x_{1n})Hrate=n1H(X1n)=n1ΣX1np(x1n)logp(x1n)-
相对熵(KL距离)D(p∥q)=Σx∈Xp(x)logp(x)q(x)yD(p\|q)=\Sigma_{x\in X}p(x)log\frac{p(x)}{q(x)}yD(pq)=ΣxXp(x)logq(x)p(x)y衡量两个分布的差距,两个随机分布相同则为0,差别增大,则增大
交叉熵H(L,q)=−limn→∞1nΣx1np(x1n)logq(x1n)=−limn→∞1Nlogq(x1n)=H(X)+D(p∥q)H(L,q)=-lim_{n\rightarrow \infty}\frac{1}{n}\Sigma_{x_1^n}p(x_1^n)logq(x_1^n)\\=-lim_{n\rightarrow \infty}\frac{1}{N}logq(x_1^n)=H(X)+D(p\|q)H(L,q)=limnn1Σx1np(x1n)logq(x1n)=limnN1logq(x1n)=H(X)+D(pq)在设计模型q时,我们的目的是使交叉熵最小,从而使模型最接近真实的概率分布
困惑度PPq=2H(L,q)≈2−12logq(l1n)PP_q=2^{H(L,q)}\approx2^{-\frac{1}{2}logq(l_1^n)}PPq=2H(L,q)221logq(l1n)
互信息I(X;Y)=H(X)−H(X∥Y)=Σx∈XΣy∈Yp(x,y)log2p(x,y)p(x)p(y)I(x;y)=logp(x,y)p(x)p(y)=log2p(y∥x)p(y)I(X;Y)=H(X)-H(X\|Y)\\=\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)log_2\frac{p(x,y)}{p(x)p(y)}\\I(x;y)=log\frac{p(x,y)}{p(x)p(y)}=log_2\frac{p(y\|x)}{p(y)}I(X;Y)=H(X)H(XY)=ΣxXΣyYp(x,y)log2p(x)p(y)p(x,y)I(x;y)=logp(x)p(y)p(x,y)=log2p(y)p(yx)互信息大,说明两个文字之间的结合越紧密,越可能成词。反之,断开的可能性越大(考虑了两词不连续的情况
耦合度couple(ci,ci+1)=N(cici+1)N(cici+1+N(....ci∥ci+1....couple(c_i,c_{i+1})=\frac{N(c_ic_{i+1})}{N(c_ic_{i+1}+N(....c_i\|c_{i+1}....}couple(ci,ci+1)=N(cici+1+N(....cici+1....N(cici+1)仅考虑两词连续的情况
  • 熵:H(X)=−Σx∈Xp(x)log2p(x)H(X)=-\Sigma_{x\in X}p(x)log_2p(x)H(X)=ΣxXp(x)log2p(x)
    • 约定:0log0=00log0=00log0=0
    • 单位:比特(bit)
    • 越大,不确定性大,正确估值的可能性小
    • 又叫自信息:H(X)=H(X)-H(X|X)=I(X;X)—H(X|X)=0
    • 熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。
  • 联合熵H(X,Y)=−Σx∈XΣy∈Yp(x,y)log2p(x,y)=−Σx∈XΣy∈Yp(x,y)log2p(x)p(y∣x)=−Σx∈XΣy∈Yp(x,y)(log2p(x)+log2p(y∣x))=−Σx∈XΣy∈Yp(x,y)(log2p(x))−Σx∈XΣy∈Yp(x,y)(log2p(y∣x))=−Σx∈Xp(x)(log2p(x))−Σx∈XΣy∈Yp(x,y)(log2p(y∣x))=H(X)+H(Y∣X)H(X,Y)=-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)log_2p(x,y)\\=-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)log_2p(x)p(y|x)=-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)(log_2p(x)+log_2p(y|x))=-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)(log_2p(x))-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)(log_2p(y|x))\\=-\Sigma_{x\in X}p(x)(log_2p(x))-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)(log_2p(y|x))\\=H(X)+H(Y|X)H(X,Y)=ΣxXΣyYp(x,y)log2p(x,y)=ΣxXΣyYp(x,y)log2p(x)p(yx)=ΣxXΣyYp(x,y)(log2p(x)+log2p(yx))=ΣxXΣyYp(x,y)(log2p(x))ΣxXΣyYp(x,y)(log2p(yx))=ΣxXp(x)(log2p(x))ΣxXΣyYp(x,y)(log2p(yx))=H(X)+H(YX)
    • 联合熵实际上就是描述一对随机变量平均所需要的信息量。
  • 条件熵H(Y∣X)=Σx∈Xp(x)H(Y∣X=x)=Σx∈Xp(x)(−Σy∈Yp(y∣x)log2p(y∣x))=−Σx∈XΣy∈Yp(x,y)log2p(y∣x)H(Y|X)=\Sigma_{x\in X}p(x)H(Y|X=x)\\=\Sigma_{x\in X}p(x)(-\Sigma_{y\in Y}p(y|x)log_2p(y|x))\\=-\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)log_2p(y|x)H(YX)=ΣxXp(x)H(YX=x)=ΣxXp(x)(ΣyYp(yx)log2p(yx))=ΣxXΣyYp(x,y)log2p(yx)
  • 熵率
    • 一般地,对于一条长度为 n 的信息,每一个字符或字的熵为:Hrate=1nH(X1n)=−1nΣX1np(x1n)logp(x1n)H_{rate}=\frac{1}{n}H(X_{1n})=-\frac{1}{n}\Sigma_{X_{1n}}p(x_{1n})logp(x_{1n})Hrate=n1H(X1n)=n1ΣX1np(x1n)logp(x1n)
  • 相对熵(KL距离)
    • D(p∣∣q)=Σx∈Xp(x)logp(x)q(x)约定0log(0/q)=0,plog(p/0)=∞D(p||q)=\Sigma_{x\in X}p(x)log\frac{p(x)}{q(x)}\\约定0log(0/q)=0,plog(p/0)=\inftyD(pq)=ΣxXp(x)logq(x)p(x)0log(0/q)=0,plog(p/0)=
    • 用来:衡量两个分布的差距,两个随机分布相同则为0,差别增大,则增大
      在这里插入图片描述
  • 交叉熵
    • 随机变量X`p(x),模型q
    • 用以衡量估计模型与真实概率分布之间的差异
    • H(X,q)=H(X)+D(p∣∣q)=−Σxp(x)logq(x)H(X,q)=H(X)+D(p||q)=-\Sigma_xp(x)logq(x)H(X,q)=H(X)+D(pq)=Σxp(x)logq(x)
    • 对于语言L=(X)-p(x)与其模型q的交叉熵定义为
      • H(L,q)=−limn→∞1nΣx1np(x1n)logq(x1n)H(L,q)=-lim_{n\rightarrow \infty}\frac{1}{n}\Sigma_{x_1^n}p(x_1^n)logq(x_1^n)H(L,q)=limnn1Σx1np(x1n)logq(x1n)
      • p(x_1^n)概率
      • q(x_1^n)为概率估计值(频率)
      • 如果是理想的语言,n趋于无穷大(记做N),假定L是稳态的随机过程
      • H(L,q)=−limn→∞1nΣx1np(x1n)logq(x1n)=−limn→∞1Nlogq(x1n)H(L,q)=-lim_{n\rightarrow \infty}\frac{1}{n}\Sigma_{x_1^n}p(x_1^n)logq(x_1^n)\\=-lim_{n\rightarrow \infty}\frac{1}{N}logq(x_1^n)H(L,q)=limnn1Σx1np(x1n)logq(x1n)=limnN1logq(x1n)
      • 在设计模型q时,我们的目的是使交叉熵最小,从而使模型最接近真实的概率分布
  • 困惑度
    • 再设计语言模型时,可以用困惑度来代替交叉熵衡量模型的好坏
    • 语言L的样本l1n=l1...lnPPq=2H(L,q)≈2−12logq(l1n)l_1^n=l_1...l_n\\PP_q=2^{H(L,q)}\approx2^{-\frac{1}{2}logq(l_1^n)}l1n=l1...lnPPq=2H(L,q)221logq(l1n)
  • 互信息
    • (X,Y)-P(x,y)
    • I(X;Y)=H(X)−H(X∣Y)=Σx∈XΣy∈Yp(x,y)log2p(x,y)p(x)p(y)I(x;y)=logp(x,y)p(x)p(y)=log2p(y∣x)p(y)I(X;Y)=H(X)-H(X|Y)\\=\Sigma_{x\in X}\Sigma_{y\in Y}p(x,y)log_2\frac{p(x,y)}{p(x)p(y)}\\I(x;y)=log\frac{p(x,y)}{p(x)p(y)}=log_2\frac{p(y|x)}{p(y)}I(X;Y)=H(X)H(XY)=ΣxXΣyYp(x,y)log2p(x)p(y)p(x,y)I(x;y)=logp(x)p(y)p(x,y)=log2p(y)p(yx)
    • 互信息 I (X; Y) 是在知道了 Y 的值以后 X 的不确定性的减少量,即Y 的值透露了多少关于 X 的信息量。
    • 又叫自信息:H(X)=H(X)-H(X|X)=I(X;X)—H(X|X)=0
    • 说明两个完全依赖的变量之间的互信息并不是一个常量,而是取决于他俩之间的熵
    • 互信息大,说明两个文字之间的结合越紧密,越可能成词。反之,断开的可能性越大
      • 关系强:I(x;y)>0
      • 弱:I(x;y)≈0I(x;y)\approx0I(x;y)0
      • 互补分布:I(x;y)<0
    • 两个单个离散事件(xi, yj)之间的互信息I(xi, yj)可
      能为负值,但
    • 两个随机变量(X, Y)之间的互信息I(X, Y)不可能为负值。后者通常称为平均互信息
  • 耦合度
    • couple(ci,ci+1)=N(cici+1N(cici+1+N(....ci∣ci+1....couple(c_i,c_{i+1})=\frac{N(c_ic_{i+1}}{N(c_ic_{i+1}+N(....c_i|c_{i+1}....}couple(ci,ci+1)=N(cici+1+N(....cici+1....N(cici+1
    • 两字相邻的情况
      • 相邻且是一个词
      • 相邻但不是一个词
      • 不相邻(耦合度不考虑这个情况,但互信息考虑)
        • 有些汉字在实际应用中出现虽然比较频繁,但是连续在一起出现的情况比较少,一旦连在一起出现,就很可能是一个词。这种情况下计算出来的互信息会比较小,而实际上两者的结合度应该是比较高的。而双字耦合度恰恰计算的是两个连续汉字出现在一个词中的概率,并不考虑两个汉字非连续出现的情况。
          在这里插入图片描述

计算熵

在这里插入图片描述 在这里插入图片描述

计算信息熵、条件熵、联合熵

在这里插入图片描述在这里插入图片描述)在这里插入图片描述)在这里插入图片描述)在这里插入图片描述)在这里插入图片描述

波利尼亚语

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

熵率

在这里插入图片描述

噪声信道模型

  • 要求:在信号传输的过程中都要进行双重性处理:
    • 一方面要通过压缩消除所有的冗余,
    • 另一方面又要通过增加一定的可控冗余以保障输入信号经过噪声信道后可以很好地恢复原状。
    • 信息编码时要尽量占用少量的空间,
    • 但又必须保持足够的冗余以便能够检测和校验错误。
    • 接收到的信号需要被解码使其尽量恢复到原始的输入信号。
  • 目标:就是优化噪声信道中信号传输的吞吐量和准确率,其
  • 基本假设:是一个信道的输出以一定的概率依赖于输入。
  • 信道容量(capacity):其基本思想是用降低传输速率来换取高保真通讯的可能性。其定义可以根据互信息给出
    • C=maxp(x)I(X;Y)C=max_{p(x)}I(X;Y)C=maxp(x)I(X;Y)
    • 据此定义,如果我们能够设计一个输入编码 X,其概率分布为 p(X),使其输入与输出之间的互信息达到最大值,那么,我们的设计就达到了信道的最大传输容量。
  • 在语言处理中,我们不需要进行编码,只需要进行解码,使系统的输出更接近于输入,如机器翻译。(自编码器)
    在这里插入图片描述
  • 一个二进制的对称信道 (binary symmetric channel, BSC) 的输入符号集 X:{0, 1},输出符号集Y:{0, 1}。在传输过程中如果输入符号被误传的概率为 p,那么,被正确传输的概率就是 1-p。这个过程我们可以用一个对称的图型表示如下:
    在这里插入图片描述

建立一个翻译

  1. 估计语言模型p(e)
  2. 估计翻译模型p(f|e)
  3. 设计快速有效的搜索算法求解e使得p(e)p(f|e)最大

词义消歧(WSD

  • 定义:任何一种自然语言中,一词多义(歧义)现象
    是普遍存在的。如何区分不同上下文中的词汇语义,
    就是词汇歧义消解问题,或称词义消歧(word sense
    disambiguation, WSD) 。
    • 一个基本问题
  • 基本思路:依据上下文
    • 每个词表达不同的含意时其上下文(语境)往往不同,也就是说,不同的词义对应不同的上下文,因此,如果能够将多义词的上下文区别开,其词义自然就明确了。
    • 基本的上下文信息:词,词性,位置
  • 基于上下文分类的消除歧义方法
    • 基于贝叶斯分类器
    • 最大熵的消歧方法
      在这里插入图片描述
      在这里插入图片描述

贝叶斯

  • 假设某个多义词 w 所处的上下文语境为 C,如果w 的多个语义记作 si,那么,可通过计算 argmaxp(si|C)确定w 的词义
    p(si∣C)=p(si)p(C∣si)p(C)分母不变性,及独立性假设:P(C∣si)=Πck∈Cp(ck∣si)所以,si^=argmaxsi(p(si)Πck∈Cp(ck∣si))−−极大似然估计得到:p(ck∣si)=N(ck,si)N(si)−−出现次数p(si)=N(si)N(w)−−N(w)为多义词w总共出现的次数p(s_i|C)=\frac{p(s_i)p(C|s_i)}{p(C)}\\分母不变性,及独立性假设:P(C|s_i)=\Pi_{c_k\in C}p(c_k|s_i)\\所以,\hat{s_i}=argmax_{s_i}(p(s_i)\Pi_{c_k\in C}p(c_k|s_i))--极大似然估计得到:\\p(c_k|s_i)=\frac{N(c_k,s_i)}{N(s_i)}--出现次数\\p(s_i)=\frac{N(s_i)}{N(w)}--N(w)为多义词w总共出现的次数p(siC)=p(C)p(si)p(Csi)P(Csi)=ΠckCp(cksi)si^=argmaxsi(p(si)ΠckCp(cksi))p(cksi)=N(si)N(ck,sip(si)=N(w)N(si)N(w)w

  • 实际,用对数计算

    • si^=argmax(logp(si)+Σck∈Clogp(ck∣si)\hat{s_i}=argmax(logp(s_i)+\Sigma_{c_k\in C}logp(c_k|s_i)si^=argmax(logp(si)+ΣckClogp(cksi)
  • 算法描述

    1. 训练过程:
      1. 计算p(ck∣si)=N(ck,si)N(si)−−出现次数p(c_k|s_i)=\frac{N(c_k,s_i)}{N(s_i)}--出现次数p(cksi)=N(si)N(ck,si
      2. 计算p(si)=N(si)N(w)p(s_i)=\frac{N(s_i)}{N(w)}p(si)=N(w)N(si)
    2. 预测过程:
      • si^=argmax(logp(si)+Σck∈Clogp(ck∣si)\hat{s_i}=argmax(logp(s_i)+\Sigma_{c_k\in C}logp(c_k|s_i)si^=argmax(logp(si)+ΣckClogp(cksi)
  • 例子

  • 对于“打”字而言,假设做实词用的25个语义分别标
    记为:s1 ~ s25,两个虚词语义分别标记为: s26 、s27。
    假设 s1 的语义为“敲击(beat)”。那么,N(s1)表示“打”
    字的意思为“敲击(beat)”时在所有统计样本中出现的
    次数;N(ck, s1) 表示某个词 ck 出现在 s1 的上下文中时
    出现的次数。例如,句子:对于“打”字而言,假设做实词用的25个语义分别标记为:s1 ~ s25,两个虚词语义分别标记为: s26 、s27。假设 s1 的语义为“敲击(beat)”。那么,N(s1)表示“打”字的意思为“敲击(beat)”时在所有统计样本中出现的次数;N(ck, s1) 表示某个词 ck出现在 s1 的上下文中时出现的次数。例如,句子:在这里插入图片描述

  • 上下文C=(他,对,鼓,很),ck=他,N(他,s1)=5,N(s1)=100

  • p(ck|si)=p(他|s1)=5/100=0.05

  • p(s1)=N(s1)/N(w)=100/800=0.125

最大熵的消歧方法

  • 基本思想:在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布最真实地反映了事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变量最不确定。也就是说,在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。
  • 对于求解的问题,就是估计在条件b ∈B下(已知知识) ,发生某个事件(未知分布) 的概率p(a|b),该概率使熵 H(p(A|B))最大。
  • 用最随机情况下的概率来推导
  • 上下文条件b表示有:
    • 词形
    • 词性
    • 词形+词性
  • 两种表示方法
    • 位置有关(模板表示
    • 位置无关(词袋模型
  • EP(f)=Σa,bp~(b)p(a∣b)f(a,b)希望(约束)EP(f)=EP~(f),EP~(f)=Σa,bp~(a,b)f(a,b)C={p∈Γ∣EP(f)=EP~(f)}所以,H(p)=L(p)=−Σa,bp~(b)p(a∣b)log(p(a∣b))p∗(a∣b)=argmaxpH(p)E_P(f)=\Sigma_{a,b}\tilde{p}(b)p(a|b)f(a,b)\\希望(约束)E_P(f)=E_{\tilde{P}}(f),\\E_{\tilde{P}}(f)=\Sigma_{a,b}\tilde{p}(a,b)f(a,b)\\C=\{p\in \Gamma |E_P(f)=E_{\tilde{P}}(f)\}\\所以,H(p)=L(p)=-\Sigma_{a,b}\tilde{p}(b)p(a|b)log(p(a|b))\\p^*(a|b)=argmax_p H(p)EP(f)=Σa,bp~(b)p(ab)f(a,b)EP(f)=EP~(f),EP~(f)=Σa,bp~(a,b)f(a,b)C={pΓEP(f)=EP~(f)}H(p)=L(p)=Σa,bp~(b)p(ab)log(p(ab))p(ab)=argmaxpH(p)
    在这里插入图片描述
  • 确定特征函数

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

格鲁夫12年前惊人的预言,解释了今天美国对中国芯片所做的一切

来源&#xff1a; 未尽研究从芯片到光伏和动力电池&#xff0c;英特尔前董事长和CEO格鲁夫惊人地预言了美国制造业与科技当下所遇到的麻烦。他是一位以严厉著称的CEO&#xff0c;在美国金融危机刚结束之际&#xff0c;在商业杂志的封面发表了一篇犀利的评论。尤其是在美国硅谷如…

真正的人工智能,需要理解本体论

来源&#xff1a;混沌巡洋舰人工智能的终极语境是什么&#xff1f;真正的人工智能&#xff0c;需要理解本体论现在的人工智能技术突破或许具有划时代意义&#xff0c;但即使是计算能力最强大、最先进的机器&#xff0c;也达不到人类智能的层级。人工智能具备测算能力&#xff0…

知识图谱-架构图

binlog-MySQL的日志 用于实时处理与离线增量导入架构 Kafka消息队列 老虎队队长&#xff08;AV75056045)

知识图谱2-知识表示

知识表示的重要性 知识是智能的基础 机器可以获得知识机器可以运用知识符合计算机要求的知识模式 计算机能存储处理的知识表示模式数据结构ER模型Sql与RDF模型SPARQL对比 关系模型 关系显式定义&#xff08;RDF) 关系隐式定义(ER)(理解后写出来的表 数据变更时 RDF--数据变更…

韩国芯片教父:金钟基如何带领韩国成为半导体超级大国

来源 :大数据文摘编译&#xff1a;Mickey来源&#xff1a;https://spectrum.ieee.org/kim-choong-ki在韩国芯片行业有这样一群人的传说&#xff0c;他们被称为“金氏黑手党”。金钟基本人不会这么称呼这群人&#xff0c;但对韩国的半导体工程师们来说&#xff0c;“金氏黑手党”…

论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

文章目录摘要Introduction最近工作基于PRA的其他方法其他使用强化学习的方法我们的方法方法介绍&#xff08;强化学习摘要 研究了大规模知识图的学习推理问题。更具体地说&#xff0c;我们描述了一个用于学习多跳关系路径的新型强化学习框架:我们使用一个基于知识图嵌入的具有…

万字因果推断入门:为什么要做因果推断?

来源&#xff1a;PaperWeekly1、为什么需要因果推断1.1 辛普森悖论首先&#xff0c;考虑一个与现实情况很相关的例子&#xff1a;针对某种新冠病毒 COVID-27&#xff0c;假设有两种疗法&#xff1a;方案 A 和方案 B&#xff0c;B 比 A 更稀缺&#xff08;耗费的医疗资源更多&am…

论文学习2-Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforce

文章目录摘要介绍相关工作方法Mean Selection Rate (MSR) and Mean Replacement Rate (MRRIncorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning摘要 知识图(KG)推理的目的是寻找关系的推理路径&#xff0c;以解决K…

报告下载:《2022城市大脑首部建设标准资料汇总》

2022年9月1日&#xff0c;中国指挥与控制学会正式发布城市大脑首批三项标准&#xff0c;这部《2022城市大脑首部建设标准资料汇总》除了包含发布的三项标准全文内容&#xff0c;还汇总了城市大脑标准研究团队2022年以来的相关研究资料&#xff0c;完整内容包括&#xff1a;1. 解…

nlp3-有限自动机FLandFA

文章目录1形式语言1.2形式语言3推导3.1句型、句子、语言3.2文法3.3派生树与二义性4有限自动机和正则文法4.1确定的有限自动机DFA4.2不确定的有限自动机NFA4.3有限自动机<>正则文法5.下推自动机PDA和上下文无关文法CFG5.1PDA5.1.1 PDA的例子.5.2 其他自动机5.2.1 区别6. 有…

经常看蓝色的东西能提升智力?科学研究发现,蓝色能改变意识状态

来源&#xff1a;科学的乐园我们的宇宙是一个“多姿多彩”的美丽时空&#xff0c;从人类睁开眼的那一刻开始&#xff0c;映入眼帘的就是一个五颜六色的世界。根据科学家的统计&#xff0c;人眼可以识别的电磁波频段包含100多万种“组合颜色”。这要归功于我们视觉系统得天独厚的…

论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention

文章目录1 当前不足2. 本文的想法3.相关工作4.KNET4.1encoder4.2类型预测4.3attention5.实验6.以后Improving Neural Fine-Grained Entity Typing with Knowledge Attention用于&#xff1a;Fine-grained entity typing细粒度实体类型(它将实体划分为大量细粒度类型&#xff0c…

深度学习和因果如何结合?北交最新《深度因果模型》综述论文,31页pdf涵盖216篇文献详述41个深度因果模型...

来源&#xff1a;专知北京交通大学最新《深度因果模型》综述论文&#xff0c;31页pdf涵盖216页pdf详述41个深度因果模型&#xff0c;值得关注&#xff01;因果关系概念在人类认知中起着重要作用。在过去的几十年里&#xff0c;因果推理在计算机科学、医学、经济学和教育等许多领…

论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification

文章目录1.introduction2.相关工作3. 本文model3.1general model3.2 mention represent3.3 context model3.3.1 averaging encoder3.3.2 LSTM encoder3.3.3 Attention Encoder4. 实验在这项工作中&#xff0c;我们提出了一种新的基于注意的神经网络模型来完成细粒度实体类型分类…

脑机接口技术或将纳入美出口管制?技术成熟度与军用进展情况

来源&#xff1a; 学术plus 编译&#xff1a;学术plus高级观察员 TAO2022年9月&#xff0c;美国国会的下属机构政府问责局&#xff08;Government Accountability Office, GAO&#xff09;发布了题为《脑机接口》&#xff08;Brain-Computer Interfaces&#xff09;的焦点…

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

来源&#xff1a;AI科技评论作者&#xff1a;黄楠编辑&#xff1a;陈彩娴9月21日&#xff0c;OpenAI 发布了一个名为「Whisper 」的神经网络&#xff0c;声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。「Whisper 」式一个自动语音识别&#xff08;ASR&#xff09;系…

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录摘要1.Introduction2. 介绍两个概念2.1 Dynamic Heterogeneous Network Model动态异构网络模型2.2 时间随机游走3NODE2BITS:基于散列的Emdedding框架3.1 采样时间随机游动和定义时间上下文3.2 基于多维特征的时态语境&#xff08;上下文3.3基于特征的上下文聚合和散列4…

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源&#xff1a;智源社区整理&#xff1a;戴一鸣导读&#xff1a;机器人领域已经发展了三四十年&#xff0c;但应用方面的进展较慢。这是因为&#xff0c;机器人建立在这样一个假设上&#xff1a;工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境&#xff08;如家…

论文学习6-(M2DNE)Temporal Network Embedding with Micro- and Macro-dynamics

文章目录1 intorduction2. 相关工作3. 准备工作4.model4.2 Micro-dynamics Preserved Embedding4.2.1 分层时间关注4.3 Macro-dynamics Preserved Embedding4.3.1链接速率4.3.2 宏观约束联合5. 实验网络嵌入的目的是将节点嵌入到低维空间中&#xff0c;同时捕获网络的结构和属性…

蒲慕明院士:我们为什么要探索人脑的奥秘

来源&#xff1a;学习时报作者简介蒲慕明&#xff0c;1948年出生&#xff0c;中国科学院院士&#xff0c;美国科学院外籍院士&#xff0c;现任中国科学院脑科学与智能技术卓越创新中心学术主任&#xff0c;上海脑科学与类脑研究中心主任。他是国际著名的神经生物学家和生物物理…