摘要:
本文回顾了关系抽取与实体抽取领域的经典与新兴模型,清晰地梳理了它们的出现时间与核心创新,并给出在 2025 年不同资源与场景下的最佳实践推荐。文章引用了 BiLSTM‑CRF、BiLSTM‑CNN‑CRF、SpanBERT、LUKE、KnowBERT、CasRel、REBEL、UIE,大模型抽取 等模型的原始论文与权威来源,帮助读者全面、系统地理解信息抽取技术的发展脉络与应用指南。
一、信息抽取技术的发展时间线
年份 | 代表模型 | 核心贡献 |
---|---|---|
2016 | BiLSTM‑CRF(Lample et al.) | 将双向 LSTM 与 CRF 解码结合,实现端到端序列标注 |
2016 | BiLSTM‑CNN‑CRF(Ma & Hovy) | 引入字符级 CNN 捕捉形态特征,增强未登录词处理 |
2019 | KnowBERT(Peters et al.) | 将 WordNet/Wikipedia 知识注入 BERT,提升实体与关系抽取 |
2020 | SpanBERT(Joshi et al.) | 用 span‑masking 学习片段边界表示,提升 QA 与关系抽取 (ArXiv 版本) |
2020 | LUKE(Yamada et al.) | 实体感知自注意力,词与实体同处编码,刷新多项 SOTA |
2020 | CasRel(Wei et al.) | 级联二元标注解决三元组重叠(SEO/EPO)问题 |
2021 |