👇LETUS: A Log-Structured Efficient Trusted Universal BlockChain Storage
🏛机构:蚂蚁集团
➡️领域:
- Information systems → Data management systems
- Security and privacy → Database and storage security
📚摘要:提出了LETUS,用于区块链的高效/安全的通用存储系统
背景:区块链爆炸增长,传统两层式存储结构已无法满足需求
LETUS系统的主要特点
- 打破传统两层架构:将认证数据结构(ADS)放到存储引擎,从而优化了存储和IO
- 提出了新型ADS:结合Merkle树+增量编码(delta-encoding)功能,称作DMM-Tree
- 改进的索引机制:基于版本的索引,用变种B树来索引ADS生成的数据页
- 通用性:适用各种区块链
LETUS已经在蚂蚁链的商业应用中部署,例如2023年亚运会的NFT项目和数字火炬点燃活动
👇Vortex: A Stream-oriented Storage Engine For Big Data Analytics
🏛机构:Google
➡️领域:Information systems → Stream management
📚摘要:提出了Vortex,一个为Google BigQuery构建的实时分析存储引擎,支持对数据流的实时分析
- 背景:
- 企业需要处理海量数据,尤其是对于连续数据流(streaming data)
- 传统数据系统分为流处理引擎/批处理系统,后者在处理实时数据时不佳
- 关于Vortex
- 设计:专为数据流设计但也支持批处理,将两种操作集成到了同一个系统中
- 能力:处理PB级别的数据摄取(持续流入与分析),能以亚秒级响应用户的实时查询
👇Native Cloud Object Storage in Db2 Warehouse: Implementing a Fast and Cost-Efficient Cloud Storage Architecture
🏛机构:IBM
➡️领域:Information systems → Database management system engines
📚摘要:提出了Db2 Warehouse存储架构的现代化改造,以适应云环境
- 背景
- 传统小块存储:以4KB大小的数据页为存储单位(适合随机存取/块级IO),但在云环境数据库中成本高
- 云对象存储:在处理大规模数据时,比传统小块存储成本更低
- 存在的问题:将传统存储 → 迁移 \xrightarrow{迁移} 迁移云对象存储成本巨大,因此需要新的架构
- 对Db2 Warehouse架构的改进
- 将Log-Structured Merge(LSM)树整合到Db2 Warehouse系统,以管理大规模写入/查询
- 保留传统数据页格式,避免对传统数据库内核大幅重构
👇ESTELLE: An Efficient and Cost-effective Cloud Log Engine
🏛机构:电子科大/华为
➡️领域:
- Information systems → DBMS engine architectures
- Structured text search
📚摘要:提出了ESTELLE,转为云环境设计的日志引擎,用于管理大规模的日志数据
- 背景:
- 日志的重要性:监控/调试/分析的核心数据
- 日志的特性:高频写入,低频检索,大量存储;这也是本文模型所要满足的
- ESTELLE的设计与特点
- 采用了一种低成本日志索引框架,可根据需求灵活引用索引机制
- 分离计算和存储,以分离读写操作,从而确保系统能同时查询和写入
- 设计了一个近乎无锁的写入过程,以适应高频快速写入需求
- ESTELLE存储与查询优化
- 采取对象存储技术(以对象为单位存储,包含数据/元数据/主键)
- 采取Log Bloom Filter和近似倒排索引,根据场景优化查询
👇TimeCloth: Fast Point-in-Time Database Recovery in The Cloud
🏛机构:阿里巴巴
➡️领域:
- Information systems → Database utilities and tools
- Point-in-time copies
- Storage recovery strategies
- Database recovery
📚摘要:提出了TimeCloth,一种专为云环境设计的通用恢复机制,以优化用户触发的数据库恢复
- 背景:关于用户触发的数据库恢复
- 特点:相比于因故障触发的恢复,需要更加考量用户的需求,如细粒度(精确程度)/时间点
- 现有方案:与底层数据库引擎高度集成,难以处理用户触发的恢复
- TimeCloth的设计:专注实现次线性恢复时间,满足用户对恢复的特定要求
- 恢复模块:包括了几种机制,高效日志过滤/将非冲突日志并行回放/合并日志以减少工作量
- 导入模块:实现了透明的基于FUSE的延迟加载机制+智能预取功能
- TimeCloth已经在阿里云上投入生产