苏州喵自在区块链科技有限公司打造的基于FISCO BCOS 的粤语大数据语料库, 旨在利用区块链技术保护和发展粤语文化遗产。该项目利用区块链的不可篡改性、分布式存储、智能合约和激励机制等特性, 为保护非物质文化遗产, 加强粤语研究与教育和开发特色文化产品和服务等方面积累了有益探索。
在技术层面,方言大数据语料库项目包含数据采集层、区块链层和应用服务层三个核心组件。
●数据采集层: 通过录音设备和移动应用收集高质量粤语音频, 从互联网抓取公开数据并邀请志愿者贡献多样化粤语表达形式。所有收集到的音频材料经过专业听写服务, 转换为书面形式, 并为每条数据添加详细的上下文信息和使用场景标注。每次录制的具体地点也被记录,以分析区域间的语言变异规律。
●区块链层: 采用分布式文件存储,确保系统正常运行,并结合加密技术保护用户隐私。平台设计了基于智能合约的贡献和版权系统, 鼓励更多人参与语料库建设, 同时明确各方权利义务关系, 防止未经授权的复制传播行为。
●应用服务层: 提供强大的搜索引擎功能, 支持关键词和时间范围等多种条件快速定位信息。平台搭建一站式大数据分析环境, 内置多种统计图表模板, 帮助研究人员轻松完成复杂数据处理任务, 为开发者提供标准化API 接口,获得即时更新的数据支持,并设立专门账户体系管理所有注册成员的个人信息及其操作记录。
在应用价值上, 项目通过系统收集和保存粤语原声资料与文本记录, 不仅保护了非物质文化遗产, 助力方言文化传承, 还为学术界提供了丰富的研究数据, 支撑语言学研究的深入发展。同时, 利用高质量的粤语样本进行人工智能系统的语音识别与合成训练,开拓了新的市场空间,并促进了文化产业的发展。
未来,平台可进一步将收集到的故事、歌曲等内容转化为影视作品或其他形式的艺术作品,吸引游客消费,创造经济效益。