编辑 | 宋慧
出品 | CSDN 云计算
在人工智能从爆火到普及应用之后,数据分析今年又一次被技术界广泛关注,热度再次到达高点。
分析与咨询机构也纷纷发表与数据相关的报告,德勤在刚刚发布的《 2022年度技术趋势 》中,第一个趋势即是数据相关,表示数据共享趋势将加速。Gartner 发布 2022年数据分析十二大趋势 ,将数据分析提升到企业创新起源的高度,趋势中提及以数据为中心的 AI。
数据与 AI:从各自为政,到双剑合璧成为创新动力
实际情况中,AI 机器学习的前期数据准备可能已经耗费了数据团队百分之七八十的精力与时间。也因此,业界意识到了数据分析对于机器学习的重要性。不过,企业在 AI 机器学习与数据分析结合应用中,仍然是各自为政,数据团队与 AI 团队分而治之,数据处理能力欠缺也限制了机器学习由实验向生产实践的转变,并且 AI 机器学习“高大上”的身份也导致了数据分析人员对于项目的参与度较低。
回到数据分析赛道上,我们能看到,国内外云厂商已经占据了重要的一席之地。以云巨头亚马逊云科技为例,从 2017 年发布 Amazon Redshift Spectrum,到 2020 年针对数据分析推出智能湖仓架构,再到 2021 年推出数据分析的无服务器 Severless 版,亚马逊云科技已经具备了全栈、云原生的数据分析产品。
针对 AI 机器学习的痛点,亚马逊云科技认为,企业应在云中打造统一的数据基础底座,实现大数据和机器学习的双剑合璧,为企业发展提供新动力。
亚马逊云科技大中华区产品部总经理陈晓建详细解释,实现数智有效融合的途径,首先,建立统一融合的治理底座,如数据质量、数据权限、数据开发、数据工作流、可视化。其次,大数据和机器学习之间应该是高效充分的双向互动,互为支撑,互为因果,形成正向循环。
因此,亚马逊云科技提出企业需要构建三大核心能力分别是,1、统一数据共享:让数据资产化,打破数据孤岛;2、统一权限管控:因为只有具备完善的权限控制能力,放心的让数据在不同的业务系统之间流转;3、统一开发及流程编排:融合端到端的大数据和机器学习任务,提升整体的开发效率。
亚马逊云科技:以全栈云原生数据分析,让机器学习更普惠
拥有全栈云原生的数据分析服务能力的亚马逊云科技,也具备了为机器学习提供全面能力的底气。现在,亚马逊云科技的数据分析产品与服务如 Amazon Athena、Amazon EMR 等,可以成为用户在云上的统一数据治理底座,亚马逊云科技的机器学习工具 Amazon SageMaker、商业智能 Amazon QuickSight 等可以帮助有 AI 需求的客户更普惠的实现以往高大上的机器学习应用。详细来说:
亚马逊云科技能帮助客户构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排。云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。其中,Amazon Lake Formation 推出诸多新功能,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制。Amazon SageMaker Studio 可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务 Amazon Athena、云上大数据平台 Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务 Amazon Redshift、Amazon SageMaker 等,为大数据和机器学习提供统一的开发平台。
机器学习项目成功的关键是对复杂的数据进行加工和准备。亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量,助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力。其中,Amazon Athena 能够对支持多种开源框架的大数据平台,包括 Amazon EMR、高性能关系数据库 Amazon Aurora、NoSQL 数据库服务 Amazon DynamoDB、Amazon Redshift 等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。 以 Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。
亚马逊云科技还不断提供更加智能的数据分析服务,赋能业务人员进行智能分析、模型效果验证以及自主式创新。例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习 Amazon SageMaker 模型预测能力的 Amazon QuickSight、在分析结果中添加基于模型预测的 Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。亚马逊云科技还提供如 Amazon Redshift ML、可视数据准备工具 Amazon Glue DataBrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas 等服务,让业务人员探索机器学习建模。
据介绍,现在亚马逊云科技机器学习相关的服务已经覆盖了国内各行业,从新兴行业如游戏、出行、新媒体,到传统行业医疗健康、教育、工业制造、零售、金融服务等,涵盖各类规模的大型公司和初创企业。
亚马逊云科技机器学习服务的场景应用已达数十种,例如在互联网行业,Amazon SageMaker 广泛地用于推荐系统,计算广告中。推荐系统案例如 Joyme 使用 Amazon SageMaker 识别直播间中的内容,为客户进行直播推荐,观众可以在 App 中直接通过标签筛选展示才艺的主播。计算广告的场景中,FreeWheel 通过 Amazon SageMaker 构建机器学习平台预测未来某个时刻广告库存,显著提升了模型开发/部署效率。在传统制造业应用案例,亚马逊云科技提供看预测性维护服务,包括探伤等相关的场景。如耐德电气选择亚马逊云科技机器学习服务在中国构建智能工业视觉质量检测解决方案“云-边协同 AI 工业视觉检测平台”,方案已在施耐德电气武汉等地工厂上线,将误检率降低 0.5%以内,并实现零漏检率。医疗行业,如 Alapha Fold(一种蛋白质结构预测工具)等新药推荐用户已迁移至亚马逊云科技平台,通过平台直接观察蛋白质生产与判断。另外吉利德、辉瑞等等医疗用户通过亚马逊机器学习服务,在改善制造运营与研发流程。教育行业如 K12 教育、科研院所,都已经利用 Amazon SageMaker 作为后端工具,内置一些算法进行相应科研。
以上的内容,我们能看到,从云到数据、AI,亚马逊云科技正在打造“云、数、智三位一体”的一整套组合型服务,以提升自身的技术与竞争优势。从一线云厂商的打法,CSDN 也希望帮助数据开发者、使用者厘清自身的需求与策略,以应对数字化浪潮下的变化与挑战。