新兴技术为我们的数据之旅铺平了道路。我们已经看到Kubernetes在应用程序自动化方面处于领先地位,越来越多的公司将赌注押在了云上,以及当今的企业对数据科学的依赖程度正不断提,再加上对大数据的人工智能高级分析,可以看到数据管理领域正出现更多机会。
以下是我期待在2020年看到的一些最大数据趋势。
趋势1:Kubernetes将在2020年推动AI更加可操作
在高级分析和人工智能方面,“ Kubernetizing”将在2020年带来全新的分析堆栈。通过将数据从远程数据孤岛移动到K8s集群中以实现更严格的数据局部性,分析堆栈的 “ Kubernetizing”解决了数据共享和弹性挑战。尽管容器对于管理Web服务器和独立数据库等无状态应用程序非常有效,但在高级分析和AI方面,Kubernetes仍有增长的空间。在2020年,Kubernetes将成为推动运营AI工作负载的关键部分。
分析堆栈正从SQL转移到紧耦合的关系数据库,再到Hadoop和云,逐渐变得更加分散。原始数据库的核心元素可以是它们自己的独立系统或层。诸如Kubernetes之类的技术允许将这些不同的部分组合在一起,从而简化在任何环境中运行的应用程序,并改变与环境无关的软件和应用程序的部署和扩展方式。
现在,当我们仔细思考当今的数据趋势已将我们带到何处时(尤其是高级分析和AI)时,我们看到了对分发模型训练和处理的更大需求。这需要在您的Kubernetes部署中编排数据。这是一个很难解决的问题,因为要顾忌分析堆栈是如何分开的。数据湖(S3,HDFS,GCS等),计算框架(Apache Spark,Presto,Hive,Tensorflow等)以及其他依赖项(例如目录服务)(Hive Metastore,AWS Glue,KMS等)都处于活动状态并自行管理。随着Kubernetes驱动更多可操作的AI,数据编排技术将成为这一趋势的关键部分。
Kubernetes简化了将多个分布式系统一起部署的复杂性,但随着分解变得越来越普遍,我们将看到在K8s集群上运行的更先进的可操作AI。下一组要解决的挑战将是数据访问,数据局部性和数据弹性。
为了在Kubernetes中为可操作的AI做准备,请查看使Kubernetes中的数据能够访问远程数据的技术。对于未来的AI工作负载需求而言,将数据本地化重新带入环境至关重要。
趋势2:无码/低码技术将简化数据科学
到2020年,借助无代码/低代码技术,简化的数据科学将得到发展。我们看到企业中比以往任何时候都更侧重于使用高级的分析和人工智能;公司将业务押在从AI和ML衍生的数据驱动的结果上。如今,要对大量数据进行如此深入的分析和洞察,您需要一名数据科学家或工程师——具有广泛的编程技能和非常深的数学知识的人员。可以想象,这些类型的人的需求量很大,供不应求。
2020年会带来什么?
数分钟被部署而不是数周的AI。这是公司想要实现的目标,尽管可以实现这一目标的专业人员数量有限。我们将看到更多使最终用户(在大多数情况下为业务或数据分析师)从自己的数据中收集深刻见解的技术。这些无代码或低代码技术将把机器学习带到最前沿,并使服务变得更智能,因此企业不会依赖具有特定专业知识的个人。例如,除了构建和部署模型之外,我们还将看到“创建您自己的模型,我们将为您提供训练”的自主技术。
我们最近看到的项目包括Google的Cloud AutoML(“无需编码的AI培训师”)和Teachable Machine 2.0(面向新的ML实践者的入门产品)之类的技术。此类技术将使非技术的最终用户能够实施和运行模型,同时避免出现错误(在构建AI模型时经常发生错误)。
今年,我们看到C3.ai,Mendix和Appian公司在低代码AI领域涌现了几项新技术,所有这些新技术都吹捧了低代码平台,这些平台几乎不需要编码经验,甚至可以提高开发人员的工作效率。
如果此方法适合您,请确保您的无代码/低代码技术具有内置的应用程序逻辑,位于其上方的托管或声明层以及位于其下方的可与数据集和模块配合使用的框架。
趋势3:云计算巨头将专注于多云
在过去三年中,我们一直在听到人们谈论混合云,而在过去的一年中,多云的趋势越来越多。在大多数情况下,这只是讨论,但在2020年将发生变化。在部署和利用多云环境方面,我们将看到显着增长。
我们正处于主要云提供商(AWS,GCP,Azure)的起步阶段,他们向市场推出了能够支持多云部署的技术。
Microsoft Azure Stack Hub允许用户在自己的数据中心中利用Azure云服务,而Microsoft最近刚刚发布了Azure Arc,这是一个多云管理层,将Azure扩展到其他公共云平台(例如AWS和GCP)。
AWS Outposts允许用户在本地运行适用于多云/混合架构的AWS基础设施。用户可以利用任何数据中心,托管空间或本地设施中的任何AWS服务,基础架构或运营模型。
Google Anthos可使应用程序能够在Google Cloud,私有数据中心(确实如此)和/或其他公共云(Azure和AWS)中运行。它使用户真正成为不需可感知云和喜欢使用多云的人。
云提供商意识到不同的用例需要不同的环境,并且正在构建产品,允许其用户从一个数据中心(云)灵活地迁移到另一个数据中心。
这些技术的好处是巨大的。用户可以自由地在他们想要的任何地方轻松地部署,运行和管理其应用程序,同时满足业务和技术要求。必须学习不同的环境和不同的API的日子已经一去不复返了。这些技术使企业可以避免供应商锁定,通过使用更接近客户的数据中心来获得更好的性能(更少的延迟),帮助遵守数据治理要求(例如GDPR),并在发生故障时提供弹性。
在2020年,我们将看到企业在多云环境下的数量翻倍。随着这些类型的服务逐渐成为主流,入门也变得容易。
关于作者
史蒂文·米(Steven Mih)是Alluxio的首席执行官。他在企业技术解决方案的销售,业务开发和市场营销方面拥有20多年的经验。他的营销经验来自于一些领先的组织,包括Aviatrix,Couchbase,Transitive,Cadence Design Systems和AMD。