机器学习技术崛起后,人们津津乐道的是神经网络结构、网络层数、超参数的优化等概念,但数据的采集、处理、优化对于算法能力同样至关重要。
4 月 27 日,在北京举行的活动中,亚马逊云科技宣布推出「云、数、智三位一体」的大数据与机器学习融合服务组合,帮助企业推进大数据和机器学习的融合,将机器学习由实验转为规模化落地实践。
亚马逊云科技提出的服务组合涵盖三个方面,分别是:构建云中统一的数据治理底座,为机器学习提供生产级别的数据处理能力,以及赋能给业务人员更加智能的数据分析工具。
该服务组合是亚马逊云科技自去年推出「智能湖仓」架构以来,持续推进该框架的深度智能并加速其落地实践。
亚马逊云科技大中华区产品部总经理陈晓建表示:「随着企业数据越来越多,机器学习模型越来越先进,很多企业期望通过大数据与机器学习技术的融合,进一步带动业务创新,提升产出。但企业往往面临一个困境,有大量的数据和分析技术储备,也尝试了很多先进的机器学习模型,但就是很难有实际的业务产出。」
亚马逊云科技认为,企业不能只靠机器学习,而应在云中打造统一的数据基础底座,实现大数据与机器学习的合力。在大数据与机器学习领域,亚马逊云科技提供广泛而深入的服务,既打通两个领域的数据治理底层服务,还能实现大数据与机器学习之间的相互赋能。
「云、数、智三位一体」的大数据和机器学习融合服务组合,是智能湖仓架构的重要组成。亚马逊云科技通过在云中构建统一的数据治理底座,提供数据分析服务保障机器学习的生产实践,实现机器学习反向赋能智能化数据分析,促进云、数、智三者的统一与融合,帮助客户推进机器学习项目的落地。
• 构建云中统一的数据治理底座,打破数据及技能孤岛。亚马逊云科技能帮助客户构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排。这不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。其中, Amazon Lake Formation 推出诸多新功能,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制。Amazon SageMaker Studio 可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务 Amazon Athena、云上大数据平台 Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务 Amazon Redshift、Amazon SageMaker 等,为大数据和机器学习提供统一的开发平台。
• 助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力。机器学习项目成功的关键是对复杂的数据进行加工和准备。亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。其中,Amazon Athena 能够对支持多种开源框架的大数据平台,包括 Amazon EMR、高性能关系数据库 Amazon Aurora、NoSQL 数据库服务 Amazon DynamoDB、Amazon Redshift 等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。 以 Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。
• 让数据分析智能化,赋能业务人员探索创新。亚马逊云科技还不断提供更加智能的数据分析服务,赋能业务人员进行智能分析、模型效果验证以及自主式创新。例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习 Amazon SageMaker 模型预测能力的 Amazon QuickSight 、在分析结果中添加基于模型预测的 Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。亚马逊云科技还提供如 Amazon Redshift ML、可视数据准备工具 Amazon Glue Databrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas 等服务,让业务人员探索机器学习建模。
目前,全球数十万客户正借助亚马逊云科技大数据及机器学习服务开展业务创新,将机器学习投入实践,解决现实世界中真实和复杂的数据应用场景。
在亚马逊已提供的「数据湖仓」等能力之上,不同团队有不同的应用方式。「在一些企业中,机器学习能力完全诞生于大数据团队,他们最喜欢的亚马逊云科技产品是 Amazon EMR。」亚马逊云科技大中华区产品部技术专家团队总监王晓野表示。
Amazon EMR 能够提供与开源框架完全兼容的技术能力,其中的 Spark ML Lib 等框架在机器学习领域已被广泛用于技术实现。Amazon EMR 通过灵活扩展能力,及在云端采用 Amazon Graviton 2 自研芯片的创新能力,在带给企业完全开源兼容性的同时,大幅实现了性能和成本的提升。
第二类企业的数智化起步是由深度学习带来的,如应用机器视觉、语音识别等能力。在这样场景下,应用「智能湖仓」产品更多是面向数据科学的 Amazon SageMaker,其提供的从数据标记、内置算法,再到高效模型训练能力,可以在生产环境中灵活弹性实现模型部署,实现端到端的机器学习。
在活动中,一些亚马逊云科技的客户进行了业务落地分享。
乐我无限(Joyme)运营的全球化直播平台 LiveMe,荟萃了来自 200 多个国家和地区的近 100 万名主播,每月活跃用户数(MAU)超过 3700 万。LiveMe 基于亚马逊云科技的解决方案搭建了数据研发中心平台的核心技术服务。Joyme 数据研发中心总监杨飞表示:「LiveMe 核心业务均部署在亚马逊云科技上,通过亚马逊云科技的技术赋能,实现了降本增效,加速了业务创新。通过直播内容实时识别技术服务,LiveMe 不仅提升了用户体验,还大量降低了内容管理的业务成本。通过欺诈交易识别技术服务辅助识别欺诈交易,减少欺诈、拒付类交易,LiveMe 每年减少经济损失可达数百万美元。未来 LiveMe 将在系统稳定性、数据驱动以及新技术开发等方面加深与亚马逊云科技的合作。」
亚马逊云科技构建了强大的合作伙伴网络,通过合作伙伴网络成员帮助客户构建解决方案。亚马逊云科技合作伙伴上海欣兆阳(Convertlab)以云计算、大数据和人工智能为代表的数字化技术,为企业营销提供数字化、自动化、智能化基础设施以及相关的专业服务。
Convertlab 联合创始人兼 CTO 李征表示:「基于亚马逊云科技统一的数据基础底座, Convertlab 构建了相辅相成的一体化数据智能湖仓架构 Data Hub 和一体化高效机器学习平台 AI Hub,使数据流转时效性提升 32%,可进行快速的特征设计与机器学习模型迭代,模型上线效率提升 30%。当前已上线 5 大营销特征类别,300 多营销特征,20 多营销 AI 模型,更好地赋能客户智慧营销,实现业务增长,助推行业数字化转型。」
此外,亚马逊云科技还通过数据科学实验室、机器学习实验室和机器学习专业服务等一系列定制化措施,从基础能力构建到行业前沿知识分享,帮助客户将 “数据驱动转型” 从设想到全面落地,重塑创新引擎。
市场研究机构 IDC 提供的报告显示,到 2023 年全球企业在 AI 系统方面的支出将达到 979 亿美元,比 2019 年增加 2.5 倍。而 Gartner 的分析则指出,到 2024 年将有 75% 的企业将把机器学习技术真正用于生产,为业务所赋能。
机器学习和大数据融合对企业业务将会产生越来越大的作用。