Amazon SageMaker Canvas | 数据产品的AI神器
编辑导语:Amazon SageMaker Canvas作为一款优秀的机器学习平台,在做模型预测方面有很大的优势,本篇文章作者向我们介绍了Amazon SageMaker Canvas的产品特色以及操作体验等,并结合具体案例来体验该工具的服务,感兴趣的一起来看。
一、业务场景
随着数据意识的提升,数字化转型和对数据价值挖掘的诉求越来越强,人工智能技术成为了不可或缺的一部分,如何在业务中尝试AI?
如何用AI技术为公司、产品、业务、客户创造附加价值?
如何在IT系统嵌入智能功能,提高业务处理效率?
做智能推荐,哪些影响因子应该拥有更高的权重?
这些高频的疑问摆在眼前。
AI具有天然的高门槛:算力资源稀缺、开发成本高、模型训练较慢、部署效率低。
行业数据缺乏、应用发展不足、人才培养和储备不足。
顶尖人才稀缺细化到机器学习,机器学习门槛高,如何选择算法、清洗数据、训练参数、评估指标、选择最佳实践,构建推荐系统。
每一步都是门学问,那该怎样做到低成本的应用和有效落地实践呢?
站在巨人的肩膀上,借助AI厂商、云服务厂商的平台能力,依托成型的工具是个不错的办法。
云计算龙头亚马逊云科技的SageMaker Canvas,用无代码理念构建机器学习模型,面向业务、产品、运营、数据分析师等没有机器学习经验群体,在没有数据技术团队情况下,可以用可视化、点击式用户界面,轻松探索和构建机器学习模型,做出准确的模型预测。
二、Amazon SageMaker Canvas介绍
全球最大的云服务商亚马逊云科技在2021 re:Invent大会上推出机器学习服务SageMaker新的功能——Canvas,允许产品经理、运营、业务分析师以可视化的操作方式,不需要机器学习经验,也不需要编写程序代码,即使没有算法工程师帮助也可以自动清理和组合数据,并就能构建机器学习模型,选出性能最佳的模型,生成精准的预测。
1. 产品特色
- 提供可视化、点击式界面构建 ML 模型并生成准确的预测,无需编写代码或事先具备 ML 经验;
- 可快速连接和访问来自云和本地数据源的数据、组合数据集并创建统一的数据集以训练 ML 模型,会自动检测和纠正数据错误并分析 ML 的数据准备情况;
- 使用Amazon SageMaker 的强大 AutoML 技术,能够根据数据集自动创建确定最佳模型;
- 可与Amazon SageMaker Studio 集成,使业务分析师可以轻松地与数据科学家共享模型和数据集,以便验证和进一步优化模型。
2. 产品操作——不写代码的创建机器学习模型
使用操作极其简单,注册账号后,只需打开 Amazon SageMaker Canvas服务,在上传数据和选择目标后,都是自动操作:自动清理准备数据——自动创建模型——生成并理解预测,在过程中,平台能自动纠正上传数据错误,比如补充缺失值或删除重复的行和列。
1)浏览导入和连接数据
支持浏览和导入来自云和本地数据源的数据,可以轻松连接多个数据源、组合数据集并创建新的统一数据集以训练预测模型。
2)选择目标
选择要预测的值。
3)准备和分析数据
内置数据清理和数据准备,可以自动检测错误、清理和分析数据,最大限度地减少手动清理数据的需要,例如自动填充缺失值等,以确定数据已准备就绪。
4)创建模型
指定模型预测的目标后点击按钮创建ML模型,所需模型即可训练得到。可以使用Canvas 测试数百个 ML 候选模型,以创建基于您的数据集做出最准确预测的模型。
5)生成并理解预测
模型预览,描述个人使用数据的来源、数据集定义、模型选择与原因、模型效果及预测结果。可以了解当前模型的准确性以及每列对预测的相对影响。
输入或上传数据即可生成单个或批量预测结果。生成模型后,还可使用Amazon SageMaker Studio协作共享模型给数据科学家等合作伙伴,帮助进一步审查或者优化。
三、SageMaker Canvas电梯广告业务实践体验
电梯广告是以广告公司同小区物业签订租用合约,再向广告主提供广告投放服务的形式。
在刊例价相同的情况下,如何选择楼宇、优化点位,提前预测哪些电梯点位会更容易被广告主选择、有更高的上刊率就至关重要。
即如何通过签约前获得的楼盘基础信息:城市、区县、地址、楼盘类型(商住楼、写字楼、综合体、住宅)、占地面积、建筑面积、物业公司、物业费、平均租金、开发商、交付时间、容积率、绿化率
入住率、楼栋数、覆盖人数、房价等信息,预测楼盘的上刊率,判断是否是优质楼盘可以签约。
1)第一步:开启 Amazon SageMaker Canvas服务
注册账户后,搜索进入SageMaker控制台,启动Canvas应用程序。
2)第二步:上传数据并选择目标
开启Canvas实例后,会弹出操作介绍,按提示上传数据、连接数据。
SageMaker Canvas可对连接的数据显示预览结果,导入数据后,选择用于预测的目标数据。Canvas会自动选择适合的问题类型,如现金上刊率,即为数值预测,点击“Quilk build”变开始自动构建模型。
3)第三步,评估模型
上传数据并选择构建方式后,Canvas进入模型构建阶段,1500条数据,8.8万单元格,提示需要1h45min构建完毕,实际16:00 开始,17:35 结束跟预估时间相差不大。
模型构建完毕的页面,看出模型预测与真实数值差异在正负0.065左右,对现金上刊率影响较大的因子有:点位数、最高楼层、区域、总人数、真实房价、交房时间、总户数。
给出模型的执行情况、每一列数据对预测结果所产生的影响情况,切换Scoring选项卡可查看解释相关指标可视化结果和指标。
4)第四步,生成预测
Amazon SageMaker Canvas支持,①Batch 针对整个数据集进行批量预测 可以上传数据,下载预测结果 预测值及可能性,②Single 针对指定的单一数值进行预测,直接输入数据,更新结果即可查看预测值和相对于平均预测结果的情况。
四、总结体验
Amazon SageMaker Canvas像是一个完备的“中央厨房”,使用Amazon SageMaker的用户只需准备好“食材”(数据)就可以享受菜品(预测结果),不需考虑食材准备(数据清洗)、菜谱选择(模型选择)、开始做菜(训练模型),从实践后总结优劣势如下:
1. 优势
- 业务友好,真0代码0基础应用,上传数据-选择指标-生成模型,自动构建可视化一键式操作,即可生成高准确度的机器学习预测;
- 低成本实践,使业务工程师能够开始处理以前由数据科学团队负责的数据科学问题,加快构建使用机器学习模型的效率,提高解决方案的创新和数字化速度;
- 协作友好,内置可共享给算法同事,进一步评估优化模型,一个专为 ML 设计的完全集成的开发环境;外部可与各种流行的 BI 工具集成;
- 对外提供为期两个月的免费试用,最多可训练10个 ML 模型和100万单元格的免费数据空间。
2. 劣势
- 计费方式复杂,按服务计费、按流量付费,不适宜国情;
- 全称英文操作&界面交互,习惯了中文页面和交互的会有点不适应;
- 单指标最优,适用场景有限,目前只支持:预测及影响因子评估。
作者:申墨扬
本文由 @申墨扬 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CCO协议。
- 目前还没评论,等你发挥!