【入门科普】机器学习的四个步骤 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

【入门科普】机器学习的四个步骤

李文杰

2024-03-07

0 评论 1382 浏览 5 收藏

6 分钟

在学习人工智能之前，我们大多都需要提前了解一些有关机器学习的内容。这篇文章里，作者就阐述了机器学习训练“模型”的几个步骤，一起来看看。

学习人工智能，必须要了解机器学习。

我们可以把机器学习比喻成大脑学习。

大脑学习的成果是“智慧”，机器学习的成果就是“模型”。

机器学习训练“模型”有四个步骤：

第一步：“收集数据”好比“收集知识”
第二步：“训练模型”好比“消化理解”
第三步：“模型评估”好比“考试打分”
第四步：“模型部署”好比“走进社会”

一、收集数据

机器学习的基本理念是使用过去学习到的经验知识来预测新的问题，这个和大脑学习过程很像，我们需要见多识广，收集大量数据。

为训练模型收集到的数据随机分成两部分：

训练数据集：用于“消化理解”的题目
测试数据集：用于“考试打分”的题目

这些题目在机器学习里称之为“样本”。

“token”则是指数据集中最小有意义单元，如：一个单词、一个数字、一个汉字。

一般用token量来表示所用到的数据集大小；据说GPT4用了13万亿token用于训练。

二、训练模型

“智慧”从题目中的“信息”中推理出“答案”；

“模型”从样本中的“特征”中推理出“标签”。

以一个预测冰激凌销售收入的模型为案例：

特征：气温x1、降雨量x2、是否节假日x3…

标签：收入y

y = f(x1,x2,x3….)

机器学习最神奇的事情就是科学家们会选择合适的数学算法，这种算法可以从大量由x和y组成的样本里自行推导出f。

那些天才科学家们发明过很多算法，还起了让人一脸懵逼的算法名称比如：“随机森林”、“k近邻算法”、“生成对抗”、“支持向量机” 等等。

除了算法，我们还常听到模型的“参数”，它是指那些可调整的变量，用于控制模型的行为和性能。

最常见的一种参数是“权重参数”；

可以理解为是函数里的a、b、c

y = f(ax1,ax2,cx3….)

据说GPT4参数量达到了恐怖的1.8万亿。

三、模型评估

很多时候我们自以为对知识“消化理解”了，但真正要用的时候却经常出错，我们需要“考试打分”这一环节帮我们把把关，这不仅仅是为了向社会证明我们应该具备了某种能力，更重要的是可以指导我们如何进行查漏补缺。

在机器学习里，用“测试数据集”去考验“f”并给出一个评价分数的过程就是模型评估。

常见的术语有：

1）过拟合：训练高分但考试低分

模型在训练集上的表现好，但是在测试集上的表现不佳。

2）泛化：能够举一反三的能力

指训练好的模型对未见过的数据的适应能力。

3）精度：答对的题目数/题目总数

模型预测正确的样本数占总样本的比例。

所谓的“模型迭代”就是通过不断优化或新增训练数据集，选择更合适的“算法”或者“参数”去训练出新的“f”，以便能在测试数据集中拿到一个更高的分数。

四、模型部署

就像“考试打分”不是我们学习最终目的，模型评估的分数就算再高也要“走进社会”去部署运用才能发挥模型真正的价值。

学海无涯，机器学习同样如此，模型部署是下一轮机器学习的开始。对于已部署生产环境的模型需要建立监控机制，定期监测模型性能和预测结果，及时发现并解决模型退化或失效的问题，在使用者允许的情况下在生产环境所遇到的新情况也会是下一轮“收集数据”的样本，以便不断提高模型的准确性。

本文简单概述了机器学习的四个步骤。

机器学习和大脑学习很像；

“收集数据”是“学习准备”；
“训练模型”是“埋头苦学”;
“模型评估”是“反思复盘”；
“模型部署”是“大展拳脚”。

八字口诀：“收集训练评估部署”。

世界变化只会越来越快，我们一起学习AI知识，紧跟时代潮流~

相关阅读：

《AI三要素：数据、算法、算力 ——【入门科普】》

本文由 @李文杰原创发布于人人都是产品经理。未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

李文杰

AI 产品经理

5篇作品 10262总阅读量

车路协同&智能网联项目落地“十心法”

02-272578 浏览

车路协同&智能网联项目落地“十心法”

ChatGPT在内容运营的应用初探

04-2113519 浏览

ChatGPT在内容运营的应用初探

知识付费的商业闭环

02-269269 浏览

知识付费的商业闭环

线下约活动平台产品市场调研报告——从北辰青年yesgo行动说起

03-2512191 浏览

线下约活动平台产品市场调研报告——从北辰青年yesgo行动说起

2022年度复盘：逐步击破，不断探索

01-097838 浏览

2022年度复盘：逐步击破，不断探索

评论

目前还没评论，等你发挥！

TikTok上的中国商品，老外买上瘾了

06-253635 浏览
拼多多攻向东南亚

09-123516 浏览
在线住宿用户增长裂变的关键？途家、木鸟与美团如何做好老带新？

01-302915 浏览