数据分析的核心:建模

5 评论 22681 浏览 156 收藏 10 分钟

为什么我们要系统的研究建模过程?我们去扩展一个学科边界的两条路径,去研究底层概念去扩展应用领域,我们今天从底层入手。

为什么我们要通过模型认识世界?

为什么我们不直接认识世界,而是要通过模型?

生命有限,时间有限,我们不可能面面俱到的去考察世界的方方面面,我们必然需要作出选择,去找到关键,模型就是一系列积累了前人的认识和描述世界智慧的经验.。生活中我们,都在自觉或者不自觉的使用模型。

举个栗子:我们马上要期末了,经过认真的学习,我们考了80分,自我感觉不错啊。都80分了,应该算是个优了。但是实际上可能存在这样一些情况:满分是200分……全班平均分90分……

这个过程中,我们无形之中使用了一个模型叫做比较:量纲一致,有基准的情况下,a>b才有意义。 围绕这个简单的模型,各个学科发展出了庞杂的应用,比如:经济学中的成本/金融学中的理想收益基准等等。

为什么我们要系统的研究建模过程?我们去扩展一个学科边界的俩条路径,去研究底层概念去扩展应用领域。我们今天从底层入手。

1. 模型的概念

在日常话语体系中,我们往往存在这样的认知:建模=数学=科学=高大上=和我无关。

为了打破大家对于模型先天的一些偏见,我们先从本质上看模型到底是什么?模型其实就是抽象空间的一套演绎体系。

我们先看一下什么是抽象空间?

抽象空间是相对于现实空间而言的,现实中我们面对的世界往往是无穷无尽的,世界上有无穷的对象,每个对象有无穷的维度等着我们去认知,面对这样的世界,我们是没有办法直接去认识,我们需要主观的先建立一套选择标准,再选择一些特定对象,选择一些特定的维度,特定的过程,这个选择构成的集合就叫做抽象空间。

有些抽象空间是杂乱无章,互相矛盾的,比如:我们大多数普通人的思维世界其实就处在这样一个状态,大多数时候,我们不知道自己的信仰是什么,不知道自己世界观是什么,也不知道自己的价值观是什么,个人选择受环境的干扰特别大。

然而,还有一类抽象空间,里面的假设非常坚固,或者反映了人类社会的普遍诉求,比如:公平/正义/自由等,或者反映了科学共同体的基本共识,比如:能量守恒;或者是完全建构在抽象世界里的描述,比如:俩点之间直线最短。演绎论证非常严密,这一类抽象空间构成了人类智慧的结晶。

我们这里的模型,特指后者,一些凝聚了人类发展过程中智慧结晶的抽象空间描述。

知道了什么是模型,我们再来看看什么是建模过程? 建模的本质其实是 现实世界和抽象空间的映射。

在数学里,映射是个术语,指两个元素的集之间元素相互“对应”的关系。从这个定义里就可以看出,建模其实不存在绝对的对错,建模的方式,因为映射空间的不同,也可能存在千万种,但是我们如何选择建模方式呢?毕竟我们不能挨个建一遍吧?

我们评价一个模型的好坏可以从俩方面展开:

  1. 模型是否反映了对象的重要特征;
  2. 模型和现实的拟合情况(解释/预测/复现)。

最后需要指出的是,任何模型都是一部“有色眼镜”,它在帮我们看清一些东西的时候,同时也遮蔽了我们对另外一些对象的观察。

所有模型都是错的,但是有些模型是有用的。

2. 数学建模的过程

数据分析的建模过程中,大多数时候,我们还是选择数学空间作为我们的映射对象。数学建模是应用学科的核心内容,任何一门科学都是在数学的框架下表达自己解决问题的思想和方法,并和别的专业或者方向分享这些思想和方法。任何一门学科,只有当其使用数学时,才是好的精确的学科。

分析实际问题中的各种因素,使用变量表示;分析这些变量之间的关系,哪些是相互依存的,哪些是独立的,他们具有什么样的关系;根据实际问题选用合适的数学框架(典型的有优化问题,配置问题等等),并具体的应用问题在这个数学框架下表出;选用合适的算法求解数学框架下表出的问题; 使用计算结果解释实际问题,并且分析结果。

(1)模型假设

根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步。如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为。

所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化。

(2)模型选择

根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构。这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天。

不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值。

(3)模型求解

可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术。一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重。

(4)模型分析

对模型解答进行数学上的分析,“横看成岭侧成峰,远近高低各不同”。能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次。还要记住,不论那种情况都需进行误差分析,数据稳定性分析。

(5)模型应用

把数学上分析的结果翻译回到现实问题,并用实际的现象、数据与之比较,检验模型的合理性和适用性。

(6)模型评价

取决于问题的性质和建模的目的。

3. 模型空间概述

模型的分类标准,也可以表达成模型有几方面的特征.这里做一个简单的列举,下次会结合具体案例对每类模型做一个简单综述:

总结

所有模型都是错的,但是有些模型是有用的。

 

作者:小祁爱数据,公众号:小祁同学的成长故事

本文由 @小祁爱数据 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 数据建模其实就是找到能体现现实意义(现实空间)的数据指标(数学空间)。比如我们用子页面的浏览量÷父页面的浏览量来表示该子页面在父页面上的转化程度,其实这就是一次建模,只有建模,数据指标才有现实意义,只有思考明白了这一点,才能做数据分析,否则数据分析就是纸上谈兵毫无意义的。作者讲的其实是非常底层的逻辑,觉得看不懂是因为没有花时间认真思考和实践这一块领域。

    来自浙江 回复
  2. 完全看不懂呀。

    回复
    1. ➕1

      回复
    2. 说的很专业,但是看不懂,就和专家一样讲了半天很高大上的样子,台下没人看懂

      回复
  3. 回复