大数据识别电信罪案中的统计学原理
本文将浅谈统计学原理在数据信息提取、数据处理和现实应用场景中的研究意义。
通常而言,谈及统计学,人们认为就是将数据通过简单的样本计算和传统的数学模型将其中有用的信息提取出来。然而,放到现代的观念来说,这些认知偏颇狭隘了。
当今,大量的动态数组,千兆、亿兆的数据,在商业、制造业、环境科学、航天航空
数据网络等各个领域屡见不鲜。传统的统计学场景和现代统计学已经相去甚远。
更进一步,随着数据量的增加,计算机科学成为了比传统统计学更为适合处理大数据计算的方式,数据可视化的应用挑战也成为计算机科学发展的重要方面。
这篇文章,将浅谈统计学原理在数据信息提取、数据处理和现实应用场景中的研究意义。
1. 信息新定义
信息如何从数据中提取,取决于不同目标主体。有时,信息就是总结一下当前数据,不针对未来决策、过程、实验做推断。
但即使是总结也不容易,如果数据量庞大则需要使用特殊函数来处理。更为隐晦的是,目标可能是推断未知参数或关联关系。
例如,目标可能是理解一项未知或无法获取的事物,例如性能输出量,这类数据没有误差变量则无法衡量,
因此,难点就是从实验数据中提取关联行和参数来解释这类数据。或者,目标或许是预测当前抵押贷款未来可能会有拖欠情况的部分人员。
预测未来价值,而不是推断隐藏的关联关系和参数。
举例来说:某一项贷款已经下放,那么目标函数可能需要确定某部分数据应用用来预测还款是否会有拖欠,所以目前的贷款数据只是可用数据的训练集。
推断数据和预测数据都需要数据分析,而不仅仅是数据归集。
2. 基础统计概念
基础统计学模型很简单:
数据=主体数据+噪声数据
主体数据代表主要的数据形态,噪声数据表示围绕主要模型的变量,两者都具有高度复杂性。主体可能是参数类型的,这组参数可能是线性数据、非线性数据、复数、积性函数等(例如:系数)。
另外,主体数据也可以是非参数类型的,例如:阶梯函数、赋值函数或一连串解释型变量。噪声数据表示变量数据,会影响预测和评估的可靠程度。噪声数据是相对独立、标准、相关、持续期间偏差抽样,用于计算非随机样本或结构化数据。例如:如果噪声数据没有附加影响数据源,那更合适的模型就是
Data~Fθ
Mean(data)= g(θ)
Fθ是围绕在决策模型g(θ)周边的分布函数,解释数据的冗余变量。Fθ也可以是著名的分布函数,例如伯努利分布,逻辑回归。其包括了计算非冗余样本,通过解析性变量和关联关系来预测持续期间样本变差等情况。主要参数θ有赖于解释型变量和预测型变量。数据归集的过程越复杂则,同济模型的复杂程度越高。
统计学理念认为,噪声数据建模与主要数据建模同样重要。我们可以从噪声数据中获取可能偏差的预测情况、通过噪声属于的统计,我们可以知道这类属于可用于目标推断或问题预测。
3. 反诈骗行为统计模型
当今,各种各样的电信诈骗层出不穷,信用卡被盗都能引发周边一系列的电话欺诈。电信欺诈案中,作案人可以克隆各种电话号码。通过有线网络,黑客可以攻入大学的电信网络,把所有学生的电话信息都盗取后行骗。订阅欺诈案中,顾客被骗浏览购物信息窃取支付密码。
我们的目标在于尽快地获取每一次通话记录,并且记录诈骗电话的活跃和终止阶段的信息,更新采集样本。如果通过采集样本,我们可以精准预测出下一次的合规来电,通过已经捕获的来电号码对比预测出来的数据校验精准性。我们将采集对比的合规电话标记为0,而非0的预测来电则有可能为诈骗电话。
通过数据预处理的方法,我们可以定义出样本为0的数据为主体数据。而非0数据为噪声数据。通过逻辑回归等分布函数等噪声数据的处理,可以预测出在一周或者一日之内非0数据的可能来电情况。
但是实际情况远比样本计算复杂得多。我们很难通过简单的状态判断来决策主体变量和非主体变量的预测情况一定是符合现实场景的。
从统计学角度来说,我们将一通电话定义为:一组随机向量X=(X1,…,XK)
X1表示通话持续时长、X2表示通话频次(每周一天,每天一小时)X3表示通话率,X4表示号码归属地(例如:国家、地区、城市、行政区层级划分)。
当所有可以采集的通话历史信息收集到后。一个合法的呼叫者i在通讯数据上会出现一个多元分布视图,y轴为Ci,n ,x轴为Xi,n.诈骗分子有个a数据与多元分布矩阵F完全不同。
4. 结语
计算是处理海量数据分析的关键,统计学还有很多计算处理海量数据的方法要向计算机科学学习。
与此同时,统计学也将新的要求提出给了计算机学科。例如计算机的数据挖掘需要提高。
统计学原理是推动数据挖掘提取分析的关键原则。但是这不代表统计学具有数据探索意义。
数据分块,尤其是当数据量巨大的时候,如何更好地利用数据,使数据更为有意义有作用是需要计算机科学采用更为有力的技术和模型构建方法的。
大量数据产生的更多问题远远不止分析能够解决,需要统计学和计算机科学双方一同发展,两者结合应用来处理。传统统计学与数学紧密相连,数学对于分析海量数据有重要作用。概率学则在每一步统计分析建模中起到关键作用。
总之,我们还有很多需要进步和研究的空间,更高效合理的结合统计学与计算机科学两者,将数据智能的应用场景结合到现实生活。
本文由 @手心的太阳 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Unsplash,基于CC0协议
- 目前还没评论,等你发挥!