@大师兄
混迹数据江湖十余载。
主要负责大数据商业变现和产品运营工作。
学好统计学,让你成为高富帅,迎娶白富美,走上人生巅峰,不是不可能,但可能性只有0.00001%。从统计学的角度,这是小概率事件。但是学好统计学的现实好处多多,我就随便举几个例子给大家听听。
学会看问题,懂得数字的意义。新闻报道上,各种各样的数字随处可见,如果你不想被各种数字蒙骗,最好学点统计学。学过统计的人,当看到这样的数字的时候,就会多问几个为什么,就能明白数字背后的真实含义了。
用数据说话,让你的说服力爆表。现在职场上的人们,谁不要给领导汇报工作,或者团队之间讨论问题。当你汇报和讨论的时候,光说,“我觉得”,“我保证”,“根据我的经验”,这些个词太没有信服力了。必须说数据,摆事实。利用清晰的数据传达具有强有力说服的信息。
体验一种与众不同的思维方式。很多人的思维方式,非黑即白。但世界上的很多事物并不是非黑即白。统计学的思维就是永远不肯定这个世界到底是什么样子的。统计学永远是讲概率的,就是可能性。这就是一种概率思维方式。
懂因果,知报应。统计学常常研究两个因素之间的关系,叫做因果关系。例如,你的学历对你收入的影响。统计学家可能会说,学历每提升一个层次,年收入将提高1.2万元。所以不要相信读书无用论,你要相信概率。如果你相信自己能成为比尔盖茨,那读书对你确实没意义,同样,这只是小概率事件,基本不会发生在你身上。
既然统计学这么厉害,这么牛逼,这么重要。作为统计学专业的我,我就忍不住要给大家好好梳理下统计学的知识框架,并且带着大家一点一点的学习下统计学和概率论的知识。在今后的关于统计学的文章中,我努力实现以下几个小目标。
目标一:构建出统计学需要掌握的知识框架,让读者对这个知识体系一览无余。
目标二:尽量阐述统计学每个知识在数据分析工作中的使用场景以及边界条件。
目标三:为读者解答数据分析中碰到的各种统计学问题。
今天这篇文章,主要还是带大家从宏观的层面理解下统计学。
概率与概率分布
稍微关注过统计学的人,可能会这么一个疑问。为什么大学里会有这样两门课,《概率论与数理统计》,《统计学》,它们有什么区别?
我的理解,《概率论与数理统计》更专业一些,偏理工科,会有大量公式的推导,知其然,知其所以然;而统计学这本书更基础,侧重于概念现象的解释,一般会直接给出结论,而不要求掌握结论的数理推导过程,文理科皆可用。
但不管是哪门课程,前期都是先讲概率和概率分布。概率论是统计学的基础,而随机事件的概率是概率论研究的基本内容。
统计学不研究统计,它研究的是不确定性。我们的世界是一个充满不确定性的环境,整个世界并非严格按照某个制定好的路线运行的。多数事物之间也并非有因必有果,万物之间充满了不可控的随机事件,我们不会因为今天努力了明天就一定会成功。
不确定性事件唯一的规律就是概率,独立随机事件我们没办法预测或控制它在某个时刻一定会发生,但却可以用概率来描述它发生的可能性。以概率论作为理论基础,为我们提供了认识不确定世界的方法。
这一章节,需要大家掌握几个核心概念:
随机事件
概率
概率分布
数字特征
用图表演示数据
今年疫情期间,待在家里除了陪伴家人以外,每天讨论最多、关注最高的事件莫过于疫情的新动态,这些动态的展现形式大家有没有注意到,各种专业、好看、直观的图表和数据图,让数据呈现得一目了然。
是的,工作中,一名数据分析师拿到了数据后,第一步要做的是数据初步探索,这也叫数据的预处理,这个时候,更多的就是利用各种图表探索数据。图表的好处是它可以很直观的看到数据的分布以及趋势,更有效的观察数据。
这一章节,需要大家掌握几个核心概念:
数据类型
统计表
统计图
数据的概括性度量
利用上面所讲的图表展示,我们可以对数据分布的形状和特征有一个大致的了解,但要全面把握数据分布就要反映数据分布特征的代表值。通常包含分布的集中趋势、分布的离散程度、分布的形状。
数据分析中,最常见的场景,就是你手上拿到一组,一批或者一坨数据。不懂统计学的人,可能会不知所措,或者说,你不做些加工和处理,你不知道这些数据有啥用。这个时候,就需要通过这些概括性的度量指标,来帮我们从宏观上把握数据中的初步信息。
这一章节,需要大家掌握几个核心概念:
众数/平均数
方差/标准差
偏度/峰度
统计量及其抽样分布
抽样好懂,抽样分布不好懂。
抽样,就是从研究的总体中抽取一部分个体作为我们真正的研究对象,可以简单把样本理解为总体的一个子集,通过样本的结果来推测总体情况。比如我们想知道中国成年男性的平均身高,理论上最准确的办法是调查中国所有成年男性的身高,然后计算平均数。很显然,没人这样做。实际的做法总是抽取一部分人,然后计算这部分人的平均身高,由这个平均身高来大致估计总体的平均身高。
理解了抽样,再来理解抽样分布。抽样分布说的是对谁的分布?答案是样本统计量,比如样本均数或者样本比例。以样本均数为例,一般说样本均数的抽样分布如何如何,这里,样本均数被当成了一个随机变量来看待。我们最希望大家记住的要点:样本均数是一个随机变量,但对于初学者,这确实是比较反直觉的。
为何样本均数可以被当做一个随机变量?因为样本均数是依赖样本计算得出的:每抽取一组样本都可以计算出一个样本均数,而且这些样本均数或多或少都会有些差异。由此,样本均数会随着抽样的不同而随机变动。只是现实生活中我们一般只抽取一组样本,计算一个样本均数,因此,会觉得样本均数不变。
这一章节,需要大家掌握几个核心概念:
统计量
抽样
抽样分布
参数估计
当初大学里,学数理统计的时候,到了这块就感觉越来越难了,学习的过程中可以说就是囫囵吞枣,似懂非懂。但现在,经过漫长的实践过程,对统计学的知识有了更深一步的理解。
统计推断,说白了,就两件事。第一个,参数估计。第二个,各类假设检验。学习到这里,假如你是做数据挖掘,机器学习的,你就会强烈意识到,数据挖掘和统计学之间是存在千丝万缕的联系。
参数估计,顾名思义就是对参数进行估计,那什么是参数呢?就是你假设分布的参数就是说你认为或者知道某个随机过程服从什么分布,但是不确定他的参数是什么,那怎么办?你采样、采很多样本(实际值),通过这些样本的值去估计分布的参数就是参数估计。
这一章节,需要大家掌握几个核心概念:
参数
点估计
区间估计
假设检验
上面讲到,统计推断就需要明白两件事,一件是参数估计,另外一件是假设检验。
假设检验是什么?说白了,假设检验就是先对总体猜一个参数值,然后利用样本的数据检验这个参数值准不准。
互联网生产实践中的ABTEST方法,就经常会应用到假设检验的思想。
举一个简单的例子:
学而思网校App进行了改版迭代,现在有以下两个版本
版本1:首页为一屏课程列表
版本2:首页为信息流
如果我们想区分两个版本,哪个版本用户更喜欢,转化率会更高。我们就需要对总体(全部用户)进行评估,但是并不是全部存量用户都会访问App,并且每天还会新增很多用户,所以我们无法对总体(全部用户)进行评估,我们只能从总体的用户中随机抽取样本(访问App)的用户进行分析,用样本数据表现情况来充当总体数据表现情况,以此来评估哪个版本转化率更高。
这一章节,需要大家掌握几个核心概念:
假设检验
P值
回归分析
大学里学习统计学的时候,最喜欢学回归分析,也是学的最明白的一部分。因为它的易懂性,也因为它的实用性。但随着自己数据分析经验的积累,对回归分析的理解也越来越深,它不是简单的回归模型求解那么简单,它更是一种日常工作中解决问题的思路和方法论。
数据挖掘中使用的各种高深的模型,任何模型都可理解成回归模型,包含因变量Y和自变量X,求解参数。
在我看来,回归分析由两部分组成:业务分析和技术分析。其中,业务分析属于“道”的层面,而技术分析属于“术”的层面。从“道”的层面来看,回归分析是业务分析,其分析的不是数据,而是业务,是业务中的不确定性。通过业务分析,获得对业务不确定性的理解,进而将抽象的不确定性业务问题转换成一个具体的数据可分析问题。
什么是数据可分析问题?一个业务问题,只要有清晰定义的因变量Y(不管是看得见的,还是看不见的)和清晰定义的自变量X,这就是一个数据可分析问题。一旦把业务问题规范成一个具体的数据可分析问题(有清晰定义的Y和X),那么接下来就是技术分析,属于回归分析“术”的层面。在这个层面,人们关心对于一个既定的Y和X,要研究其中的不确定性,应该选择什么样的模型设定,线性模型还是非线性模型,一元模型还是多元模型,简单的决策树还是随机森林,普通的神经网络还是深度学习。模型设定确定下来后,还需思考应该用什么方法估计,如何调优,等等。
以上是对回归分析的一种广义上的理解,狭义上理解回归分析,需要理解以下几个核心概念:
相关系数
回归分析
最小二乘法
显著性检验
多重共线性
拟合优度
发表评论 取消回复