统计分析应该注意的几个问题

2024-05-12 08:58

1. 统计分析应该注意的几个问题

  1. 关于P值的理解 
   P值可以理解为结论的风险大小,也就是数据得出的结果有多大的错误风险。P值越小,结论错误的风险越小,即结论越可靠;P值越大,错误的风险越大,即结论的可靠性差。P值是对已有结果的错误风险判断,与结果大小无关。目前不少医学杂志上仍然存在着关于P值的不规范用语,如P≤0.05认为“差异显著”,P≤0.01认为“差异非常显著”等。不要将P值大小与实际差异大小联系起来。这是一个值得注意的地方。
   统计学中普遍以0.05作为假设检验的检验水准,这在手工计算的时代无疑是十分方便的。但到了计算机发达的今天,我们已经可以很轻松地计算出确切的P值,仅以P≤0.05认为有统计学意义已经不符合潮流了。P值等于0.049和等于0.051有什么差别呢?无非就是0.049比0.051多了0.2%支持结论的证据,但是少了这0.2%的证据就没有意义了吗?因此,最好给出确切的P值,以便展示更多的信息。
    2. 关于significant的理解 
    很多书通常将significant翻译为“显著的”,这一词很容易让人将其与实际差别大小联系起来。实际上significant的含义应该是“非偶然的”,当根据样本资料所得结果是significant,实际上表明这一结果“不是偶然”得到的,更可能是真实存在这样一种结果。如显著性水准设为0.05,则P≤0.05表示根据样本数据计算的统计量只有不到5%的可能是偶然(也可以理解为抽样误差造成的)造成的,反过来,计算的统计量不大可能是偶然造成的,而更有可能是真实的情况。
    3. 统计学意义与实际意义 
   当统计学分析结果显示P≤0.05时,我们的结论应该写为“组间差异有统计学意义”、“相关性有统计学意“、“影响有统计学意义”等,而不应该直接写成“组间有差异”、“变量间有相关”、“变量有影响”等。统计学结论与实际结论不同,它仅反映了从样本数据得到当前结果不是偶然的,但不反映实际结果的大小。
    理论上,样本含量越大,越有可能得到小的P值。即使实际差别很小,大样本所得的P值也可能很小,于是问题来了:有的人便认为统计学是数字游戏。实际上并非如此,大样本P值很小,表明大样本的结果更为稳定可靠,恰恰反映了统计学的严谨性。比如某医生治愈1人,他据此宣称治愈率为100%,你会相信吗?但如果他治疗10000人仍然全部治愈,那他说治愈率100%,你会不会更相信?关键的问题是,当增加样本的时候,是不是还会保持原来的结果。治疗1人可以治愈,治疗第二个人一定会治愈吗?如果不断增加样本,结果仍然不变,统计学就会认为这种建立在大样本基础上的结果是可靠的,而不是偶然的,就会给出一个小P值。如果小样本的结果发现有差异,统计学会认为基于小样本的差异不一定可靠,因此会给出一个较大的P值,以提醒研究者谨慎下结论。  
    4. 单侧检验与双侧检验 
   单侧和双侧检验多用于组间比较。如果比较A、B两种药物的疗效,如果预期B药不可能不如A药,则可以采用单侧检验。这种情形也常用于新药与安慰剂比较。预期药物疗效不可能比安慰剂差,则可以用单侧检验。如果对两种药的疗效并不确定,B药可能优于A药,也可能劣与A药,则多采用双侧检验。
   一般而言,如果事先对A、B两组了解不多,没有足够的证据了解A和B谁大谁小,就可选择双侧检验,如果事先了解谁大谁小,就可以选择单侧检验。值得注意的是:单侧检验和双侧检验的选择必须根据专业在数据分析之前确定。
   对于同一资料,单侧检验比双侧检验更容易得到“有统计学意义”的结论,也就是更容易得到阳性结果。因此,切不可得到P值后再返回来选择有利的单侧检验或双侧检验,否则就真的是在玩统计学游戏了。
    5. 关于把握度的理解 
   把握度又称检验效能(power),它表示如果确实有统计学意义的话,按照现有数据能够发现这种统计学意义的概率或把握度有多大。例如:两组比较中,power为0.8,表示如果两组确实有差异的话,那我们在分析中有80%的把握度能够得到”有统计学差异“的结论。
   把握度通常用1-β表示,β即犯第二类错误的概率。把握度在平常的统计分析中一般不大为人所重视,但当数据出现阴性结果的时候,你就会发现它的用处了。你可以用把握度判断一下阴性结果是否因为例数太少,如果是,你可以继续增加样本含量,如果不是,那就只好宣布实验结果事与愿违了。

统计分析应该注意的几个问题

2. 统计学的几个问题

问题好多!!!
一、数据类型
1、统计数据分为横向数据和纵向数据
所谓横向数据,也叫做“截面数据”,就是同一时间点上各个主体的数据。如,某年各省的粮食产量放在一起就是一组截面数据
所谓纵向数据,也叫“时间序列数据”,就是同一主体在不同时间的数据。如,吉林省从00年到07年每年的粮食产量就是一组时间序列数据
2、统计数据还可以分为定性、定量数据
定量的数据多可以使用数值表示、
定性的数据多表示一个特性,如:性别——男、女 
二、
1、总体:是研究的对象的全体
2、样本:是总体中被选择出来作为代表,进行研究的对象
3、参数:是研究变量与自变量,或变量之间关系的量
4、统计量:是统计理论中用来对数据进行分析、检验的变量
5、变量:是指受其他因素影响会发生变化的研究对象

3. 统计学的问题

置信区间[213-t_a/2(45-1)s/根号(45)213+t_a/2(45-1)s/根号(45)]
=[213-2.69*16/2.236, 213+2.69*16/2.236]
=[213-18.24,213+18.24]
=[194.76,  231.24]

统计学的问题

4. 统计学中的有关问题

分别设这五个等级分值为(-∞,a]、(a,b]、(b,c]、(c,d]、(d,+∞)
于是P(X≤a)=Φ((a-2.5)/0.1)=0.1,查表得(a-2.5)/0.1=-1.285,a=2.3715
P(X≤b)=Φ((b-2.5)/0.1)=0.3,得(b-2.5)/0.1=-0.525,b=2.4475
P(X≤c)=Φ((c-2.5)/0.1)=0.7,得(c-2.5)/0.1=0.525,c=2.5525
P(X≤d)=Φ((d-2.5)/0.1)=0.9,得(d-2.5)/0.1=1.285,d=2.6285
于是这五个等级分值为(-∞,2.3715]、(2.3715,2.4475]、(2.4475,2.5525]、(2.5525,2.6285]、(2.6285,+∞)

5. 统计学的问题

平均成绩=各组组中值*各组频数,每组加和再除以50
标准差=各组组中值-平均数的平方和乘以频数再除以50,得到的数开平方即可
标准差系数=标准差除以平均数
谁的标准差小,谁的平均成绩更具代表性,因为其说明集中趋势大

以上是我粗略的算的一个数,希望能帮到你

统计学的问题

6. 统计学的问题

调和平均数
调和平均数是利用标志值倒数计算的平均数,所以也称倒数平均数。在实际工作中,经常会遇到只有各组标志总量和各单位标志值,缺少总体单位数的情况,这时就必须采用调和平均数的方法计算平均指标。

7. 统计学的问题

1. 变量之间关系可以分为两类:

函数关系:反映了事务之间某种确定性关系。

相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;

2. 为什么要对相关系数进行显著性检验?

实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。
当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;
改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;

3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小;

4. 多重共线性与统计假设检验傻傻分不清?

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提多重共线性。

5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法;

6. 什么样的模型才是一个好模型?

在测试集表现与预测集相当,说明模型没有过度拟合:在训练集上表现完美,在测试集上一塌糊涂;原因:模型过于刚性:“极尽历史规律,考虑随机误差”;拟合精度不能作为衡量模型方法的标准;

一个好的模型:只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了“容错空间”,预测误差可能减小!

7. 假设检验显著性水平的两种理解:

显著性水平:通过小概率准则来理解,在假设检验时先确定一个小概率标准----显著性水平;用 表示;凡出现概率小于显著性水平的事件称小概率事件;
通过两类错误理解: 为拒绝域面积




8. 中心极限定律与大数定理:

大数定理正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;

中心极限定理正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。

统计学的问题

8. 统计学的问题