免费论文网 首页

生活中的统计学案例

时间:2016-08-30 14:28:10 来源:免费论文网

篇一:统计学案例集

统计学精品课程建设小组

二○○六年十一月

【案例一】 全国电视观众抽样调查抽样方案

一、调查目的、范围和对象

1.1 调查目的

准确获取全国电视观众群体规模、构成以及分布情况;获取这些观众的收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改进电视频道和栏目、开展电视观众行为研究提供新的依据。

1.2 调查范围

全国31个省、自治区、直辖市(港澳台除外)中所有电视信号覆盖区域。

1.3 调查对象

全国城乡家庭户中的13岁以上可视居民以及4-12岁的儿童。包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会内居住满6个月或预计居住6个月以上,都包括在内。不包括住在军营内的现役军人、集体户及无固定住所的人口。

二、抽样方案设计的原则与特点

2.1 设计原则

抽样设计按照科学、效率、便利的原则。首先,作为一项全国性抽样调查,整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代表性。其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案设计应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。第三,方案必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。

2.2 需要考虑的具体问题、特殊要求及相应的处理方法

2.2.1 城乡区分

城市与农村的电视观众的收视习惯与爱好有很大的区别。理所当然地应分别研究,

以便于对比。最方便的处理是将他们作为两个研究域进行独立抽样,但代价是,这样做的样本点数量较大,调查的地域较为分散,相应的费用也就较高。另一种处理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在其后的抽样中再区分城、乡。这样做的优点是样本点相对集中,但数据处理较为复杂。综合考虑各种因素,本方案采用第二种处理方式。

在样本区、县中,以居委会的数据代表城市;以村委会的数据代表农村。

2.2.2 抽样方案的类型与抽样单元的确定

全国性抽样必须采用多阶抽样,而多阶抽样中设计的关键是各阶抽样单元的选择,其中尤以第一阶抽样单元最为重要。本项调查除个别直辖市及城市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。在这种情况下,选择区、县作为初级抽样单元最为适宜。因为全国区、县的总数量很大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。另外对区、县的分层也可分得更为精细。

本抽样方案采用分层五阶抽样。各阶抽样单元确定为:

第一阶抽样:区(地级市以上城市的市辖区)、县(包括县级市等);

第二阶抽样:街道、乡、镇;

第三阶抽样:居委会、村委会;

第四阶抽样:家庭户;

第五阶抽样:个人。

为提高抽样效率,减少抽样误差, 在第一阶抽样中对区、县采用按地域及类别分层。在每一层内前三阶抽样均采用按与人口成正比的不等概率系统抽样(PPS系统抽样),而第四阶抽样采用等概率系统抽样,即等距抽样,第五阶抽样采用简单随机抽样。

2.2.3 自我代表层的设立

根据要求,本次调查需要对北京、上海两个直辖市以及广州、成都、长沙与西安四个省会城市进行独立分析,因而在处理上将这些城市(包括下辖的所有区、县)每个都作为单独的一层处理。为方便起见,以下把这样的层称为自我代表层。考虑到在这样处理后,全国其他区县在分层中的一些具体问题以及各地的特殊情况,将天津市也作为自我代表层处理。另外,鉴于西藏情况特殊,所属区县与其它省(自治区)的差别很大,因此也将它作为自我代表层处理。这样自我代表层共有8个,包括以下城市与地区:

北京市、天津市、上海市;广州市、成都市、长沙市、西安市;西藏自治区。

三、样本区、县的抽选方法

3.1 全国区、县的调查总体

根据2001年的全国行政区划资料,全国(港澳台除外)共有787个市辖区,此外有5个地级市(湖州、东莞、中山、三亚、嘉峪关)不设市辖区,若将它们每个都视同一个市辖区,则共有792个区;全国共有1674个县(包括自治县及旗、自治旗、特区与林区等)、400个县级市,县级行政单位的总数为2074个,这中间包括福建省的金门县,不能进行调查,因此除金门县以外的所有2865个区、县(792个区及2073个县)构成此次调查的调查总体。

3.2区、县分层

为便于调查后的资料分类汇总及提高精度,应将全国区、县进行分层。分层可以按多种标识进行,从理论而言,分层标识应选取与调查指标相关程度较高的那些变量。在本次调查中也就是应选取与观众收视行为、习惯与爱好等密切相关的变量。关于这方面已有一些相应的研究结果,例如观众的年龄、性别、文化程度、职业、居住地的生活习惯与气候等。不过注意到我们不可能按观众的个体来分类,只能按观众居住的区、县来分类。而对于区、县,许多表示人口特征(除人口总数)及经济文化发展指标(除所在省的人文发展指数及县的人均GPT)的资料都无法得到,经过多方研究,我们对区县的分层按以下两种标识进行。

(1)地域

我国幅员广大,各地经济、社会、文化与气候的地域差异极大,而所有这些因素都与电视观众的收视行为密切相关。我们首先将所有县按所在省(自治区、直辖市)的地理位置分成3大层13个子层,[各省括号内的数字为它们的人文发展指数(Human Development Index,简称HDI),在全国的排位,参见附表]。地域分层如表1:

表1 全国区、县的地域分层

需要说明的是以上划分的层,还考虑了其他一些因素,各省按联合国制定的标准计算的人文发展指数仅是考虑因素之一。例如,按人文发展指数,广西(第19位)实际上可划在第二大层(中部地区),但考虑到国家西部大开发的范围将广西划入西部地区,我们的划分与它一致,这样便于资料的汇总发布。又如海南,根据人文发展指数(第13位)放在第一大层稍为勉强,但是根据它的地理位置以及它以旅游为主业,就观众行为而言,与广东、福建划在一子层内是合理的。

(2)区、县类别

同一大层的各市辖区与所隶属的城市的规模、在城市中的地理位置(市区或郊区)和居民成分构成(非农业人口占总人口的比例)有较大差异,各县也因经济文化发达程度有较大差异。我们将各大层中所有的区、县除已划为自我代表层的以外,(如下称抽样总体)分成以下5类,每类组成1个小层:

一类区,二类区,县级市,一类县,二类县。

全国抽样总体中所有区县共分成11×5=55个小层。其中区的划分标准为区中非农业人口占总人口的比例,比例高于标准的为一类区,比例低于标准的为二类区;县的划分标准为人均国内生产总值,高的为一类县,低的为二类县。区县划分类别的标准在三

篇二:统计学专业经典案例分析

案例2 美国国家健康照顾协会

美国国家健康照顾协会的主要任务是了解健康照顾人力资源的短缺情况,并为未来制定发展规划。为了掌握护理人员对所从事工作的满意程度,该协会发起了一场全国性的有关医院护理人员的调查研究。调查项目包括:工作满意度、收入、晋升机会等,填答方式采用打分制,从0~100分,分值高表示满意度高。下面是其中的一部分调查结果:

另外,按医院招募护理人员的方式,对上述资料的分组结果如下:

要求:运用描述统计方法对资料进行处理,采用的表示方法要让人能够方便地获取相应的信息,对你发现出的问题给予讨论。尤其要讨论下列内容:

(1)根据给定的数据资料,指出哪些方面护理人员感到最为满意,哪些方面最不满意。有可能的话,请提出改进的措施并进行讨论。

由题目,做出如下统计分析: 列1

列2

列3

有上述分析,可知护理人员感到最为满意的是工作,收入方面最不满意。 改进措施:

(2)根据变异分析的结果,为什么医护人员对工作满意度的意见差异那么大?

答:a.从列1的分析结果可知,平均数=79.8<中位数=82<众数=84,可知数据呈左偏分布,即:数据中存在极小值使得算数平均数偏向较小的一方,又因为中位数小于众数,可知数据中的较小值所占得数目较多。综上所述,列1,即工作所取得得数据中,有很多人打得分数较低,也就是说,很多人对工作都相当不满意,因此,数据的差异性较大,方差较大,医护人员对工作满意度的意见差异也很大。

b.计算各列的变异系数可得:列1变异系数=1.172125228/79.8=0.01469;列2变异系数

=2.086723826/54.44=0.03833;列3变异系数=2.288884/58.36=0.03922;可知列1变异

系数=0.01469>列3变异系数=0.03922>列2变异系数=0.03833;所以工作的离散系数最

大,可知工作中平均数的代表性最小,说明很多分对工作并不满意,即:数据的差异性

较大,方差较大,医护人员对工作满意度的意见差异也很大。

(3)从分类资料中,你能得出什么样的结论?各类医院之间,医护人员对工作满意度的差别如何,哪一类医院的情况最好?

私立医院

退伍军人

大学附属医院

通过上述图表分析,可得知三个医院的职工对自己所在单位的工作是比较满意的。大部分的职

篇三:统计学案例

?

总量指标与相对指标

案例1:指出下面的统计分析报告摘要错在哪里?并改正:

1、 本厂按计划规定,第一季度的单位产品成本应比去年同期降低10%,实际执行结果是, 单位产品成本较去年同期降低8%,仅完成产品成本计划的80%(即8%?10%=80%)。

2、 本厂的劳动生产率(按全部职工计算)计划在去年的基础上提高8%,计划执行结果仅 提高4%,劳动生产率的计划任务仅实现一半(即4%?8%=50%)。

3、 该车间今年1月份生产老产品的同时,新产品首次小批投产,出现了2件废品(按计算, 车间废品率为1.2%)。2月份老产品下马,新产品大批投产,全部制品1000件,其中废品8件,废品量是1月份的4倍,因此产品质量下降了。

4、 在组织生产高潮中,本厂先进小组向另一组提出高产优质的挑战竞赛。本月先进小 组的产量超过了另一小组的1倍,但是在两组废品总量中该组却占了60%,所以在产品质量方面,先进小组明显地落后了。

案例2:根据下表资料分析哪个企业对社会贡献更大?

上缴税金情况表

平均指标与变异指标

案例3、以组平均数补充说明总平均数

根据上表资料分析哪个村成绩更好?为什么?

案例4:某单位有10个人,其中1人月工资为10万元,9人每人月工资为1000元。该单位职工月平均工资为10900元。即:

100000?1000?9

?10900(元)

10

你认为这个平均数有代表性吗?如果缺乏代表性应如何改正?

案例5:以下是各单位统计分析报告的摘录

1、 本局所属30个工厂,本月完成生产计划的情况是不一致的。完成计划90%的有3个,完

成96%的有5个,完成102%的有10个,完成110%的有8个,完成120%的有4个。平均全局生产计划完成程度为104.33%。 即:

90%?3?96%?5?102%?10?110%?8?120%?4

=104.33%

30

2、 本厂开展增产节约运动以后,产品成本月月下降,取得显著的成绩,根据财务部门的报

告,1 月份开支总成本15000元,平均单位产品成本为15元,2月份开支总成本25000元,平均单位产品成本下降为10元,3月份开支总成本45000元,平均单位产品成本仅

8元。这样,第一季度平均单位产品成本只为11元(

15?10?8

?11元)。

3

以上报告所用平均指标是否恰当?如果不恰当应如何改正?

案例6、变异指标与平均指标的结合运用

根据上表资料分析哪种情况最好?哪种情况最差?

案例7、录取中有无歧视?

某高校只有两个系---------财经系(文科)和工程系(理科)。该校报考及录取的总体情况如表2.1所示

表2.1某高校的报考及录取情况

如果我们只看该校男女生录取的比率,即男生为3500/8000=44%,女生为2000/8000=33%。这时我们不免会问,是男同学的成绩比女同学好,还是在录取中存在着性别的歧视?

继续收集数据并得到两个系各自录取的男女生数据,如表2.2所示。

有了各系的录取数据,不难看到工程系录取的人数比较多,男女生录取的比率都是50%。而财经系招生名额较少,男女生录取的比率都是25%。由于女生报财经系的人多男生报工程系的人多,因而导致男生的整个录取率偏高,而女生的偏低。这个例子告诉我们对数据一是要从不同角度进行分析,二是要注意权数的影响。

动态分析

案例8:下面动态分析指标的应用,有哪些不恰当?应该如何改正?

1、 某企业1月份实际完成产值50万元,刚好完成计划;2月份实际产值为6102万元,超

额完成2%;3月份实际产值为8302万元,超额完成4%,则第一季度平均超计划完成2%,

即:

0?2%?4%

?2%

3

2、 某校学生人数逐年有所增加,2001年比2000年增加10%,2002年比2001增加15%,2003

年比2002年增加20%,则三年来学生人数总共增加了45%, 即:10%+15%+20%=45%

3、 某生产企业某产品的废品率逐月下降,1月份生产125000件,废品率为2.4‰;2月份

生产138000件,废品率为2.2‰;3月份生产158000件,废品率为2.0‰,则第一季度平均废品率为2.2‰

即:

0.24%?0.22%?0.20%

?0.22%

3

4、 某工厂1月份平均工人数为190人,2月份平均工人数为215人,3月份平均工人数为

220 人,4月份工人数为230人,则第一季度平均工人数为215人, 即:

190230

?215?220??215(人)

3

统计指数

案例9:资料A :日常生活中,我们经常听到或看到各种具体统计数字。例如,《中国统计年鉴2004》提供的数字表明,与2002年相比,2003年居民消费价格指数为101.2%,商品零售价格指数为99.9%,工业品出厂价格指数为102.3%,原材料、燃料价格指数为102.2%,固定资产投资价格指数为104.8%,房屋销售价格指数为104.8%。那么什么是指数?它可以反映什么问题?它是如何计算出来的?它有什么用途?

资料B:假设某商店销售的三种商品价格和销售量资料如表11.1所示 表11.1 商品价格和销售量资料

根据表11.1资料,试指出报告期与基期相比 : (1) 每种商品的销售量增长百分之几?

(2) 每种商品的价格上升或下降了百分之几?

(3) 上述三种商品的销售量综合起来增长百分之几? (4) 上述三种商品的价格综合起来增长百分之几?

(5) 上述三种商品的销售额的变动中,受销售量因素和价格因素变动的影响各有多大?

抽样推断

案例10:假定10亿人口的大国和100万人口的小国的居民年龄变异程度相同。现在各自用重复抽样的方法抽取本国的1%人中计算平均年龄,问两国平均年龄抽样平均误差是否相同,或哪国比较大?

参数估计

案例11:2004年底北京市私家车拥有量巳达到129.8万辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机抽取36位私人消费购车者,得到他(她)们所购汽车的价格如下,(单位:万元)

6.88 11.2219.98 13.610.614.86.88 11.7820.98 24.412.314.86.88 13.6813.6 30.314.614.88.28 14.9814.7 9.6 14.617.49.6 15.6815.8 9.6 12.95.3810.1815.6820.5 10.614.87.38

根据这些调查数据怎样估计总体的平均消费价格?如果要进一步推断所购买车辆在15万元以上的消费占有多大比例,应当如何分析呢?

假设检验

案例12:某保险公司欲推断过去一年中投保某险种人员的年龄状况,主管部门经理估计投保人的平均年龄是40岁、其中35岁以上的投保人占65%,研究人员从过去一年中投保该险种的人员中随机抽取38人,调查得到他们投保时的平均年龄是37岁,35岁以上的投保人占63%,试依据调查结果判断主管经理的估计是否可靠。

主管部门经理估计投保人的平均年龄是40岁,研究人员从实际投保该险种的人员中随机抽

试依据调查结果判断主管经理的估计是否可靠?

这是关于总体投保人的平均年龄是否等于40岁的假设检验问题。题中随机抽取38人构

?37岁,成样本,这是否说明总体投保人一平均年龄不等于40岁呢?

大家知道,由于抽样的随机性,样本均值与总体均值之间总是存在一定的抽样误差,即使总体投保人的平均年龄如同那位经理所估计的40岁(即??40岁)样本均值与总体均值的误差范围不超过1.96倍的抽样平均误差,即???1.96

?

n

, 也可以说

???1.96

?

n

??

?/n

?1.96的概率只有5%,通常认为这是一个很小的概率,据此可

以将

??

?/n

?1.96视为小概率事件,这种事件在100次抽样中只发生5次,相对于一次抽

样而言,可以认为小概率事件几乎是不可能发生的,本例中,已知n=38,假设?=40,经计算得?37,s?8.07, 计算统计量z?

??s/n

?

37?408.07/=2.29?1.96。

结果表明,在一次抽样中小概率为40 情况不可靠。

综上可见,假设检验是根据“小概率事件在一次抽样试验中几乎是不可能发生的”这一原理,先对总体参数作出某种假设,然后依样本统计量的估计值判断假设是否合理,从而作出是否接原假设的抉择。

相关与回归

案例13:商业中心是城市中商业机构较集中的地区,它集购物、娱乐等功能于一身。城市可以有多个商业中心,它们分布在城市的各个方位。它们各具特色,有的具有悠久的历史,有的更富有现代气息。比如北京的王府井、前门大街中心属于前者,而燕莎中心则属于后者。这些商业中心究竟哪些经营好、哪些经营不好;它们的竞争力如何;哪些具有进一步的发展潜力,这些问题都是城市管理者及投资商所关心的。因此如何测评商业中心的经营状况成了一个关键问题。

商业中心的经营好坏受多方面影响,比如商业中心周边的交通状况、人流状况、消费者的消费水平、商品的丰富程度等许多因素。对商业中心的竞争力评价需要综合考虑这些因素。但是这些因素之中哪些因素对商业中心的经营状况影响强、哪些影响弱、哪些根本没有影响,这些问题只能通过定量的方法得到答案。而研究诸多因素(变量)间关系的最常用的一种定量分析工具就是相关分析与回归分析。

案例14:在自然界以及经济、社会活动领域,普遍存在着随着时间变化而不断发生变化的现象,在日常生活和工作中,我们经常接触到按时间顺序将某一现象在各期的观测值排序形成的序列,大多数经济数据都是以这种形式给出的,例如:


生活中的统计学案例
由:免费论文网互联网用户整理提供,链接地址:
http://m.csmayi.cn/show/32470.html
转载请保留,谢谢!
相关阅读
最近更新
推荐专题