- 统计基础与实训(微课版)
- 邓先娥 胡宝珅
- 9253字
- 2020-06-24 22:44:19
第一节 什么是统计
“统计”一词有三个层面的含义:统计学、统计工作和统计数据。统计学是研究统计理论和方法的科学,是对统计实践活动的科学概括与总结,用于指导统计工作。统计工作是统计的实践活动,是统计理论和方法的具体应用。统计数据也称为统计资料,是统计工作的直接成果。
统计学是系统阐述数据搜集、整理和分析方法的科学。数据是关于研究对象的计量与分析结果。统计学是关于数据的科学,适用于有数据存在的所有领域。
一、几组统计学的基础概念
总体与个体、标志与指标、变量与变量值,是统计学中最基础的几组概念。
(一)总体与个体
1.总体
总体是统计研究对象的全体,它是由客观存在的具有某种共同性质的许多个体组成的集合。
作为一个统计总体,必须同时具备三个条件:同质性、大量性和差异性。同质性是指总体中的每个个体至少在某一方面具有相同的性质,否则,不足以聚合为一个总体;大量性是指构成总体的个体数目要足够多,只有对大量个体进行观察研究,事物内在的规律才能得以显现;差异性是指构成总体的每个个体在某些方面存在差别,没有差异即没有变化,没有变化就不需要统计。
2.个体
个体是构成总体的基本单位,也称为总体单位。如在全国住户调查中,全国所有住户构成总体,每个住户就是一个个体。
总体与个体的界定是相对的。随着研究目的和任务的变化,同一客观事物,在某项统计研究中界定为个体,而在另一项研究中有可能界定为总体。如某高职院校中的一个班级,对于院长而言,可以被界定为一个个体,而对于任课教师而言则可界定为一个总体。
思考与讨论1.1
(1)在本班级的课堂教学活动中,总体与个体分别是什么?请解析构成总体三个条件的具体表现。
(2)构成一个总体的各个个体至少要具备几个方面的共同性质?
(二)标志与指标
按说明对象不同,统计数据分为标志与指标。如图1.1所示。
1.标志
标志是说明个体特征的名称,也称为调查项目。按性质的不同,标志可分为品质标志和数量标志;按标志值是否变化,标志可分为不变标志与可变标志。
图1.1 标志与指标的分类
品质标志是说明个体属性特征的标志,如企业某职工的性别、岗位等,品质标志的表现形式一般为文字形式。需要注意的是,为便于或适应计算机汇总整理的需要,有些事物的属性特征采用了代码的表现形式,如人口普查中的性别表现形式,男性赋值为1,女性赋值为2。这时的“性别”仍为品质标志,因为,这里的“1”和“2”是代码而不是数值,没有运算属性。
数量标志是说明个体数量特征的标志,如企业某职工的工龄、日产量、月工资等。数量标志的表现形式均为数值,具有运算属性。
不变标志是指每个个体都具有相同的标志表现的标志,如某企业的职工,每个职工的工作单位都是该企业,工作单位即为不变标志。不变标志构成总体的同质性。可变标志是指每个个体的标志表现不一致的标志,如职工的健康状况、工龄、工资、业绩等都是可变标志。可变标志构成总体的差异性。
思考与讨论1.2
(1)某学生的学号是20171400406,请从两种角度界定“学号”的标志类型。
(2)某学生班级编号是201714004,班级编号在何种情况下是不变标志,在何种情况下是可变标志?
2.指标
指标是说明统计总体数量特征的概念。一个完整的指标,必须体现出六个构成要素,即指标名称、指标数值、计量单位、计算方法、时间范围和空间范围。如某企业2017年的利润为2 700万元,这里的指标名称为利润,指标数值为2 700,计量单位为万元,隐含计算方法“利润=收入-成本-费用-税额”,时间范围为2017年,空间范围为某企业。缺失任何一个要素,指标就不明确。
按性质的不同,指标可分为数量指标和质量指标。数量指标是说明统计总体的总规模或总水平的指标,一般表现为总量或绝对数的形式,如职工人数、总产值、总成本、工资总额、利润总额等。质量指标是说明总体数量关系和单位水平的指标,一般表现为相对数和平均数的形式,如职工出勤率、产品合格率、劳动生产率、人均收入等。质量指标是认识总体质量优劣的数据。
一个指标只能说明一个方面的问题,要从多方面反映较为复杂的问题时,就需要用指标体系。指标体系是指由若干个具有一定联系的指标所组成的整体。
3.指标与标志的关系
指标与标志之间既有联系,又有明显的区别。
两者的区别表现为:其一,说明的对象不同。标志说明个体特征,而指标说明总体特征。其二,表现的形式不同。品质标志用文字表示,数量标志用数值表示,而指标必须用数值表示。
两者的联系表现为:其一,存在着汇总关系。指标数值由个体标志值汇总计算而来。其二,存在着转化关系。由于总体与个体的界定是相对的,随着研究目的和任务的变化,当将某一对象界定为个体时,其特征为标志;而将该对象界定为总体时,其数量特征为指标。
思考与讨论1.3
(1)在本班教学管理中,要全面了解并评价学生到课纪律方面的情况,应设置哪些指标?
(2)在评价学生到课纪律的指标中,哪些是数量指标,哪些是质量指标?
(三)变量与变量值
变量是描述统计总体或个体特征的名称,即指标或标志的名称。变量值是变量的具体取值。
品质标志的变量值是定性的,表现为互不相容的类别或属性。品质标志变量可细分为分类变量与顺序变量。分类变量是指其变量值之间无顺序或程度差别的变量,如“性别”变量,其变量值“男”“女”,既无顺序差别,也无程度差别;顺序变量是指其变量值之间有顺序或程度差别的变量,如竞赛“获奖名次”变量,其变量值“一等奖”“二等奖”“三等奖”,既有顺序差别,也有程度差别。
数量标志与指标构成数值型变量。数值型变量按其取值的特点,可分为离散变量与连续变量。离散变量是只能取整数值的变量,如企业个数、职工人数、设备台数等。连续变量是在一定区间内可以任意取值的变量,其数值是连续不断的,如原煤产量、销售额、厂房面积等。
思考与讨论1.4
(1)列举本班级在某学期内所举办的课外活动项目。
(2)可以用哪些指标对这些课外活动项目进行评价?这些指标各属于何种类型的变量?
二、统计的研究方法
常用的统计研究方法有大量观察法、统计分组法、指标分析法、抽样推断法和模型分析法。
1.大量观察法
大量观察法是指对研究对象总体中的全部或足够多的个体进行观察和研究,以得到具有规律性的总体数量特征。大量观察法的数理依据是大数定律,即虽然每个个体受偶然因素的影响不同而在数量上存在差异,但对于总体而言,这些差异可以相互抵消从而显现出稳定的规律性。
思考与讨论1.5
(1)人们在购物时会“货比三家”,想一想这是为什么?
(2)一次高考,决定终生。你觉得这种一次性考核选拔人才的制度有弊端吗?为什么?
2.统计分组法
统计分组法是指将研究对象总体中的个体分成不同的组别,以研究总体内部差异的方法。统计分组法既是整理数据的基本方法,又是分析数据的前提基础。
思考与讨论1.6
(1)在班级考勤管理中,宜将本班学生分成哪几个组别?这种分组有何现实意义?
(2)在教学管理中,常将学生按成绩划分为哪几个组别?这种分组有何现实意义?
3.指标分析法
指标分析法是指运用统计指标来揭示和描述研究对象总体数量特征的方法。指标分析法可分为从静态角度研究的综合指标法和从动态角度研究的时间序列分析法。指标分析法是描述统计学的核心内容,描述统计学是研究数据搜集、整理和描述的统计学分支。
4.抽样推断法
抽样推断法是指用随机抽取的样本观测数据来推断总体数量特征的方法。抽样推断法是推断统计学的基本方法,推断统计学是研究如何利用样本数据来推断总体特征的统计学分支。抽样推断法广泛应用于农产品产量估计、工业产品质量检查与控制、住户生活水平调查、科学研究等众多领域。
5.模型分析法
模型分析法是指根据一定的经济理论和假设条件,用数学模型研究变量之间的客观关系及规律的方法。模型分析法拓展了统计分析的广度与深度,用于探索研究对象的影响因素及影响程度,估计现实状态,预测未来趋势。
三、统计工作
统计工作是统计的实践活动,是指为满足决策需要,采用科学的方法,搜集、整理、分析数据的活动。从事统计工作的人员称为统计工作者,从事统计工作的部门则称为统计业务部门。
1.统计工作过程
统计工作过程一般包括四个阶段,即设计方案、搜集数据、整理数据与分析数据,如图1.2所示。
(1)设计方案。设计方案是指根据统计研究的目的和研究对象的特点,事先对统计工作进行全面的安排与策划,形成用以组织、协调、指导和考核评价整个统计活动的工作计划。
图1.2 统计工作过程示意图
(2)搜集数据。搜集数据是指按照统计调查方案的要求,采用科学的调查方法,获取调查对象的全部或部分个体数据的工作过程。其成果是各种形式的调查资料,可以是原始资料,即未经任何加工的第一手资料;也可以是次级资料,即经过加工的第二手资料,包括数字资料、统计图表和必要的文字说明。
(3)整理数据。整理数据是指按照统计工作方案的要求,将搜集到的调查资料进行分类汇总,使之条理化、综合化的工作过程。其成果是各种形式的统计表与统计图。
(4)分析数据。分析数据是指运用统计分析方法及相关知识,根据整理后的数据,研究并揭示调查对象数量特征和数量规律的工作过程。其成果是计算出来的各种分析指标和对这些指标的分析说明,以及通过计算分析后所形成的统计分析报告。
以上四个阶段,通常为顺次进行,前一阶段的工作质量直接影响后续阶段的工作质量。经过设计方案这一定性认识,到搜集与整理数据这一定量认识,最后通过对数据进行分析达到对事物本质和规律新的定性认识,从而实现对事物认识的质的飞跃。
2.统计工作的层次
统计工作按其所处的层次不同,可分为基层统计和综合统计。不同层次的统计工作,包含不同的统计内容。
(1)基层统计。基层统计是指企事业单位、机关、团体等基层单位的机构和个人所从事的统计工作。基层统计工作的重点是记录数据和对数据进行简单的整理和分析。一般来说,基层统计的内容较少,工作也较简单,对其人员的技术性要求不算太高。但对数据质量的要求却相当高。这是因为基层统计工作的质量,直接决定着综合统计工作的质量。
(2)综合统计。综合统计是指综合统计机构和个人所从事的统计工作,包括设计方案、搜集数据、整理数据、分析数据、执法宣传等一切技术性和管理性的统计工作。一般来说,综合统计具有内容全面、工作复杂、技术性高、政策性强等特点。综合统计属于高层统计,它对统计人员的要求较高,必须是理论知识和实践经验丰富的人才。
3.统计行业简介
根据统计主体的不同,统计的组织机构可分为官方机构和民间机构。
统计组织的官方机构是指政府设立的统计机构。在我国,政府设立的统计组织包括政府综合统计机构、部门统计机构和企事业统计组织。
政府综合统计机构是由国务院及地方各级人民政府设立的专门从事统计工作的各级统计机构,由国家统计局、县级以上各级人民政府统计局及国家统计局各调查总队、乡镇人民政府统计站构成,是完成国家统计调查任务的主干力量。国家统计局负责组织领导和协调全国统计工作,制定统计政策、规划、全国基本统计制度和国家统计标准,起草统计法律法规,制定部门规章,指导全国统计工作;统一核定、管理、公布全国性基本统计资料,定期发布全国国民经济和社会发展情况的统计信息,对国民经济、社会发展、科技进步和资源环境等情况进行统计分析、统计预测和统计监督,向党中央、国务院及有关部门提供统计信息和咨询建议。
部门统计机构是由国务院各部委、各直属机构与地方各级人民政府各职能部门设置的统计机构,是完成国家、地方统计调查任务的重要力量。
企事业统计组织是指企事业单位根据《中华人民共和国统计法》(以下简称《统计法》)及单位需要所设立的统计组织或在本单位的有关机构中配备的统计人员,是完成国家、部门和地方调查任务的基层统计单位,为统计信息的源头。
统计组织的民间机构是指民间设立的专业调查机构。这类机构自主接受企事业单位、政府机构和非政府机构的委托,独立完成各类调研课题,为客户提供有针对性的调研分析报告和咨询服务。如麦可思数据有限公司,它是国内第三方教育数据咨询和评估机构,为各高校提供基于数据库的培养质量评估报告和教育咨询服务,帮助高校建立社会需求和培养质量跟踪评估系统。
拓展阅读
我国调研行业发展现状
目前在国内,除政府统计机构外,从事调研咨询服务业务的企业约有1 500余家,比较知名的企业只有几十家。其中有国有控股企业,如国研科技集团有限公司;有中外合资企业,如央视市场研究股份有限公司、盖洛普咨询有限公司、北京新生代市场监测机构有限公司等;有外商独资企业,如北京慧聪国际资讯有限公司、麦可思数据(北京)有限公司;有本土民营企业,如北京零点有数数据科技股份有限公司、北京易观网络信息咨询有限公司、北京华通明略信息咨询有限公司、山东汇景市场研究咨询有限公司、万得信息技术股份有限公司、广东赛立信数据资讯股份有限公司、广州策点市场调研有限公司、广州明镜市场研究咨询有限公司、广东现代国际市场研究有限公司、广州市致联市场研究有限公司、深圳中为智研咨询有限公司、上海艾瑞市场咨询股份有限公司、上海大正市场研究有限公司、上海简博市场研究股份有限公司等。
我国调研行业的现状可概括为:起步晚,规模偏小,地域发展不平衡,业务面较窄,经验欠缺,现实需求不足,收费及服务标准不一致,缺乏成熟完善的行业规范和管理。另外,专业人才匮乏、调查分析技术水平较低。这些因素使本应成为知识密集型的调研业还基本处于劳动密集型阶段,大多数内资调研企业迄今能够提供给客户的仅仅是原始或粗加工的数据,调研服务远未达到高知识高技术含量的程度。这些都是该行业发展中的不利因素。与国外调研业相比,国内该行业发展中唯一明显有利的因素便是市场的巨大潜力,这意味着其具有乐观的发展前景。
四、统计数据
统计数据,也称为统计资料,包括数字资料以及与之相联系的其他资料。
(一)统计数据的质量要求
《统计法》第七条明确规定,国家机关、企业事业单位和其他组织以及个体工商户和个人等统计调查对象,必须依照本法和国家有关规定,真实、准确、完整、及时地提供统计调查所需的资料。
1.真实
真实是指不得弄虚作假。真实是统计数据的生命,虚假的统计数据不仅耗费成本,而且直接导致决策失误,造成难以估量的损失。
拓展阅读
《中华人民共和国统计法》
2.准确
准确是指数据的统计误差符合规定标准。所谓统计误差是指调查所得的数值与调查对象客观数值之间的差别。统计数据的误差按产生的原因分为登记性误差与代表性误差,代表性误差又有偏差和抽样误差之分。如图1.3所示。
图1.3 统计数据的误差
登记性误差是指由于各有关工作环节出现差错所产生的误差,如计量错误、记录错误、计算错误等造成的误差。从理论上说,通过强化基础工作与加强审核可以避免这类误差。
代表性误差是指在抽样调查中,由于样本统计量不足以代表总体特征所产生的误差。代表性误差分为偏差与抽样误差。偏差,也称为系统性误差,是指因破坏抽样的随机原则而产生的误差,遵从随机原则,即可避免偏差。抽样误差,也称为偶然性误差,是指由于随机抽样的偶然因素使样本不足以代表总体而产生的误差,这种误差不可避免且无法消除,但可以计量和控制。
微视频
加强统计执法监督确保统计数据质量
3.完整
完整是指调查单位齐全与调查项目填报齐全。
4.及时
及时是对统计数据的时效性要求,是指获得统计数据所花费的时间要控制在统计工作方案允许的范围内,能满足决策的时效需要。加强信息化基础建设,推行网上直报是提高统计数据时效性的重要途径。
拓展阅读
中国统计的“四大工程”
2010年12月,在全国统计工作会议上,马建堂局长提出了“四大工程”的概念,要加快建设基本单位名录库、企业一套表制度、统计数据采集处理软件系统和联网直报系统等互相联系、共为整体的“四大工程”。“四大工程”是一个有机整体,基本单位名录库是基础,企业一套表制度是核心,统一的数据采集处理软件系统是平台,联网直报系统是手段。简而言之,“四大工程”就是统一的基本单位名录库中的法定调查单位,按照企业一套表制度规定的调查内容,采用统一的数据采集处理软件,将原始数据通过互联网直接报送全国统一的数据中心,实现各级统计机构在线同步接收、审核和共享原始数据,确保数据的真实准确、完整及时。
建设“四大工程”是提高统计能力的基础。只有建成基本单位名录库,才能为以单位为对象的各类统计调查提供完备的调查单位库和抽样框,有效提高统计调查的科学性。只有实施企业一套表制度,才能进一步强化统计调查的统一性和系统性,有效避免统计调查的重复、交叉和矛盾,消除统计任务的多头布置,大大提高统计数据的采集能力。只有建成数据采集处理软件系统和联网直报系统,才能真正实现各级统计机构、各行业共享原始统计数据,切实减轻基层统计机构和调查对象的负担,极大提高统计调查效能,提升统计数据生产能力。
建设“四大工程”是提高统计数据质量的关键。通过建设基本单位名录库,可以全面准确掌握调查对象的基本状况,有效避免调查对象的重复遗漏,提高调查对象的可核实性,确保填报单位的真实性。通过建立企业一套表制度,可以统一统计指标含义、计算方法、分类目录、调查表样式和统计编码,有效提高统计数据的可比性和适用性。通过建设数据采集处理软件系统,可以统一规范数据的加工过程,杜绝对统计数据的不实处理,提高统计数据的准确性、及时性和共享性。通过建设联网直报系统,可以实现国家对源头统计数据的集中管理,减少中间环节可能出现的对统计数据的干扰,确保各级统计机构同时获得调查对象报送的原始数据。
建设“四大工程”是提高政府统计公信力的保障。通过建设“四大工程”,可以确保统计制度方法的统一,实现各级统计机构、各行业共享原始数据,消除统计数据之间不匹配的现象。“四大工程”的实施,可以使统计工作更加规范,业务流程更加完善,调查制度更加科学,为公开统计数据生产过程,提高统计工作透明度,做好解疑释惑工作奠定坚实的基础。
(二)统计数据的分类
从不同研究角度,统计数据有不同的分类,如图1.4所示。
1.按计量尺度分类
按计量尺度的不同,统计数据可分为分类数据、顺序数据和数值型数据。三者分别等同于前述品质标志变量和数量标志变量中的分类变量、顺序变量和数值型变量。
2.按数据来源分类
按统计数据来源的不同,统计数据可分为一手数据与二手数据。
一手数据是指由数据使用者亲自生产的数据。一手数据可分为观测数据和实验数据。观测数据是通过访问或观测而搜集到的数据,它是在没有对研究对象进行人为控制的条件下得到的,有关社会经济现象的统计数据多属于观测数据。在实验中设置条件、控制实验对象而搜集到的数据则称为实验数据。
图1.4 统计数据的类型
二手数据也称为二手资料或次级资料,是指由数据使用者之外的机构或个人生产的数据。二手数据按来源可分为内部二手数据和外部二手数据。
内部二手数据是指数据使用者供职的工作单位积累的与经营活动有关的各种资料。主要有:①会计资料,包括原始凭证、会计账簿、会计报表等。②统计资料,包括原始统计记录、统计台账、统计报表等。③业务过程资料,包括各种业务合同、会议记录、上报材料、出于各种目的编辑发行的材料等。④上级有关部门和机关下发的材料,包括各种政策文件、各种批复等。这些资料通常都是当事人形成的第一手资料,客观性强,可信度高。
外部二手数据范围广泛,包括各种纸质和电子介质的数据。主要有:①统计机构和政府部门发布的相关资料,如统计公报、各类统计年鉴等。②各类研究咨询机构及行业协会发布的市场行情信息及研究报告等资料。③网络、广播、电视、报纸等媒体发布的数据资料。④各类专业期刊、图书所提供的文献资料及各种会议的研讨交流资料等。
思考与讨论1.7
(1)学院质量管理部门巡查各系部教学现场所得到的考勤数据,是何种类型的数据?
(2)学院质量管理部门从各系部所得到的汇报考勤数据,是何种类型的数据?
(3)请对上面两题所获取的两类考勤数据进行评价。
(4)现实中人们大量使用的是一手数据还是二手数据?为什么?
拓展阅读
查找政府统计数据的途径与方法
我国实行统计资料的分级管理与发布制度,国家统计局一般只发布全国和分省的宏观统计数据。查找全国和分省的宏观统计数据可登录国家统计局官网,该网站提供三种查询数据的方式。
(1)“最新发布”栏目——获取最新统计数据的首选。国家统计局官方网站是国家统计局发布统计信息的主要渠道之一,每逢月度、季度、年度等统计信息发布日,“最新发布”栏目都会发布新闻稿。新闻稿的发布时间与官方网站上“国家统计局主要统计信息发布日程表”一致,是公众获取最新统计数据的首选。
(2)国家统计数据库——快速查询统计指标及历史数据的渠道。国家统计数据库包括月度、季度和年度数据,可通过数据库“搜索”或选择“指标”查找等方式,方便快捷地查询到各行业的历史数据及省级区域的主要经济社会指标数据;其中“统计出版物”栏目提供了《中国统计年鉴》《统计公报》《国际统计年鉴》《金砖国家联合统计手册》四类图书的电子版。
(3)关键字检索——新闻稿和解读稿一览无余。在国家统计局官方网站上,通过页面顶端的“请输入关键字”搜索栏,可以从搜索结果中查看历年的新闻稿和解读稿。
此外,中国统计资料馆(地址:北京市西城区月坛南街57号)收录有1981年至今的历年《中国统计年鉴》,公众可以持身份证等有效证件前往免费阅览。
省级以下城市及区县的统计资料查找有三个渠道:①查阅当地统计部门出版的统计年鉴,如《威海统计年鉴》《宁波统计年鉴》等,或查阅专业统计年鉴,如《中国城市统计年鉴》《中国县域统计年鉴(县市卷)》等;②通过当地统计机构的官方网站搜索所需信息;③咨询当地统计机构。
3.按说明对象分类
按说明对象的不同,统计数据可分为标志与指标。
4.按时间状况分类
按被描述对象与时间的关系,统计数据可分为截面数据、时间序列数据和面板数据。
截面数据是指在相同或近似相同的时间内搜集到的数据。如2017年我国各行业的国内生产总值即为截面数据。
时间序列数据是指在不同时间搜集到的数据。如2010~2017年,我国国内生产总值数据即为时间序列数据。
面板数据也称为平行数据,是指在时间序列中取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。面板数据是截面数据与时间序列数据综合而成的一种数据类型,有时间和截面两个维度。如2010~2017年,我国各行业的国内生产总值即为面板数据。若从其中某一年来看该数据,则各行业的国内生产总值就是截面数据;若从其中某个行业来看该数据,则不同年份的国内生产总值就是时间序列数据。
区分数据的类型十分重要,不同类型的数据特点不同,需要选择相应的统计方法来处理和分析。需要注意的是,数据类型的判断与研究角度有关,也与研究要求及计量单位密切相关。如职工年龄,研究要求较为粗略时可将其处理为顺序数据,变量值为老年、中年、青年;研究要求较为精细时则将其处理为数值型数据。如鸡蛋产量,以个计量为离散变量,以kg计量则为连续变量。
思考与讨论1.8
(1)以本专业各班级考勤数据为例,说明截面数据、时间序列数据和面板数据。
(2)考试成绩在何种情况下是顺序数据,在何种情况下是数值型数据?