四 数据与方法

(一)数据

本章使用以下两个来源的数据检验上述假设,分析三类人群在社会保障方面的异同。

其一,2005年全国1%人口抽样调查的20%抽样数据。与现有其他数据相比,该数据有以下特点。①具有代表性与普遍性。这是近期最新的大规模的人口抽样调查,比较全面、客观、系统地反映了我国人口当时的状况,其分析结果可以推断为全部人群的共同特征。现有的实证研究多只是地区性的。鉴于地区间的巨大差异、研究设计的不同以及样本量较小等原因,以往的研究结论难以进行直接比较,难以总体把握流动人口群体社会保障的模式和特点,难以推断全部流动人口的共同特征;而本数据可有效地应对这些局限。②提供比较丰富的社会保障以及多种与流动人口有关的信息,包括流动身份、流动时间、流动原因、流动去向等。③允许对不同人群进行比较研究。数据包含流入地、流出地及户籍,且样本规模大,不仅可以比较流动人口与非流动人口,实现群间比较,还可以区分不同户籍性质的流动人口,使群内比较成为可能。到目前为止,由于数据的局限,绝大部分相关研究主要关注农民工,有关流动人口与本地市民的群间比较、不同户籍流动人口的群内比较都很少见,而全国1%人口抽样调查数据可使我们超越该局限,是到目前为止研究流动人口社会保障问题最合适且可及的资料来源,它较全面地反映了2005年11月1日零时流动人口的社会保障情况。当然,本数据也存在不足,包括流动时间与社会保障的因果关系、样本的选择性等。

由于本章的分析对象是流动人口,故仅提取满足以下各种条件的个案作为样本:年龄16~55岁、户籍身份确定、在业的流动人口和本地市民。在流动人口中,只包括离开户口登记地半年以上的务工、经商人群。在剔除相关变量的缺失值、无效值或不适用取值的个案后,最后的总样本量为357258个;其中, 62.6%为本地市民,其余37.4%为流动人口。

其二,2005年全国各地区经济结构与社会保障数据。地区宏观数据来自2006年《中国区域经济统计年鉴》(国家统计局,2007)。它收集了2005年全国及7个经济区域、31个省级行政单位、近340个地级行政单位的主要社会经济统计指标,全面、系统地反映了中国区域经济与社会发展状况。在剔除资料缺失的湖北省直辖县级行政单位、海南省直辖县级行政单位后,共有341个地级行政单位样本。本研究将该数据与1 %人口抽样调查数据进行整合,形成一个既包括地区宏观数据,又包括个体数据的多层次结构数据。

(二)变量

1.因变量

因变量为社会保障状况,包括失业保险、基本养老保险、基本医疗保险。笔者将它们处理成虚拟变量,0表示没有保险,1表示有保险。基于此,将因变量衡量为三种方式、五个变量。①二分类变量:单独分析失业保险、养老保险、医疗保险,考察受访者享受每类社会保障的现状及概率。②计数变量(累加社会保障):考察受访者一共享有几类保险;若个体同时享有三类保险,则其取值为3;若受访者未参加任何保险,则其取值为0。③社会保障指数:利用因子分析方法,生成综合指数,综合考察其社会保障水平。因子分析结果显示,每个变量的因子负载几乎都为0.9,被解释的方差分别约为3/4、4/5、4/5。这表明,三个变量高度相关,可以肯定地判断它们为单个潜在因子的线性函数,故生成一个综合因子且对其进行回归分析是完全合适的,可以简明地综合考察三类人群的社会保障情况。

2.主要自变量

主要自变量包括流动身份、离开户籍地时长、流动跨越区域。除第一个变量外,另外两个变量仅适用于流动人口,仅用于流动人群内部比较。

流动身份有两种分类。一是一个二分类变量,代表本地市民与流动人口,以进行群间比较,即比较流动人口与非流动人口在社会保障方面是否存在差异,回答本章的第一个研究问题。二是一个三分类变量,代表本地居民、城—城流动人口、乡—城流动人口,既进行群间比较,也进行群内比较,回答本章的其他研究问题。

离开户籍地时长包括三个分类:≤2年、3~5年、5年以上,基于原始变量中的9个分类整合而成。同时,基于户籍所在省份、户籍所在地区、流入地行政地区等变量提供的信息,本章生成一个三分类变量表示流动跨越的区域:地区内流动、跨地区流动、跨省流动。

3.控制变量

在分析、比较流动人口与本地市民以及不同户籍类型的流动人口间的社会保障差异时,为辨识户籍、流动时间、流动区域与因变量的独立关系,必须同时控制可能影响社会保障的其他因素,包括个体自身的发展能力(如年龄、性别、民族、婚姻状况、受教育程度),劳动就业状况(如行业、职业、单位类型、收入),流入地公共环境、政策、服务等方面对流动人口的接纳态度与程度(如流入省区、流入地人均保障财政支出比例及人均GDP)。

(三)研究方法

数据分析包括描述性分析和模型分析。前者包括单变量分析和相关分析,分别描述流动人口与非流动人口、不同户籍类型的流动人口等次样本的特征。在此基础上,进行推断性统计分析,比较、探讨在其他条件相同的情况下:①流动人口与本地市民在社会保障方面的差异;②不同户籍类型的流动人口在社会保障方面的异同;③个体和宏观因素对流动人口社会保障的作用。回归模型的选定依赖于研究目的和数据结构。在本章的三类因变量中,第一类是三个取值为0或1的二分类变量,可采用Binary Logistic模型;第二类为计数变量,属于Poisson分布,需要采用Poisson回归模型;第三类是介于[0, 100]的因子得分,即社会保障综合指数,可采用OLS线性回归模型。

本章分析的数据包含个体、地区、省区三个层次的数据,应采用适合这类数据的多层模型。作者在其他文章中曾经详细讨论过多层模型的原理与优势,这里不再重复。本章将地区作为第二层,个体作为第一层。由于模型分析直接控制流入省区,故不将其作为一个独立的分析层次。

系数的随机化依赖于理论的指导。当个体特征对因变量的作用不因群体而异时,随机截距模型就可以满足多层结构数据的要求。其等式为

yij=(γ00+γ01G1j+γ10x1ij)+(δ0j+εij

该等式包括两个部分:前一个括号中的成分表示固定效果,后一个括号中的成分表示随机效果。其中,γ00代表总平均值或总截距,是固定参数;γ01是地区系数,为G1j的直接函数;γ10x1ij的系数,代表个体因素对因变量的影响,但其作用不因群体而异。δ0j代表地区层次的随机变量,是j地区的截距与总截距之间的距离;εij是个人层次的随机变量,即分布于j地区的i个体到该地区截距的偏离。正是由于随机变量δ0j的存在,该方程式才成为多层模型。

这个二层模型也称“仅有截距模型”。其成立必须具备以下条件:①δ0jεij相互独立,互不影响;②δ0jεij呈正态分布,均值为0,方差分别为τ0j2(群间变异)和σ0j2(群内变异); ③σ02在所有地区都是相等的,而τ0j2不必相同(若τ0j2相同,则成为普通模型); ④covδ0j; εij)=0。

该模型将因变量解释为个人发展能力和社会经济状况及地区背景的函数。yij是因变量,衡量j地区i个体的社会保障水平。δ0j代表未被观察到或无法观察到的地区层次的随机变量。该变量为同一地区内所有的个体所共有。正因如此,同一地区的个体结果相互关联。随机变量的大小使我们得以估算地区环境对个体社会保障水平影响的大小。