一、调查背景及目的
为了更好地了解、利用互联网络,掌握我国互联网络上网计算机数、用户人数、用户分布、信息流量分布、域名注册等方面情况的统计信息,中国互联网络信息中心(CNNIC)每半年实施一次中国互联网络发展状况统计调查。该调查采用计算机网上自动搜寻、网上联机调查和网下抽样调查等方法进行。为了使调查结果在更具科学性的同时,又具有可操作性,在第七次调查方案的设计阶段,我们在同网络界、统计界的专家进行了多次研讨后,确定了第七次统计调查方案,并专门组织了由中科院数学与系统科学研究院冯世雍研究员、北京广播学院柯惠新教授、中国人民大学倪加勋教授、北京大学孙山泽教授和国家统计局国际统计信息中心郑京平主任等五人组成的方案专家鉴定组,召开方案评审会,再次对抽样方案进行了严格深入的讨论,并从理论上进行了论证。专家鉴定组的《鉴定意见》如下:
中国互联网络信息中心(以下简称CNNIC)以估计全国和各分省网民人数和结构为主要目的的基础调查抽样方案总体界定明确,考虑到网络调查的特点,以全国电话网络和全国普通高校为抽样框抽样思路科学,可操作性较强;对全国总体和各省子总体的推断方法正确,能够在合理的置信度和精度要求下达到估计全国网民和各省网民人数和结构的主要目的。
此方案的设计主要特点有:
1、抓住了主要矛盾,分别考虑了两个最主要的子总体的不同抽样问题,采取逐级事后加权的方法进行汇总,从而使复杂问题得到了合理的简化。
2、鉴于抽样设计所需的基本抽样框资料(如各地区的住宅电话数目)难于获取的现状,设计利用省级资料建立了预测模型,用来估计各地区的住宅电话数目,在实际情况下不失为一个解决问题的可行方法。
3、各省样本量的估算参照了以往调查的结果,使得在满足各省估计精度的条件下,尽可能地节省了调查经费。
总之,该用于全国网民基本情况抽样调查的抽样方案,在设计中突破了若干难点,其设计思路具有一定的开创性和启发性,是科学性与可操作性相结合的一个高水平的方案。
专家鉴定组组长:冯士雍
2000年11月27日
(鉴定组成员名单另附)
-------------------------------------------------------------------
二、网下抽样调查方法简介
(一)调查总体
本调查的目标总体有两个,一是全国有住宅电话的6岁以上的人群(总体A),拟采用电话调查的方式,样本对各省和全国有代表性;另一个总体是全国所有高等院校中的住校学生(总体B),拟采用面访的方式进行调查。由于时间和费用方面的限制,样本只对全国和按有关指标所分的各层有代表性。在对全国结果进行推断时,将两个子样本的统计量应用加权公式进行汇总。该调查的目的是了解目标总体中上网的人数及其构成、特征等宏观情况。
(二)总体A抽样方案的设计原则
本抽样设计主要按照科学性和可操作性相结合的原则来考虑,因此我们对目标总体按省进行分层。
◇抽样指标的确定:
从全国的情况来看,各省的城市住宅电话与乡村住宅电话的比例差异很大,由于城市与农村家庭的平均人口数差异很大,所以在确定各省样本量以及用各省数据推断全国时,我们考虑的指标是"拥有住宅电话的人数(或称住宅电话覆盖的人数)";我们拟采用该地区的"住宅电话数目"作为抽样指标。为了得到地区"住宅电话数目"的近似估计,拟借助省一级的"住宅电话数目"与有关的经济、人口指标建立的回归预测模型,再利用地区一级的有关经济、人口指标的值来计算。
◇样本量:
为了保证目标比例估计值的精度,在95%的置信度下,每省的样本量为2020时,对全国网民人数估算的最大允许绝对误差不超过0.28%。
◇省内各地区的抽样方法:
采用PPS抽样方法。
第一步:用PPS法每省抽取5个地区(此处的地区包括地级市和地区行署,每个地区下都包含城镇和乡村,为不引起歧义,以下简称为地区),在地区少于五个的省中,各省的样本量在各地区中的分配与各地区的估计住宅电话成比例。
抽取地区的方法:在各省中抽取地区,根据所确定的入样指标"住宅电话的数目",按照PPS抽样法,使每个地区被抽中的概率,等于该地区"住宅电话的数目"与该省"住宅电话的数目"之比。利用EXCEL软件产生0-1之间的均匀分布的随机数,根据随机数落在各地区对应累计百分比的范围,抽取5个地区。如果一个地区被抽到两次以上,则该地区样本量相应加倍。例如:某地区被抽中一次,样本量为404个,如果该地区被抽中两次,则样本量为808个。
第二步:获得抽中地区的所有电话局号,根据该地区的局号数和样本数确定平均每个局号下需抽取的电话号码数。电话号码中除局号外的后四位或后三位数字,由随机产生。
第三步:确定抽取调查对象,在电话拨通后,符合条件的网民即为调查对象。
◇全国加权方法:
对全国的推断采用对各省的调查结果进行事后加权处理的方法。
(三)总体B抽样方案原则
◇样本量:
取置信度为95%,最大允许绝对误差为1.8%的情况下,非常简单随机样本所需的最小样本量约为3000,取设计效应为2,总样本量为6000。
◇样本抽取方法:
确定在全国抽取120所学校,每所学校调查50名学生。为提高抽样精度,按学校的性质、规模、等级等指标把大学分为6层,每层的学校数量不同,因此每层的样本量也不等。再根据该校的特点确定本科班和研究生班的被访班级数,两者共选取10个班级。在每个班级中随机抽取5个住校的大学生进行访问。
通过以上方法确定了调查对象后,对有家庭电话的住户进行电话访问,经过事后加权得出总体A;并对在校大学生进行面访,推断出总体B(住校的高等学校学生),最后将这两部分调查结果综合加权计算以后可以近似推断各省的情况,汇总后即得到中国网民的总量、相关特征、行为特点等数据。来源:CNNIC
|