2.1.4中国在线数据库发展状况
在线数据库总数为45598个。
已经拥有在线数据库的网站占全部网站的14%,约为33354个。48.3%的在线数据库隶属于企业网站,26.5%的在线数据库隶属于商业网站。 78%的网站拥有一个在线数据库,拥有3个及3个以上在线数据库的网站占11.7%左右。 1.各地区在线数据库及记录分布状况
网站的在线数据库主要分布在华北、华东与华南地区,三者之和占72.4%,西北、西南地区的占有比例较低,为8.8%。 从在线数据库记录地区分布看,华东地区的比重最大,占30.9%,其次为华北地区,占28.5%,第三为华南地区,占16.7%,西北、西南地区的总和占10%左右。 2.各种内容在线数据库及记录分布状况
在线数据库的主要服务内容为产品数据库,如粮油、医药、机械产品等数据库,在所有拥有在线数据库的网站中近60%是此类数据库,其它一些如科技信息数据库、报刊新闻数据库、政策法规数据库的占有比例大致在11%-15%之间。 从在线数据库的记录数量看,产品数据库占有62.3%的记录,其次为企业名录数据库,记录数占18.6%,科技信息库、报刊新闻数据库记录占有比例均不足3%。 3.在线数据库/记录更新状况
从数据库的更新看,目前记录的更新比例仍比较低,其中每周更新所有记录中1%-5%的网站占较大比重,大致占35%,另有20%的网站每周对记录的更新比例在1%以下。 从用户最常使用的产品数据库的记录更新看,每周的更新也主要集中在1%-5%之间,大致占41.1%,其次为10%-20%之间,占22.1%。 4.在线数据库收费情况
目前对在线数据库进行收费的网站比例占11.2%。商业网站中在线数据库的收费比例最高,为30%左右,其次为教育科研机构网站,为18%左右。 在线数据库的主要服务对象集中在个人与商业机构两部分,两者之和超过75%。
2.2指标解释
1. 在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。
2. 上述定义中的"中国互联网络"是指所有域名注册单位属于中国大陆的网站总和。
3. 在线数据库是指以Web为界面,提供公共检索的收费或免费的数据库。
4. 网站是指有独立域名的web站点,其中包括CN和通用顶级域名(gTLD)下的web站点。此处的独立域名指的是每个域名最多只对应一个网站"WWW.+域名",如:对域名sina.com.cn来说,它只有一个网站www.sina.com.cn,并非它有dailynews.sina.com.cn、mail.sina.com.cn……等多个网站。
5. 网页搜索是指对抽取的网站从其首页(WWW+域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。
6. 静态网页是指URL中不含?和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。
7. 动态网页是指URL中含?或输入参数的网页,包括:ASP,PHP,PERL,CGI等在Server方进行处理的网页。
8. 网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在HTML中的声明来判断的。因为大量国内的英文网页在其HTML 声明中都是简体中文。
9. 网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文件后缀定义标准参考MIME标准。
10. 网页的更新情况
网页的更新时间是指搜索到该网页的当日日期与该网页的最后更新日期之间的时间段。
(1)更新时间在一周内:网页在一周中得到更新的比率;
(2)更新时间在一月内:网页在一周以上、一个月以内得到更新的比率。
(3)更新时间在一月以外:网页在一个月内没有得到更新的比率。
2.3限制性说明
1.我国域名总数比网站总数大许多的原因:
1) 有域名不一定有相应的网站:
① 有的人或单位注册域名的目的仅是为了抢占,以免让他人注册拥有,而不是用于建立网站;
② 有的人或单位注册了域名还没来得及建立网站;
③ 有的人或单位注册了域名也建立了网站,但恰在本调查期间关掉了其服务器;
④ 有的人或单位注册了域名,只是用来提供mail,ftp,bbs等服务,并不需要建立网站。
2) 不同的域名有可能对应同一个网站,如:www.ourgame.com 和 gl1.cis.com.cn,则这多个域名对应的网站数按我们的规则只为1。
3) 由于此次对网站的定义是指"WWW.+域名"有Web服务,而有的网站的主机名并不是"WWW",则这类网站虽然存在,却不在我们的统计之列。
2.静态网页与动态网页的比例中动态网页数与实际情况相比偏小,这是由于:网上包含大量的动态网页,搜集到的网页只是网上动态网页的一部分。动态网页按照访问的方式可以分为两种:(1)通过点击超链,无需额外输入即可访问的网页;(2)必须通过输入内容才可以访问的网页。此次只搜集了第一种动态网页。一般而言,一个包含动态网页的站点上都会有大量的动态网页,且动态网页的内容质量相对静态网页低得多,因此大量的搜索引擎都只搜集有限的动态网页以保证其数据的质量。
|