简洁是网络软件的一大特征。虽然国外很出名的在线分类广告系统Craigslist的底层Perl开发代码就有10万行,但是它的界面看起来非常的简单。Craigslist看起来比报纸的分类广告要呆板一些,都是简单的文字标题。但就像分类一样,人们就算完全不懂网络也能够使用Craigslist。它是众多允许用户上传个人内容的网站之一。
Craigslist非常吸引用户,据网络流量测量公司Alexa的数据显示,Craigslist的浏览用户平均浏览20个页面才离开。Craigslist平均每月新增2000万个广告,6000万个论坛帖子。在Alexa的全球网站排名中,Craigslist名列第40位。
Craigslist首页
虽然像eBay、Google、微软和雅虎等都进入了在线分类广告系统领域,但Craigslist的商业模式使得它仍然一枝独秀,保持2200万到2300万美元的年收入。
伟大的网络软件不只是吸引流量。其中一个决定性因素是它能带来创新、新功能,或者说会为数百万用户带来全新的服务。
搜索就是这样,并且不少用户认为创新方面首推Google。但Google并没有发明搜索的关键特征,这些特征是:对整个网络进行索引,以并行方式进行访问并非常快速的把结果反馈给用户。虽然所有这些都与Google密切相关,但首先体验这些特征的是Digital Equipment公司的AltaVista搜索服务。
在1995年AltaVista推出之前,已经有若干搜索引擎,它们分别是Excite、Infoseek和Lycos。当初,所有搜索引起都面对网络几乎不可预知的屏障:它究竟有多大?并且捕获某个网页内容的索引还与索引完成的时间息息相关。
AltaVista首页
早期的搜索引擎利用网络爬虫程序来访问URL,通过它来抓去网页的页眉和标题,并把这些信息进行组织后存放到中央服务器。但网络爬虫在对某个站点发出请求后要等几秒才能收到响应。最理想的情况下,搜索引擎一天可以完成对数万个网站信息的收集。而12到14天之后,搜集到的信息一定程度上就会“过期”。此外,当爬虫访问后网页也有可能会改变,而且它也会错过部分网页。所以对于这时期的网络爬虫来说,百万级网页已经是极限。
Digital的先驱,现任职于Google的Monier后来开发出了多线程爬虫Scooter,它运行在先进的64位Unix服务器上。Scooter在ping了某个站点后不必等它响应并继续ping其它站点,它会跟踪每个调用并作为一个独立的线程进行响应。其它的爬虫程序一次只能处理某个站点,而Scooter一次就能访问上千个站点并收集相应的信息。Scooter不但能收集到页眉和页面,还能够收集到完整的网页。Monier表示,AltaVista对网页的索引首次覆盖到整个网络。
Scooter首次爬行活动就找到了1600万个网页,当时来说是个非常惊人的数字。而在两个月后的第二次爬行找到了2500万个网页。从AltaVista可以折射出网络的快速增长。据Netcraft 4月的调查显示,现在全球共有1.14亿个活动站点,并且每个站点都有成千上万个子网页。
AltiVista的搜索页面可以到这里访问。
|