【eNet硅谷动力消息】 “搜索”这个词,是伴随着Google的发展而为大众所知的。在互联网的发展中,是Google结束了以Yahoo、AOL为代表的门户阶段,把互联网和全球网民带入到了搜索时代。我们对搜索的理解半径几乎是由Google的工程师们划定的,这就是面向个人的互联网搜索服务。在这个范围内,Google极大地丰富和完善了互联网搜索的服务内容和服务质量,公司也创造的快速发展的神话。目前股票市值已经超过微软,成为新经济时代新的霸主。它的成功,这进一步强化了人们对搜索的传统认识,那就是在Google所提供服务的范围之内。
但按Google定义的传统的“关键词”搜索的模式,及面向个人用户的搜索服务,经过这些年的飞速发展,这个领域的服务和市场已经接近扩张的边缘。于是,Autonomy、Google、Yahoo、微软的等国际巨头,一起把未来竞争目标所定在企业级搜索市场上,企业级搜索市场也迅速扩大。但尽管这么多有影响的公司进入,由于企业级搜索的技术门槛较高,并没有出现个人搜索市场上那种群雄争霸、烽烟四期的局面,百度去年甚至还退出了企业搜索市场。
当前企业信息管理的难题所在
相对Google、Yahoo等主要面向互联网个人用户的服务而言,企业级搜索,主要面向企业级的高端用户,满足企业生产经营中需要的企业内外的各种介质、格式的信息,进行挖掘、处理、应用等服务。企业用户对信息的需求不仅仅限于简单的查询结果,而是结合搜索、数据库查询、语义和句法分析、分类和聚类、相关性分析等技术,整合现有的信息资源,提炼出具有商业价值或社会价值的数据支持。
从企业的日常经营活动来说,进入信息网络时代后,世界变得平坦了,企业的情报和信息收集处理工作已经成为几乎每个人都要进行的工作。使用Google、baidu在互联网上为企业搜集信息,已经成为公司职员们很重要的日常工作。
互联网上的信息,尽管我们个人常常觉得达到了几乎无所不有的程度,但数字表明,企业发布到互联网上的信息只占信息量的1%-2%,而98%以上的信息是存储在企业内部的。对于个人而言,互联网的海量信息,似乎可以让我们无所不知,但对于企业来讲,目前互联网上的信息是远远不够的。
单就企业内部而言,据调查显示,企业内部数据在以每年200%的速度增长。这些数据中,除了20%的数据是以数据库的形式存储外,其它的80%是均是网页、各种格式的文件、邮件和图片等非结构化的形式,它们散落在企业内计算机系统中的各个角落。统计显示,企业网络里超过80%的信息是非结构化的信息,80%里面不到10%的内容是在网页里找到的。其它80%的内容可以是几百种文件格式中的一种格式,不同的应用程序和储存库,使用不同语言,受不同级别的安全模式保护。这些数据总量远远超过了互联网上信息的总量,而这些信息靠常规的搜索引擎是没法搜索到的。企业80%的员工平均每天在不同的应用上搜索必需的信息,都要浪费30分钟的时间。
这些80%的数据之间只有很少部分是建立了关联关系的,可以从一个数据找到另一个数据。绝大多数是没有任何链接关系的。很多企业以前一直以数据库方式管理企业的各类经营信息,但随着海量数据的增加、文件格式类型的多样化,数据收集、处理、检索工作的日常化,传统的、以把数据进行结构化为原理的数据库管理方式已经远远不能满足企业的需要。海量的信息的涌现,要使企业的数据达到数据库要求,而需要完成的标引工作,变成了没法完成任务;另外信息的各类格式和类型的多样化,如视频、音频、邮件、不同语言的文档、不同格式的图片等等,如果这些内容全部进行数据库管理,也将使数据库的建立变得难以承受的庞杂。
另据统计,当今,80%企业信息未能系统地应用到业务过程里面。指望员工花费很多时间去为可能有用的文档进行分类或贴标签是不切实际的。必须有一种新的信息管理方式,可以管理、检索、整合与其专业领域相关的大量的公司数据。这种新的信息管理方式,与传统的以个人用户为主的搜索引擎、文档管理工具或数据库查询工具不同,它不仅需要能访问数据,而是要将各种内容和格式的数据替人管理起来,以最方便的形式供人们使用。
企业级搜索并不是个人搜索引擎的升级版
企业存在的上述问题,代表着庞大的企业级市场需求,很早就引起了技术先进的国际巨头的注意。来自英国剑桥的Autonomy公司、Google、微软等纷纷进入这个可以预见的、互联网领域的下一个金矿。基于目前的技术发展成就和未来的发展前景,这些公司不约而同地走上了打造一个可以满足企业生产经营需要的、专门的企业级搜索平台道路上来。
作为最早进入这个领域的Autonomy公司创始人、英国剑桥博士麦克林奇发现,打开企业级搜索这个金矿的钥匙,就是非结构化数据的处理技术。如果能够彻底解决非结构化数据的处理问题,企业面临的上述困境将迎刃而解。而且这将产生一个完全不同于目前流行的搜索引擎的全新的企业级搜索平台。
具有深厚基础数学理论研究传统的剑桥大学给了Autonomy收获希望的土壤,他们在18世纪的数学家贝叶斯概率论和信息论的创始人香农的理论中找到了改变世界的灵感。剑桥大学的专家们结合贝叶斯概率论和香农信息论的有关理论,创造了独特的模式匹配技术。这个技术的产生,为解决非结构化数据处理带来了堪称神奇的效果。
简单地来理解这个技术的原理是,把文本中的字词看作是抽象的意义符号,然后对其中出现的特定文字和概念的频率,来判断该文本与某个观点和概念之间的相关性。也就是说,一个文本所具有的主题,是和一些概念出现的频率有关。由此,可以判断一个文本的主题,并将不同主题的文本进行自动的处理,建立各种类型的关联关系,最终完全达到把这些信息结构化的效果。
通俗地说,Autonomy的技术可以“读懂”文本的内容。这个技术的突破,使Autonomy公司获得了100多项专利,为信息处理做出了革命性的贡献。因为是基于概率论和信息论来判断文本的主题,所以这项技术超越了具体语种、语言格式,有史以来第一次让计算机可以自动理解来自文本文件、网页、电子邮件、声音、视频、文档,以及任何人们感兴趣的结构化和非结构化信息。
基于这个技术,Autonomy开发了核心产品IDOL(智能数据处理层Intelligent Data Operating Layer),并以IDOL为基础开发了一系列产品,这些产品提供的服务是开创性的。例如,可以同时以多语种和任意信息格式对内容进行搜索,不受信息存储位置的影响,并能够实时向客户提供自动摘要和相关链接;支持任意信息片段的检索,如以一句话、一段文字或整个文本作为搜索条件,每个结果都可以自动生成相关内容的链接;可以独立于特定的语种,从而可以对任何语种信息和多语种进行跨语种概念抽取等等。
这些功能的为企业的管理带来了非常神奇的作用。比如,人力资源部门,可以在一个称心的员工辞职后,把他的简历作为检索条件,找出一个和他完全一样的新人来。
此外,IDOL还在自动化、准确度、语言无关性、学习能力、跨语言功能、对象格式等方面取得突破性的进展,全面满足了企业在非结构化信息处理方面的需求。
如IDOL可以处理跨越语种的任何类型的信息,并提供高扩展度的组件,这些组件可以自动整合成300多种内容格式,包括不同语种的视频、音频。
由于能够对概念进行理解和匹配,IDOL不光可以实现自动超链接、自动根据上下文环境总结等内容操作,还可以实现诸如自动分类、自动聚类等分类操作,以及自动建立档案、社区与协作、专业技术标识、自动信息推送等个性化操作,乃至实现对音频、视频内容的概念总结及信息检索。以此为基础,IDOL还引入了大量旨在革新搜索结果列表呈现方式的个性化应用,诸如二维岛图、二维趋势图以及三维立体图等图形化搜索结果呈现方式。
这是都是传统的搜索引擎根本没法做到的。
搜索市场的下一个金矿
目前世界上的最主要的企业级搜索服务提供商中,Autonomy稳居第一位置,市场占有率达到30%左右,去年又收购了原来位于第二位的Verity,市场地位进一步扩大和稳固。
目前Autonomy的用户已经包括世界500强中的300家企业。此外还有像国际奥委会、美国国土安全局、法国MOD、意大利内务部、瑞典国防部、英国国防部等重要机构采用Autonomy的软件服务。
2006年第四季度,在2005年收购Verity以及强劲有机增长的推动下, Autonomy的收入和利润均出现创纪录的增长。这一年中,处于领导地位的组织,如Bloomberg、HP和GSK等,都已做出决定将Autonomy定为自动处理非结构化信息的标准。不仅如此,同期Autonomy的OEM业务也有了重要增长,在这一年里签下了为数众多的业务订单,业务对象包括Oracle、EMC、Hyperion、Cisco、IBM、HP和Matrix One等等。另外,Autonomy已经与全球多个政府部门、国防及情报机构签订了合同,其中包括美国、法国、中国、匈牙利、荷兰、意大利、新加坡、英国、西班牙和加拿大。
同时Autonomy在全球发行了基于IDOL的K2-7,进一步扩展了Autonomy IDOL基础结构的应用。同时,Autonomy还宣布推出下一代企业搜索引擎并决定引入智能Ant技术。由于上述举措,在整个2006年,Autonomy全年收入增长161%,全年营业利润增长275%。
“作为基于语义计算机技术的领导者,Autonomy的技术迥异于竞争者的技术。”英国《金融时报》在1月26日一篇文章中称,“Autonomy的市场很可能会保持增长态势,短期内几乎没有竞争者可以与之抗衡。”
目前,Google、Yahoo、微软、IBM都非常关注的企业级搜索市场。去年三月Google推出了新版的企业级搜索软件。Current Analysis公司的高级分析师Robert Lerner认为,Google公司主要是依靠消费者对其品牌的高认知度来慢慢向企业搜索市场渗透的。其在企业搜索市场上还是落在了专业企业搜索厂商如Autonomy公司的后面。 Lerner接受vnunet新闻网采访时说:“Autonomy公司运作非常好,而且他们比Google公司更了解企业搜索市场。”除了这些公司外,去年,甲骨文公司也推出了Oracle Secure Enterprise Search 10搜索软件。
在中国市场,Autonomy同样取得令人瞩目的成就。自1993年进入中国市场,Autonomy作为企业级搜索的启蒙者和倡导者,不仅为中国企业的信息化建设做出了贡献,也成为国内最主要的企业级搜索软件供应商。
去年Autonomy就在中国市场一口气推出了基于IDOL的K2-7、智能Ant技术、IDOL7.0、Ultraseek5.7、呼叫中心软件etalk等一系列新产品、新技术。今年,Autonomy还将考虑在中国市场引入企业桌面搜索、主要负责为实时的企业搜索管理提供技术支持的Aungate以及主要负责商业流程管理的Cardiff等产品线。
不仅如此,伴随紧锣密鼓的产品发布,Autonomy还广泛在业界展开合纵连横策略,前后与百度、中移动、北京网通、和记黄埔等展开合作,范围涉及视频搜索、呼叫中心、企业级搜索、手机搜索等多种领域。
近年来,Autonomy已开始向为数众多的机构提供企业搜索技术,其中包括湖北移动、江苏移动、和记黄埔、银监会、铁道部、中保财险、中国日报网站、中海油、中国网通、中央电视台、中国移动等,范围涵盖了政府部门、公共服务部门以及金融、医药、电信、能源、网站搜索等众多领域。最近的一个案例是北京宽带网的智能搜索引擎。
北京宽带网是中国网通(集团)有限公司北京分公司的门户网站之一。Autonomy智能信息挖掘平台可以对网通网站内海量的信息进行自动地信息处理,并对绝大多数形式的信息、文本或基于语音的非结构化或结构化内容进行理解。同时,系统内所有的内部操作及处理几乎都可以彼此互联。另外,改造后的北京宽带网还具有了个性化的分层服务功能。所谓个性化的分层服务,就是通过分析人的兴趣爱好,提供相应的信息资源,并且可以根据行业的特点更新、定制各类服务模型。值得一提的是,北京宽带网上的数据平台还整合了Autonomy在中国市场新近发布的核心智能信息处理层(IDOL)的最新版本—-IDOL7.0。
在全球的企业级搜索市场,Autonomy公司的服务可谓是一只独秀。这主要是由于Autonomy独特的语义分析技术。但作为全球搜索巨头的Google、Yahoo、微软绝对不会善罢甘休,包括甲骨文等传统数据库供应商,也都在觊觎这个利润丰厚的市场,日前传出了Google和IBM联手进军企业级搜索市场消息,看来这些昔日互相竞争的巨头为了争夺市场甚至在走向联合。相信眼前只是大战前短暂的安静。
【责任编辑 毛井井】
|