美国政府的超级搜索系统
2月中旬,美国《基督教科学箴言报》以“美国计划大规模数据扫荡”为题,披露国土安全部正在研发的鲜为人知的超级信息系统“ADVISE”,这个系统能深入网站、邮箱、论坛、博客和数据库,通过将搜集的海量数据与政府信息及情报的比对综合,探寻特定对象的活动模式。报道称,ADVISE的一部分已投入使用,并几次在挫败恐怖袭击中发挥作用,其他部分也在紧锣密鼓的研发之中。 在英语里,ADVISE是“建议”、“劝告”的意思,但这里它是6个英语单词的缩写,即分析、分发、可视化、洞察和语义增强。这使该系统的涵义和作用一目了然——对信息进行收集、提炼、筛选、分析,并从中总结出某种活动特征。与传统信息搜集分析系统相比,ADVISE具有三大特点:超大的规模和搜索范围;公开和秘密信息综合的平台;“数据挖掘”技术的突出应用。美国安全部门因此视其为情报能力的一次“突破”,并地“数据挖掘”技术在情报领域的应用前景充满希望,而美国民众则担心它将进一步侵害个人隐私。目前推动该系统的最大动力和阻力,恰恰来自这两个方面。 ADVISE的搜索范围之广令人咋舌,举凡电子邮件、博客甚至公司金融记录,几乎囊括所有在线信息,换言之,ADVISE的搜索范围其实是无限的。据介绍,ADVISE用储存信息的空间高达1千的5次方,如果将单位信息的体积比作一美分的硬币,那么这些“硬币”集合体的高度将是纽约帝国大厦的两倍,不少专家因此将ADVISE称为目前最大规模的“公共信息仓库”。 公开信息并非ADVISE的唯一信息渠道,如前所述,ADVISE运行的一个重要环节,是将它搜集到的各种资料与美国政府掌握的信息——包括CIA通过秘密手段获得的情报和FBI等部门掌握的犯罪记录和执法档案——进行比对综合,这使它超越了一般意义的信息搜索系统。美国媒体披露的一份国土安全部内部报告显示,ADVISE的终极目标,是“为所有联邦、州、地方一级安全部门提供即时交流信息和互助合作的平台,以便分析和采取行动。” “数据挖掘”技术,是ADVISE系统的核心 “数据挖掘”也称“知识发现”,其英文原意为“数据淘金”,意指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。网络时代,信息过量和信息失真成为普遍现象,人类获得的数据越来越多,而有用的知识和信息并没有同步增长。人们不得不考虑:“如何才能不被汹涌而来的信息所淹没,而是从中及时发现有用的知识、提高信息的有效性和利用率?”“数据挖掘”技术就诞生在这个“信息爆炸而知识贫乏”的背景下,它被视作“继网络之后的下一个热点”、“人工智能领域的突破方向”,在著名咨询机构Gartner集团的调查报告中,数据挖掘被列为“将对产业发展产生深远影响的五大关键技术”之首。 “数据挖掘”技术首先在超市、银行等商业领域获得应用,NBA球队普遍将之用于临场指挥则是一个比较典型的例子。出于同样的理由,美国情报安全部门也对“数据挖掘”技术寄予厚望,借助这一技术在ADVISE系统中的应用,国土安全部不仅要完成寻找恐怖分子的蛛丝马迹、查找和过滤网上关键词等“初级”任务,还要用它来确定恐怖分子的主要行为模式,甚至研判他们的动机和意图。国土安全部希望,当某个网站的访客突然增多、或者某个节点上的流量突然增大时,它能够迅速判断出隐含在背后的是恐怖分子在策划阴谋,还是普通网民在进行一般性讨论。要做到这一步,没有“数据挖掘”技术的支持是不可想象的。 在提升信息和情报能力方面,“数据挖掘”技术所展示的前景对美国安全情报部门产生了极大的诱惑力。美国国会总审计署2004年的一份报告称,“数据挖掘”所蕴涵的“系统性自动获得有价值信息”的能力在发现恐怖威胁方面正扮演越来越重要的角色,将近200多个美国政府项目涉及“信息挖掘”技术,其中明确以反恐为目标的在14个左右。显而易见,“数字挖掘”技术的应用并不局限于反恐。(安吉)
返回