我们处在信息爆炸时代,或者说处于信息海洋之中,并且这个海平面不断在上升。无数的报刊书籍、影视节目、电台广播,无数的网站网页、手机信息,让每一个人对信息都产生炫目感,甚至窒息感。从联合国教科文组织公布的有关数据来看,全世界每年出版图书80多万种,并且年均增长率为4%。但是在当今这样一个注意力经济时代,能够引起公众特别注意的书籍并不多。涂子沛的新作《大数据》(桂林,广西师范大学出版社出版,2012年7月第一版)就是难得的一本好书。 翻开一本好书,就像打开一扇瞭望新世界的窗口。这是一个悦读的过程,这种愉悦感不仅在于与新信息、新知识相逢,还在于与新观点、新思想相遇,更在于进入一个新境界。涂子沛先生是著名专栏作家,信息管理专家,先后毕业于华中科技大学、中山大学和美国卡耐基梅隆大学,现任美国一家公司的数据管理中心主任。在《大数据》这本书中,他以美国对数据信息的收集处理、挖掘使用,特别是数据开放实践为案例,深入浅出地阐述了正在到来的数据革命,已经、将要给政府、企业、社会带来的巨大变化。本人粗浅理解,大数据之大,体现在以下五个方面: 一、数据规模大容量。也就是指一般的软件工具难以收集、管理和处理分析的,通常以“太字节”(2的40次方个字节)为单位。美国国会图书馆所有纸质书籍的信息量为15太字节。美国普查局目前拥有2560太字节的数据,如果把这些数据全部用A4纸打印出来,需要5千万个标准档案柜才能装得下。美国政府目前约拥有848拍字节(1拍字节相当于1024太字节)的数据总量。截至2010年,人类拥有的信息总量大约是1.2泽字节(2的70次方个字节)。海量数据每时每刻源源不断地产生。谷歌首席经济学家Varian估计仅仅全球企业一年新存储的数据量就超过了7000拍字节。 二、数据技术大集成。在计算机网络技术的基础上,收集数据有射频识别技术,管理数据有最小数据集、关系型数据库、数据仓库,分析数据有联机分析、普适计算技术,展示数据有数据可视化技术,而最引人入胜的技术无疑是数据挖掘技术。数据挖掘是指通过特定的计算机算法对海量数据进行自动分析,探索数据背后影藏着的一系列关系、模式和趋势,换言之,它能够针对过去,揭示规律,面向未来,分析趋势。这是一把克敌制胜的利器。 三、数据应用大范围。实际上,这种应用是无限的。从对纽约街头抢劫案的分析到对恐怖分子的追踪,从对航班延误的预测到对矿难责任的追究,从对福利滥用的防范到总统竞选的策略,从市场分析到商务智能,任何一个领域、任何一个行业都离不开数据分析。麻省理工学院的布伦乔尔森认为,如果说显微镜把人类对自然界的观察推进到细胞水平,大数据将成为我们观察人类自身社会行为的显微镜。 四、数据发布大开放。开发数据或者说数据民主是作者的精心之笔。这也是此书最激动人心的篇章。从“序幕新总统的一天”到“下篇公民故事”,数据开放的主题像一条红线一直贯穿全书。奥巴马期望建立一个前所未有的“开放透明、公民参与、多方合作”的政府,他上任签署的第一份总统令,即宣布放松对总统文件的管制,签署的第一份、第二份总统备忘录分别是《透明和开放的政府》、《信息自由法》;上任不到二个月,就任命了美国历史上第一位首席信息官。当然,数据开放或者说信息自由之路并不平坦,在很大程度上是民间运动——软件开源运动和数据开放运动的结果。正是美国民间提出了公共数据开放的8大基本原则(数据必须是完整的;数据必须是原始的;数据必须是及时的;数据必须是可读取的;数据必须是机器可处理的;数据的获取必须是无歧视的;数据格式必须是通用的;数据必须是不需要许可证的)。从公共财政支出透明到白宫访客记录公开,到2009年5月联邦政府统一的数据开放网站(全面地开放政府拥有的公共数据)诞生,说明民主是一个不断发展的过程,数据权是一项基本的人权。数据开放更深层的意义在于,信息在社会自由流动,知识向大众自由流动,将最大限度地激发全社会的创新活力,从而推动社会的进步。雨果曾经说过,“你可以阻挡一支入侵的军队,你无法阻挡一种思想”,数据大开放是大势所趋。 五、数据管理大规范。美国联邦政府在数据的收集、使用、发布和管理上都形成了比较成熟的规范。其一,数据收集上的减负法则。如果没有信息收集许可证号,任何人都可以拒绝填报调查表;信息和管制办公室每年都必须编制年度信息收集预算,测算信息收集计划的社会负担。其二,数据使用上的隐私保护法则。其三,数据发布上的免费法则。任何联邦政府部门收集的数据,必须无偿与其他部门共享;如果法律没有明文禁止,同时还必须向全社会开放。其四,数据管理上的质量保证法则。数据质量要有标准,包括客观性、实用性和完整性;数据质量管理要有流程;数据质量要有救助机制,任何政府部门都必须建立应对公众质疑的机制和数据纠错的机制。 涂子沛先生的视野是开阔的。他立足美国,放眼世界,介绍了世界上其他已经建立数据开放网站的国家和地区。2011年9月美国等8个国家在纽约集会,宣布“开放政府联盟”成立。大数据时代的鲜明特征不仅在于云计算、语义网的普及推广,还在于越来越多的国家和地区、组织、企业,越来越多的人参与数据的提供、分析、共享。麦肯锡公司认为,数据已经成为基本的生产要素。在大数据时代,竞争将更加精细化、更加激烈。数据就是财富,就是核心竞争力,以至于数据兴则企业兴,数据强则国家强。得数据者得天下。数据开放将导致数据民主,导致公民社会的崛起与成熟。由于数据信息无处不在,人皆可得,创新将不再是少数人的专利。知识就是力量,数据信息就是力量,一个更加自由、更加扁平化、更加分权、更加自治的“网状的”大社会将逐渐形成。总之,大数据的大开放,将带来大创新,产生大知识,推动大发展,走向大社会。 《大数据》这本书不仅是一本介绍数据技术与统计知识的通俗作品,也是一本介绍公民权益的社会学著作,还是一本介绍宪政民主的政治学教科书。对于有着“差不多”习惯、“马虎虎虎”传统、“难得糊涂”理念的当代中国人,对于处在多方面转型的当前的中国,这是一本值得好好研读的政治启蒙读物。相信这本书对于引导中国穿过“体制式山峡”将提供十分有益的启示。 市局 黄祥云
|