配色: 字号:
美国大数据研究与应用
2022-05-07 | 阅:  转:  |  分享 
  
美国大数据研究与应用

胡经国





为了从资源丰富的大数据中获得最大效益,美国奥巴马政府于2012年3月29日推出了大数据研究与开发计划。在此基础上,美国又于2016年5月发布了《联邦大数据研究与开发战略计划》以下简称计划)。其目标是对联邦机构的大数据相关项目和投资进行指导。该计划主要围绕代表大数据研发关键领域的七个战略进行实施,包括促进人类对科学、医学和安全所有分支的认识;确保美国在研发领域继续发挥领导作用;通过研发来提高美国和世界解决紧迫社会和环境问题的能力。该计划

利用新兴的大数据基础、技巧和技术来创造下一代能力。计算和数据分析的进步,将提供新的抽象概念来处理复杂的数据,并且能够简化可扩展性和并行系统的编程,与此同时还可以实现最大的性能。计算机科学、机器学习和统计领域的根本性进步将促进灵活而迅速响应的和预测性的数据分析系统的发展。深入研究众包、公民科学和集体分布式任务等社会计算将有助于人类实现可能超出计算机能力范围的任务。数据交互和数据可视化的新技术和方法将强化人类数据的联系(接口)。

支持大数据研发,以便更好地探索和理解数据和知识的可信度,实现更佳决策,促进突破性发现并且采取有信心的行动。在数据驱动型决策中提高透明度需要提供技术和工具支持,包括可以在决策过程中显示详细审计信息的工具。另外,还需要对元数据框架进行研究,以保证数据的可信性,包括记录上下文和语义数据。在使用机器学习的数据驱动型决策和发现系统时,跨学科研究是必要的这样才能研究清楚如何才能最有效地利用数据来支持和提高人类的判断力。

建立和加强对网络基础设施的研究,使创新可以为机构使命提供支持。共同的基准、标准和指标对于一个运作良好的网络基础设施生态系统来说是必不可少的。参与式设计也是不可或缺的,它可以被用于优化基础设施的实用性并且能将其影响降到最低。教育和培训对于个人能力的构建来说也是至关重要的用户必须得到正确的教育和培训这样才能充分利用提供给他们的工具。

通过促进数据共享和管理政策来提高数据的价值。大数据的规模和异质性为数据共享带来了巨大挑战因此需要鼓励共享源数据、接口、元数据和标准,鼓励相关基础设施提高互操作性,提高现有数据的可访问性和价值,并且增强结合数据集进行新的分析的能力。研究人类数据的联系(接口)是必要的研究可以支持灵活、高效和可用的数据接口的发展,适应不同的用户群体的特定需求。

了解大数据的收集、共享和使用方面的隐私、安全和道德问题。隐私、安全和道德问题是大数据创新生态系统中的关键因素。对于保护隐私和澄清数据所有权来说,新的政策解决方案可能也是必要的。当高度分布式的网络在大数据的应用场景变得越来越普遍时,技术和工具也需要被用于辅助评估数据的安全性和数据保护。国家必须在大数据中提倡道德观念,确保技术不会传播错误或对某些群体造成不利(无论是明示或暗示)。探索道德问题的大数据研究,将使各方利益相关者在关注大数据创新的效用、风险和成本的同时,更好地考虑价值和社会伦理。

改善全国的大数据教育和培训局面,以满足对更广泛劳动力深层分析型人才和分析能力日益增长的需求。制定一个全面的教育战略是必要的这可以满足大数据领域对劳动力不断增长的需求,还能确保美国保持经济竞争力。随着科学研究领域的数据越来越丰富,科学家需得到机会进一步完善自身的数据科学技能。所有部门的员工和管理人员都需要参加各种培训,包括新兵训练营、专业研讨会和证书课程,以学习与工作相关的大数据知识。还需要开设更多的基础性大学课程和其他短期培训来帮助将更多民众改造成为具备数据能力的公民。数据科学训练应该通过在线课程、公民科学项目与中小学教育覆盖到所有人。作为大数据的策源地和创新引领者,美国大数据发展一直走在全球最前面。其中的

⑴、多年的技术沉淀和创新积累

首先是多年的技术沉淀和创新积累包括从计算机革命开始以来的硅谷创新力和影响力;以及一大批的领军企业,包括谷歌、微软、EMC、SAP、微软这样的巨头,也包括像Facebook、Splunk、Teradata这些创新公司硅谷精神和创新力量在美国大数据发展方面的作用,是任何其他国家在短期内无法复制和匹敌的巨大力量。

⑵、先后出台了一系列有关法规

而且,自上世纪以来美国国会和政府先后出台了一系列有关法规,对数据的收集、发布、使用和管理诸环节都做出了具体的规定。经过几十年的修改和完善,如今美国的数据、信用和隐私已经形成较为成熟的法律框架和道德规范。在2010年,美国国会通过更新法案,进一步提高了数据采集精度和上报频度,使得美国数据采集和汇聚体系更加成熟。

⑶、重视数据和应用数据的历史传统

美国企业拥有重视数据和应用数据的历史传统IT基础设施的完善,以及各种精准营销理论和实践美国都走在世界前列比如基于消费数据、信用卡数据挖掘的精准营销等还有电话、DM印刷品和邮件营销在美国也都很兴盛随着互联网的兴起,谷歌、IBM、Yahoo等美国企业对基于网络的精准营销也是走在全球的前列。因而大数据最典型案例中,就包括传统企业沃尔玛啤酒尿布案例以及谷歌通过大数据分析成功预测流感爆发的案例等。

⑷、政府数据开放和支持力量

更加重要的是美国政府数据开放和支持力量。美国政府的数据开放一直是走在全球前列的尤其是在奥巴马政府签署《透明和开放的政府》这一文件之后。2012年5月美国数字政府战略的发布,更是提出要通过协调化方式,以信息和客户为中心,改变联邦政府工作方式,为美国民众提供更优的公共服务。其中的关键,就是政府必须保证美国民众可以随时随地通过任何平台或设备获取政府信息和公共服务。





美国直邮及直销(DM/MA)协会给DM的定义是:“对广告主所选定的对象,把印成的印刷品,用邮寄方法传达广告主所要传达的信息的一种手段。”DM除了用邮寄以外,还可以借助于其他媒介,如传真、杂志、电视、电话、电子邮件,以及直销网络、柜台散发、专人送达、来函索取、随商品包装发出等。DM与其他媒介的最大区别在于:DM是直接将广告信息传送给真正的受众,而其他广告媒体形式则只是将广告信息笼统地传递给所有受众,而不管受众是否是广告信息的真正受众。





美国最重要的数据开放平台,是奥巴马政府于2009年推出的联邦数据和国家资源库网站(Data.gov)也是美国开放政府承诺的关键部分。按照原始数据、地理数据和数据工具三个门类,截至2012年11月,它共计开放了388529项原始数据和地理数据涵盖了农业、气象、金融、就业、人口统计、教育、医疗、交通、能源等大约50个门类汇集了从家庭和企业能耗趋势分析到全球实时地震通知等,甚至还可以查询从好奇号火星漫步者发回来的数据中得知火星的天气情况。为了方便公众使用和分析数据,该网站平台还加入了数据的分级评定、高级搜索、用户交流以及与社交网站互动等新功能比如在其上提供的白宫访客搜索工具,不仅能够搜索到访客信息,还可以将白宫访客与其他微博、社交网站等进行关联,进一步增加了白宫访客的透明度。

为了更加方便民众使用,方便应用领域的开发者可以利用这些数据开发应用满足公共需求或者进行创业,该网站还汇集了1264个应用程序和软件工具以及103个手机应用插件。另外,它还发布了政府API索引,使得这些资源可以更加容易找到和便于使用。通过开放API接口,该网站让政府的信息和服务交付更加便捷也让公众和企业家在构建更佳政府、提升服务的过程中成为合作伙伴。美国政府也希望并且鼓励公众开发者、创业者和企业家能够积极加入进来,成为这一进程中的一部分。据报道有很多公司已经利用其上提供的气象信息来提供服务另外一些公司则基于其上的地理位置信息,提供基于地理位置的服务来盈利。

美国还和印度一道,对Data.gov实行了开源,把代码托管到GitHub上以供各国的开发者使用或者根据需要修改。通过构OGPL平台,提供开源的政府平台代码并且允许任何城市、组织或者政府机构创建开放站点美国政府可以进一步推动数据开放运动进程。美国政府还成立了数字服务创新中心,开发了Sites.USA.Gov帮助各机构建设即插即用型网站同时政府出台了移动应用程序开发项目,帮助各机构对移动应用程序进行规划、测试、开发和发布,确保更加安全和高效。

美国政府提出,数据是一项有价值的国家资本,应对公众开放,而不是把其禁锢在政府体制内。例如在美国www.fedspending.org上,公众能够逐条跟踪、记录、分析联邦政府每一笔财政支出。另外,美国政府数据开放也跟美国民众对于个人隐私和自由的重视和立法分不开的正如《大数据》一书所指出的,这和美国人用纳税人的钱收集的数据应该免费提供给纳税人使用观念也密切相关。



链接:GitHub

GitHub是一个面向开源及私有软件项目的托管平台,因为只支持Git作为唯一的版本库格式进行托管,故名GitHub。

Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。Git是LinusTorvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

链接:GPL

GPL(GNUGeneralPublicLicense,GNU通用公共许可协议,或GNU通用公共许可证),试图保证用户共享和修改自由软件的自由,保证自由软件对所有用户都是自由的。GPL适用于大多数自由软件基金会的软件,以及由使用这些软件而承担义务的作者所开发的软件。(自由软件基金会的其他一些软件受GNU库通用许可证的保护)。你也可以将它用到你的程序中。当我们谈到自由软件(FreeSoftware)时,我们指的是自由而不是价格。

GNU是一个自由的操作系统,其内容软件完全以GPL方式发布。





为了确保美国民众能够方便快捷地找到政府服务栏目,美国在各联邦政府层面实施了数字分析项目。这政府IT部门第一次摸清了公众都在网站上寻找什么信息,在哪里寻找这些信息,以及他们是否能够顺利地找到信息等情况。政府IT部门还对联邦政府网站在移动设备上的使用进行了优化,并且开发了移动应用程序,确保美国公民随时随地通过任何设备都能获取政府信息。例如,美国人力管理办公室开发的USAJobs应用程序,可以方便求职者通过移动设备查找和申请职位;交通部开发的SaferBus应用程序,可以让老百姓查询到公交公司的安全行驶记录,也可以通过手机提交投诉建议。

佛罗里达州迈阿密戴德县将数十种关键的县政工作和迈阿密市紧密联系起来,帮助政府在制定治理水资源、减少交通拥堵和提升公共安全等方面的决策的时后提供更好的信息支撑美国中央情报局的首席技术官格斯汉特在旧金山举行的一次讨论会上解释的大数据技术追踪恐怖分子和监控社会情绪的作用。汉特认为,就像可口可乐等消费公司借助数据分析掌握消费者习惯一样,中情局也通过大数据技术来寻找恐怖分子的踪迹。西雅图儿童医院通过应用可视化数据分析技术,有效减少了医疗事故,帮助医院节省了300万美元的供应链成本。而华尔街德温特资本市场公司则通过分析3.4亿微博账户的留言,判断民众情绪并且依据人们高兴时买股票、焦虑时抛售股票的规律来决定公司买卖股票的时机,从而获取盈利。这些都是大数据在美国各个领域应用的典型案例。





SaferBus应用程序向大众提供了一种有效的方式来查看和访问商业汽车运营商的安全性能包括大客车和公交公司。

在开放数据、创新驱动以及技术研发的支持下,美国大数据的研究和应用已走在全球前列。2013年5月,奥巴马政府更是宣布了大数据的研究和发展计划提出通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学和工程中的步伐,加强国家安全,并且改变教学和研究。根据这一计划,美国希望利用大数据技术在多个领域实现突破,包括科研教学、环境保护、工程技术、国土安全、生物医药等具体的研发计划涉及美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究局、地质勘探局等6个联邦部门和机构。在像斯坦福这样的大学里也开始开设诸如“机器学习”这样全新的课程,培养下一代的数据科学家。伯克利加州大学、迪肯大学等大学也专门开设了研究大数据的相关课程。如今,美国不仅是全球首个将大数据从商业行为上升到国家意志和国家战略的国家,也是启动数据科学家和面向未来的大数据人才储备最早的国家。

2013年2月27日,由TechAmericaFoundation(科技美国基金会)发布的一项新研究显示,87%的联邦政府IT官员以及75%的州政府IT官员都认为,大数据对政府工作发挥着立竿见影的实际作用。而由民意调查机构PennSchoenBerland进行的调查则显示,在受访的近200位联邦IT官员中,有83%的联邦政府IT官员都表示大数据解决方案可以帮助政府削减至少10%的联邦预算这些受访官员还相信,大数据还能通过改善医疗服务,创造挽救生命的奇迹,并且可以降低犯罪率提高生活品质。

美国商务部CIOSimonSzykman表示:(在美国)我们不存在挑战的领域之一就是我们生成数据的能力。我们生成数据的基本能力提升很大,从很大程度上讲,这一能力已超越了我们处理数据、管理数据和转移数据的能力。他认为如何管理数据,并且将数据从一点转移到另一点,将是美国政府面临的一大挑战。而对全球来说,如何加工数据,从数据中提炼出知识,将数据转化为生产力则都是最大的挑战。

5、美国大数据国家档案《透明和开放的政府》Data.gov。

大数据国家战略:发布《大数据研究和发展计划》成立大数据高级指导小组2012年3月29日白宫科技政策办公室通过对海量和复杂的数字资料进行收集、整理,从中获得真知灼见以提升对社会经济发展的预测能力大数据报告的7个重要结论

从各个知名互联网大公司向美国政府提供数据,到斯诺登爆料美国全球监听被证实,新时代数据的重要性可见一斑。在2014年1月17日,奥巴马曾就情报收集活动发表讲话,并且宣布实施一个为期90天的研究计划,奥巴马政府向白宫提交了出自这个计划的一份报告《大数据:抓住机遇,创造价值》其中明确表明大数据促使各级政府转型、大数据是新的国家资源等观点下面一起看中国经济网的有关报道。原文

5月1日,奥巴马政府高级官员向白宫提交了一份报告。该报告指出,大数据会改变我们的生活和工作方式,并且阐述了其将如何改变政府、公民、企业和消费者之间的关系。

2014年1月17日,奥巴马总统就情报收集活动发表讲话,并且宣布实施一个为期90天的研究计划。《大数据:抓住机遇,创造价值》这份报告,正是出自该计划。该报告由白宫顾问约翰波德斯塔牵头,带领一个由高级政府官员组成的工作组完成。

该报告聚焦于如何使公共部门和私营部门最大化利用大数据,从中获益,同时实现风险最小化。该报告也明确了大数据可能在促进经济增长、提高医疗和教育水平、让能源利用率更高效、使国家更安全等方面带来的机遇。该报告的一大部分篇幅专注于公共部门的数据管理,包括医疗保健、教育、国土安全等。总体而言,该研究报告有7个重要结论:

1大数据势不可挡

该报告称,大数据革命将会贯穿整个政府部门,而不仅仅是那些涉及科技任务的部门和机构。报告预测,之前没有广泛利用先进数据分析的部门和机构,拥有利用大数据重大机遇,从而更好服务公众。

2大数据促使各级政府转型

该报告强调,大数据的力量不会止步于联邦一级的政府,也将给各州和各市带来巨大变革。纽约市数据分析办公室和芝加哥的智能数据项目组都是很好的例子他们创造性地使用大数据改善了自身服务。

3《电子通信隐私法》需要变革

该报告指出,需要修改《电子通信隐私法》ECPA)。虽然该法获得了一些技术团体的支持,其中包括美国信息技术和科学委员会ITI)。“我们非常欣慰的是,白宫选择了这一报告,并依此为蓝本推进科技行业改革,即建立一个全国性的数据违法体系,并对《电子通信隐私法》进行变革”,美国联邦政府技术事务和公共部门高级副总裁迈克赫丁格如是说。

ITI的全球隐私政策部副总裁、法律总顾问耶尔温曼也响应了这个观点。“我们很赞同该报告把ECPA作为改革重点”他表示,ITI将继续倡导这一法令革新,以获得新的执法授权。

4一个定制的学习新时代

然而,保障隐私的基础在于教育,尤其是对儿童的教育。报告的作者注意到,未来几年,大数据在教学中将取得实质性突破。他们同时指出,处理和分析与学生有关的海量数据将会有利于促使个性化的教学方法。这种个性化的教与学将可应用于各种层次的教学中预计大数据教育将会得到总统倡议计划的支持。在未来五年之内,该倡议计划将把美国99%的学生通过高速宽带和无线互联网连接在一起。

5数据分析不是所有的开始也不是所有的结束

报告指出,尽管利用大数据预测分析是宝贵的利用资源的手段,但是它并不是一个单一的手段,还必须要尊重公民的自由和权利。作为一个必要条件,大数据分析的合法性应该得到保障但是要有别于刑事调查、保护隐私和个人自由权。该作者提到:为防止言论自由和结社权利的寒蝉效应,公众必须知道这类计划的存在、运转和效力。



链接:寒蝉效应

寒蝉效应ChillingEffect),政治、法律、传媒学等领域的新兴名词,属于负面效应。之所以使用寒蝉二字,是因为chilling的意思是“寒冷发抖”而噤若寒蝉的寒蝉二字较接近原意的概念,因此翻译成为中文时便使用寒蝉效应。由于广泛使用,现在只要是被上层权力阶级控制,造成下层阶级无法有效发表意见的情况,很多人都会用寒蝉效应一词。



6大数据是新的国家资源

同荒漠化土地逐渐被公认为国家资源一样,该报告将大数据也列为国家资源。因此,正如其他重要的资源一样,数据在存储的时候应该保证其安全,以便能随时提供给公众因为这能使得经济繁荣和社会稳定。在应用中,鼓励开放数据和发布有价值的数据集。Data.gov是联邦数据和国家资源库网站,该网站旨在保存和利用大数据。

7大数据需要投资和资源

6







献花(0)
+1
(本文系胡经国图书...原创)