分享

地球观测和大数据:创造性地收集、处理和应用全球信息

 Chanstar 2017-04-06

Spaceknow Analytics利用变化探测来勘查苹果新总部的建设情况


结合了位置数据(通过本地或联网设备收集)的遥感图像,大大增加了地理空间分析的复杂程度。


“几年前,人们觉得2000万条地理空间记录就称得上大量数据了,”AmigoCloud公司首席执行官拉吉·伯哈姆(Ragi Burhum)说,“但现在,以1秒为单位追踪仅仅10个传感器(比如汽车、智能手表等等),每年产生的记录就可以轻松超过3.15亿条。”


为了帮助实现大数据量级的地球观测,地理信息系统(GIS)和遥感领域以外的团队也越来越多地肩负起了弄清数据来源、数据管理和数据处理的挑战。


“GIS和遥感技能通常与打造可扩展系统的技能并无关联,”Planet Labs公司产品经理罗宾·克拉夫特(RobinKraft)说。


希望利用这类数据的人,应该准备好学习新的技能,或者聘请不同类型的员工。想要从庞大且复杂的数据集中获取价值,既要有对人/地关系的深刻了解,也要有使用一流工具的实际经验,这样才能成功。


“学习遥感和地理空间研究生课程的学生有一个明显的趋势,他们毕业时比以前拥有更强的定量分析能力和编程能力,”美国地质调查局(USGS)高级科学家托马斯·拉夫兰(ThomasLoveland)说。

美国宇航局/日本宇宙航空研究开发机构的GPM/GMI卫星传感器在2014年监测黑格比台风,这是大数据必须尽快具备可用性的一个例子


多年来,国防部和其他政府机构一直在利用遥感大数据获取信息。随着地球观测市场从国防领域进入私营部门,人们开始思考可行的商业模型。明确市场需求对行业发展至关重要。


“有三个方面的改进将有助于进一步发展该市场:1. 可用图像的增多;2. 自动化过程的改进;3. 分析的改进,”RS Metrics公司数据和分析主管亚历克斯·戴尔蒙德(Alex Diamond)说。


数据来源

遥感数据平台包括卫星、固定翼航空器和地面平台,它们可以配备光学(多光谱和高光谱)、雷达(合成孔径雷达)或激光(激光探测与测量)传感器。传统和新兴企业都面临着传输传感器数据、利用地面站网络、数据及时性和用户接入的挑战。遥感图像的价值与其时间戳直接相关,在某些领域,尽快将图像交付给那些最需要的人是一项非常强劲的业务。


拉夫兰说,欧洲航天局、USGS和美国宇航局(NASA)支持开放数据计划,使科学、资源管理和环保领域里的人“能够利用所需数据来解决问题,让他们用得起数据”。

澳大利亚Geoscience Data Cube把数十年来的卫星和相关数据来源整合成一个网格化数据分析环境


2015年,亚马逊AWS服务开始通过应用程序接口(API),提供Landsat8卫星的数据,这在获取公共卫星图像方面堪称革命性时刻。第一年,这些数据在全球范围内被请求了10亿多次。在AWS上提供Landsat卫星数据非常重要,原因有二:1. 通过API无缝下载图像是低成本、高回报的工作流;2. 让卫星图像暴露在开发者的视线中,他们以前可能没有意识到这类数据的存在。


开放数据是向分发卫星图像迈出的一大步。对于想要进入高收益率增长型商业市场(比如跟踪经济模式)的初创公司来说,他们缺乏可用的多光谱亚米级分辨率图像。


“虽然期望很大,但自从2007年DigitalGlobe公司的WorldView-1卫星发射以来,可用的甚高分辨率图像基本上呈线性增长,”戴尔蒙德说。


新兴的图像提供商正在拉低每像素的成本,但在建立图像库方面有成功也有失败,而且准确性和分辨率不及老牌企业。用于某些用途的图像数量日益增长,但完全渗透商业市场所需的大范围亚米级多光谱数据还不够多。


数据管理

遥感图像是复杂的数据来源,具有非线性、多尺度、异质性和高维数的特征。软件设计师在进行多尺度和N维数据建模时,必须综合运用图像和距离传感器定向、对象重构、图像和点云分离和结合处理以及3D等方法。


“Shapefile和Geodatabase不适用于这个量级的数据,试图使用传统地理空间软件的大多数机构很快就发现了这一点,”伯哈姆说。


对于分析地理空间大数据的任务,虽然现有的标准工具无法胜任,但敢于承担风险的人会获得回报。

IntelescopeSolutions公司利用机器学习算法和DigitalGlobe的卫星图像,来评估商业木材场的库存情况


“别怕用错了技术,要勇于尝试,”克拉夫特说,“例如,把GeoTIFF格式的遥感图像转换成(AWS)上的网络地图图块,这是并行开展后续操作的一种简便方法。低成本开源软件必不可少。质量很不错,而且在1000台云服务器上运行几小时、几周或几个月,也不会超出你的预算。”


云计算也许能解决数据管理问题,但数据处理和分析将需要富有创造性的新软件,来适应多种传感器和数据来源的独特特征。


数据处理

桌面图像处理专家总是利用机器学习算法(比如卷积滤波、最近邻等等),使遥感图像正常化,从中提取价值。


“记住:光栅只是元数据数组,光栅和矢量数据可以用容易理解的表格格式来表达,”克拉夫特说,“如果通过这种方式来表达地理数据,Hadoop和Spark等通用技术能利用地理数据创造奇迹。我们就曾利用标准化网格,对Global Forest Watch的FORMA算法做了这样的事,并完全使用Hadoop来处理。这在计算上未必高效,但扩展性惊人,而且对于标准的GIS操作,我们不必考虑太多。感觉自由极了!”


Hadoop和Spark是在大型服务器集群上并行存储和处理大数据的开源框架,去除了并行计算的一些复杂性。深度学习的进步推动了自动化图像处理技术的发展,但深度学习算法很耗时,因为它需要预处理、训练和地理校正。


校准不同来源的像素,这是地球观测卫星委员会和USGS正在解决的一个问题。他们一直在打造一种开源数据立方,参考了澳大利亚地球科学局和澳大利亚航天局开发的数据立方。


大数据,大问题?

科学家设计实证研究,并对研究论文进行同行评审,以此来确保准确性和可靠性。在私营部门,确保准确性和可靠性对盈利性企业的成功至关重要。


“大数据不会免除或者改变对质量控制的严格要求,”Kass Green & Associates公司总裁卡斯·格林(Kass Green)说,“独立变量仍需经过彻底检查,以确保完整性、公正性和准确性。”


不过,考虑到被处理的数据体量,在哪里可以进行概括化、哪里需要保证精度的问题上必须建立规则。

在Cerberus: Forest Falcon中,基于Facebook的众包“玩家”使用哨兵-2卫星的数据来创建基线图,目标是保护雨林和助力当地经济。


“在寻找捷径时,要有创造力,”克拉夫特说,“想想哪些地方真正需要精度,哪些地方可以简化和加快操作,实现较高的性价比。”


在取得结果时,想要确切地知道信息在从来源到解决方案的过程中是如何产生的,可以用元数据来追踪。“需要基于标准的服务来将一个元数据集映射到另一个,”Harris公司地理空间协作主管凯文·霍华德(Kevin Howald)说。


应用

在这个技术难题中,最令人激动的部分是实际应用。利用中等分辨率的地球观测大数据,研究人员共享气候变化指标的信息,作出影响政策和全球普通人生活的预测。


“使用整个(USGS地球资源观测与科学中心的600多万幅Landsat卫星图像)档案库,可以获得以前难以识别的时间信号,比如土地覆盖变化和生态系统健康,”地球观测组织(Group on Earth Observations)生物多样性和生态系统高级专家加里·盖勒(GaryGeller)说。


Esri公司的ChangeMatters利用Landsat卫星多年拍摄的全球图像来显示植被变化。这种简单但高度可视化的应用常常能为行业外的问题解决者提供灵感。


高分辨率地球观测图像也被推销给金融服务公司和保险公司,用来追踪消费者支出和帮助处理索赔。具有实时图像处理能力的无人机,可以帮助地面士兵在重新分配资源之前调查周围地域。想要加强市场竞争,必须加大力度向非专业人士提供高质量图像和解释性信息。


“专注于解决客户问题的公司将大获成功,而推出不必要技术的公司将一败涂地,”格林说。


如果想把值钱的产品卖给付费客户,需要付出额外的努力。有些客户只是通过Google Earth知道地球观测图像。


“在为决策者开发可执行的分析工具方面,还需要作出很多改进。决策者大多是企业高管,他们还不习惯于把地理空间数据作为一项投入,”戴尔蒙德说。


云架构,开源软件,富有创造力的图像处理开发人员,以及整合地球观测和位置数据来验证假设和预测趋势的市场需求,这些持续推动着该行业向前发展。从人类、场所和物体变化(或者不变)中收集的地理空间和地球观测数据,将帮助我们了解与这颗星球和每个人有关的过去、现在和未来。


作者|车品觉,文章来自36大数据(36dsj.com)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多