快捷搜索:  汽车  科技

预测型数据分析常用工具(自研分析工具深挖)

预测型数据分析常用工具(自研分析工具深挖)从理论上讲,更高的亮度意味着更多基础设施、更高的发展水平。但是,很多模型无法区分极端低光照水平和零光照水平。而且,在人口密集的地方,仅凭夜间光照水平评估贫困状况也会有很大偏差。传统的入户调查方式成本极高,且严重依赖稳定的国内环境,许多发展中国家根本负担不起。而利用遥感技术,捕捉夜间光亮的卫星图像数据,结合全球人口动态统计分析数据库的人口数据,使用统计方法估计国家和区域的社会经济状况,提高对全球贫困问题的及时感知,已经不是什么新闻。在近日举行的2021年可持续发展大数据国际论坛上,中国科学院软件研究所(以下简称软件所)研究人员做了题为《面向SDGs的交互式在线分析技术与系统》的技术报告,对这一问题进行了解答。数据、分析工具缺一不可承诺消除一切形式和表现的贫困,包括到2030年时消除极端贫困,是SDGs一项关键目标。然而,要摸清贫困国家的贫困状况本身就困难重重。

预测型数据分析常用工具(自研分析工具深挖)(1)

地球大数据挖掘分析系统EarthDataMiner作为“可持续发展大数据平台系统”重要组成部分正式公开发布。图片来源:中国科学院软件研究所

■记者 胡珉琦

2015年,联合国正式通过《改变我们的世界——2030年可持续发展议程》,提出了包含一系列涉及17个领域169个具体问题的可持续发展目标(SDGs)。但是,由于指标数据和方法的缺失,可持续发展目标实施进程监测始终面临艰巨的挑战。

地球大数据具有宏观动态多尺度监测能力,是实现SDGs的重要手段。然而,科学家们要如何对那些海量、多源、多时相、高度集成的大数据进行挖掘分析,进而开展SDGs评估?

在近日举行的2021年可持续发展大数据国际论坛上,中国科学院软件研究所(以下简称软件所)研究人员做了题为《面向SDGs的交互式在线分析技术与系统》的技术报告,对这一问题进行了解答。

数据、分析工具缺一不可

承诺消除一切形式和表现的贫困,包括到2030年时消除极端贫困,是SDGs一项关键目标。然而,要摸清贫困国家的贫困状况本身就困难重重。

传统的入户调查方式成本极高,且严重依赖稳定的国内环境,许多发展中国家根本负担不起。而利用遥感技术,捕捉夜间光亮的卫星图像数据,结合全球人口动态统计分析数据库的人口数据,使用统计方法估计国家和区域的社会经济状况,提高对全球贫困问题的及时感知,已经不是什么新闻。

从理论上讲,更高的亮度意味着更多基础设施、更高的发展水平。但是,很多模型无法区分极端低光照水平和零光照水平。而且,在人口密集的地方,仅凭夜间光照水平评估贫困状况也会有很大偏差。

2016年,斯坦福大学研究人员在《科学》上发表了一项研究成果。他们把高精度卫星图像和深度学习、迁移学习等技术结合起来,从而预测了非洲五国尼日利亚、乌干达、坦桑尼亚、卢旺达和马拉维的贫困状况。

这项研究的创新之处在于,科学家用高精度、高质量的卫星遥感图像数据来训练一个深度卷积神经网络,以预测同区域的夜光数值大小。但这并非最终目的,而是为了提取遥感图像数据中的特征,比如道路、房屋、汽车等,然后把这些特征和少数采样点的贫困调查数据作为标签,训练一个普通的神经网络。这一计算工具最终可以用来高精度地预测一个地区的贫困程度。

“这项研究给我们的启示是,要想实现SDGs指标评估,数据和有效的挖掘分析工具是缺一不可的。”软件所副研究员刘杰说道。

他同时指出,SDGs指标量化评估涉及地球大数据分析处理的全流程,包括遥感影像的访问与语义分析、各种数据产品的解析和预处理、多源数据的融合计算与可视化等,需要采用大数据与人工智能等大量前沿技术,这也给开展SDGs评估的科学家们带来了一系列技术挑战。

“虽然针对大数据挖掘分析已经有一系列通用软件,包括Matlab、Python等单机版软件,还有分布式环境软件和云服务模式的分析软件,但对领域科学家而言,这些软件存在巨大的应用开发鸿沟。”刘杰表示,面对海量、多源、多时相、高度集成的大数据,科学家需要软件提供数据处理功能的服务、分析模型的服务,以及成果应用的服务。

自主研发地球大数据挖掘分析系统

9月6日,全球首个以大数据服务联合国2030年可持续发展议程的国际科研机构——可持续发展大数据国际研究中心正式成立,由其开发的“可持续发展大数据平台系统”也正式发布。作为它的重要组成部分,依托平台系统的栅格数据引擎Databox、广目云平台CASEarthCloud,科研团队自主研发了一套地球大数据挖掘分析云服务系统(EarthDataMiner),支持科学家在线开展遥感影像及其他科学数据的智能分析处理,支持SDGs指标全流程在线计算,从而降低科学家利用云平台、大数据、前沿人工智能算法开展大规模数据分析的难度。EarthDataMiner支持科学家访问海量数据,提供算法API,支持在线编写代码开发SDG算法,并将算法成果发布为Web App工具,支持全球用户访问使用。

据介绍,基于EarthDataMiner实现的SDGs指标在线计算通用流程具体包括:将指标计算相关数据上传到系统;编写Python代码进行数据处理;遥感影像数据检索;遥感数据信息提取;部署指标计算算法与模型;采用EarthDataMiner提供的Web App工具的开放框架,将SDGs评估算法发布为Web页面工具。

刘杰解释,EarthDataMiner最重要的就是要给科学家们提供一个分布式遥感影像计算函数库,平台预计研制百余项SDGs在线计算的函数及配套文档和案例,涵盖遥感影像计算与机器学习算法。“对科学家而言调用的只是简单的函数,而平台能把它‘翻译’成高效的分布式任务去执行。至于如何‘翻译’得又准确又高效,取决于算法库的不断优化。”

提供交互式在线分析工具

目前,在中国科学院战略性先导科技专项“地球大数据科学工程”专项的统一部署下,EarthDataMiner研发团队已和相关科学家团队合作,基于EarthDataMiner开发了4个SDGs指标在线评估工具,即SDG6.6.1 地表水随时间变化评估工具、SDG11.3.1 城镇化进程评估工具、SDG15.1.1 森林覆盖率评估工具、SDG15.3.1 土地退化零增长评估工具。

以SDG15.3.1全球土地退化指标监测为例。作为“2030年可持续发展议程”的一部分,SDG第15项目标是:保护、恢复和促进可持续利用陆地生态系统,可持续管理森林,防治荒漠化,制止和扭转土地退化,遏制生物多样性的丧失。每个特别发展目标都有具体目标,涉及陆地上生活的不同组成部分。其中SDG15.3的目标是:到2030年,防治荒漠化,恢复退化的土地和土壤,包括受荒漠化、干旱和洪水影响的土地,并努力实现零土地退化世界。

“作为实现 SDG 15.3的主要抓手,土地退化零增长(LDN)的执行涉及基线确定、土地利用规划、进展评估3个关键工作。”中科院空天信息创新研究院研究员李晓松在《中国科学院院刊》发表的文章《地球大数据促进土地退化零增长目标实现:实践与展望》中解释,“其中退化土地(SDG 15.3.1)基线与动态监测是核心,不仅可以直接评估 LDN 进展情况,也能为土地利用规划提供信息支撑。”

李晓松表示,发展基于云计算的 SDG 15.3.1 在线计算工具是地球大数据支撑土地退化零增长的一项重要贡献。这一工具通过对接DataBox 、EarthDataMiner等多个数据计算引擎和数据环境,可为用户在线提供基于感兴趣区域的 SDG 15.3.1单指标计算评估、综合计算评估,包括土地覆盖、土地生产力与土壤碳三个方面。在他看来,这对能力相对落后国家的 SDG15.3.1监测评估具有重要意义。

来源: 《中国科学报》

猜您喜欢: