深度学习与处理用于数据驱动的地球系统科学
深度学习与处理用于数据驱动的地球系统科学 由Markus Reichstein 在 2019 发表于 《Nature》。 这是一篇综述性文章,介绍了机器学习如何在地学中的应用与挑战。地球系统科学进入了大数据时代。地球系统数据就是典型的大数据,具备大数据四大特征:volume, velocity, variety and veracity(体积,速度,多样性和准确性),例如各种遥感、定点观测、模式数据。如今面临挑战就是如何从这些大数据中提取并解读信息,因为信息收集速度远大于我们所能消化的速度。数据的增多并未带对系统预测能力的提高,我们需要对数据进行理解。在这种背景下,机器学习就是我们很好的机遇。 文章从以几方面具体展开论述: (1)地学中最先进的机器学习 。诸如神经网络、随机森林方法很早就应用于地学中的分类、变化检测、土壤制图问题。但这些应用是针对空间,在时间上是相对静态的,但地球是不断变化的。机器学习回归方法在时间动态上具有优势,比如具有隐含层的人工神经网络,可预测碳通量在时间与空间上的变化。但这些应用也存在一些问题需要注意,比如外推能力,抽样或数据偏见,忽视混杂因素,统计关联与因果关系等。经典的机器学习方法需要一些先验知识确定一些时空相关feature,而不能自动探索数据的时空特征。一些时空动态特征比如“记忆效应”可以作为feature手动加入到传统机器学习中