图片来源:CC0 Public Domain
机器学习算法每天都在为我们做很多事情—将我们不需要的电子邮件送到垃圾邮件箱,在汽车出现故障时发出警告,甚至会为我们提出有关电视节目的建议。现在,我们同样倾向于用这些算法来做出环境预测。
来自明尼苏达大学、匹兹堡大学以及美国地质调查局的一组研究人员最近在2021年工业和应用数学学会(SIAM)数据挖掘国际会议(SDM21)上发表了一项关于预测河网流量和水温的新研究报告。
该研究展示了一种用物理规则“教”出的新的机器学习的方法,它可以做出更好的预测,并且能体现出输入和输出之间具有的物理意义的关系。
该研究提出了一个模型,利用这个模型,即使在可用数据很少的情况下也可以准确地预测大多数河流、溪流的温度。这个模型还可以更好地泛化到不同的时间段。
“溪流的水温是衡量许多重要水生系统(如水生栖息地宜居性、蒸发率、温室气体交换和热电能源生产效率等)的‘主要变量’。准确预测水温和流量也有助于支持管理者的决策,例如帮助他们确定从水库中释放的水量和放水到下游的时间。”该研究的第一作者、匹兹堡大学计算机信息与科学系助理教授Xiaowei Jia说道。
对于机器学习而言,一个普遍的问题在于,它的预测并不是基于物理意义的。也就是说,算法只是在寻找输入和输出之间的相关性,但有些时候,这种相关性可能是“虚假的”,或者会给出错误的结果。算法模型通常无法处理输入和输出之间的关系发生变化时的结果。
特拉华河流域 (图片来源:Wiki)
2020年明尼苏达大学计算机科学与工程系博士毕业生Jia发表了“过程引导或知识引导的机器学习”的新方法,其同事随后使用了该方法。该方法被应用于特拉华河流域(DRB)的水温预测,并试图克服使用机器学习预测时的一些常见缺陷。该方法通过一个相对简单的过程将河流的时间、空间相关性和能量预算方程输入到机器学习模型中。
河流温度动态数据的稀疏性和可变性并不是特拉华河流域独有的。但相对于美国大陆的大部分地域,特拉华河流域的水温有受到很好的监测。因此,特拉华河流域是开发河流温度预测新方法的理想场所。
图片来源:Pixabay
美国地质调查局发布的交互式视觉解释器强调了这些模型发展以及水温预测在特拉华河流域的重要性。通过可视化,他们展示了社会对水温预测的需求。水库在为超过1500万人提供饮用水的同时,也有着竞争性的用水需求,水库水还用于维持重要游鱼物种的下游水量和冷水栖息地。当水库管理者预计水温将超过临界阈值时,他们可以释放冷水,准确的水温预测在水资源有限时至关重要。
该研究建立在美国地质调查局的水资源科学家和明尼苏达大学双城分校计算机科学与工程系Vipin Kumar实验室的合作基础之上,研究人员一直在此之上开发知识引导的机器学习技术。
Kumar说:“这些以知识为导向的机器学习技术从根本上比科学界用以解决环境问题的标准机器学习方法和传统模型更为强大。”
这些由NSF数据革新计划资助的新一代机器学习方法正被用于解决如提升湖泊、河流温度预测等各种环境问题。
在美国地球物理联盟水资源研究中心,另一项由NSF资助的、预测未监测湖泊动态水温的新研究中,在明尼苏达大学计算机科学与工程系准博士Jared Willard的带领下,研究人员展示了如何使用知识引导的机器学习模型来解决最具挑战性的环境预测问题之一——如何在不受监控的生态系统中进行预测。
当模型被从观测良好的湖泊转到观测很少或没有观测的湖泊时,即使在没有进行温度监测的湖泊中也能进行准确的预测。研究人员表示,他们的方法可扩展到数千个湖泊的监测,这表明这种方法(具有有意义的预测变量和高质量的源模型)可用于许多未受监控的系统和环境变量,在未来十分有前景。
翻译:彭琛
审校:董子晨曦
引进来源:明尼苏达大学