生活中难以察觉的高科技:海量数据实时处理靠的是什么数学?
在大数据时代 , 无论是生活中各种类型的传感器 , 还是用户规模庞大的互联网 , 它们时时刻刻都在生产数据 。 从手机上的高清照片 , 到医用 CT 图像 , 再到遥感卫星拍摄的地球摄影 , 无论数据量如何增长 , 人们都期待实时获得结果 。 而我们的生活之所以能够如此便利 , 如此丰富多彩 , 背后依靠的重要技术就是分布式优化 。
撰文 | 董乾(中国科学院软件研究所)、刘歆(中国科学院数学与系统科学研究院)
目前 , 市场上主流手机摄像头的清晰度已经达到两千万像素 , 国内某著名手机制造商最新推出的一款环绕屏手机的清晰度更是超过了一亿像素 , 一张照片的容量就要达到100MB 。 手机的电子防抖功能 , 手机软件的去噪功能 , 这些最后都归结为数学模型中的最优化问题 , 但是无论数据量如何增大 , 人们对这些功能的要求都是瞬时提供结果 。
医用CT机(电子计算机断层扫描仪)拍摄的图像容量更是可以达到GB量级 。 医学工作者想依靠断层扫描的结果重构人体三维结构需要求解一个几何问题(可归结为最优化问题);想通过千千万万个病人的CT报告信息来总结疾病的规律 , 核心是统计问题(可归结为最优化问题) , 这些数学模型的数据量超过了一般计算机可拥有的最大内存 。
给咱们蓝色的美丽地球摄影的遥感卫星 , 它拍摄的照片往往是以TB计 , 由于卫星自身容量、能量都有限 , 这些照片会在压缩后实时传回地球上的接收站 。 地面获取数据后的解压过程需要求解一个被称为稀疏优化的数学模型 。 而实时不断传回的数据往往会使得用来处理数据的计算机不堪重负 。
为了可以“瞬时”处理“实时”到来的“大规模”数据 , 人们想到了使用拥有多个计算单元的超级计算机来进行分布式、并行计算 。 下面我们就带大家细细品味分布式优化的前世今生 。
1
优化方法是人工智能的数学基础
最优化问题是应用数学的一个分支 , 顾名思义 , 是指在一定的条件限制下 , 选取某种方案使得目标达到最优的一种方法 。 许多科学工程领域的核心问题最终都归结为优化问题 。 随着大数据、机器学习和人工智能的迅猛发展 , 作为这些应用问题的核心数学模型 , 最优化问题遇到了千载难逢的发展机遇 。
另一方面 , 随着数据量的增大 , 问题复杂性提高 , 这给最优化方法的研究带来了巨大的挑战 。 传统最优化方法的设计思想主要是通过传统的串行计算实现的 , 无法与硬件的并行架构完美兼容 , 这降低了传统最优化方法在具有大数据背景的应用领域的可适用性 , 限制了求解来源于相关应用领域的最优化模型的精度和效率 。 为了突破这一困境 , 以分布式存储为基础 , 以并行计算为核心的分布式优化应运而生 , 这也使得最优化方法得到了比以往任何时候都更加广泛的应用 。
随着信息技术的跨越式发展 , 近年来 , 人工智能迎来了一波喷涌式发展 。 在人工智能的这次发展浪潮中 , 机器学习奠定了人工智能在统计意义上的基础和合理性 , 对应的优化算法和配套的硬件计算能力确保了人工智能在实现上的正确性和有效性 。
换句话说 , 目前图像识别、目标检测、语音识别等算法在准确性上所表现出的显著提高离不开机器学习及其对大数据的训练方法 。 而所谓的“训练方法” , 主要是指利用训练数据集找到一组参数 , 使得由这组参数决定的函数或映射能够尽可能匹配训练数据的特征标签 , 同时能在一定范围内对其它数据的特征做出预测 , 给进一步决策提供参考 。 这里的参数估计问题 , 就是一个以拟合度为目标的最优化问题 。 我们根据目标函数的函数值、梯度值等信息 , 设计求解最优参数的迭代算法 , 因为数据量极大 , 所以传统的最优化方法往往不能胜任 。 最优化方法同人工智能的关系可以参见图1 。
推荐阅读
- 全球超算500强:美蝉联冠军,中国数量增加
- 全国助残日手抄报内容 全国助残日手抄报内容画法
- 儒家三礼分别是 儒家经典中的三礼是指什么
- 中国超算服务,谁主沉浮?
- 国际助残日手抄报 国际助残日手抄报画法
- 离开我你会不会好一点优秀初中作文
- 那根被踹断的烧火棍初中优秀作文
- 一言一行总关情初中优秀作文650字
- 踏入初中优秀作文
- 我的初中时代作文