阿里云服务器ECS    
弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新 [咨询更多]
阿里云存储OSS
简单易用、多重冗余、数据备份高可靠、多层次安全防护安全性更强、低成本 [咨询更多]
阿里云数据库RDS
稳定可靠、可弹性伸缩、更拥有容灾、备份、恢复、监控、迁移等方面的全套解决方案 [咨询更多]
阿里云安全产品
DDoS高防IP、web应用防火墙、安骑士、sll证书、态势感知众多阿里云安全产品热销中 [咨询更多]
阿里云折扣优惠    
云服务器ECS、数据库、负载均衡等产品新购、续费、升级联系客服获取更多专属折扣 [咨询更多]
数学在大数据领域的作用
2020-8-28    点击量:
  信息化时代,大数据在各领域发挥着越来越重要的作用。人们使用大数据技术从海量数据中挖掘信息,发现规律,探索潜在价值。在大数据的研究和应用中,数学是坚实的理论基础。数学在大数据领域的作用。在数据预处理、分析与建模、模型评价与优化等过程中,数学方法扮演着至关重要的角色。
 数学方法扮演着至关重要的角色 
  1. 微积分
  
  从17世纪开始,随着社会的进步和生产力的发展,以及航海、天文、矿山建设等许多课题要解决,数学也开始研究变化的量,进入了“变量数学”时代,微积分也由此诞生。通过微积分可以描述运动的事物,描述一种变化的过程。由于微积分是研究变化规律的方法,所以只要是与变化、运动有关的研究,都或多或少地与微积分存在联系,都需要运用微积分的基本思想和方法。可以说,微积分的创立极大地推动了生活的进步。微积分是整个近代数学的基础,有了微积分,才有了真正意义上的近代数学。统计学中的概率论部分就是建立在微积分的基础之上的。比如,在函数关系的对应下,随机事件先是被简化为集合,继之被简化为实数,随着样本空间被简化为数集,概率相应地由奇函数约化为实函数。因此,微积分中有关函数的种种思想方法都可以畅通无阻地进入概率论领域。随机变量的数字特征、概率密度与分布函数的关系、连续型随机变量的计算等都是微积分现有成果的直接应用。微积分的基础是极限论,在概率论中运用广泛,如分布函数的性质、大数定律、中心极限定理等。同时,在机器学习中,非常重要的各类最优化算法本质上就是在一定约束条件下求一个函数的最值,而这一概念和微积分基础中的极限论息息相关。
  
  2. 线性代数
  
  线性代数与大数据技术开发的关系很密切,线性代数领域的矩阵、秩、向量、正交矩阵、特征值与特征向量等概念在大数据分析、建模中发挥着巨大的作用。
  
  在大数据中,许多应用场景的分析对象都可以抽象表示为矩阵。比如,大量Web页面及其关系、微博用户及其关系、文本数据中的文本与词汇的关系等都可以用矩阵表示。Web页面及其关系用矩阵表示时,矩阵元素代表了页面a与页面b的关系。这种关系可以是指向关系,比如,1表示a和b之间有超链接,0表示a和b之间没有超链接。著名的PageRank算法就是基于这种矩阵进行页面重要性的量化,并证明其收敛性的。
  
  以矩阵为基础的各种运算,如矩阵分解,是分析对象、特征提取的途径,因为矩阵代表了某种变换或映射,所以分解后得到的矩阵就代表了分析对象在新空间中的一些新特征。其中,特征分解(Eigen Decomposition)和奇异值分解(Singular ValueDecomposition)等在大数据分析中应用十分广泛。
  
  3. 统计学
  
  统计学是一门基于数据的科学,是一种研究数据搜集、整理、分析与应用的方式和方法。数据是严谨的、枯燥的、冷冰冰的,同时,正确的数据又是丰富的、客观的、忠实的、从不会欺骗人的。
  
  在当今的信息时代,数据是信息的载体,是统计学分析的对象。统计工作本身就是对数据进行搜集、整理、分析、解释这样一个系统的过程。离开了数据,统计学就失去了研究的意义和价值。同理,离开了统计学,数据就只是单纯的数据而已,几乎没有价值。通过统计的方法和原理整理及分析出来的数据,在精确度和适用度方面才会有较高的提升,才会实现数据的真正价值。
  

  大数据的分析与挖掘等工作,从数据预处理开始,至建模得出结论,无不存在着统计学的身影。比如,统计分析所提供的诸如方差分析、假设检验、相关性分析等方法,都有助于数据分析前期的数据探索、数据预处理、特征工程等操作;朴素贝叶斯、Apriori关联规则等算法本身的理论基础就来源于统计学。拥有扎实的统计基础,能够更加深入地理解算法,并解释结果。此外,在得出分析结果以后,研究者还需要通过统计分析来描述结果,以方便其他人理解。

数学在大数据领域的作用

       4. 数值计算

  数值计算是求解工程实际问题的重要方法之一,且随着工程问题规模的不断增大,相比于理论研究和实验研究,其实用价值更大。在大数据时代的背景下,数据分析、数据挖掘、机器学习等算法中常见的插值、数值逼近、非线性方程求解等都属于数值计算的范畴。从更高的层面看,数值计算指有效使用数字计算机求数学问题近似解的方法与过程,几乎涵盖了所有涉及复杂数学运算的计算机程序。数值计算主要研究如何利用计算机更好地解决各种数学问题,包括连续系统离散化和离散型方程的求解,并考虑误差、收敛性和稳定性等问题。
  
  5. 多元统计分析
  
  多元统计分析简称多元分析,是从经典统计学中发展起来的一个分支,是数理统计学中的一个重要的分支学科,是一种综合分析方法。20世纪30年代,R.A. 费希尔、H. 霍特林、许宝碌及S.N. 罗伊等人做了一系列奠基性的工作,使多元分析在理论上得到迅速发展。20世纪50年代中期,随着电子计算机的发展和普及,多元分析在地质、气象、生物、医学、图像处理及经济分析等领域得到了广泛的应用,同时也促进了理论的发展。
  
  多元分析在大数据分析中有非常广泛的应用,能够在多个对象和多个指标互相关联的情况下分析出它们的统计规律。多元分析的主要方法包括回归分析、判别分析、聚类分析、主成分分析(Principal Component Analysis,PCA)、因子分析及典型相关分析等。这些分析方法在大数据领域都有着非常广泛的应用,其中,回归分析中的一元或多元线性回归可用于预测连续型数据,如股票价格预测和违约损失率预测等;判别分析与回归分析中的逻辑回归可用于预测类别型数据,这些数据通常都是二元数据,如欺诈与否、流失与否、信用好坏等;聚类分析是在不知道类标签的情况下将数据划分成有意义或有用的类,如客户细分等;主成分分析与因子分析都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,在大数据分析中常被用于对数据进行降维;利用典型相关分析方法可以快捷、高效地发现事物间的内在联系,如某种传染病与自然环境或社会环境的相关性等。
联系客服免费领取更多阿里云产品新购、续费升级折扣,叠加官网活动折上折更优惠