阿里云服务器ECS    
弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新 [咨询更多]
阿里云存储OSS
简单易用、多重冗余、数据备份高可靠、多层次安全防护安全性更强、低成本 [咨询更多]
阿里云数据库RDS
稳定可靠、可弹性伸缩、更拥有容灾、备份、恢复、监控、迁移等方面的全套解决方案 [咨询更多]
阿里云安全产品
DDoS高防IP、web应用防火墙、安骑士、sll证书、态势感知众多阿里云安全产品热销中 [咨询更多]
阿里云折扣优惠    
云服务器ECS、数据库、负载均衡等产品新购、续费、升级联系客服获取更多专属折扣 [咨询更多]
大数据的定义是什么
2020-8-26    点击量:
  大数据的定义是什么   多数人认为“大数据”是一个新兴词汇,实则不然,早在1980年,著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中将大数据赞颂为“第三次浪潮的华彩乐章”。大数据一词大约是从2009年开始被引入公众视线的。
  
  1. 大数据的特征
  
  虽然“大数据”这一个词汇已经诞生了近40年,但是目前为止并没有一个明确的定义。维克托·迈尔·舍恩伯格在《大数据时代》一书中提到了大数据应该具备以下3种特征。
  
  (1)不是随机样本,而是全体数据。过去,因为记录、存储和分析数据的工具不够好,为了让分析变得简单,人们只能收集或者抽取尽量少的数据进行分析。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是处理的数据量已经大大增加,而且未来会越来越多。在条件允许的情况下,使用全体数据往往能够得到一个更加准确、更接近真实的结果。
  
  (2)不是精确性,而是混杂性。执迷于精确性是信息缺乏时代和模拟时代的产物。大约只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据就无法被利用。所以只有接受不精确性,才能从数据中获取更大的价值。需要特别注意的是,不精确性并非大数据固有的,它只是用来测量、记录和交流数据的一个缺陷。因为拥有更大的数据量所能带来的商业利益远远超过增加一点的精确性,所以通常不会通过大量增加成本提升数据的精确性。
  
  (3)不是因果关系,而是相关关系。因果关系强调原因和结果必须同时具有必然的联系,即二者的关系属于引起和被引起的关系。而相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。
  
  2. 大数据的定义
  
  现阶段,大数据领域比较通用的大数据定义基于图1-1所示的5V,其中每个V的具体定义如下。
  大数据的定义是什么
  图1-1 大数据5V定义示意图
  
  (1)Volume:数据量大,即采集、存储和计算的数据量都非常大。真正大数据的起始计量单位往往是TB(1 024GB)、PB(1 024TB)。
  
  (2)Velocity:数据增长速度快,处理速度也快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
  
  (3)Variety:种类和来源多样化。种类上包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,数据的多类型对数据处理能力提出了更高的要求。数据可以由传感器等自动收集,也可以由人类手工记录。
  
  (4)Value:数据价值密度相对较低。随着互联网及物联网的广泛应用,信息感知无处不在,信息量大,但价值密度较低。如何结合业务逻辑并通过强大的机器算法来挖掘数据的价值,是大数据时代最需要解决的问题。
  
  (5)Veracity:数据的准确性和可信赖度高,即数据的质量高。数据本身如果是虚假的,那么它就失去了存在的意义,因为任何通过虚假数据得出的结论都可能是错误的,甚至是相反的。
联系客服免费领取更多阿里云产品新购、续费升级折扣,叠加官网活动折上折更优惠