帮助文档
关键词列表
网站地图
网站首页
最新活动
轻量应用服务器
阿里云邮箱
等保测评
阿里云产品
企业上云最佳实践
技术帮助文档
关于我们
网站首页
>
关于我们
>
公司新闻
>
大数据的定义是什么
大数据的定义是什么
发布时间: 2020-08-26 11:27:28
文章作者: 网站编辑
阅读量: 248
大数据的定义是什么 多数人认为“大数据”是一个新兴词汇,实则不然,早在1980年,著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中将大数据赞颂为“第三次浪潮的华彩乐章”。大数据一词大约是从2009年开始被引入公众视线的。
1. 大数据的特征
虽然“大数据”这一个词汇已经诞生了近40年,但是目前为止并没有一个明确的定义。维克托·迈尔·舍恩伯格在《大数据时代》一书中提到了大数据应该具备以下3种特征。
(1)不是随机样本,而是全体数据。过去,因为记录、存储和分析数据的工具不够好,为了让分析变得简单,人们只能收集或者抽取尽量少的数据进行分析。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是处理的数据量已经大大增加,而且未来会越来越多。在条件允许的情况下,使用全体数据往往能够得到一个更加准确、更接近真实的结果。
(2)不是精确性,而是混杂性。执迷于精确性是信息缺乏时代和模拟时代的产物。大约只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据就无法被利用。所以只有接受不精确性,才能从数据中获取更大的价值。需要特别注意的是,不精确性并非大数据固有的,它只是用来测量、记录和交流数据的一个缺陷。因为拥有更大的数据量所能带来的商业利益远远超过增加一点的精确性,所以通常不会通过大量增加成本提升数据的精确性。
(3)不是因果关系,而是相关关系。因果关系强调原因和结果必须同时具有必然的联系,即二者的关系属于引起和被引起的关系。而相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。
2. 大数据的定义
现阶段,大数据领域比较通用的大数据定义基于图1-1所示的5V,其中每个V的具体定义如下。
图1-1 大数据5V定义示意图
(1)Volume:数据量大,即采集、存储和计算的数据量都非常大。真正大数据的起始计量单位往往是TB(1 024GB)、PB(1 024TB)。
(2)Velocity:数据增长速度快,处理速度也快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
(3)Variety:种类和来源多样化。种类上包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,数据的多类型对数据处理能力提出了更高的要求。数据可以由传感器等自动收集,也可以由人类手工记录。
(4)Value:数据价值密度相对较低。随着互联网及物联网的广泛应用,信息感知无处不在,信息量大,但价值密度较低。如何结合业务逻辑并通过强大的机器算法来挖掘数据的价值,是大数据时代最需要解决的问题。
(5)Veracity:数据的准确性和可信赖度高,即数据的质量高。数据本身如果是虚假的,那么它就失去了存在的意义,因为任何通过虚假数据得出的结论都可能是错误的,甚至是相反的。
上一篇:安全配置核查
下一篇:TCP/IP协议族体系结构以及主要协议
最热文章
夸克网盘转阿里云盘:轻松实现文件迁移
夸克网盘和阿里云盘是一家吗?
阿里云企业邮箱怎么申请免费账号
阿里云网盘如何转到夸克网盘
阿里云邮箱Foxmail设置:让你的邮件管理更加高效
阿里云网盘开始限速了怎么办
随机推荐
阿里云PolarDB MySQL云原生数据库的术语表和使用限制
香港服务器在哪里购买比较好
国外服务器哪个地区比较快
高防云服务器评测:怎样判断高防云服务器的真假
配置服务器:dns服务器如何配置
如何升级阿里云服务器配置
获取更多阿里云折扣优惠 立即咨询
活动推荐
内容推荐
更多
数据库三大范式的定义是什么
数据库的三大范式定义
大带宽是什么
五大基础数据库是什么意思
数据库三大模型是什么模型
关键词推荐
更多
云服务器买那种
虚拟云主机可以挂机
网站服务器出现漏洞
国内有名虚拟主机
买云虚拟主机主要
企业上云让数据更安全
ECS试用
阿里云代理返点
号码隐私保护
阿里云双十一
阿里云合作伙伴返点
云服务器购买价格
高防服务器
钉钉专属版收费
钉钉高级排班
阿里云cdn加速
香港租用服务器
共享流量包
阿里云cdn按带宽计费
华为云服务器租用价格多少钱一台啊
联系客服免费领取更多阿里云产品新购、续费升级折扣,叠加官网活动折上折更优惠
立即领取