博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据,多大算“大
阅读量:6815 次
发布时间:2019-06-26

本文共 1882 字,大约阅读时间需要 6 分钟。

在数据“泛滥”的今天,人人都在提“大数据”,但多大的数据才算“大”呢?如果盲目的强调“大”,结果只会被数据淹没,从而导致信息过量,最终对决策不仅没有帮助反而使人困惑、不知所措。今天,我们来谈一谈信息过量的问题。
 
数据分析的目的
我们对数据做分析的目的是将数据转化成信息,从而帮助人们更好的做决策。因此,决策的好坏与信息的质量密不可分。俗话说,从量变到质变。信息的质量一定程度取决于信息的数量。那么,科学的决策到底需要多少信息呢?是多多益善吗?
来看一个例子:如果往桶里倒水,那么总有一个时刻,水满了会溢出来。如果用这桶水来灭火,则多余的水并没有起到作用,完全是浪费了。
什么是信息过量
信息过量是针对某个目标,提供过多且无用的信息。
 
下面我们将用质量保证中普遍应用到的过程性能分析为例进行阐述。您经常在很多过程性能报告中会看到以下输出结果。
表I
 
一些分析报告甚至包含更多的统计量。这些信息对某些人很有吸引力,他们喜欢尽可能多的信息,但真正的专家会质疑需要这么多信息的必要性。提供过多信息的风险在于,用户会不知所措,困惑不已,且会错过性能分析结果中的重要部分。
 
信息过量可以定义为在执行某项任务时,提供不必要的信息。以上列出的统计量可能确实很多,但它们真的有必要吗?它们的目的是什么?目的和目标是一致的吗?应该报道的最少信息量是什么?最多的信息量又是什么?遗憾的是,并没有公式可以计算出最优平衡量。每种情形要结合其自身特点具体分析,要考虑到方方面面。
 
满足分析目标的信息量
在统计学研究中,有个术语叫“充分性”。如果所给的样本中得出的其他统计量对于统计值提供不了更多信息,则该统计量是充分的。例如,样本均值是一个充分统计量。因为没有其他统计量可以提供关于平均数的更多信息了。
 
这个原理可以部分应用于判断某个信息是否充分。任何多余的信息都是信息过量。在这种情况下,我们谈论的不是统计量,而是满足某个目标的信息,包括图。
 
过程性能研究的目的是从生产不合格品的角度了解当前过程运作的有多好。满足这个目标,需要的最小信息量是多少?
 
 
数据分析的目的
我们对数据做分析的目的是将数据转化成信息,从而帮助人们更好的做决策。因此,决策的好坏与信息的质量密不可分。俗话说,从量变到质变。信息的质量一定程度取决于信息的数量。那么,科学的决策到底需要多少信息呢?是多多益善吗?
互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入
来看一个例子:如果往桶里倒水,那么总有一个时刻,水满了会溢出来。如果用这桶水来灭火,则多余的水并没有起到作用,完全是浪费了。
什么是信息过量
信息过量是针对某个目标,提供过多且无用的信息。
 
下面我们将用质量保证中普遍应用到的过程性能分析为例进行阐述。您经常在很多过程性能报告中会看到以下输出结果。
表I
 
一些分析报告甚至包含更多的统计量。这些信息对某些人很有吸引力,他们喜欢尽可能多的信息,但真正的专家会质疑需要这么多信息的必要性。提供过多信息的风险在于,用户会不知所措,困惑不已,且会错过性能分析结果中的重要部分。
 
信息过量可以定义为在执行某项任务时,提供不必要的信息。以上列出的统计量可能确实很多,但它们真的有必要吗?它们的目的是什么?目的和目标是一致的吗?应该报道的最少信息量是什么?最多的信息量又是什么?遗憾的是,并没有公式可以计算出最优平衡量。每种情形要结合其自身特点具体分析,要考虑到方方面面。
 
满足分析目标的信息量
在统计学研究中,有个术语叫“充分性”。如果所给的样本中得出的其他统计量对于统计值提供不了更多信息,则该统计量是充分的。例如,样本均值是一个充分统计量。因为没有其他统计量可以提供关于平均数的更多信息了。
 
这个原理可以部分应用于判断某个信息是否充分。任何多余的信息都是信息过量。在这种情况下,我们谈论的不是统计量,而是满足某个目标的信息,包括图。
 
过程性能研究的目的是从生产不合格品的角度了解当前过程运作的有多好。满足这个目标,需要的最小信息量是多少?
 
--------------------- 
作者:数据工程师大牛 
来源:CSDN 
原文:https://blog.csdn.net/crhacq798/article/details/87913387 
版权声明:本文为博主原创文章,转载请附上博文链接!
你可能感兴趣的文章
java多线程基本概述(十一)——ReadWriteLock
查看>>
机器学习 深度学习 计算机视觉 资料汇总
查看>>
深度学习网络结构中超参数momentum了解
查看>>
js几种创建对象的方式
查看>>
微信小程序中this关键字使用技巧
查看>>
multiprocessing的基础用法
查看>>
N的阶乘的长度 V2(斯特林近似) 求 某个大数的阶乘的位数 .
查看>>
第二十二课:运算放大电路
查看>>
geek必备工具列表
查看>>
SVN 目录 定义
查看>>
P2252 取石子游戏
查看>>
Fastcgi工作原理
查看>>
SQL Server 中字符数据处理解析(下)
查看>>
[NOI2012]美食节——费用流(带权二分图匹配)+动态加边
查看>>
关于linux下crontab的使用
查看>>
HAZU校赛 Problem K: Deadline
查看>>
Vue 实现的音乐项目 music app 知识点总结分享
查看>>
Hello Blog
查看>>
《把一个英语句子中的单词次序颠倒后输出》
查看>>
JavaScript- BOM, DOM
查看>>