博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘与数据分析(二)—— 探索性数据分析EDA(单因子与对比分析) & 可视化 (1) —— 集中趋势 & 离中趋势 & 数据分布(偏态系数&峰态系数&正态分布&三大分布)&抽样理论(误差精度)
阅读量:2135 次
发布时间:2019-04-30

本文共 626 字,大约阅读时间需要 2 分钟。

探索性数据分析最重要的作用是把数据的全貌进行展现

 

单因子分析

  • 集中趋势:均值、中位数与分位数、众数
  • 离中趋势:标准差、方差
  • 数据分布:偏态与峰态、正态分布与三大分布
  • 抽样理论:抽样误差、抽样精度
     

 

集中趋势

集中趋势——均值、中位数、众数、分位数

集中趋势是数据聚拢位置的一种衡量

 

分位数

分位数就是把数据从小到大排列,切分成等份的数据点

分位数和其他几个值共同作用,有时会产生一些不错的效果

 

分位数当中最常用到的是四分位数

四分位数的计算方法

  • Q1的位置=(n+1)*0.25
  • Q2的位置=(n+1)*0.5
  • Q3的位置=(n+1)*0.75

 

离中趋势

离中趋势——标准差、方差

离中趋势是数据离散程度的衡量

 

 

数据分布

数据分布主要包括偏态系数、峰态系数、正态分布和三大分布

 

偏态系数

偏态系数是数据平均值偏离状态的一种衡量

一个对称的分布其中位数和均值应该接近或者相等。如果一个分布中位数和均值差得比较多,这样的分布就是有偏态的分布

如果偏态系数值为正,就是正偏,就是均值比较大

如果偏态系数值为负,就是负偏,就是中位数比较小

 

峰态系数

峰态系数是数据分布集中强度的衡量

峰态系数越大其顶就会越尖锐,峰态系数越小其分布就会越平缓

 

正态分布的峰态系数一般是3

 

正态分布

正态分布 的图像结果

 

三大分布

卡方分布、t分布和F分布

 

抽样理论

为什么要抽样呢,因为数据量可能异常大,全量计算的时间成本和现实成本都比较大

或者全量检验并不显示,比如测灯泡的寿命

 

抽样误差与精度

 

举例

 

转载地址:http://jxygf.baihongyu.com/

你可能感兴趣的文章
[Jmeter]jmeter之脚本录制与回放,优化(windows下的jmeter)
查看>>
Jmeter之正则
查看>>
【JMeter】1.9上考试jmeter测试调试
查看>>
【虫师】【selenium】参数化
查看>>
【Python练习】文件引用用户名密码登录系统
查看>>
学习网站汇总
查看>>
【Python】用Python打开csv和xml文件
查看>>
【Loadrunner】性能测试报告实战
查看>>
【自动化测试】自动化测试需要了解的的一些事情。
查看>>
【selenium】selenium ide的安装过程
查看>>
【手机自动化测试】monkey测试
查看>>
【英语】软件开发常用英语词汇
查看>>
Fiddler 抓包工具总结
查看>>
【雅思】雅思需要购买和准备的学习资料
查看>>
【雅思】雅思写作作业(1)
查看>>
【雅思】【大作文】【审题作业】关于同不同意的审题作业(重点)
查看>>
【Loadrunner】通过loadrunner录制时候有事件但是白页无法出来登录页怎么办?
查看>>
【English】【托业】【四六级】写译高频词汇
查看>>
【托业】【新东方全真模拟】01~02-----P5~6
查看>>
【托业】【新东方全真模拟】03~04-----P5~6
查看>>