2018-09-28 14:33:55

# 介绍

X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.1 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.1 4 5.39 19 12.5
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89

N = 11
Mean of X = 9.0
Mean of Y = 7.5
Intercept = 3
Slope = 0.5
Standard deviation of residuals = 1.126
Correlation = 81.7%

N = 11
Mean of X = 9.0
Mean of Y = 7.5
Intercept = 3
Slope = 0.5
Standard deviation of residuals = 1.126
Correlation = 81.7%

N = 11
Mean of X = 9.0
Mean of Y = 7.5
Intercept = 3
Slope = 0.5
Standard deviation of residuals = 1.126
Correlation = 81.7%

X4 Y4跟他们都是一模一样的，但是如果你把他们画出来你会发现他们完全不一样。

# EDA技术

## 2.双柱状图(Bihistogram)

```library(Hmisc)
histbackback(split(y,batch),ylab="Strength of Ceramic",
brks=seq(300,900,by=25))```

## 3.块图(Block Plot)

```library(dplyr)
avg<-df%>%
group_by(lab,batch)%>%
summarise(x=mean(y))

## Generate the block plot.
boxplot(avg\$x ~ avg\$lab, medlty="blank",
ylab="Ceramic Strength",xlab="Laboratory",
main="Batch Means for Each Laboratory")
## Add labels for the batch means.
text(avg\$lab[avg\$batch==1], avg\$x[avg\$batch==1],
labels=avg\$batch[avg\$batch==1], pos=1)
text(avg\$lab[avg\$batch==2], avg\$x[avg\$batch==2],
labels=avg\$batch[avg\$batch==2], pos=3)```

## 4.Bootstrap Plot

Bootstrap Plot就是简单地把每次抽样，从而计算得到的统计量画出来

```library(boot)
## Bootstrap and CI for mean.  d is a vector of integer indexes
set.seed(0)
samplemean <- function(x, d) {
return(mean(x[d]))
}
b1 = boot(y, samplemean, R=500)
z1 = boot.ci(b1, conf=0.9, type="basic")
meanci = paste("90% CI: ", "(", round(z1\$basic[4],4), ", ",
round(z1\$basic[5],4), ")", sep="" )
## Generate bootstrap plot.
par(mfrow=c(1,2))
plot(b1\$t,type="l",ylab="Mean",main=meanci)
hist(b1\$t,main="Bootstrap Mean",xlab="Mean")```

## 5.Box-Cox Linearity Plot

box-cox变换：

box-cox变换是否对拟合效果有提升 box-cox变换最合适的参数是什么

```library(MASS)
boxcox(Volume ~ log(Height) + log(Girth), data = trees,
lambda = seq(-0.25, 0.25, length = 10))```

## 8.等高线图(Contour Plot)

```#等高线图一个简单的例子
x <- -6:16
contour(outer(x, x), method = "edge", vfont = c("sans serif", "plain"))```

DOE Contour Plot

## 9.DOE Scatter Plot

DOE散点图是用于分析试验数据的方法。它画出了每个因子对应的每个水平对因变量Y的影响。如果每个水平有重复值，那么就可以用这个方法，将不同水平对应的Y取值画到图上。同样，你也可以画出不同水平下的均值或标准差，然后用直线连接，那么这就是 DOE mean plot和DOE standard deviation plot。

## 10.Lag plot

lag plot可以用来检查数据或时间序列是不是随机序列。如果是随机的，那么在lag plot中是看不出任何结构的。

```data=cumsum(runif(100,-5,5))
lag.plot(data)```

## 13.Q-Q图(Quantile-Quantile Plot )与P-P图(probability–probability plot)

P-P图是数据的经验累积分布函数与特定的累积分布函数F（·）间的比较。 而Q-Q图则是数据分位数与某个理论分布分位数间的比较。 P-P图和Q-Q图的构造和解释主要有三个不同点：

Q-Q图的构造不需要指定F（·）的位置或尺度参数。理论分位数可以从一个指定的理论分布中直接计算。若点在图上的排列呈线性，而且位置和尺度参数可以直观地对应于该直线的截距和斜率。相比之下，P-P图的构造需要F（·）的位置和尺度参数来评估有序数据的cdf。

Q-Q图上点是否呈线性趋势并不受分布的位置或尺度参数变化的影响。而在P-P图上，位置或尺度的变化不一定能保持线性。

P-P图的优点是它们在高概率密度的区域是可区分的，因为在这些区域中，经验和理论累积分布比在低概率密度区域变化得快的多。例如，如果将数据分布与特定的正态分布进行比较，两个分布间的差异在P-P图上要比在Q-Q图更明显。

QQ图的组成：

QQ图可以告诉我们：

## 16.Weibull Plot

y轴：威布尔累积概率表示为百分比 x轴：有序故障次数（在LOG10刻度中）

## 17.Youden Plot

Youden图是用于分析interlab数据的图形技术，适用于每个实验在同一产品上进行两次评估或在两个不同产品上运行一次评估时。

Youden图是用于比较实验室内变异性和实验室间变异性的简单但有效的方法。

Youden图形由以下形成：

Youden图本质上是一个散点图，因此在支持散点图的任何通用统计程序中为Youden图写一个宏应该是可行的。

## 18.t-sne

```#t-sne------
## calling the installed package
set.seed(0)
library(Rtsne)
Labels<-train\$label
train\$label<-as.factor(train\$label)

## Executing the algorithm on curated data
tsne <- Rtsne(train[,-1], dims = 2, perplexity=30, verbose=TRUE, max_iter = 500)

## Plotting
library(ggplot2)
df=data.frame(tsne\$Y,label=train\$label)
ggplot(df,aes(x=X1,y=X2,color=label))+geom_point()```