|
30秒注册登陆,可查看更多信息,结交更多好友,享用更多功能,轻松玩转论坛,白白手拉手欢迎您的加入!
您需要 登录 才可以下载或查看,没有账号?注册新成员
x
一元线性回归分析
相关性分析只能得出两个变量之间是否相关,但却不能回答在两个变量之间存在相关关系时。 它们之间是如何联系的,即无法找出刻画它们之间因果关系的函数关系。回归分析就可以解决这一问题
数学模型
设变量x和y之间存在一定的相关关系,回归分析方法就是找出y的值是如何随x的值变化而变化的的规律.
Y = β0 + β1X + ε
其中 Y= β0 + β1X表示Y随X变化而线性变化的部分, 其中 ε是随机误差,它是其它一切不确定影响的总和。称函数 Y= β0 + β1X为一元线性回归函数。β0为回归常数。β1为回归系数。统称回归参数,
估计与检验
回归方程的显著性检验需要对回归方程进行显著性检验,对于一元线性回归模型,它等价于回归系数β1的显著性检验
通常采用三种检验的方法:t检验法、F检验法、相关系数检验法
在R中,由函数lm()可以方便的求出回归方程,函数confiint()可求出参数的置信区间,与回归分析相关的函数还有summary(),
anova()和predict()等。
例子:
[size=11.000000pt]表[size=11.000000pt]9.3[size=11.000000pt]是有关[size=11.000000pt]15[size=11.000000pt]个地区某种食物年需求量[size=11.000000pt](X, [size=11.000000pt]单位[size=11.000000pt]: 10[size=11.000000pt]吨[size=11.000000pt])[size=11.000000pt]和地区人口增加量[size=11.000000pt](X, [size=11.000000pt]单位[size=11.000000pt]: [size=11.000000pt]千人[size=11.000000pt])[size=11.000000pt]的资料[size=11.000000pt]. [size=11.000000pt]利用此表数据展示一元回归模型的统计分析过程[size=11.000000pt].
计算分析过程:
1)建立数据集,并画出散点图:考查数据点的分布趋势,看是否呈现直线条状分布
x <- c(274, 180, 375, 205, 86, 265, 98, 330, 195, 53,430, 372, 236, 157, 370)
y <- c(162, 120, 223, 131, 67, 169, 81, 192, 116, 55,252, 234, 144, 103, 212)
A <- data.frame(x, y)
plot(A$x,A$y)
2)进行回归分析并在散点图上显示回归直线
lm.reg <- lm(y~x)
summary(lm.reg)
[size=14.6667px]abline(lm.reg)
[size=14.6667px] 回归结果:
[size=14.6667px] Call:
[size=14.6667px] lm(formula = y ~ x)
[size=14.6667px]
[size=14.6667px] Residuals:
[size=14.6667px] Min 1Q Median 3Q Max
[size=14.6667px] -9.9610 -4.6079 -0.2618 3.1500 14.2152
[size=14.6667px]
[size=14.6667px] Coefficients:
[size=14.6667px] Estimate Std. Error t value Pr(>|t|)
[size=14.6667px] (Intercept) 22.59595 3.92745 5.753 6.67e-05 ***
[size=14.6667px] x 0.53008 0.01472 36.007 2.08e-14 ***
[size=14.6667px] ---
[size=14.6667px] Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
[size=14.6667px]
[size=14.6667px] Residual standard error: 6.435 on 13 degrees of freedom
[size=14.6667px] Multiple R-squared: 0.9901, Adjusted R-squared: 0.9893
[size=14.6667px] F-statistic: 1297 on 1 and 13 DF, p-value: 2.079e-14
[size=14.6667px]结论:
[size=14.6667px] ①回归系数的估计与检验:回归系数的估计为β0=22.59595 β1=0.53008 相应的标准差为Sd([size=14.6667px]β0[size=14.6667px])=3.92745 Sd([size=14.6667px]β1[size=14.6667px])=0.01472它们的p值均很小,故所以是非常显著的
[size=14.6667px] ②相关分析:相关系数的平方R = 0.9901 表明数据中99%可由回归方程来描述
[size=14.6667px] ③方程的检验:F的分布值为[size=14.6667px] [size=14.6667px]2.08e-14 ,因此方程式非常显著的这与R的平方结果一直
[size=14.6667px] 3)残差分析--图形诊断。使用函数residuals()计算回归方程的残差,并画出关于残差的散点图
[size=14.6667px] [size=14.6667px]res <- residuals(lm.reg)
[size=14.6667px] plot(res)
[size=14.6667px] text(12, res[12],labels = 12, adj = (.05))
[size=11.000000pt]从图[size=11.000000pt]可以看出[size=11.000000pt], [size=11.000000pt]第[size=11.000000pt]12[size=11.000000pt]个样本点可能有问题[size=11.000000pt]([size=11.000000pt]程序中已用函数[size=11.000000pt]text( )[size=11.000000pt]标注[size=11.000000pt]), [size=11.000000pt]它比其它样本点的残差大很多[size=11.000000pt], [size=11.000000pt]因此[size=11.000000pt], [size=11.000000pt]这个点可能有问题[size=11.000000pt]: [size=11.000000pt]或者由于模型的假设不正确[size=11.000000pt], [size=11.000000pt]或是[size=11.000000pt]σ[size=7.000000pt]2[size=11.000000pt]不是常数[size=11.000000pt], [size=11.000000pt]或是异常点[size=11.000000pt], [size=11.000000pt]等等[size=11.000000pt]. [size=11.000000pt]总之[size=11.000000pt], [size=11.000000pt]需要对这个问题进行进一步的分析
|
-
拟合值
-
β0,β1的估计
-
表9.3
-
散点图
-
回归直线
-
残差分析
|