Quantcast
Channel: 模型专题 –统计之都
Browsing all 16 articles
Browse latest View live

Image may be NSFW.
Clik here to view.

使用回归分析,样本过少时不妨好先作图看看

回归分析往往是学统计、学计量课程时接触的第一个统计模型了,甚至不少人可能认为回归分析理所当然成为计量的绝大部分内容——毕竟很多教材中提到统计模型的时候,往往就一个OLS为主的讲法。回归分析的内容当然很广泛,也在学科中占据相对基础的位置。...

View Article


Image may be NSFW.
Clik here to view.

开源的计量经济学软件gretl

gretl(Gnu Regression,Econometrics and Time-series Library)是一款跨平台的计量分析软件。它是开源软件,用C语言写成,由 Allin Cottrell和Riccardo “Jack” Lucchettii 共同开发。 主要特性 简单友好的界面 多种估计方法:最小二乘、极大似然、GMM...

View Article


Hilbert空间视角下的时间序列模型

Hilbert空间说起来和我国古代数学有着一定的渊源。《九章算术》里记载:“勾股术曰:勾股各自乘,并,而开方除之,即弦”。这条著名的勾股定理实质上蕴含了Hilbert空间中对于距离和正交的核心性质。 Hilbert空间特点是通过定义内积$ < \cdot , \cdot > $来导出范数,进而导出距离函数。由内积可以定义正交关系,即若$ <x,y>=0 $则定义$ x , y...

View Article

漫谈相关与回归

老师不断提醒我要对统计学的基本概念、定义及背景反复思考,这样才不会本末倒置,迷失方向。但是这个做起来很难,因为那些概念定义等看起来实在”太简单”、”没什么东西”,可能还是不能够平心静气吧! 最近静下来看了David...

View Article

Image may be NSFW.
Clik here to view.

有边界区间上的核密度估计

一、一个例子 核密度估计应该是大家常用的一种非参数密度估计方法,从某种程度上来说它的性质比直方图更好,可以替代直方图来展示数据的密度分布。但是相信大家会经常遇到一个问题,那就是有些数据是严格大于或等于零的,在这种情况下,零附近的密度估计往往会出现不理想的情况。下面以一个指数分布的模拟数据为例(样本量为1000),R程序代码为: set.seed(123); x=rexp(1000,1);...

View Article


从线性模型到广义线性模型(1)——模型假设篇

在统计学里,对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做$ Y$,也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变量(regressand);输入变量通常记做$...

View Article

从线性模型到广义线性模型(2)——参数估计、假设检验

1.GLM参数估计——极大似然法 为了理论上简化,这里把GLM的分布限定在指数分布族。事实上,实际应用中使用最多的分布就是指数分布族,所以这样的简化可以节省很多理论上的冗长论述,也不会限制实际应用。 如前文如述,指数分布族的概率密度函数可以统一地写为: $f_Y(y;\theta,\Psi)=exp[(y\theta - b(\theta))/{\Psi} + c(y;\Psi)]$...

View Article

LARS算法简介

最近临时抱佛脚,为了讨论班报告Group Regression方面的文章,研究了Efron等人于2004年发表在Annals of Statistics里一篇被讨论的文章LEAST ANGLE REGRESSION。这篇文章很长,有45页。加上后面一些模型方面大牛的讨论的文章,一共有93页。对于这种超长论文,我向来敬畏。后来因为要报告的文章里很多东西都看不懂,才回过头来研读这篇基石性的文章。...

View Article


Image may be NSFW.
Clik here to view.

修正的LARS算法和lasso

在小弟的上一篇文章中,简单的介绍了LARS算法是怎么回事。主要参考的是Efron等人的经典文章least angle regression。在这篇文章中,还提到了一些有趣的看法,比如如何用LARS算法来求解lasso estimate和forward stagewise...

View Article


分组最小角回归算法(group LARS)

继续前两篇博文中对于最小角回归(LARS)和lasso的介绍。在这篇文章中,我打算介绍一下分组最小角回归算法(Group LARS)。本文的主要观点均来自Ming Yuan和Yi Lin二人2006合作发表在JRSSB上的论文Model selection and estimation in regression with grouped variables....

View Article

Image may be NSFW.
Clik here to view.

R 中大型数据集的回归

作者:Yixuan Qiu 原文地址:http://statr.me/2011/10/large-regression/ 译者:黄俊文 众所周知,R 是一个依赖于内存的软件,就是说一般情况下,数据集都会被整个地复制到内存之中再被处理。对于小型或者中型的数据集,这样处理当然没有什么问题。但是对于大型的数据集,例如网上抓取的金融类型时间序列数据或者一些日志数据,这样做就有很多因为内存不足导致的问题了。...

View Article

Image may be NSFW.
Clik here to view.

昔日因,今日意

本文作者杨灿:杨灿于2011年在香港科技大学电子计算机工程系获得博士学位,2011-2012为耶鲁大学生物统计系博士后,现为耶鲁大学副研究员。 飞帅云:“三十功名尘与土,八千里路云和月。莫等闲,白了少年头,空悲切。”可我在耶鲁两年多了,基本一事无成。既没有像当年那样死磕Lasso和Boosting,也没有能追随Deep Learning...

View Article

COS每周精选:数据挖掘中的十大算法

本期投稿:谢益辉 施涛 朱雪宁 王小宁 编辑:王小宁 国际权威的学术组织 The IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, 和...

View Article


Image may be NSFW.
Clik here to view.

为什么我不是R方的粉丝

本文翻译自 John Myles White 的博客 Why I’m Not a Fan of R-Squared。翻译工作已经获得作者授权同意。 本文大意 人们通常喜欢用 $R^2$ 作为评判模型拟合好坏的标准。与 MSE 和 MAD 不同,$R^2$...

View Article

Image may be NSFW.
Clik here to view.

共轭梯度法计算回归

轮回眼 共轭梯度示意图(图片来源:维基百科) 引子 之所以写这篇文章,是因为前几天统计之都的微信群里有同学提了一个问题,想要对一个很大的数据集做回归。然后大家纷纷给出了自己的建议,而我觉得共轭梯度算回归的方法跟这个背景比较契合,所以就正好写成一篇小文,与大家分享一下。 说到算回归,或许大家都会觉得这个问题太过简单了,如果用 $X$ 表示自变量矩阵,$y$ 表示因变量向量,那么回归系数的最小二乘解就是...

View Article


Image may be NSFW.
Clik here to view.

COS访谈第25期:李东老师

受访人:李东老师 采访人:张心雨   个人简介...

View Article
Browsing all 16 articles
Browse latest View live