第二节基本模型_面板数据分位数回归及其经济应用-QQ阅读中文科幻网

上QQ阅读APP看书，第一时间看更新

第二节基本模型

一分位数和最优化

定义设Y是一个连续型一元随机变量，其分布函数为FY（y）=P（Y≤y），那么对任意的,分位数定义为：

当=1／2时，即为中位数。

根据分位数的含义能清楚了解随机变量 Y的数值分布情况，即在变量Y的所有取值中，在分位数之下的取值所占比例为，同时在分位数之上的取值所占比例为1 -。

分位数可视为最小化问题的解，为理解分位数与最小化之间的关系，我们首先考虑Y的均值μ与最小化的关系。

假设我们通过平方差（Y-μ）2 来测量 Y的某一点与均值μ的距离，然后通过其期望值E [（Y-μ）2]计算 Y与μ的平均距离。容易理解，当随机变量 Y的均值 μ=E（Y）时恰好能使均方差E [（Y-μ）2]取得最小值。证明过程如下：

因为式（2 -2）中 Var（Y）是固定的，所以通过最小化第一项[μ-E（Y）]2 可使均方差E [（Y-μ）2]取得最小值，显然当μ=E（Y）时，可使第一项等于0，同时使式（2 -2）取得最小值。

接下来我们考虑随机变量 Y的中位数 m。假设根据绝对距离来度量 Y的某一点与 m的离差，并且通过平均绝对距离来衡量随机变量 Y与m的平均偏离程度。同样在最小化的情况下，求m的值。为了简单起见，我们假设随机变量Y为连续型随机变量，其概率密度函数为f（y）。那么

为了求解使取得最小化的m值，可用式（2 -3）对m求导，并通过导数等于零求解m的值。式（2 -3）中第一项对m求导如下：

而第二项对m求导如下：

合并上面两部分，则有：

令2F（m）-1 =0，我们得到F（m）=1／2，即当m是 Y的中位数时，可满足的最小化要求。

最后，我们考虑随机变量 Y的分位数。对于任意的（0, 1），随机变量Y到分位数的距离用加权绝对距离来测量，根据 Y是位于的左边还是右边赋予不同的权重。将 Y到分位数的加权绝对距离定义为：

我们要寻找可以使绝对距离的均值E[D（Y,q）]达到最小的 q值，可以证明，当q 是第分位数时，可使 E[D（Y,q）]取得最小值。证明如下：

为了求解使式（2 -5）最小化的q值，可用式（2 -5）关于q求微分，并令其为0，因此有：

显然当q满足F（q）- =0 时，可以使式（2 -5）最小化，因此，满足｛q:F（q）= ｝的任一元素都可使式（2 -5）最小。如果解是唯一的，那么；如果没有唯一解，那么可以得到一个“分位数区间”，选择其中最小的元素作为 q的值即可，此时分位数函数依然满足单调不减性。

若记损失函数为如下分段线性函数：

其中，I（·）代表指示函数，当括号里的不等式成立时取 1，否则取0。那么

通过上述关于最优化的描述可知，当q是第分位数时，能使（Y-q）]取得最小值。

二分位数回归模型

当变量y是关于变量x的函数时，将单变量情形下分位数的求解方法推广到线性回归模型，即可得到基本的线性分位数回归模型。以两变量回归为例，设线性均值回归模型为：

对于模型中未知参数的估计常用最小二乘法，即通过下式求解参数β：

与这一线性均值回归模型对应的分位数回归模型可以表示为：

其中，。定义为分位点处的样本条件分位数函数，假设待估参数的取值随分位点变化，也就是说当分位点值改变，分位数函数具体形式也随之改变。如前所述，当q是第分位数时，可使加权绝对距离的期望取得最小值。因此，实现对如下加权绝对距离之和的最小化问题的求解，便可得出参数在分位点处的估计值：

式（2 -6）可进一步写为：

其中可以取（0,1）之间的任意值，为待估系数，其值随着的变化而变化。从几何上来看，位于回归直线之下的数据占全体数据的比例为，而位于回归直线上方的数据比例为（1 -）。在估计第分位点处回归方程的系数时，位于回归直线以下的观察值赋以权重（1 -），位于回归直线以上的观察值赋以权重。通过设定在（0,1）之间的不同取值，可以得到不同的回归直线，既可以通过特定的回归直线得到局部区域的数据信息，又可以结合所有回归直线获取所有数据的整体变量关系。

三分位数回归的参数估计

设有线性分位数回归模型：

系数可以通过求解如下最小化问题得出，

上式可转化为一个等价的线性规划，对于这一问题的估计方法目前常用的有三种：单纯形算法、内点算法和平滑算法（陈建宝、丁军军，2008）。

（1）单纯形算法

单纯形算法的求解思路是在可行域中，将其中一个基本可行解转移到下一个新的可行解，同时要使目标函数的结果得以改进，如此反复迭代直至目标函数取得最优值为止。Koenker和Orey（1993）把求解最优化问题的单纯形算法应用于分位数回归中，通过此方法求解得到的结果稳定性较强，但在对大规模数据进行计算时，这一方法的计算速度会明显降低。

（2）内点算法

Karmarkar（1984）构造了用于求解线性规划问题的内点算法，该算法在计算过程中用到的每个迭代点都在可行域的内部。这一算法是多项式时间算法，具有较好的理论性质，大量数值研究表明，内点算法在处理大型数据时的运算速度远快于单纯形算法。但是当自变量数目比较多时，内点算法由于每一步迭代过程都要进行因式分解，其运算效率会有所下降。

（3）平滑算法

平滑算法的求解原理是通过平滑函数来逼近目标函数，计算过程中牛顿—拉尔夫方法可以多次重复使用，经过有限步迭代即可求得未知参数的值。单纯形算法和内点算法均有各自的优点和不足，与前两种方法相比，有限平滑算法既可以兼顾运算精度又可以提高运算速度。

四分位数回归的置信区间和参数检验

（一）置信区间

分位数回归中参数估计量置信区间的计算方法大致可分为两类，下面分别加以介绍。

1．直接估计法（Direct Estimation Method）

Koenker和Bassett（1978）证明了在误差项满足独立同分布的假定下，分位数回归系数是渐进正态的：

其中。利用估计量的这一渐近正态分布特征，能够计算出系数估计量的置信区间。

2．自举法（Bootstrap Method）

Koenker和Zhao（1994）提出Bootstrap算法，又称为重复抽样法。通过有放回抽样得到自举样本，对于第m个自举样本，计算。重复大数M（50—200）次抽样，计算 M个，并将其视为从抽样分布中抽取出来的，计算的标准差并用它估计我们需要的标准差。自举法的优点在于不需要误差独立同分布的假设，因此这种方法更加稳健和实用。