非参数计量经济学中的伪回归诊断

发布时间：2023-12-09 08:37

　　摘要：研究非参数模型的伪回归诊断问题.在Phillips局部诊断思想的基础上，考察了局部Durbin-Watson(DW)统计量的设计思路和理论基础，研究了检验的可靠性，给出了检验统计量的参考临界值.文章指出：若时间序列存在趋势，使用非参数模型分析时间序列时，可能会发生虚假回归，给研究带来误导；诊断回归残差的序列相关特性是十分重要的，伪回归下的模型残差会表现出一种非线性严重序列相关的特征，它既是序列趋势导致虚假回归的必然结果，同时也是推断估计存在失真风险的充分条件；局部DW统计量可以通过检验该特征来诊断伪回归.研究表明，局部DW检验的性质良好，可有效识别时间序列分析中非参数模型的伪回归.

　　关键词：非参数计量经济学；随机趋势；伪回归；局部诊断

　　1引言

　　当数据存在趋势时，回归分析可能将无关变量拟合出显著的关联关系.这样的分析会得出错误的结论、做出无效的预测，即发生所谓的虚假回归，给实证研究和预测工作带来风险[1].这就要求学者对模型是否存在伪回归的问题进行诊断，以识别和降低这种风险.在研究当中，参数模型的伪回归诊断已经得到了广泛的重视[2]，而非参数模型的伪回归诊断却常常会被人忽视.主要原因在于，非参数模型没有在形式上做主观预设，它们常常被当作最接近真实、决不会犯错的模型.但事实并非如此.在趋势的影响下，参数模型尚且容易错把无关变量拟合出关联关系，作为拟合能力更强的非参数模型，就可能面临更大的伪回归风险.但考虑到非参数模型并没有描述关联关系的表达式，即便模型存在风险，又该诊断什么，如何诊断呢？本文研究了非参数模型的伪回归诊断问题，试图为相关检验方法给出严格的理论论证和较全面的应用参考.

　　关于伪回归诊断的问题，有些重要的文献做出了有价值的研究.Granger等[3]基于模拟实验，率先研究了单位根过程带给参数模型的伪回归问题，并提出基于DW统计量的回归诊断方法.方法的基本思想是用残差的全局特征来诊断参数模型的表达式是否可靠.在此基础上，Phillips[4，5]研究了单位根过程回归残差的渐进分布特征，推导和完善了方法的理论基础.但该方法并不适合诊断非参数模型.非参数回归是一种关注局部的逐点估计，残差关联机制与参数模型不同，局部之间缺乏相关性.Phillips[6]分析了这个问题，并创造性地提出了局部诊断的思想，研究了数据随机趋势带给局部残差特征的影响.Kasparis等[7]沿用了局部视角的检验设计思想，研究了在多元动态时间序列的分析当中，选错解释变量滞后期时非参数回归的残差异常性质.这些诊断方法的共同思路是，设计统计量考察数据趋势属性带给非参数回归残差的影响，用非参数回归残差的局部特征来诊断原始数据的趋势属性.伪回归诊断的初衷是辨别有风险的回归，但现有的研究并没有把非参数模型中“残差局部特征”和“估计失真风险”的关联关系说清楚，可见局部DW诊断方法的理论基础有待进一步论证.诊断在不同窗宽、不同样本容量的回归当中可能遇到的问题，也有待进一步研究.

　　本文回顾了随机趋势给非参数模型带来的伪回归风险，并针对现有文献的不足，在Phillips局部诊断思想的基础上，研究了非参数回归中残差局部性质和模型估计风险的关联关系.用数学语言描述回归风险，并通过数学变换，创造性地将回归的诊断问题转化成了级数收敛的检验问题，解释了数据局部特征与局部回归风险之间的联系.还通过模拟实验，考察了不同类型非参估计的伪回归诊断，给出了诊断的一般步骤且验证了诊断的功效.发现，局部残差性质异常是非参数模型估计失真的充分条件，而局部DW检验可以很好地识别这种情况，进而诊断非参数模型的伪回归.文章完善了使用局部特征诊断回归风险的理论基础，具有较强的理论意义；归纳了检验方法在模拟实验中表现出的若干性质，为非参数模型的实际应用提供参考.

　　2问题的初探

　　误设模型的拟合优度通常很低，因此研究常用拟合优度指标来评价模型的可靠性.但当数据存在趋势时，拟合优度指标可能会出现虚高，容易让人把误设的模型当作正确的模型.这就是虚假回归或伪回归.这种“虚假”是由趋势造成的.

　　在实际经济当中，时间序列的数据生成过程普遍受到多方面因素的影响.其中可能存在一部分影响几乎不随时间推移而有所衰减，这部分影响不断累积，形成了数据的趋势.时间序列的趋势可以分成如下几类，即线性趋势、非线性趋势、变结构现象和随机性趋势[8].趋势有时会给数据分析带来干扰，进而导致模型的误设.

　　趋势是识别和描述数据生成过程的重要工具.可以运用发现趋势、拟合趋势(通常用虚拟变量、傅立叶展开或非参数形式拟合)和去势等技术，逐步将包含确定性趋势的数据转换成无趋势数据[9].确定性趋势在很大程度上是可预测、可处理的.但如果序列存在随机趋势，情况则变得复杂.随机性趋势表现为数据的长记忆性(常见的有单位根过程和分数单整过程)，这种性质打断了时间序列不同位置间数据属性的递推机制，给数据分析工作带来了严重的误导.对于确定存在关联关系的变量，可用误差修正模型建模，探索变量间的影响机制[10].在不确定关联关系时，使用回归方法研究变量关系就可能将无关变量拟合出某种关联关系，研究就是要识别这种回归.

　　为了直观地展示非参数回归中伪回归的问题，下面用模拟实验举例，使用非参数模型对单位根过程做回归分析.设三个随机序列ut，vt，ξt服从标准正态分布，用它们定义三个非平稳过程xt，yt，zt.首先生成单位根过程x序列；然后借助x序列生成y序列，此处不失一般性地设定二者存在正相关的线性函数关系；最后生成了一个与前两个序列无关的单位根过程z序列.

　　数据生成过程的数学表达式如下

　　pagenumber_ebook=29，pagenumber_book=747

　　其中k取正整数，用来控制y序列的波动幅度，令k=1，序列设为100期.

　　对生成的数据多次重复下面的回归，即式(4)～式(6).

　　pagenumber_ebook=29，pagenumber_book=747

　　其中pagenumber_ebook=29，pagenumber_book=747为对应回归的误差项估计值，pagenumber_ebook=29，pagenumber_book=747是对被解释变量的非参估计值.

　　当变量间相关系数较高时，回归容易产生较高的拟合优度.在考察回归拟合优度之前，不妨先查看自变量和因变量间的皮尔逊相关系数，实验重复1000次，结果见图1.

　　pagenumber_ebook=29，pagenumber_book=747

　　图1相关系数直方图

　　Fig.1Histogramofthecorrelation-coefficients

　　根据式(1)～式(3)可以看出，y序列与x序列存在函数关系，而y与z和v与u均不存在关联关系.由图1可以看出，当数据不存在随机趋势，无关序列不会呈现出显著的相关特征，v与u的相关系数集中在(-0.2，0.2)；当数据存在随机趋势时，无关序列相关系数尽管期望为0，但有时表现出显著的正相关，有时表现出显著的负相关，实验产生的相关系数几乎是均匀分布在(-1，1)的区间里；如果数据本身存在关联关系，y与x表现出显著的相关关系，与实验的设定相符，相关系数集中在(0.97，1.00)的区间里.

　　比较三个回归的拟合优度.回归1中的变量不存在趋势，拟合优度集中在0附近.用非参数回归分析非平稳数据(即回归2和回归3)是下面研究的重点.采用不同窗宽实施模拟实验研究这两组回归的拟合优度，研究结果见图2，图(a)，图(b)和图(c)采用的窗宽依次为h=n-1/2.5，h=n-1/3和h=n-1/4.

　　不妨将回归2称为虚假回归，回归3称为真实回归.图2显示，虚假回归的拟合优度几乎均匀分布在(0，1)的区间里，而真实回归的拟合优度集中在1附近.在随机趋势的影响下，虽然z与y之间不存在关联关系，但有时会得到不错的拟合优度.拟合优度指标是失效的.窗宽的不同没有造成显著的差异.

　　研究还做了另一组实验.令k=10，即放大被解释变量的波动幅度，比较真实回归与虚假回归的拟合优度，结果见表1.

　　根据实验设定可知，用z来预测y既没有经济意义，又没有实用价值.但当因变量有较大波动幅度时，有超过5%的概率，伪回归的模型看上去更有效.如果单纯依据拟合优度选择模型，有5%以上的概率误选伪回归的模型做分析和预测.

　　pagenumber_ebook=30，pagenumber_book=748

　　图2回归2和回归3的拟合优度经验分布图

　　Fig.2Empiricaldistributionofgoodnessoffitforregression2andregression3

　　表1凭拟合优度选解释变量时犯错的概率(k=10)

　　Table1Theprobabilityofchoosingwrongwhenexplanatoryvariablesareselectedbygoodnessoffit(k=10)

　　pagenumber_ebook=30，pagenumber_book=748

　　可以得到一个初步的结论，对非平稳数据做非参数回归时，拟合优度指标无效.模型需要新的诊断工具来识别虚假的回归.

　　3基于残差特征的模型诊断方法

　　当数据生成过程存在随机趋势时，拟合优度指标不再可靠，DW统计量变得重要.无论是参数模型还是非参数模型，都对残差序列做了“相互独立”的假设.如果估计出的残差违背了独立性的假设，对模型的估计可能存在失真.反过来看，若模型设定有误，所估计出的残差通常存在序列相关.利用DW指标对残差做检验，可以帮助识别这类模型.

　　存在伪回归问题的参数模型，具有三个特征，分别是异常的关联关系、较高的拟合优度和极低的DW统计量.对参数模型的伪回归诊断，主要是借助DW统计量对残差做序列相关检验.若DW统计量存在异常，可以推断模型存在虚假回归.

　　非参数残差的形成机制有所不同.非参数回归是一种逐点估计，局部与局部之间缺乏关联.但对点估计和局部估计而言，仍可以用残差的函数来描述估计面临的风险.不同位置的残差应当具有不同的影响权重.为了评价估计所面临的风险以实现对非参数模型的诊断，需要基于DW统计量的思想，设计新的统计量.下面基于非参数核回归模型，研究残差特征与估计风险的关系，给出伪回归检验的设计思路和理论依据.

　　3.1非参数核回归的模型设定

　　非参数回归的一般形式为[11]

　　pagenumber_ebook=30，pagenumber_book=748

　　其中x为解释变量，y为被解释变量，pagenumber_ebook=30，pagenumber_book=748t为误差项的估计值，pagenumber_ebook=30，pagenumber_book=748是对被解释变量的核回归估计，其形式为

　　pagenumber_ebook=30，pagenumber_book=748

　　其中K(·)是核函数，h为窗宽.

　　在非参数模型当中，窗宽的选择对模型的估计有显著的影响.当窗宽取无穷大时，非参数模型退化成线性参数模型；当窗宽无穷小时，非参数模型研究的是极小区间内的关系，甚至可能会浓缩到一个点.对伪回归的诊断，就有逐点视角、局部视角和全局视角等三个角度.全局视角的分析与参数模型一致，下面主要讨论“逐点视角”和“局部视角”.

　　3.2非参数点估计的风险及伪回归残差特征

　　非参核回归所做的点估计，本质上是用多个观测值的加权平均来估计被解释变量，可将该估算方法的表达式改写成