cfa金融分析师 课程(二元线性回归介绍)
cfa金融分析师 课程(二元线性回归介绍)b0=等式的截距Xji=独立变量Xj j= 1,2,…,k的第i个观测值,作为分析师,我们经常需要用多个变量来描述我们所感兴趣的变量。我们试图解释的变量称为因变量。我们认为可以用来解释因变量的变量称为自变量。使我们能分析两种类型变量之间的关系的工具是多元线性回归。多元线性回归使我们能够确定一个以上独立变量对特定因变量的影响。多元线性回归模型具有以下形式:Yi=b0 b1X1i b2X2i … bkXki εi i=1 2 … n,其中Yi=因变量Y的第i个观察值
更多CFA官方教材详解,请关注“边际实验室”。
“边际实验室”是一家专注于金融科技、金融大数据领域的工作室,同时提供CFA、FRM等金融考试内容的免费讲解。
作为分析师,与涉及单个自变量的相关分析或回归相比,我们通常需要使用更复杂的统计方法。例如,对纳斯达克股票交易感兴趣的交易员可能需要有关纳斯达克买卖差价决定因素的信息。基金分析师可能想知道基金的收益表现更像是成长型股票的收益还是价值型股票的收益。
作为投资者来说,我们可能会对分析师购买哪种股票的原因感兴趣。我们可以使用多个自变量的线性回归(多元线性回归)来回答这些问题。
作为分析师,我们经常需要用多个变量来描述我们所感兴趣的变量。我们试图解释的变量称为因变量。我们认为可以用来解释因变量的变量称为自变量。使我们能分析两种类型变量之间的关系的工具是多元线性回归。
多元线性回归使我们能够确定一个以上独立变量对特定因变量的影响。
多元线性回归模型具有以下形式:Yi=b0 b1X1i b2X2i … bkXki εi i=1 2 … n,其中Yi=因变量Y的第i个观察值
Xji=独立变量Xj j= 1,2,…,k的第i个观测值,
b0=等式的截距
b1,…,bk=每个自变量的斜率系数
εi=残差
n=观察数斜率系数bj衡量所有其他自变量保持不变时,自变量Xj改变一个单位,因变量Y发生的变化。例如,如果b1= 1,意味着所有其他自变量保持不变,如果X1增加一个单位,我们预测Y也将增加一个单位。如果b1=-1,意味着所有其他自变量保持不变,如果X1增加一个单位,则我们预测Y将减少一个单位。我们将截距b0和斜率系数b1,...,bk都称为回归系数,所以,回归方程如果有k个斜率系数,就意味着有k 1个回归系数。
尽管多元线性回归的公式看上去似乎仅适用于横截面数据,因为观测的符号是相同的(i=1,…,n),但实际上也适用于时间序列数据。例如,如果我们分析一个公司多个时间段的数据,则通常使用符号Yt,X1t,X2t,…,Xkt,其中第一个下标表示变量,第二个下标表示第t个时间段。
在实践中,我们使用软件来估计多元回归模型。以下案例展示了多元回归分析在投资实践中的应用。
案例解释买卖价差
作为投资管理公司交易柜台的经理,您已经注意到,在纳斯达克上市的不同股票的平均买卖价差可能相差很大。当某只股票的买卖价差与价格之比高于另一只股票时,您买卖股票的成本往往会更高。
为此,您提出了一个假设,即纳斯达克股票的买卖价差与做市商数量和公司股票的市值有关。您决定使用多元回归分析来检验您的假设。
您可以指定一个回归模型,在该模型中,因变量衡量买卖差价的百分比,自变量则衡量做市商数量和公司的股票市值。使用2013年12月31日在纳斯达克上市的2587只股票的数据进行估计。
根据较早发表的研究买卖价差的研究,您将因变量和自变量表示为自然对数,即所谓的对数-对数回归模型。当我们认为因变量的比例变化与自变量的比例变化具有固定的关系时,对数-对数回归模型比较合适。我们使用以下回归模型:
Yi=b0 b1X1i b2X2i εi其中Yi=股票i(买卖价差/股票价格)的自然对数
X1i=股票i在纳斯达克市场做市商数量的自然对数
X2i=公司i市值的自然对数(以百万美元为单位)
在对数-对数回归中,斜率系数为常数。例如,b2= -0.75表示市值增加1%,在其他自变量保持不变的情况下,(买卖点差/股票价格)将下降0.75%。
鉴于竞争加剧往往会降低成本,您认为做市商数量越多,买卖差价的百分比就越小。因此,您可以制定第一个原假设(H0)和替代假设(Ha):
H0:b1≥0
Ha:b1<0
原假设是“可疑”条件不成立的假设。如果证据支持拒绝原假设和接受备择假设,那么从统计学上来讲,您的怀疑就得到了证实。
您还认为,市值较高公司的股票可能具有更强的流动性,这往往会降低买卖差价的百分比。
因此,您可以拟定第二个原假设和替代假设:
H0:b2≥0
Ha:b2<0
对于这两个检验,我们使用t检验而不是z检验,因为我们不知道b1和b2的总体方差。假设您为两个检验都选择了0.01的显著性水平。
上图显示了使用2013年12月31日的数据估算此线性回归的结果。
如果回归结果不显著,我们将不对各个回归系数继续解释。因此,分析师可能会首先关注方差分析(ANOVA)部分,该部分讨论了回归的总体意义。
■ANOVA(方差分析)部分显示与总体模型解释水平和回归显著性相关的数量。SS代表平方和,MSS代表均方根(SS除以df)。F检验报告了回归的总体意义。例如,如果F显著性为0.01意味着在回归在0.01的显著性水平上表现显著。在上图中,因为F显著性在近似小数点后两位后结果为0,显示回归结果十分显著。
在确定总体回归非常显著后,分析人员将会把目光转向表格的第一部分中的第一列。■系数列给出截距的估计值b0以及斜率系数的估计值b1和b2。截距估计值为正,但两个斜率系数均为负。这些估计的回归系数是否显著不等于零?“标准误”列列出了估计回归系数的标准误。对回归系数总体值的假设检验统计量的计算方法为(估计回归系数–回归系数的假设总体值)/(回归系数的标准误)。这是一个t检验。在原假设下,回归系数假设总体值为0。因此,(估计回归系数)/(回归系数的标准误差)就是第三列t统计量的结果。
例如,截距的t统计量为1.5949/ 0.2275 = 7.0105。为了评估t统计量的显著性,我们需要确定自由度(df)。自由度的计算公式为:自由度=观察数–(自变量数 l)=n-(k l)。
■图表的最后部分提供了两种方法,用于估计回归模型与数据的拟合程度。第一个是回归残差的标准差,即残差标准误(SEE)。第二个是R2,该数值量化因变量和所有自变量之间的线性关联程度,这是因变量的预测值与实际值之间相关性的平方。R2的值为0表示没有线性关联;值为l表示完美的线性关联。图表中的最后一项是样本中的观察值数目(2587)。在认识了回归结果所代表的含义后,我们继续完成假设检验。我们需要检验回归是否支持以下假设:
做市商数量越多,买卖价差百分比越小:拒绝H0:b1≥0通过Ha:b1<0;
市值较高的公司的买卖差价百分比较低:拒绝H0:b2≥0通过Ha:b2<0。
要看到两个检验都拒绝了原假设,我们可以使用t检验表。对于这两个检验,df= 2587-3 = 2584。t检验表没有提供那么大的自由度临界值。df=200且在0.01显著性水平下的单尾检验的临界值为2.345;对于较大数量的自由度,临界值的大小将更小。因此,在我们的单尾检验时,如果存在以下情况,我们会拒绝原假设,而通过替代假设:
其中^bj= bj,j= 1,2的回归估计
bj=系数的假设值(0)
^sbj=^bj的估计标准误
经过计算,对于估计得b1值和b2值,t值分别为-18.7946和-25.0993,都小于-2.345。
在进行下一步之前,我们对对数转换进行一下说明。假设某只股票有20个纳斯达克做市商,市值为1亿美元。纳斯达克做市商数量的自然对数等于ln20 = 2.9957,而公司市值的自然对数(单位百万美元)等于ln100 = 4.6052。使用这些值,回归模型预测买卖价差与股票价格之比的自然对数将为1.5949 (-1.5186×2.9957) (-0.3790×4.6052)=-4.6997。然后我们得到-4.6997的对数:e-4.6997= 0.0091。预期买卖价差为股票价格的0.91%。
我们将在之后的内容中讲解多元回归模型的假设;在实际操作中,实施回归时应确保已满足这些假设。
上面的图表我们展示了大多数回归软件程序的输出项。
许多软件程序还会计算回归系数的p值。对于每个回归系数,在双边检验中,p值是最小的显著性水平,在该水平下,我们可以拒绝零假设,即该系数的值为0。p值越低,针对该原假设的可解释性就越强。p值可让我们快速确定自变量在特定显著性水平(例如0.05)下是否显著。
根据模型结果,我们得出以下回归公式:
其中^Yi代表Yi的预测值,^b0,^b1和^b2分别代表b0,b1和b2的估计值。我们应该如何解释估计的斜率系数-1.5186和-0.3790?
在多元线性回归模型中斜率系数的解释与一元回归中不同。假设一元回归^Yi=0.50 0.75X1i,斜率估计值0.75的解释是X1每增加1个单位,Y会期望增加0.75个单位。如果我们要在方程中添加第二个自变量,则会发现,除非第二个自变量与X1不相关,否则X1的估计系数不是0.75。多元回归中的斜率系数称为部分回归系数或部分斜率系数,需要谨慎地解释。假设在有两个自变量的回归中X1的系数为0.60。我们能说X1每增加1个单位,Y会期望增加0.60个单位吗?并不能。对于X1每增加1个单位,当X2并不保持恒定值时,Y仍然会期望增加0.75个单位。0.60只能被解释为在第二个自变量保持恒定值时,1单位X1的变化带来的Y的预期增长。
为了解释“保持第二个参数为恒定值”的含义,如果我们对X2进行X1的回归,则该回归的残差将表示X1与X2不相关的部分。然后,我们可以通过一元回归对这些残差与Y进行回归。我们发现残差的斜率系数为0.60;通过这样的构造,0.60将表示在删除X2中与X1相关的部分后,X1每增加1单位对Y的预期结果。与该解释一致,在考虑了其他自变量对Y的期望值的所有影响之后,我们可以将0.60作为X1的1单位增长对Y的期望净效应。
将这个过程应用于图表中的回归,我们看到市值自然对数的估计系数为-0.3790。因此,该模型预测,公司市值的自然对数增加1、做市商数量的对数保持不变,会导致买卖价差与股票价格之比的自然对数变化-0.3790。如果我们比较两家公司市值的自然对数相差1的股票,我们不能简单地期望买卖价差与股票价格之比的自然对数相差-0.3790,因为两种股票的做市商数量极有可能也会有所不同,这将会对因变量带来影响。-0.3790是市值对数差异的期望净效用,扣除了做市商数量对因变量预期值带来的影响。
文/边际实验室,转载请务必注明出处