【研究方法】取对数!取对数?最全解读和攻略来了

您所在的位置:网站首页 eviews对数据取对数 【研究方法】取对数!取对数?最全解读和攻略来了

【研究方法】取对数!取对数?最全解读和攻略来了

2023-03-29 13:27| 来源: 网络整理| 查看: 265

区域经济 【区域经济交流】 包括:空间经济、城市经济、土地经济、交通经济、城市规划、经济地理、区域经济等学科领域 48篇原创内容

来源:连享会

作者: 秦范 (四川大学)E-mail: [email protected]

目录

1. 引言

2. Why 取对数?

3. How 取对数?

4. 如何解释估计系数?

4.1 取对数意味着什么?

4.2 对数-水平模型: 取对数

4.3 水平-对数模型: 取对数

4.4 对数-对数模型:常弹性模型

5. 总结

6. 参考资料

1. 引言

变量到底取不取对数?取对数又意味着什么?这看似是一个经验问题。

本文主要依据知乎“在设计计量经济学模型时,怎么判断是否应该对变量取对数?”的讨论展开分析,试图帮助大家判断变量是否需要取对数,并进一步掌握变量取对数后对估计参数的合理解释。

2. Why 取对数?

Source: 以下分析主要根据知乎网友 司马懿在 在设计计量经济学模型时,怎么判断是否应该对变量取对数?中的高赞回答整理而得,编排过程中文字略有改动。

(1) 缩小数据之间的绝对差异;避免个别极端值的影响

考虑一个场景,比如二手车交易市场数据中,有奔驰、奔奔,两者价格差异巨大。现在要研究二手车性质(如公里数、新旧程度)对二手车成交价格的影响,并采用线性回归,会出现什么问题呢?

结果是回归出来的参数会被昂贵车的数据所绑架,而便宜车的特性在回归中得不到充分体现。因为奔驰车价格的任意波动可能是整个二手奔奔的价格了。

而取对数后,昂贵车与便宜车原本几十倍的价格差距可能变成了个位数的微小差异,从而使得便宜车二手车性质能在回归模型中体现。

取对数可以视为“不改变原始数据相对大小的单调变换”,取对数本身也不会改变变量间的相关性,因此如果数据中存在个别极端异常值,取对数则是对正常数据的保护,能避免线性回归时参数估计被个别极端异常值绑架。

(参考知乎网友:司马懿)

(2) 尽可能满足经典线性模型假定(Classic Linear Model)

避免共线性(参考知乎网友:唐柠)

避免异方差,满足同方差基本假定

再次回到研究二手车性质对二手车成交价格的影响这一问题:直接线性回归所得到的估计参数被昂贵车数据所绑架,即昂贵车在决定估计参数时的权重天然增大了。

这在统计上被称为异方差问题,即 ,从而违背了 CLM 同方差假定。

而取对数能很大程度上缓解异方差,更有可能通过方差齐性检验。(参考知乎网友:司马懿)

尽可能符合正态分布取对数只是 Box-Cox tansformation(广义幂变换方法,将非正态分布转换为正态分布的一系列方法)的一种最普遍的方法(参考知乎网友:三田园)一些数据的分布经常呈长尾形态,而这种带长尾的斜度为正的数据分布往往在取对数之后近似正态分布(参考知乎网友:司马懿)比如在 Wooldridge 的 Introductory Econometrics (2009, 4e,pp.119) 中提到“通常利用对数转换使变量更符合正态分布假定。比如 就比 更符合正态分布假定”。

(3) 经济学意义

用线性模型估计非线性关系

比如,考虑教育回报方程,相比于“每多接受一年教育,增加的工资相同”,“每多接受一年教育,工资增长的百分数相同”更合理。具体而言,相比于“每多接受一年教育,小时工资都增加 54 美分”,“每多接受一年教育,工资都增长 8%”更合理。因为后者更能刻画工资增长量随受教育程度的增加而增加的规律,即教育回报递增,受教育程度对工资水平的偏效应随着受教育程度的增加而增加(见 Wooldridge 的 Introductory Econometrics,2009,4e,pp.43)。

直接估计弹性/半弹性

弹性是经济学中一个重要指标,衡量了一个变量的百分比变动会导致另一个变量百分比变动的程度。半弹性,即因变量取对数,自变量不取,表示自变量变动一个单位引起因变量多少的百分比变化。

比如产出对资本和工人劳动时间回归,变量都取对数。(参考知乎网友:司马懿)

因此 就表示资本变化 1%,产量变动百分之 ,则 表示弹性。

取对数背后的经济理论模型

其中, 是全要素生产率,在 上加一个扰动,再两端取对数即回归模型,由此,回归方程式里的参数都能对应到模型中的参数,此时,回归从一个 reduced-form 变为了 structural-form。

由此可以发现,同样一个对数回归的式子,根据背后假设的多寡和强弱,其实是可以有不同解释的(参考知乎网友:司马懿)

经济理论模型中,某些变量本身就以对数形式存在,则应取对数。上述这个例子中,如果背后假设的是 CD 生产函数。为更便于研究,可能会取对数。

比如金融学中常说的 log-return,其实是计算 return 的一种方法(参考知乎网友:三田园)

return

log-return 是常见 的连续时间版,当变化时间 时,

根据 Taylor 展开公式,

使用 log-return 的另一个好处是“可加性”,每个月的收益是每天收益的加总。便于应用中心极限定理和大数定理研究资产的长期走势。

3. How 取对数?

Stata 中,log(·)和ln(·)都以自然对数为底。如果要换底,比如log10(·)表示以 10 为底。

4. 如何解释估计系数?4.1 取对数意味着什么?

将 在 处 Taylor 展开,

可发现,取对数后的变量的变动(变量对数的变动*100)近似等于变量的百分比变动(增长率)。

4.2 对数-水平模型: 取对数4.2.1 的解释,考虑度量单位变换

(1) 简单估计

考虑工资方程

估计系数 的解释可从下式中获知:

即每多接受一年教育,工资将增加 。

NB 变量对数的变动*100 近似变量的百分比变动,上式等式左侧 *100,根据度量单位变换相关知识,解释估计系数 时也要 *100。

(2) 精确估计

如果要精确估计 x 变动一单位,y 变动多少,则考虑

(3) 举例

其中,0.083 意味着每多受一年教育将带来小时工资增长 8.3%;而精确估计下,多受一年教育将带来小时工资增长 8.65%。

4.2.2 当 X 为哑变量时

Source: 以下分析根据知乎网友 颢卿 在 在设计计量经济学模型时,怎么判断是否应该对变量取对数?中的高赞回答整理而得,编排过程中文字略有改动。

知乎网友颢卿以 Angrist and Pischke (Mostly Harmless Econometics: An Empiricists Companion, 2008) 书中的例子说明了当结果变量取对数,解释变量为虚拟变量时,对估计系数的解释。

现在,我们研究这样一个问题 : 年轻的时候上私立学校到底会不会对之后的劳动回报产生影响?

最简单的思路是观察这样一个回归模型:

其中 表示 参加工作之后的工资水平, 等于 1 意味着年轻的时候读私立学校, 0 意味着读公立学校, 则代表了影响工资的经济学家观测不到的其它因素,如个人能力。

上述模型,在“其它变量保持不变的情况下" ,一个年轻时候读私立学校的员工工作之后的收入是:

而一个年轻时候读公立学校的员工参加工作之后的收入是:

模型对于系数 的解释是读公立学校和读私立学校给员工 的收入带来的潜在影响差:

这意味着系数 具备的意义是:

也就是说 : 当找们把输出变量取对数时,所得到的模型估计的结果近似告诉我们相比读公立学校,私立学校对未来收入造成的百分比影响。

4.3 水平-对数模型: 取对数

一个 X 取对数,Y 为百分数的例子

研究学校规模对学生成绩的影响,估计出如下模型(见 Wooldridge 的 Introductory Econometrics,2009,4e,pp.126-128)。

其中, 表示标准化十分制数学测验通过百分比, 年均教师薪资; 平均每千名学生拥有的教职工人数; 表示学校注册人数,用以衡量学校规模。

如何解释-1.29 这一估计系数呢?

NB x 取对数后,要解释为 x 的百分比变动,则意味着解释变量的度量单位乘以 100,则估计系数的解释要除以 100。

可以解释为,学校注册人数每增加 10%,预计数学测验通过率将下降 0.13 个百分点(注意, 为百分比,取值 35.3 则表示 35.3%的学生通过测验)。

4.4 对数-对数模型:常弹性模型

弹性模型在这一例子中已经体现,不再赘述。

表示弹性(参考知乎网友:司马懿)。

5. 总结

由此可以发现,变量是否要取对数,最好立足于对经济理论的理解和或经济问题本身,而不是单纯地“操控数据”(知乎网友 颢卿 )。一旦决定取对数,则要注意对于估计系数的解释发生了变化。

6. 参考资料知乎问题:在设计计量经济学模型时,怎么判断是否应该对变量取对数?Wooldridge, Jeffrey M. Introductory econometrics: A modern approach. Cengage learning, 2009.计量经济学服务中心

经管学术联盟 经管学人之家,汇聚天下英才,集成智库与研究成果,致力于学术研究,学术资源共享。 2篇原创内容


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3