
数据集BWGHT.RAW包含了美国妇女生育方面的数据。我们关心的两个变量是因变量[婴儿出生体重的盎
bwght=119.77-0.514cigs
(i)当cigs=0时,预计婴儿的出生体重为多少?当cigs=20(每天一包)时呢?评价其差别。
(ii)这个简单回归能够得到婴儿出生体重和母亲抽烟习惯之间的因果关系吗?请解释。
(iii)要预测出生体重125盎司,cigs应该为多少?
(iv)样本中在怀孕期间不抽烟的妇女比例约为0.85。这有助于解释第(iii)部分中的结论吗?

bwght=119.77-0.514cigs
(i)当cigs=0时,预计婴儿的出生体重为多少?当cigs=20(每天一包)时呢?评价其差别。
(ii)这个简单回归能够得到婴儿出生体重和母亲抽烟习惯之间的因果关系吗?请解释。
(iii)要预测出生体重125盎司,cigs应该为多少?
(iv)样本中在怀孕期间不抽烟的妇女比例约为0.85。这有助于解释第(iii)部分中的结论吗?
第1题
数据集401KSUBS.RAW包含了净金融财富(nenfa)、被调查者年龄(age)、家庭年收入(inc)、家庭规模(fsize)方面的信息,以及参与美国个人的特定养老金计划方面的信息。财富和收入变量都以千美元为单位记录。对于这里的问题,只使用无子女已婚者数据(marr=1,fsize=2)。
(i)数据集中有多少无子女已婚夫妇?
(ii)利用OLS估计模型
nettfa=β0+β1inc+β2age+u;
并以常用格式报告结果。解释斜率系数。斜率估计值有何惊人之处吗?
(iii)第(ii)部分的回归截距有重要意义吗?请解释。
(iv)在1%的显著性水平上,针对H0:β2>1检验H0: β2=1,求出p值。你能拒绝H0吗?
(V)如果你做一个nettfa对inc的简单回归,inc的斜率估计值与第(ii)部分的估计值有很大不同吗?为什么?
第2题
薪水信息和职业统计。
(i)估计一个将每场得分(points)与加入联盟年数(exper)、年龄(age)、大学期间打球年数(coll)相联系的模型。包含一个exper的二次项,其他变量都应该以水平值形式加入模型。按照通常的格式报告结果。
(ii)保持大学打球年数和年龄不变,从加入联盟的第几个年份开始,在NBA打球的经历实际上将降低每场得分?这讲得通吗?
(iii)你为什么认为coll具有负系数,而且统计显著?(提示:NBA运动员在读完大学之前被选拔出,甚至直接从高中选出。)
(iv)有必要在方程中增加age的二次项吗?一旦控制了exper和coll之后,这对年龄效应意味着什么?
(v)现在将log(wage)对points,exper,exper2,age和coll回归。以通常的格式报告结论。
(vi)在第(v)部分的回归中检验age和coll是否联合显著。一旦控制了生产力和资历,这对考察年龄和受教育程度是否对工资具有单独影响这个问题有何含义?
第3题
(i)暂不考虑家庭的聚类特征, 用OLS估计模型
其中变量定义在数据集中给出。我们最感兴趣的变量是choice, 它是一个虚拟变量, 如果一个人选择了如何在不同的投资之间配置其养老金,这个变量就等于1。choice的影响估计值是多少?它在统计上显著吗?
(ii)收入、财富、拥有股票和拥有个人退休金账户这些控制变量重要吗?请加以解释。(iii)确定数据集中有多少个不同的家庭。
(iv)现在, 求对家庭内聚类相关保持稳健的OLS标准误。它们与通常的OLS标准误差别大吗?你感到意外吗?
(v)通过对同一个家庭内的夫妻进行差分来估计这个方程。你在第(ii)部分中提到的解释变量为什么在差分估计时被去掉了?
(vi)第(v)部分中剩下的解释变量显著吗?你感到意外吗?
第4题
数据集NBASAL.RAW包含了美国篮球协会(NBA)269位运动员的薪水信息和职业统计。
(i)估计一个将每场得分(points)与加入联盟年数(exper)、年龄(age)、大学期间打球年数(coll)相联系的模型。包含一个exper的二次项,其他变量都应该以水平值形式加入模型。按照通常的格式报告结果。
(ii)保持大学打球年数和年龄不变,从加入联盟的第几个年份开始,在NBA打球的经历实际上将降低每场得分?这讲得通吗?
(iii)你为什么认为coll具有负系数,而且统计显著?(提示:NBA运动员在读完大学之前被选拔出,甚至直接从高中选出。)
(iv)有必要在方程中增加age的二次项吗?一旦控制了exper和coll之后,这对年龄效应意味着什么?
(v)现在将log(wage)对points,exper,exper2,age和coll回归。以通常的格式报告结论。
(vi)在第(v)部分的回归中检验age和coll是否联合显著。一旦控制了得分和资历,这对考察年龄和受教育程度是否对工资具有单独影响这个问题有何含义?
第5题
回答木题需使用BWGHT.RAW中的数据。
(i)样本中有多少妇女,又有多少人报告在怀孕期间抽烟?
(ii)平均每天抽烟数量是多少?平均数作为这个案例中“典型”妇女的度量指标好吗?请解释。
(iii)怀孕期间抽烟的妇女中,平均每天抽烟数量是多少?与第(ii)部分中的答案有何区别,为什么?
(iV)求出样本中fath educ的平均值。为何只用1192个观测计算这个平均值?
(V)报告平均家庭收入及其标准误,以美元为单位。
第7题
A.3
B.1
C.2
D.4
第8题
A.参考数据经常变化,它的数据集通常会比交易数据集或主数据集小
B.对于参考数据和主数据,管理的重点是不同的。参考数据管理需要对定义的域值及其定义进行控制。参考数据管理的目标是确保组织能够访问每个概念的一整套准确、且最新的值
C.参考数据管理面临的其中一个挑战是谁来所有或负责参考数据的定义和维护。一些参考数据来源于使用它的组织之外。有些跨越了组织内部的边界,不只被一个部门所有
D.最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,包含了映射和层次结构
第9题
但比其报告回归中的观测更加有用)。
(i)分别求男女相貌在一般水平之上的比例。相貌在一般水平之上和之下的人哪个更多?
(ii)检验假设:男女相貌在一般水平之上的总体比例相同。报告女人比例更高的单侧P值。(提示:估计一个简单的线性概率模型最容易。)
(iii)现在针对男女分别估计模型
并以通常方式报告结果。在两种情形中解释belavg的系数。用语言解释假设H0:β1=0相对H1:β1<0的含义,并分别求出P值。
(iv)有一般相貌之上的女人比相貌一般的女人工资更高的充分证据吗?请解释。
(v) 对男人和女人都增加解释变量educ, exper,experz,union,goodhlth,black,married, south,bigcity,smllcity和service。“相貌”变量的影响有重要变化吗?
第10题
本题利用BEAUTY.RAW中的数据集,它包含了哈默梅什和比德尔(HamermeshandBiddle,1994)报告变量的一个子集(但比其报告回归中的观测更加有用)。
(i)分别求男女相貌在一般水平之上的比例。相貌在一般水平之上和之下的人哪个更多?
(ii)检验假设:男女相貌在一般水平之上的总体比例相同。报告女人比例更高的单侧P值。(提示:估计一个简单的线性概率模型最容易。)
(iii)现在针对男女分别估计模型
并以通常方式报告结果。在两种情形中,都解释belavg的系数。用语言解释假设H0:β1=0相对H1:β1<0的含义,并分别求出P值。
(iv)有一般相貌之上的女人比相貌一般的女人工资更高的充分证据吗?请解释。
(v)对男人和女人,都增加解释变量educ,exper,experz,uion,goodhlth,black,married,south,bigcity,smllcity和service。“相貌”变量的影响有重要变化吗?