A. 異質性檢驗放在回歸可以嗎
分析用來檢驗中間傳導機制, 分組回歸或交互項就可以完成機制分析
安三六 >《調節效應、交互項》
閱264轉02022.03.09
關注
稿件:[email protected]
所有計量經濟圈方法論叢的code程序, 宏微觀資料庫和各種軟體都放在社群里.歡迎到計量經濟圈社群交流訪問.
打開APP查看高清大圖
可以自行搜索一下,計量經濟圈公眾號搜索功能及操作流程演示
之前,我們說過分組回歸或交互項調節效應,即異質性分析也可以用來做機制檢驗。為了讓各位學者更清楚地理解這一邏輯,今天給圈友分享一篇實例文獻。
為了分析為什麼具有農村生活經歷的人更不願意參與股票市場投資,作者做了一系列排除性因素的檢驗。例如,我們可能會想是不是因為在農村生活的經歷,降低了個體的社會互動或社會資本,從而使其參與股票市場的意願較低。要實證檢驗這一假設,作者做了分組回歸和在方程中添加交互項,檢驗農村生活經歷對股票市場參與的影響是不是只在低互動樣本中顯著。這就是一個機制分析過程。
B. 為什麼控制變數可以降低估計值的誤差
所有計量經濟圈方法論叢的code程序, 宏微觀資料庫和各種軟體都放在社群里.歡迎到計量經濟圈社群交流訪問.
正文
註:下面的「預測變數」一詞在英文中為predictor,就是我們平常說的自變數。標題應該是選擇正確的自變數(控制變數)
即使只有少數預測變數可供選擇,也有無數種方法可以指定回歸方程右側的變數。如何決定要包含哪些控制變數?選擇變數時最重要的考慮因素是其理論相關性(theoretical relevance)。當你在沒有合理理論的基礎上增加變數(也被稱為「回歸比你想的還要快」)時,很多事情都會出錯。當然,「聽起來合理」的定義有點模糊,你可能剔除掉太多的變數同樣會造成傷害。
下面這幾點闡述了模型識別中涉及的權衡因素。
1.廚房水槽(Kitchen sink)
毫無疑問,您會遇到包含數十個變數的「廚房水槽(Kitchen sink)」回歸。這通常表明研究者已經腦死亡,往模型里扔進了所有可用的預測變數,而不考慮他們實際上有什麼作用。如果數據集中有成千上萬的預測變數,誰知道研究者會做什麼呢?(更不用說指數形式和交互項的可能性了!)
一點點試錯是完全可以的。畢竟,有時一個問題是如此新,以至於我們沒有任何理論可以指導我們建模。或者有時我們知道我們想要某種類型的變數(例如,某種程度的教育),但我們不知道衡量它的最好方法(例如,「受過大學教育的人口百分比」與「擁有高等學歷的人口百分比」。)。即使如此,一定要盡量抵制誘惑,不要把你所掌握的每一個變數都包括進去。廚房水槽回歸會降低回歸精度,甚至會產生誤導性的結果。
我使用垃圾變數(junk variable)這個術語來描述回歸中包含的一個變數——只因為它在你的數據集中,而不是因為它的理論相關性。我們知道不讓垃圾變數在回歸中的一個實際原因:添加任意變數會消耗寶貴的自由度(df)。這會降低所有有效預測變數估計值的精度(即增加標准誤差)。這種「不想要的不精確性」效應在你沒有大量觀察值的情況下尤其明顯。
以下是一些有價值的經驗法則:
1)Use no more than one predictor for every 5 observations if you have a good predictive model (most predictors significant).
2)You no more than one predictor for every 10 observations if you have a weaker model (few predictors significant) or you are experimenting with a lot of junk variables.
3)You can cut yourself some slack if you have categorical variables. Treat each included category as a half of a normal predictor.
有更多的理由不讓垃圾變數進入你的回歸方程
當你引入垃圾變數時,即使你有足夠的df來獲得重要發現,至少還有三個潛在的問題:
1) 由於隨機性,垃圾變數可能統計顯著。如果你引入10個垃圾變數,有40%的幾率至少有一個是有顯著的,不過這是由於隨機性。如果有人試圖用不同的數據重現你的發現,他們通常無法重現你的垃圾結果。你的粗製濫造的方法就會暴露給所有人看。
2) 與另一個有效預測變數相關的垃圾變數,也可能與方程左邊的變數有很強的相關性。這可能會使有效的預測變數變得不再顯著,從而你可能會將其從模型中剔除。(這與多重共線性有關)。廚房水槽越大,發生這種情況的可能性就越大。
3) 向模型中添加一些變數可能會影響你對其他變數系數的解釋。當一個方程右邊的變數本身是另一個變數的函數時,就會發生上述情況。這個問題不像(1)和(2)那麼嚴重,但是需要你在描述你的發現時格外小心。
當方程右邊的變數是彼此的函數時,會發生什麼情況,下面這是一個例子:
2.變動(action)
當你進行回歸分析時,你希望數據中有足夠的信息精確地計算出X的變化是如何影響Y的。為了直觀地掌握數據中有多少信息,把X和Y的每個觀察值都看作是一個實驗。如果X在一個實驗和下一個實驗之間變化不大,那麼數據中就沒有太多的信息,因此很難精確地確定X的變化對Y的影響。
因此,好的預測變數有行動——它們在觀察值之間變動很多。您應該始終檢查每個關鍵預測值的變動,例如通過計算其范圍和標准誤差。您還應該繪制每個關鍵預測值和因變數的二維圖。預測值的極值可能會影響回歸。當預測值從最低值移動到最高值時,Y變化很大嗎?此圖應預示回歸結果(記住,簡單的雙向圖掩蓋了控制變數的影響)。
變動與多重共線性
現在是解決過度誇大的多重共線性問題的時候了。假設你有兩個預測變數,X和Z,以及一個因變數Y。當你檢查數據時,你會發現X,Y和Z都在一起移動。(也就是說,它們有很高的相關性)你現在很確定X或Z都會影響Y,也許兩者都會。但你不能確定哪個更重要。不幸的是,計算機可能也無法解決這個問題。這是多重共線性。
讓我們用變動的概念來更好地理解多重共線性。如果X和Z高度相關,那麼它們的「實驗」就不是獨立的。這使得很難確定是哪一個引起了Y中的相關運動。因此,如果將兩者都包括在回歸中,計算機將報告其估計系數周圍的大的標准誤差,因為它無法確定哪個預測變數真正重要。
一個直接的啟示是,有可能得到一個高R2,但沒有任何重要的預測作用!把X和Z加在一起可以很好地預測Y,但是計算機不能確定哪一個才是真正的影響因素,所以R2很高,盡管顯著性水平很低。在其他情況下,計算機可能會報告一個相關預測變數上的大正系數和另一個相關預測變數上的大負系數。當兩個變數基本相同,並且計算機使用它們之間的細微差異來擬合一些異常值時,這種「符號翻轉」經常出現。
多重共線性的跡象
盡管沒有確定的多重共線性檢驗,但仍有一些情況值得我們注意:
1)您發現兩個或多個相關變數在回歸中聯合進入模型時具有不顯著的系數,但每次只有一個進入模型時,每個變數都具有顯著的系數。
2)一個F檢驗表明,兩個相關變數增加了模型的預測能力,盡管兩者都沒有顯著的系數。
3)變數單獨進入模型時具有相同的符號,但同時進入模型時具有相反的符號。
4)在運行回歸之後,您可以讓計算「方差通脹因子VIF「。
如果存在問題的多重共線性,則有以下幾種選擇:
1)保留所有變數;記住你的系數是無偏的,但不精確。你的模型仍然具有很強的預測性。
2)拋棄其中一個有問題的變數。
3)創建一個綜合得分——一個單一的衡量指標,捕捉相關變數中的信息。
3. 遺漏變數問題
在選擇方程右邊的變數時,有太多的原因需要精簡的模型,以至於你可能會試圖只使用一個預測變數來運行回歸。現在是時候把事情放在正確的角度,記住為什麼我們要添加控制變數。
1)它提高了模型的預測能力,並在此過程中提高了估計的精度。
2)排除相關變數可能會使系數偏向模型中包括的變數。換句話說,由於遺漏變數偏差,計算機報告的值系統地高於或低於實際值。
處理遺漏變數偏差
似乎遺漏變數偏差會困擾每一次回歸。畢竟,不可能得到所有影響因變數的因素的數據。在某種程度上這是真的,這就是為什麼我們總是在回歸中考慮可能的偏差。幸運的是,遺漏變數偏差通常是一個可控的問題,原因有三:
1)僅當遺漏的變數與模型中包括的變數相關且本身很重要時,才會導致有偏系數。如果這兩個條件都不能成立,就沒有偏差。
2)即使存在遺漏變數問題,也可以確定偏差的方向。這將允許我們聲明所報告的系數是實際效果的上界或下界。
3)對遺漏變數偏差的思考,迫使我們首先要認真識別正確的經濟模型,做好變數選擇工作。
4. 內生性偏差
如果方程右邊的變數與原模型中的誤差相關,則稱其為內生變數。一般來說,我們很難解釋內生預測變數的系數。他們可能有偏差和/或不可能得出因果關系的結論。
5. 回歸建模的一種合理方法
以下方法平衡了」廚房水槽「和」遺漏變數偏差「問題。你可能做得比遵循以下步驟更糟:
1)總是從一組具有理論相關性的「核心」預測變數開始,以及任何你特別感興趣的預測變數開始。此時,您可能會估計一個「快速而骯臟」的OLS模型。
2)最終確定模型構建問題(例如,對數與線性)。
3)添加您認為可能相關的其他預測變數。您可以一次添加一個或一次添加一個「類別」。檢查你最初發現的穩健性。
4)添加預測變數時,應保留模型中的所有原始預測變數,即使它們不顯著。記住,被遺漏變數偏差會導致顯著的預測值看起來不重要。通過增加更多的變數,你的關鍵預測因素可能變得重要。
5)在這一點上,你應該知道你穩健發現。這是你研究的主要目標。
6)如果你堅持要生成一個「最終模型」,那麼你應該刪除那些沒有統計顯著意義的額外預測變數。
7)如果核心預測變數仍然不顯著並且你需要更多自由度,也可以刪除它們。
6. 組別變數問題
許多預測變數可以整齊地分為幾個組:季節、競爭對手的價格、消費者人口統計、50個州。您通常希望確定一組預測變數是否應該放在回歸方程這種。(「季節性重要嗎?「競爭對手的價格重要嗎?分析員經常單獨檢查一組中每個預測變數的系數,並保留那些重要的系數。這是一個錯誤,我現在將解釋。
檢驗一組變數的正確方法是進行」偏F檢驗「,也稱為Chow檢驗,它比較模型在考慮和不考慮所有變數的情況下的預測能力。如果變數組沒有共同增加預測能力,則不能拒絕這一組別無關的原假設。
Stata能為我們做F檢驗。假設您想知道變數X2和X3是否應該添加到包含變數X1的模型中。簡單鍵入:
regress Y X1 X2 X3
test X2 X3
拓展性閱讀
下面這些短鏈接文章屬於合集,可以收藏起來閱讀,不然以後都找不到了。
2年,計量經濟圈公眾號近1000篇文章,
Econometrics Circle
計量經濟圈組織了一個計量社群,有如下特徵:熱情互助最多、前沿趨勢最多、社科資料最多、社科數據最多、科研牛人最多、海外名校最多。因此,建議積極進取和有強烈研習激情的中青年學者到社群交流探討,始終堅信優秀是通過感染優秀而互相成就彼此的。
C. 計量的怎麼發朋友圈
你是想問,學計量經濟學的人要怎麼發朋友圈嗎?學計量的人如實發朋友圈就可以了,如果說一些晦澀的梗反而是讓人聽不懂。
計量經濟學是以一定的經濟理論和統計資料為基礎,運用數學、統計學方法與電腦技術,以建立經濟計量模型為主要手段,定量分析研究具有隨機性特性的經濟變數關系的一門經濟學學科。
主要內容包括理論計量經濟學和應用經濟計量學。理論經濟計量學主要研究如何運用、改造和發展數理統計的方法,使之成為經濟關系測定的特殊方法。應用計量經濟學是在一定的經濟理論的指導下,以反映事實的統計數據為依據,用經濟計量方法研究經濟數學模型的實用化或探索實證經濟規律。
D. 資產a8是什麼意思
是一種經濟圈的一種暗語,是對資產階級的一種分級A8 ── 1000萬。
資產階層分級表
階層 ── 總資產
A5 ── 1萬
A6 ── 10萬
A6,5 ──50萬
A7 ── 100萬
A7,5 ── 500萬
A8 ── 1000萬
A8,5 ── 5000萬
A9 ── 1億
A10 ── 10億
A11 ── 100億
規律:Ax,y
x代表資產數值的位數,y代表資產數值首位的值。舉個栗子,A8,5,資產8位數,首位為5,即50,000,000 也就是5000萬。這里的A是Asset,資產,財產的意思。
該表示方法簡明扼要,迅速傳播開來,目前已成為投資圈子的標准資產計量法,下次如果再遇到人說A8,不要傻傻地以為他說的是奧迪,而是資產1000萬哈。
拓展資料:
在中國,大部分的普通市民家庭,資產集中在A7—A8之間,根據城市不同略有差距,因為普通家庭的資產佔比基本都由房產決定:如果是三四五線城市,房產價值基本在100萬—300萬之間,家庭資產階層定位也會集中在 A7—A7,5之間;一二線城市房產價值則較高,300萬—1000萬為主,家庭資產階層定位就集中在 A7,5—A8之間。
如果能上A8的千萬,恭喜你,算是堪堪擠入富人階層了。定居在一二線大城市生活的人們占著天然的優勢,一套基礎的房產家底就是幾百萬起了,如果在北上廣這樣的大城市,沖破1000萬都是分分鍾的。有點兒投資頭腦早年入手房產投資的,A8,2—A8,5絕對不是傳奇。
有的人認為房產資產不能決定資產質量,比如說一個在上海擁有一套1000萬房產的人和在五線小城市擁有50萬房產的人,雖然資產相差20倍,但是生活質量沒有改變,因為房子產生的價值只用於「住」都是一樣的。
錯了,如果抱著這種觀點,就是大錯特錯。上海的房子之所以值1000萬元,是因為除了居住功能,還兼備交通、教育、醫療、信息等資源,這是小城市房子所不具備的。這些稀缺的資源正是大城市房價高的本質原因。
所以,1000萬的房子和50萬的房子雖然都具備「居住」功能,但是附加功能不同,個人所獲得的收益就完全不同。這里所指的收益不僅僅限於經濟收益,更有醫療、學區、教育所帶來的收益,這些附加價值所帶來的收益往往比經濟收益更高。簡單的打個比方,住1000萬房子里成長的孩子和住50萬房子里成長的孩子,所獲得的教育資源、眼界、膽識、氣質是完全不一樣的,走上社會後,個人價值也往往會有較大的區別。