I. Ozkan
Mart 2025
Anahtar Kelimeler:
Girdiler: Bağımsız değişkenler, birlikte değişenler, tahim ediciler/öngörücüler, açılayıcılar, regresörler
Çıktı: Bağımlı değişken
Basit Doğrusal Regresyon
Çoklu Doğrusal Regresyon
Regularization (Zaman Kalırsa!!)
Ridge Regression (Zaman Kalırsa!!)
Probit Regression (Sınıflama-Sonra)
Logit Regression (Sınıflama-Sonra)
Time Series Data (Zaman Kalırsa-Yalnızca Giriş!!)
Doğrusal regresyon ile birçok süreci/ilişkiyi başarılı birşekilde yaklaşık olarak açıklayabiliriz
Lineer Regresyonlar birleştirilerek çok daha büyük bir açıklayıcı model sistemi elde edilebilir
Analitik çözümü mümkündür (Büyük model sistemleri için mümkün olmayabilir)
Lineer regresyon birçok makine öğrenmesi kavramına da girişi oluşturmaktadır
TV | radio | newspaper | sales |
---|---|---|---|
230.1 | 37.8 | 69.2 | 22.1 |
44.5 | 39.3 | 45.1 | 10.4 |
17.2 | 45.9 | 69.3 | 9.3 |
151.5 | 41.3 | 58.5 | 18.5 |
180.8 | 10.8 | 58.4 | 12.9 |
8.7 | 48.9 | 75.0 | 7.2 |
Örneğin:
\(\{(x_1, y_1), (x_2,y_2), \cdots , (x_n, y_n)\}\) \(n\) tane girdi-çıktı çifti olsunlar. \(x_i \in \mathbb{R^k}\) \(k\) elemanlı vektör olsun.
Çıktı, \(y_i \in \mathbb{R}\) tek değişkenli olsun.
Bu durumda lineer model;
\[y_i=\theta_0+\theta_1x_1+ \theta_2x_2+ \cdots + \theta_kx_k+\varepsilon_i\]
Bazı ders kitaplarında \(\theta\) yerine \(\beta\) da yaygın ılarak kullanılmaktadır:
\[y_i=\beta_0+\beta_1x_1+ \beta_2x_2+ \cdots + \beta_kx_k+\varepsilon_i\]
Tahmin \(\hat \theta\) (veya \(\hat \beta\)) değerlerinin birtakım varsayımlar altında bulunmasını amaçlar. Şimdilik varsayımları bir kenara bırakalım. Bu parametrelerin tahminini nasıl yaparız.
\(\hat \theta\), parametre değerleri Kayıp, Maliyet, Hata (Loss, cost, error etc) fonksiyonunun, \(L(\theta)\) minimize edilmesi ile bulunabilir.
\(E[Y|X]=f(X)+\varepsilon\)
ve doğrusal modelde
\(y_i=\beta_0 + \beta_1x_i+\varepsilon_i, \quad E[\varepsilon]=0\)
\(\beta_0:Kesme \; Terimi, \; (intercept)\)
\(\beta_1:Eğim \; Katsayısı\)
Not: Bazı kitaplarda, \(\varepsilon_i\) yerine \(u_i\) de kullanılmaktadır
Tartışma: Doğrusallık
Doğrusallık için parametrelerde doğrusallığı anlıyoruz. Bu açıdan bakıldığında, \(y=\beta_0 + \beta_1x_i+\varepsilon_i\) ve \(y=\beta_0 + \beta_1x_i^2+\varepsilon_i\) modelleri parametreler açısından doğrusaldır. Yani \(\beta_0,\beta_1\) değerlerinin üssü \(1\)’dir
\(y=\beta_0 + \beta_1x_i+\varepsilon_i\) modeli hem parametre hem de değişkenlere göre doğrusaldır
Hata Terimi (residual, error term)
Modelin kurgulanması sırasında kullanılan teoriler tam ve mükemmel olmayabilir
Açıklayıcılar gözlemlenmemiş/elde edilmemiş olabilirler
İçerilmemiş (atlanmış, omitted) değişkenler bilinmesine rağmen farklı gerekçeler ile (maliyet, pratik olması amacı ile vs) kullanılmamış olabilir. Bu durumda bu değişkenlerin etkileri rassal hata terimi ile ortaya çıkacağı umulabilir
İnsan davranışlarında rassallık olabilir
Verilerin ölçümlerinde hatalar olabilir, bazı veriler direk gözlemlenmeyebilir yerine temsili veriler kullanılabilir
Basitlik/Tutumluluk ilkesi (Occam’ın Usturası, principle of parsimony) nedeni ile bazı değişkenler bilerek dışarıda bırakılabilir
İlişkinin fonksiyonel yapısı kesin olarak bilinmemektedir ve kullanılan model tam açıklama yapamaz
Tahmin modeli
\(\hat y=\hat \beta_0 +\hat \beta_1x\)
Tahminciler, örneklemlerden elde edilmektedir. Her bir örneklem farklı noktasal tahmincilere ulaşabilirler. Bunlar örneklem ışığında anakütleyi en iyi temsil eden tahminler olacaktır
1- Regresyon modeli parametrelere göre doğrusaldır, \(Y\), \(X\) değişkenleri doğrusal olabilir veya olmayabilir
2- Açıklayıcı değişkenler stokastik değildir
3- \(E[\varepsilon_i|X]=0\)
4- \(Var(\varepsilon_i|X)=\sigma^2, \; Sabit \: Varyans,\; Homoskedastik\)
5- \(Cov(\varepsilon_i,\varepsilon_j|X)=0, i\neq j\)
6- \(X\) değişkenleri arasında çoklu doğrusal bağlantı yoktur
7- Regresyon modeli doğru tanımlanmıştır
8- \(\varepsilon_i \sim N(0,\sigma^2)\)
x | y | fit | res |
---|---|---|---|
-10.00 | -8.33 | -9.25 | 0.92 |
-7.78 | -6.11 | -4.62 | -1.49 |
-5.56 | -1.82 | 0.01 | -1.83 |
-3.33 | 3.51 | 4.64 | -1.13 |
-1.11 | 12.28 | 9.27 | 3.01 |
1.11 | 13.89 | 13.90 | -0.01 |
3.33 | 19.29 | 18.53 | 0.76 |
5.56 | 26.12 | 23.16 | 2.95 |
7.78 | 27.89 | 27.79 | 0.10 |
10.00 | 29.15 | 32.42 | -3.27 |
\(E[\varepsilon]=0\)
\(\implies E[y-\hat \beta_0 - \hat \beta_1x]=0\)
\(\implies n^{-1}\sum_{i=1}^{n}(y_i-\hat \beta_0 - \hat \beta_1x_i)=0\)
\(Cov(\varepsilon_i,\varepsilon_j)=0, \; i\neq j\)
\(Cov(x,\varepsilon)=E[x \varepsilon]=0\)
\(\implies n^{-1}\sum_{i=1}^{n}x_i(y_i-\hat \beta_0 - \hat \beta_1x_i)=0\)
Yukarıdaki iki \(\hat \beta_0,\hat \beta_1\) tahminci içeren denklem düşünüldüğünde iki denklem ve iki bilinmeyen görülebilir. Bu tahmin yöntemine moment metodu (method of moments) adı verilir.
\(\bar y=\hat \beta_0 + \hat \beta_1 \bar x \implies \hat \beta_0 = \bar y - \hat \beta_1 \bar x\)
\(n^{-1}\sum_{i=1}^{n}x_i(y_i- (\bar y - \hat \beta_1 \bar x) - \hat \beta_1x_i)=0\)
\(\implies \sum_{i=1}^{n}x_i(y_i- \bar y)=\hat \beta_1 \sum_{i=1}^{n} x_i(x_i-\bar x)\)
\(\sum_{i=1}^{n} x_i(x_i-\bar x)=\sum_{i=1}^{n} (x_i-\bar x)^2\)
\(\sum_{i=1}^{n}x_i(y_i- \bar y)=\sum_{i=1}^{n}(x_i - \bar x)(y_i- \bar y)\)
\(\implies \hat \beta_1=\frac{\sum_{i=1}^{n}(x_i - \bar x)(y_i- \bar y)}{\sum_{i=1}^{n} (x_i-\bar x)^2}, \; given \; \sum_{i=1}^{n} (x_i-\bar x)^2>0\)
\(\implies \hat \beta_1=\frac{Cov(X,Y)}{Var(X)}\)
\(\implies \hat \beta_1=\frac{Cov(X,Y) \sqrt{Var(Y)}}{\sqrt{Var(X)}\sqrt{Var(X)}\sqrt{Var(Y)}}\)
\(\implies \hat \beta_1=\frac{Cor(X,Y) \sqrt{Var(Y)}}{\sqrt{Var(X)}}\)
Bu aynı zamanda en küçük kareler (OLS) yöntemi ile aynıdır.
OLS
\(\operatorname*{arg\,min}_{\hat\beta_0,\hat\beta_1} \sum_{}^{}\varepsilon_i^2=\sum_{}^{} (y-\hat \beta_0 - \hat \beta_1x)^2\)
\(\sum_{}^{}\varepsilon_i^2\) aynı zamanda hataların karelerinin toplamı olarak da bilinmektedir (Sum of squared residuals, SSR)
\(\frac{d}{d\hat \beta_0}\sum_{}^{} (y-\hat \beta_0 - \hat \beta_1x)^2=0\)
\(\frac{d}{d\hat \beta_1}\sum_{}^{} (y-\hat \beta_0 - \hat \beta_1x)^2=0\)
Bu türevler yukarıdaki denklemler ile aynı başlangıca ulaştıracaktır
Modeldeki tahminciler birkez elde edildiğinde,
\(\hat y=\hat \beta_0 + \hat \beta_1x\)
OLS regresyon doğrusu olarak da adlandırılır. Ancak bu doğru, örneklem doğrusudur. Popülasyon doğrusu değildir.
OLS tahmininin özellikleri arasında,
\(\sum_{i=1}^{n}\hat \varepsilon_i=0\): 1. derece koşul
\(\sum_{i=1}^{n}x_i \hat \varepsilon_i=0\): 1. derece koşul
\((\bar x, \bar y)\) her zaman OLS regresyon doğrusu üzerindedir
Bazı Tanımlar
\(Y\)’nin ortalamasından farkının karelerinin toplamı, \(\sum_{i=1}^{n}(y_i-\bar y)^2\), \(SST\)
Model hata terimlerinin (residual) karelerinin toplamı, \(\sum_{i=1}^{n}(y_i-\hat y_i)^2=\sum_{i=1}^{n}\hat \varepsilon_i^2\), \(SSR\)
Modelin ortalamaya (sıfır modeline) göre ne kadar veriyi açıkladığını gösteren, \(\sum_{1}^{n}(\hat y_i-\bar y_i)^2\), \(SSM, \: veya \: SSE\) (Modelin açıkladığı veya açıklanan, Explained)
\(SST=SSE+SSR\)
Bir basit model üzerinden bakarsak. R veri setlerinden
cars
verisi hızın 15 milden küçük olanları kullanarak
yukarıda verilen tanımlara bakarsak:
##
## Call:
## lm(formula = dist ~ speed, data = cars1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.101 -2.915 1.062 2.690 5.480
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -8.6425 4.6467 -1.860 0.10523
## speed 2.3953 0.4547 5.268 0.00116 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.055 on 7 degrees of freedom
## Multiple R-squared: 0.7986, Adjusted R-squared: 0.7698
## F-statistic: 27.75 on 1 and 7 DF, p-value: 0.001163
## Analysis of Variance Table
##
## Response: dist
## Df Sum Sq Mean Sq F value Pr(>F)
## speed 1 456.43 456.43 27.752 0.001163 **
## Residuals 7 115.13 16.45
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\(SST=SSE+SSR\)
\(\implies \sum_{i=1}^{n}(y_i-\bar y)^2=\sum_{i=1}^{n}[(y_i- \hat y_i)+(\hat y_i-\bar y)]^2\)
\(\implies =\sum_{i=1}^{n}[\hat \varepsilon_i+(\hat y_i-\bar y)]^2\)
\(\implies =\sum_{i=1}^{n}\hat
\varepsilon_i^2+2\sum_{i=1}^{n} \varepsilon_i(\hat y_i-\bar
y)+\sum_{i=1}^{n}+(\hat y_i-\bar y)^2\)
\(\implies SST=SSR+2\sum_{i=1}^{n}
\varepsilon_i(\hat y_i-\bar y)+SSE\)
\(\sum_{i=1}^{n} \varepsilon_i(\hat y_i-\bar y)=0\) olduğundan yukarıdaki eşitliğin bozulmadığı görülebilir.
Açıklama Gücü
\(x\) Değişkeninin bağımlı değişken olan \(y\) değişkenini ne kadar açıkladığının basit bir özeti \(R^2\) olarak adlandırılır. Bu bazen belirleme katsayısı (coefficient of determination) olarak da adlandırılır. \(R^2\) basitçe açıklanan değişkenliğin toplam değişkenliğe oranıdır
\(R^2 \equiv \frac{SSE}{SST}=1-\frac{SSR}{SST}\)
\(0<R^2<1\) değeri arasında kalacağından 100 ile çarpılması ile açıklanan değişkenliğin toplam değişkenliğin yüzdesi olarak da kullanılmaktadır.
Yukarıdaki örnek regresyon verileri
speed | dist | err | fit |
---|---|---|---|
4 | 2 | -12.78 | 0.94 |
7 | 4 | -10.78 | 8.12 |
8 | 16 | 1.22 | 10.52 |
9 | 10 | -4.78 | 12.91 |
10 | 18 | 3.22 | 15.31 |
11 | 17 | 2.22 | 17.71 |
12 | 14 | -0.78 | 20.10 |
13 | 26 | 11.22 | 22.50 |
14 | 26 | 11.22 | 24.89 |
Speed ve Dist Korelasyonu: 0.894 | |||
Speed ve Dist Korelasyon Karesi: 0.799 |
\(y_i=\beta_0 + \beta_1x_i+\varepsilon_i, \; \varepsilon \sim N(0,\sigma^2)\)
ve
\(\hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\)
\[\begin{align} \sum_i (x_i - \bar{x})\bar{y} &= \bar{y}\sum_i (x_i - \bar{x})\\ &= \bar{y}\left(\left(\sum_i x_i\right) - n\bar{x}\right)\\ &= \bar{y}\left(n\bar{x} - n\bar{x}\right)\\ &= 0 \end{align}\]
\[\begin{align} \sum_i (x_i - \bar{x})(y_i - \bar{y}) &= \sum_i (x_i - \bar{x})y_i - \sum_i (x_i - \bar{x})\bar{y}\\ &= \sum_i (x_i - \bar{x})y_i\\ &= \sum_i (x_i - \bar{x})(\beta_0 + \beta_1x_i + \varepsilon_i )\\ \end{align}\]
\[\begin{align} \text{E}[\hat{\beta_1}] & = \text{E} \Big[\frac{\sum_i (x_i - \bar{x})(\beta_0 + \beta_1x_i + \varepsilon_i )}{s_{xx}} \Big] \\ & = \text{E} \Big[\frac{\sum_i (x_i - \bar{x})\beta_1x_i}{s_{xx}} \Big] = \text{E} \Big[\frac{\beta_1\sum_i (x_i - \bar{x})x_i}{s_{xx}} \Big] \\ & = \beta_1 \text{E} \Big[\frac{\sum_i (x_i - \bar{x})x_i}{s_{xx}} \Big] = \beta_1 \text{E} \Big[\frac{s_{xx}}{s_{xx}} \Big]=\beta_1 \\ \end{align}\]
\[\begin{align} \text{Var}(\hat{\beta_1}) & = \text{Var} \left(\frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \text{Var} \left(\frac{\sum_i (x_i - \bar{x})y_i}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \text{Var} \left(\frac{\sum_i (x_i - \bar{x})(\beta_0 + \beta_1x_i + \varepsilon_i)}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \text{Var} \left(\frac{\sum_i (x_i - \bar{x})\varepsilon_i}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \frac{\sum_i (x_i - \bar{x})^2\text{Var}(\varepsilon_i)}{\left(\sum_i (x_i - \bar{x})^2\right)^2}, \; \text{Recall: Var}(aX)=a^2\text{Var}(X)\\ &= \frac{\sigma^2}{\sum_i (x_i - \bar{x})^2} \\ &= \frac{\sigma^2}{s_{xx}} \\ \end{align}\]
\[\begin{align} \text{Var}(\hat{\beta}_0) &= \text{Var} (\bar{y} - \hat{\beta}_1 \bar{x}) \\ &= \text{Var} (\bar{y}) + (\bar{x})^2 \text{Var} (\hat{\beta}_1) - 2 \bar{x} \text{Cov} (\bar{y}, \hat{\beta}_1). \end{align}\]
\[\text{Var} (\bar{y}) = \text{Var} \left(\frac{1}{n} \sum_{i = 1}^n y_i \right) = \frac{1}{n^2} \sum_{i = 1}^n \text{Var} (y_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}\]
\[\begin{align} \text{Var} \left( \sum_{i = 1}^n y_i \right) &= \text{Var} \left( \sum_{i = 1}^n \beta_0 + \beta_1 x_i + \varepsilon_i \right)\\ &= \text{Var} \left( \sum_{i = 1}^n \varepsilon_i \right) = \sum_{i = 1}^n \sum_{j = 1}^n \text{Cov} (\varepsilon_i, \epsilon_j)\\ &= \sum_{i = 1}^n \text{Var} (\varepsilon_i)\\ &= n \sigma^2\\ \end{align}\]
\[\begin{align} \text{Cov} (\bar{y}, \hat{\beta}_1) &= \text{Cov} \left\{ \frac{1}{n} \sum_{i = 1}^n y_i, \frac{ \sum_{j = 1}^n(x_j - \bar{x})(y_j - \bar{y})}{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \right \} \\ &= \text{Cov} \left\{ \frac{1}{n} \sum_{i = 1}^n y_i, \frac{ \sum_{j = 1}^n(x_j - \bar{x})y_j}{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \right \} \\ &= \frac{1}{n} \frac{ 1 }{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \text{Cov} \left\{ \sum_{i = 1}^n y_i, \sum_{j = 1}^n(x_j - \bar{x})y_j \right\} \\ &= \frac{ 1 }{ n \sum_{i = 1}^n(x_i - \bar{x})^2 } \sum_{i = 1}^n (x_j - \bar{x}) \sum_{j = 1}^n \text{Cov}(y_i, y_j) \\ &= \frac{ 1 }{ n \sum_{i = 1}^n(x_i - \bar{x})^2 } \sum_{i = 1}^n (x_j - \bar{x}) \sigma^2 \\ &= 0 \end{align}\]
\[\sum_{i = 1}^n(x_i - \bar{x})^2 = \sum_{i = 1}^n x_i^2 - 2 \bar{x} \sum_{i = 1}^n x_i + \sum_{i = 1}^n \bar{x}^2 = \sum_{i = 1}^n x_i^2 - n \bar{x}^2\]
\[\begin{align} \text{E}(\hat{\beta}_0) &= \text{E}(\bar{y} - \hat{\beta}_1 \bar{x}) \\ &= \text{E}\left(\frac{1}{n} \sum_{i = 1}^n y_i - \beta_1 \frac{1}{n} \sum_{i = 1}^n x_i)\right)=\frac{1}{n}\text{E}\left(\sum_{i = 1}^n y_i - \beta_1 \sum_{i = 1}^n x_i)\right) \\ &= \frac{1}{n}\text{E}\left(\sum_{i = 1}^n (\beta_0 + \beta_1x_i + \varepsilon_i) - \beta_1 \sum_{i = 1}^n x_i)\right) \\ &= \frac{1}{n}\text{E}\left(n \beta_0 + \beta_1 \sum_{i = 1}^n x_i + \sum_{i = 1}^n \varepsilon_i - \beta_1 \sum_{i = 1}^n x_i)\right) \\ &= \frac{1}{n}\text{E}\left(n \beta_0 + \sum_{i = 1}^n \varepsilon_i \right) \\ &= \beta_0 \\ \end{align}\]
\[\begin{align} {\rm Var}(\hat{\beta}_0) &= \frac{\sigma^2}{n} + \frac{ \sigma^2 \bar{x}^2}{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \\ &= \frac{\sigma^2 }{ n \sum_{i = 1}^n(x_i - \bar{x})^2 } \left\{ \sum_{i = 1}^n(x_i - \bar{x})^2 + n \bar{x}^2 \right\} \\ &= \frac{\sigma^2 \sum_{i = 1}^n x_i^2}{ n \sum_{i = 1}^n(x_i - \bar{x})^2 }. \end{align}\]
\(y_i=\beta_0 + \beta_1x_i+\varepsilon_i, \; \varepsilon \sim N(0,\sigma^2)\)
\(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\)
\[\text{Var}(\hat{\beta}_0) = \frac{\sigma^2 \sum_{i = 1}^n x_i^2}{ n \sum_{i = 1}^n(x_i - \bar{x})^2 }\]
ve
\(\hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\)
\(\hat \beta_1=\frac{Cov(X,Y)}{Var(X)}\)
\(\hat \beta_1=\frac{Cor(X,Y) \sqrt{Var(Y)}}{\sqrt{Var(X)}}\)
\[\begin{align} \text{Var}(\hat{\beta_1}) &= \frac{\sigma^2}{\sum_i (x_i - \bar{x})^2} \\ &= \frac{\sigma^2}{s_{xx}} \\ \end{align}\]
Örnekler için: Prelude to Econometrics Using R Bölüm 5
## Rows: 534
## Columns: 11
## $ wage <dbl> 5.10, 4.95, 6.67, 4.00, 7.50, 13.07, 4.45, 19.47, 13.28, 8.…
## $ education <dbl> 8, 9, 12, 12, 12, 13, 10, 12, 16, 12, 12, 12, 8, 9, 9, 12, …
## $ experience <dbl> 21, 42, 1, 4, 17, 9, 27, 9, 11, 9, 17, 19, 27, 30, 29, 37, …
## $ age <dbl> 35, 57, 19, 22, 35, 28, 43, 27, 33, 27, 35, 37, 41, 45, 44,…
## $ ethnicity <fct> hispanic, cauc, cauc, cauc, cauc, cauc, cauc, cauc, cauc, c…
## $ region <fct> other, other, other, other, other, other, south, other, oth…
## $ gender <fct> female, female, male, male, male, male, male, male, male, m…
## $ occupation <fct> worker, worker, worker, worker, worker, worker, worker, wor…
## $ sector <fct> manufacturing, manufacturing, manufacturing, other, other, …
## $ union <fct> no, no, no, no, no, yes, no, no, no, no, yes, yes, no, yes,…
## $ married <fct> yes, yes, no, no, yes, no, no, no, yes, no, yes, no, yes, n…
## [1] 0.3819221
##
## Pearson's product-moment correlation
##
## data: CPS1985$wage and CPS1985$education
## t = 9.5316, df = 532, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3070208 0.4521212
## sample estimates:
## cor
## 0.3819221
## [1] "lm"
## $names
## [1] "coefficients" "residuals" "effects" "rank"
## [5] "fitted.values" "assign" "qr" "df.residual"
## [9] "xlevels" "call" "terms" "model"
##
## $class
## [1] "lm"
## (Intercept) education
## -0.7459797 0.7504608
## [1] -9.582398e-17
##
## Call:
## lm(formula = wage ~ education, data = CPS1985)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.911 -3.260 -0.760 2.240 34.740
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.74598 1.04545 -0.714 0.476
## education 0.75046 0.07873 9.532 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.754 on 532 degrees of freedom
## Multiple R-squared: 0.1459, Adjusted R-squared: 0.1443
## F-statistic: 90.85 on 1 and 532 DF, p-value: < 2.2e-16
## [1] 4.749525
## [1] 4.753987
## [1] 0.1459
Dependent variable: | |
wage | |
education | 0.750*** |
(0.079) | |
Constant | -0.746 |
(1.045) | |
Observations | 534 |
R2 | 0.146 |
Adjusted R2 | 0.144 |
Residual Std. Error | 4.754 (df = 532) |
F Statistic | 90.852*** (df = 1; 532) |
Note: | p<0.1; p<0.05; p<0.01 |
\[\hat{Wage_{i}} = -0.74598 + 0.75046
Education_{i}\]
\[\hat{Wage|_{Education=12}} = -0.74598 +
0.75046 \times 12=8.26\]
Wage | Education | Prediction | Residual | |
---|---|---|---|---|
1 | 5.10 | 8 | 5.257706 | -0.1577063 |
1100 | 4.95 | 9 | 6.008167 | -1.0581671 |
2 | 6.67 | 12 | 8.259549 | -1.5895493 |
3 | 4.00 | 12 | 8.259549 | -4.2595493 |
4 | 7.50 | 12 | 8.259549 | -0.7595493 |
5 | 13.07 | 13 | 9.010010 | 4.0599899 |
## (Intercept) education I(education^2)
## 7.5060592 -0.6009458 0.0529823
## [1] 3.725034e-16
##
## Call:
## lm(formula = wage ~ education + I(education^2), data = CPS1985)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.655 -3.095 -0.751 2.105 35.023
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.50606 2.98088 2.518 0.01209 *
## education -0.60095 0.46425 -1.294 0.19607
## I(education^2) 0.05298 0.01794 2.953 0.00328 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.72 on 531 degrees of freedom
## Multiple R-squared: 0.1597, Adjusted R-squared: 0.1565
## F-statistic: 50.45 on 2 and 531 DF, p-value: < 2.2e-16
\[\hat{Wage_{i}} = -0.750606 - 0.60095 Education_{i}+0.05298 Education_{i}\]
Wage | Education | Prediction | Residual | |
---|---|---|---|---|
1 | 5.10 | 8 | 6.089360 | -0.9893602 |
1100 | 4.95 | 9 | 6.389113 | -1.4391135 |
2 | 6.67 | 12 | 7.924161 | -1.2541610 |
3 | 4.00 | 12 | 7.924161 | -3.9241610 |
4 | 7.50 | 12 | 7.924161 | -0.4241610 |
5 | 13.07 | 13 | 8.647773 | 4.4222273 |
Dependent variable: | |
wage | |
education | -0.601 |
(0.464) | |
I(education2) | 0.053*** |
(0.018) | |
Constant | 7.506** |
(2.981) | |
Observations | 534 |
R2 | 0.160 |
Adjusted R2 | 0.157 |
Residual Std. Error | 4.720 (df = 531) |
F Statistic | 50.446*** (df = 2; 531) |
Note: | p<0.1; p<0.05; p<0.01 |
Transformasyon
##
## Call:
## lm(formula = fare ~ dist, data = airfare)
##
## Residuals:
## Min 1Q Median 3Q Max
## -127.27 -47.08 -15.47 41.52 233.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.033e+02 1.643e+00 62.87 <2e-16 ***
## dist 7.632e-02 1.412e-03 54.06 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 58.55 on 4594 degrees of freedom
## Multiple R-squared: 0.3888, Adjusted R-squared: 0.3887
## F-statistic: 2923 on 1 and 4594 DF, p-value: < 2.2e-16
Dependent variable: | |
fare | |
dist | 0.076*** |
(0.001) | |
Constant | 103.261*** |
(1.643) | |
Observations | 4,596 |
R2 | 0.389 |
Adjusted R2 | 0.389 |
Residual Std. Error | 58.546 (df = 4594) |
F Statistic | 2,922.832*** (df = 1; 4594) |
Note: | p<0.1; p<0.05; p<0.01 |
\[fare_{i} = 103.261 + 0.076 distance_{i}\]
Distance değişkenini değiştirsek (100’e bölsek)
## fare dist dist100
## 1 106 528 5.28
## 5 104 861 8.61
## 9 207 852 8.52
## 13 243 724 7.24
## 17 119 1073 10.73
Dependent variable: | ||
fare | ||
(1) | (2) | |
dist | 0.076*** | |
(0.001) | ||
dist100 | 7.632*** | |
(0.141) | ||
Constant | 103.261*** | 103.261*** |
(1.643) | (1.643) | |
Observations | 4,596 | 4,596 |
R2 | 0.389 | 0.389 |
Adjusted R2 | 0.389 | 0.389 |
Residual Std. Error (df = 4594) | 58.546 | 58.546 |
F Statistic (df = 1; 4594) | 2,922.832*** | 2,922.832*** |
Note: | p<0.1; p<0.05; p<0.01 |
\(\beta_0\)?
##
## Call:
## lm(formula = colgpa ~ sat, data = gpa2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.84515 -0.38205 0.02968 0.42623 1.77382
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.631e-01 6.972e-02 9.51 <2e-16 ***
## sat 1.931e-03 6.706e-05 28.80 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6012 on 4135 degrees of freedom
## Multiple R-squared: 0.167, Adjusted R-squared: 0.1668
## F-statistic: 829.3 on 1 and 4135 DF, p-value: < 2.2e-16
\[\hat {gpa_{i}} = \hat {0.663} + \hat {0.002} sat_{i}\]
\[\hat {gpa|_{sat=0}} = 0.663 + 0.002 \times 0=0.663\]
\(\beta_0\) her zaman baktığımız olmayabilir. Ama zaman zaman da bakabiliriz. Örnek, CAPM modeli. Ama konumuz dışında.
salary | sales |
---|---|
1095 | 27595.0 |
1001 | 9958.0 |
1122 | 6125.9 |
578 | 16246.0 |
1368 | 21783.2 |
1145 | 6021.4 |
##
## ===============================================
## Dependent variable:
## ---------------------------
## salary
## -----------------------------------------------
## sales 0.015*
## (0.009)
##
## Constant 1,174.005***
## (112.813)
##
## -----------------------------------------------
## Observations 209
## R2 0.014
## Adjusted R2 0.010
## Residual Std. Error 1,365.737 (df = 207)
## F Statistic 3.018* (df = 1; 207)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
salary | sales | lnsalary | lnsales |
---|---|---|---|
1095 | 27595.0 | 6.998510 | 10.225390 |
1001 | 9958.0 | 6.908755 | 9.206132 |
1122 | 6125.9 | 7.022868 | 8.720281 |
578 | 16246.0 | 6.359574 | 9.695602 |
1368 | 21783.2 | 7.221105 | 9.988894 |
1145 | 6021.4 | 7.043160 | 8.703075 |
##
## ===========================================================================
## Dependent variable:
## --------------------------------------------
## salary lnsalary
## (1) (2) (3) (4)
## ---------------------------------------------------------------------------
## sales 0.015* 0.00001***
## (0.009) (0.00000)
##
## lnsales 262.901*** 0.257***
## (92.355) (0.035)
##
## Constant 1,174.005*** -898.929 6.847*** 4.822***
## (112.813) (771.502) (0.045) (0.288)
##
## ---------------------------------------------------------------------------
## Observations 209 209 209 209
## R2 0.014 0.038 0.079 0.211
## Adjusted R2 0.010 0.033 0.075 0.207
## Residual Std. Error (df = 207) 1,365.737 1,349.496 0.545 0.504
## F Statistic (df = 1; 207) 3.018* 8.103*** 17.785*** 55.297***
## ===========================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Modeller sırası ile:
\(mod1:salary=\beta_0+\beta_1sales\): Lineer Model
\(mod2:ln(salary)=\beta_0+\beta_1sales\): Log-Lineer Model
\(mod3:salary=\beta_0+\beta_1ln(sales)\): Lin-Log Model
\(mod4:ln(salary)=\beta_0+\beta_1ln(sales)\): Log-Log Model
Bu modellerde \(\beta_1\) nasıl yorumlanır?
Log-Log model:
\(mod4:ln(salary)=\hat{4.822}+\hat{0.2567}ln(sales)\)
\(ln(sales)\) stokastik değil
\(E[\varepsilon_i|X]=0\)
\(E[\varepsilon_i|X]=round(mean(resid(mod4)),4)=0\)
##
## =======================================================
## Dependent variable:
## -----------------------------------
## lnsalary
## OLS coefficient
## test
## (1) (2)
## -------------------------------------------------------
## lnsales 0.257*** 0.257***
## (0.035) (0.033)
##
## Constant 4.822*** 4.822***
## (0.288) (0.276)
##
## -------------------------------------------------------
## Observations 209
## R2 0.211
## Adjusted R2 0.207
## Residual Std. Error 0.504 (df = 207)
## F Statistic 55.297*** (df = 1; 207)
## =======================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
X değişkenleri arasında çoklu doğrusal bağlantı yoktur
Regresyon modeli doğru tanımlanmıştır
\(\varepsilon_i \sim N(0,\sigma^2)\)
\(\hat{\beta_1}\) büyük örneklemlerde yaklaşık normal dağılıma sahip
\(t = \frac{\text{tahmin değeri} - \text{Varsayılan değer}}{\text{tahmincinin standart hatası}}\)
\(H_0: \beta_1 = \beta_{1,0}\)
\(H_A: \beta_1 \neq \beta_{1,0}\)
\(t = \frac{\hat{\beta}_1 - \beta_{1,0}}{ SE(\hat{\beta}_1) }\)
##
## Call:
## lm(formula = lnsalary ~ lnsales, data = ceosal.tmp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.01038 -0.28140 -0.02723 0.21222 2.81128
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.82200 0.28834 16.723 < 2e-16 ***
## lnsales 0.25667 0.03452 7.436 2.7e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5044 on 207 degrees of freedom
## Multiple R-squared: 0.2108, Adjusted R-squared: 0.207
## F-statistic: 55.3 on 1 and 207 DF, p-value: 2.703e-12
\(mod4:ln(salary)=\hat{4.822}+\hat{0.2567}ln(sales)\)
\(\hat{\beta_1}=0.25667 \: \text{standart hata=0.03452}\)
\(\implies t_{207} = \frac{0.25667 - 0}{0.03452}=7.435\)
Güvenlik Aralığı, (Confidence Interval, CI)
\(\text{CI}_{0.95}^{\beta_i} = \left[ \hat{\beta}_i - 1.96 \times \sigma_{\hat{\beta}_i} \, , \, \hat{\beta}_i + 1.96 \times \sigma_{\hat{\beta}_i} \right]\)
## 2.5 % 97.5 %
## (Intercept) 4.2535377 5.390455
## lnsales 0.1886224 0.324721
## lower upper
## 0.1886224 0.3247210
Genel Olarak t-test sonucu:
F-testi
İç-içe (nested) modeller arasında seçim yapmak için kullanılır. Örneğin,
\(mod4_0:ln(salary)=\hat{\beta_0}+\hat{\beta_1}ln(sales)\)
aşağıdaki gibi tahmin edilmişti
\(mod4:ln(salary)=\hat{4.822}+\hat{0.2567}ln(sales)\)
\(H_0:\hat{\beta_1}=0, \; H_1: \hat{\beta_1} \neq 0\) için t-testi kullanmıştık. Ancak F-testi de kullanılabilir
\(\text{Sıfır Modeli,} mod4_1:ln(salary)=\hat{lnsalary}\)
\[F = \frac{\left( \frac{RSS_0-RSS_1}{p_1-p_0} \right)} {\left( \frac{RSS_1}{n-p_1} \right)} = \left( \frac{RSS_0-RSS_1}{p_1-p_0} \right) \left( \frac{n-p_1}{RSS_1} \right)\]
Alternatif olarak \(R^2 = 1-\frac{RSS_1}{RSS_0}\) kullanılarak
\[F = \left(\frac{RSS_0-RSS_1}{RSS_1}\right)\left(\frac{n-p_1}{p_1-p_0} \right)= \left( \frac{RSS_0}{RSS_1}-1 \right) \left( \frac{n-p_1}{p_1-p_0} \right) \]
\[= \left( \frac{R^2}{1-R^2} \right) \left( \frac{n-p_1}{p_1-p_0} \right)\]
##
## Call:
## lm(formula = lnsalary ~ lnsales, data = ceosal.tmp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.01038 -0.28140 -0.02723 0.21222 2.81128
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.82200 0.28834 16.723 < 2e-16 ***
## lnsales 0.25667 0.03452 7.436 2.7e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5044 on 207 degrees of freedom
## Multiple R-squared: 0.2108, Adjusted R-squared: 0.207
## F-statistic: 55.3 on 1 and 207 DF, p-value: 2.703e-12
## [1] "F-Değeri=03"
## [1] 66.72217
## [1] 52.656
## [1] 14.06617
## [1] 0.2543768
## [1] 14.06617
## [1] 55.29659
## [1] 2.703393e-12
## Analysis of Variance Table
##
## Response: lnsalary
## Df Sum Sq Mean Sq F value Pr(>F)
## lnsales 1 14.066 14.0662 55.297 2.703e-12 ***
## Residuals 207 52.656 0.2544
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Birden çok açıklayıcı (ve dolayısı ile eğim olduğunda)
\(H_0:\hat{\beta_1}=\hat{\beta_2}=\hat{\beta_3}=..=\hat{\beta_p}=0\)
\(H_1: \text{en az bir } \hat{\beta_j} \neq 0, j\neq 0\)
\(\text{Sıfır Modeli (Reduced Model): } y_i=\beta_0+\varepsilon_i, \; df=n-1\)
\(\text{Tam Model (Full Model): } y_i=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\varepsilon_i,\; df=n-p+1\)
\[F = \left(\frac{RSS_0-RSS_1}{RSS_1}\right)\left(\frac{n-p_1}{p_1-p_0} \right)= \left(\frac{RSS_0-RSS_1}{p_1-p_0}\right)\left(\frac{n-p_1}{RSS_1}\right)\]
\(\implies F =\left(\frac{RSS_0-RSS_1}{p_1-p_0}\right)/\left(\frac{RSS_1}{n-p_1}\right)=\left(\frac{RSS_0-RSS_1}{df_0-df_1}\right)/\left(\frac{RSS_1}{df_1}\right)\)
## male female
## 289 245
## Factor w/ 2 levels "male","female": 2 2 1 1 1 1 1 1 1 1 ...
##
## ===============================================
## Dependent variable:
## ---------------------------
## wage
## -----------------------------------------------
## genderfemale -2.116***
## (0.437)
##
## Constant 9.995***
## (0.296)
##
## -----------------------------------------------
## Observations 534
## R2 0.042
## Adjusted R2 0.040
## Residual Std. Error 5.034 (df = 532)
## F Statistic 23.426*** (df = 1; 532)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
## # A tibble: 2 × 2
## gender meanwage
## <fct> <dbl>
## 1 male 9.99
## 2 female 7.88
\[\begin{equation} Wage_i = 9.995 - 2.116 \cdot I(gender_i=female) \end{equation}\]
\(I(gender_i=female)=female_i=1 \; \text{gender female ise}\)
Eğer gender female ise
\[\begin{equation} Wage_i = 9.995 - 2.116 \end{equation}\]
Eğer gender male ise
\[\begin{equation} Wage_i = 9.995 \end{equation}\]
##
## ==============================================================================================
## Dependent variable:
## -----------------------------------------------------------------------
## wage
## (1) (2) (3)
## ----------------------------------------------------------------------------------------------
## education 0.751*** 0.683***
## (0.077) (0.099)
##
## genderfemale -2.116*** -2.124*** -4.370**
## (0.437) (0.403) (2.085)
##
## education:genderfemale 0.173
## (0.157)
##
## Constant 9.995*** 0.218 1.105
## (0.296) (1.036) (1.314)
##
## ----------------------------------------------------------------------------------------------
## Observations 534 534 534
## R2 0.042 0.188 0.190
## Adjusted R2 0.040 0.185 0.186
## Residual Std. Error 5.034 (df = 532) 4.639 (df = 531) 4.638 (df = 530)
## F Statistic 23.426*** (df = 1; 532) 61.616*** (df = 2; 531) 41.495*** (df = 3; 530)
## ==============================================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
wage | education | gender | kukla_yok | kukla_1 | kukla_2 | kukla_3 |
---|---|---|---|---|---|---|
5.10 | 8 | female | 5.257706 | 7.878857 | 4.104041 | 3.579525 |
4.95 | 9 | female | 6.008167 | 7.878857 | 4.855325 | 4.435200 |
6.67 | 12 | male | 8.259549 | 9.994913 | 9.233232 | 9.302313 |
4.00 | 12 | male | 8.259549 | 9.994913 | 9.233232 | 9.302313 |
7.50 | 12 | male | 8.259549 | 9.994913 | 9.233232 | 9.302313 |
13.07 | 13 | male | 9.010010 | 9.994913 | 9.984515 | 9.985458 |
\[\begin{equation} Wage_i = 0.22 + 0.75 \cdot education_i - 2.12 \cdot female_i \end{equation}\]
yani,
\[female: Wage_i = 0.22 + 0.75 \cdot education_i - 2.12 = -1.9 + 0.75 \cdot education_i\]
\[male: Wage_i = 0.22 + 0.75 \cdot education_i\]
\[\begin{equation} Wage_i = 0+0.683 \cdot education_i - 4.371 \cdot female_i + 0.173 \cdot education_i \cdot female_i \end{equation}\]
\[female: Wage_i = - 4.371 +(0.683+0.173)
\cdot education_i\]
\[male: Wage_i = 0.683 \cdot
education_i\]
Son olarak da yalnızca eğim parametresinde kukla kullanırsak
##
## ======================================================================
## Dependent variable:
## -----------------------------------------------
## wage
## (1) (2)
## ----------------------------------------------------------------------
## education 0.683*** 0.811***
## (0.099) (0.078)
##
## genderfemale -4.370**
## (2.085)
##
## education:genderfemale 0.173 -0.151***
## (0.157) (0.030)
##
## Constant 1.105 -0.630
## (1.314) (1.023)
##
## ----------------------------------------------------------------------
## Observations 534 534
## R2 0.190 0.183
## Adjusted R2 0.186 0.180
## Residual Std. Error 4.638 (df = 530) 4.652 (df = 531)
## F Statistic 41.495*** (df = 3; 530) 59.664*** (df = 2; 531)
## ======================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
\[\begin{equation} Wage_i = -0.630+0.811 \cdot education_i - 0.151 \cdot education_i \cdot female_i \end{equation}\]
\[female: Wage_i = - 0.630 +(0.811-0.151)
\cdot education_i\]
\[male: Wage_i = -0.630+0.811 \cdot
education_i\]
Kayıp Fonksiyonu:
\[L(\theta)=\sum_{}^{}\varepsilon_i^2\]
\[L(\theta)=\sum_{}^{}[y_i-(\hat\theta_0+\hat\theta_1x_1+ \hat\theta_2x_2+ \cdots + \hat\theta_kx_k)]^2\]
olarak yazılabilir. Bu durumda \(\hat \theta\) aşağıdaki gibi minimize edilerek tahmin edilebilir:
\(\operatorname*{arg\,min}_\theta L(\theta)\)
Aynı fonksiyonu matris şeklinde yazarsak (isterseniz \(\theta\) yerine \(\beta\) ile yazalım):
\[L(\beta)=\varepsilon^2=\underbrace{(Y-X\beta)^T}_{\varepsilon^T_{(1xn)}}\underbrace{(Y-X\beta)}_{\varepsilon_{(nx1)}}\]
Matris türevi ile (ipucu: \(\frac{\partial X \beta}{\partial \beta}=X^T \: and \: \frac{\partial \beta^T X \beta}{\partial \beta}=2X^T \beta\)) optimal \(\beta\) vektörü elde edilebilir. Ayrıca matris manipulasyonları da aynı tahmin sonucuna ulaşacaktır.
\[\frac {\partial L(\beta)}{\partial \beta}=\frac {\partial }{\partial \beta}\big[Y^TY+\beta^TX^TX\beta-2Y^TX\beta\big]=0\]
\[\implies \frac {\partial L(\beta)}{\partial \beta}=0+2X^TX\beta-2X^TY=0\]
\[2X^TX\beta=2X^TY \implies \hat\beta=(X^TX)^{-1}X^TY\]
x | y | fit | res |
---|---|---|---|
-10.000000 | -8.332534 | -9.24862046 | 0.91608680 |
-7.777778 | -6.107651 | -4.61852640 | -1.48912470 |
-5.555556 | -1.821115 | 0.01156765 | -1.83268244 |
-3.333333 | 3.508308 | 4.64166170 | -1.13335352 |
-1.111111 | 12.282289 | 9.27175576 | 3.01053348 |
1.111111 | 13.891142 | 13.90184981 | -0.01070733 |
## [,1]
## (intercep) 11.586803
## x 2.083542
## (Intercept) x
## 11.586803 2.083542
Olası/olabilir (Likelihood)
\(X\sim N(\mu, \sigma^2)\) olduğunda olasılık yoğunluk (dağılım) fonksiyonu,
\[P(x) = \frac{1}{{\sigma \sqrt {2\pi } }}e^{-(x - \mu)^2/2\sigma ^2 }\]
\(X=\{x_1,x_2,\cdots,x_n\}\) değerlerini gözlemlediğimizi düşünelim. Bu durumda \(\mu,\sigma\) tahminleri likelihood fonksiyonunun maksimizasyonu olarak formüle edilebilir,
\[P(x_1,x_2,...,x_n|parametreler)\]
Gösterim için kolay bir örnek (\(\mu\))
\(x_i \sim N(\mu,1)=\mu+N(0,1)\) olsun,
\(\mu\) parametresini tahmin etmek istiyoruz ve varsayalım ki gözlemlerimiz,
\(x_1=0, \: x_2= 1, \: x_3=0.7, \: x_4=1.5\)
likelihood gözlemlerin bağımsız olduğu varsayımı altında,
\[P(x_1,x_2,x_3,x_4|\mu)=P(x_1|\mu)P(x_2|\mu)P(x_3|\mu)P(x_4|\mu)\]
R programında dnorm(.)
fonksiyonu kullanılarak farklı \(\mu\) değerleri için
likelihood hesaplanabilir
ipucu:
\(X \sim N(\mu,\sigma^2)\) için yoğunluk fonksiyonu
\(f_x(x)=\frac{1}{{\sigma \sqrt {2\pi } }}e^{-(x - \mu)^2/2\sigma ^2 }\)
Eğer, basit bir örnek üzerinden gösterirsek, standart normal dağılım ise, \(X \sim N\sim(0,1)\)
\[f_x(x)=\frac{1}{\sqrt{2\pi}}e^\frac{-x^2}{2}\]
\(P(x=1|\mu=0, \sigma=1)=dnorm(1) = \frac{1}{\sqrt{2\pi}}e^\frac{-1}{2}=0.242\)
Gözlemlerimize dönersek, Eğer \(\mu=1.5, \sigma=1\) olursa gözlemlerimizin tek tek olasılıkları (likelihood anlamında),
\(P(x=0|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(0-1.5)^2}{2}=0.13\)
\(P(x=1|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(1-1.5)^2}{2}=0.352\)
\(P(x=0.7|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(0.7-1.5)^2}{2}=0.29\)
\(P(x=1.5|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(1.5-1.5)^2}{2}=0.399\)
\(\mu=1.5, \sigma=1
\implies
P(x_1=0,x_2=1,x_3=0.7,x_4=1.5|\mu=1.5,\sigma=1)=0.0053\)
\(\mu\) değerlerini değiştirirsek, örneğin, \(\mu=1\) olsun,
\(P(x_1=0,x_2=1,x_3=0.7,x_4=1.5|\mu=1,\sigma=1)=0.013\)
hangisi daha yüksek? Öyle bir \(\mu\) değeri bulalım ki likelihood fonksiyonunu maksimize etsin (ipucu, ortalama değeri!).
\(P(x_1,x_2,x_3,x_4|\mu=0.8,\sigma=1)=0.014\)
Lineer Regresyon için likelihood ve Tahminciler, MLE
\(Y\) dağılımı için,
\[y_i \sim N(x_i^T\beta, \sigma^2)=x_i^T\beta+N(0, \sigma^2)\]
\[P(Y|X,\beta,\sigma)=\prod_{1}^{n}P(y_i|x_i,\beta,\sigma)\]
\[P(Y|X,\theta,\sigma)=\prod_{1}^{n}(2 \pi \sigma^2)^{-1/2} e^{-\frac {1}{2\sigma^2}(y_i-x_i^T\beta)^2}\]
\[P(Y|X,\theta,\sigma)=(2 \pi \sigma^2)^{-n/2} e^{-\frac {1}{2\sigma^2}(\sum_{i=n}^{n}y_i-x_i^T\beta)^2}\]
Bir sonraki adım logaritması alınarak (\(P>0\)) devam etmek olur buna Log-Likelihood adı verilir.
\[Log(L(\beta))=l(\beta)=-\frac{n}{2}ln(2 \pi \sigma^2)- \frac{1}{2 \sigma^2}(Y-X\beta)^T(Y-X\beta)\]
Kısmi türevleri, (i) \(\sigma\) biliniyor varsayarak \(\beta\) için (En düşük kareler ile aynı sonuca ulaşır), ve (ii) \(\beta\) biliniyor varsayarak \(sigma\) için (Varyans tahmincisine ulaşılır),
\(E[(y_i-x_i^T\beta)^2]=\frac{1}{n}(Y-X\beta)^T(Y-X\beta)\))
Tekrar regresyon denkleminin olasılık gösterimini hatırlayacak olursak,
\[y_i \sim N(x_i^T\beta, \sigma^2)=x_i^T\beta+N(0, \sigma^2)\]
Serbestlik derecesi \(\beta\), parametre sayısı kadar düşecektir. Yani yansız \(\hat \sigma^2\) bölümde \(n-k, \: k:parametre \: sayısı\) gerektirmektedir. MLE küçük örneklem için yanlı ancak büyük örneklemlerde yansıza yakın sonuç verecektir.
\(x_*\) gözlemlendiğinde, \((X_*,y)\) için olasılık dağılımı,
\[P(y|X_*,\beta,\sigma)=N(y|X_*^T\beta_{ML},\sigma^2)\]
Maksimum Likelihood Tahmincisi
\(\hat \beta \xrightarrow[{}]{p} \beta\)
veya
\(plim(\hat \beta)=\beta\)
veya
\(\lim\limits_{n \to \infty} p(|\hat \beta-\beta|>\alpha) \to 0\)
Asimptotik olarak normal (\(n \to \infty\))
Asymptotik olarak Etkin (efficient) (en düşük varyansa sahip)
Tahmin Edicinin Sapma-Varyans bias, variance
\(bias(\hat \beta)=E_{p(Data|\beta)}(\hat \beta)-\beta\)
\(V(\hat \beta)=E_{p(Data|\beta)}(\hat \beta -\beta)^2\)
Kalıntıların (hataların) karelerinin toplamı
\(RSS=\varepsilon_1^2+\varepsilon_2^2+\cdots+\varepsilon_n^2=\sum_{1}^{n}\varepsilon_i^2\)
Bu örnek Applied Econometrics with R, Kleiber, Christian, Zeileis, Achim, Chapter 3 kitabından alınmıştır
Dergi Fiyat Verisi, Journal Pricing Data kullanılacak
# install AER package only once
# install.packages("AER")
library(AER)
# data set name is Journals
data("Journals")
# number of rows and columns (180x10) 180 obs. with 10 variables
dim(Journals)
[1] 180 10
[1] "title" "publisher" "society" "price" "pages"
[6] "charpp" "citations" "foundingyear" "subs" "field"
# subs and price columns needed, create a new data with only these cols
journals <- Journals[, c("subs", "price")]
# obtain price/citations (here observe $ usage to access the columns of data frame)
# citeprice column added to the data frame
journals$citeprice <- Journals$price/Journals$citations
# start with summary
summary(journals)
subs price citeprice
Min. : 2.0 Min. : 20.0 Min. : 0.005223
1st Qu.: 52.0 1st Qu.: 134.5 1st Qu.: 0.464495
Median : 122.5 Median : 282.0 Median : 1.320513
Mean : 196.9 Mean : 417.7 Mean : 2.548455
3rd Qu.: 268.2 3rd Qu.: 540.8 3rd Qu.: 3.440171
Max. :1098.0 Max. :2120.0 Max. :24.459459
Logaritmik dönüşümlü regresyon daha iyi uyuyor (burada log-log)
Regresyon Denklemi:
\[ln(subs)_i=\beta_0+\beta_1 ln(citeprice)_i + \varepsilon_i\]
[1] "lm"
[1] "coefficients" "residuals" "effects" "rank"
[5] "fitted.values" "assign" "qr" "df.residual"
[9] "xlevels" "call" "terms" "model"
Call:
lm(formula = log(subs) ~ log(citeprice), data = journals)
Residuals:
Min 1Q Median 3Q Max
-2.72478 -0.53609 0.03721 0.46619 1.84808
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.76621 0.05591 85.25 <2e-16 ***
log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.7497 on 178 degrees of freedom
Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548
F-statistic: 224 on 1 and 178 DF, p-value: < 2.2e-16
Call: Kullanılan Model Formülü. data=journal kullanılacak veri
Residuals (Hata terimi): \(\varepsilon_i\) için 5-yüzde değerli özet
Coefficients: \(\beta_0: \: intercept, \: \beta_1:\: ln(citeprice)\),
Residual Standard Error, \(RSE=\sqrt{\frac{1}{n-2}RSS}\):
\(\sqrt{Var(\varepsilon_i)}=\sqrt{\sigma^2_\varepsilon}=\hat \sigma_\varepsilon\)
RSE veriye modelin nasıl uyfuğunu (lack-of-fit) göstermektedir
Serbestlik Derecesi, Degrees of freedom: \(n-p=gözlem \: sayısı-parametre \: sayısı\)
R-squared: \(R^2\) ve Adjusted R-squared
F-statistics ve p-value
\(R^2\) Bağımsız değişkenlerin doğrusal bileşminin bağımlı değişkenin ne kadarını yüzde olarak açıkladığı ile ilgili ölçümdür.
\(1-\frac{var(residuals)}{var(dependent \:variable)}\)
Burada, var(.): varyansı ifade etmektedir.
\(R^2\)’yi elimizle adım adım hesaplamak istersek (R kullanarak):
Variance(residuals)=var(model$residual)=0.559
Variance(dependent)=var(ln(journal$subs))=1.2625
\(1-\frac{var(residuals)}{var(dependent variable)}= 1-\frac{0.559}{1.2625}= 0.557\)
\(Adjusted \: R^2={R_{adj}^2 = 1 - [\frac{(1-R^2)(n-1)}{n-k-1}]}\)
\(n\) gözlem sayısını ve \(k\) ise bağımsız değişken sayısını göstermektedir. \(R^2\) değerinin her eklenen yeni bağımsız değişken ile artması veya değişmemesi beklenir. Ancak kötüleşmez. Modelin iyileşmesi ile model parametre sayısı arasında ilişki olmalıdır. Eğer her yeni eklenen bağımsız değişken \(R^2\)’yi az da olsa artıracaksa model karmaşıklığı (parsimony) ve model performansı arasında seçim ancak yeni bir ölçüm ile mümkün olabilir. Bu ancak kullanılacak değişkenlerin sayılarının ölçüme ceza olarak girmesi ile, \(R_{adj}^2\), mümkündür. Eğer yeni bağımsız değişken modeli iyileştiriyorsa \(R_{adj}^2\) artar.
\(n=number \: of \: observations=180\)
\(k=number \: of \: dependent \: variables=1\)
\({R_{adj}^2 = 1 - [\frac{(1-0.557)(180-1)}{180-1-1}]}=0.555\)
Bağımsız değişkenin ifade edeceği tahmin ve güvenlik aralığı (predict the specific outcomes for given independent variables)
\(y = x^T\beta+\varepsilon\)
\(\implies \hat{y} = x^T\hat{\beta}\) since \(E[\varepsilon]=0\)
Tahminler her zaman belirsizlik içerir ve tahmin aralıkları ile birlikte zaman zaman değerlendirilir
\(\hat{y}\) tahmininde \(\hat{\beta}\) ve \(\varepsilon\) varyansı içerilmelidir
Tahmin güven aralığı şu şekilde verilebilir:
\(\hat{y}^*\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x^{*T}(X^TX)^{-1}x^* + 1}\)
Bağımsız değişkenin ifade edeceği ortalama tahmin ve güven aralığı (predict the mean response for given independent variables)
Noktasal tahmin değişmez, \(\hat{y} = x^T\hat{\beta}\). Ortalama tahmin ve güven aralığında \(\hat{\beta}\)’nın belirsizliği, \(Var(\hat{\beta})\), göz önüne alınır
Ortalama tahmin ve güven aralığı şu şekilde verilebilir:
\(\hat{y}^*\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x{*^T}(X^TX)^{-1}x^*}\)
burada, \(t_{n-p}^{\alpha/2}\) \(n-p\) serbestlik dereceli t-istatistiğini, \(199(1-\alpha)\) ise güvenlik seviyesini ifade etmektedir
##
## Call:
## lm(formula = log(subs) ~ log(citeprice), data = journals)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.72478 -0.53609 0.03721 0.46619 1.84808
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.76621 0.05591 85.25 <2e-16 ***
## log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7497 on 178 degrees of freedom
## Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548
## F-statistic: 224 on 1 and 178 DF, p-value: < 2.2e-16
##
##
## Prediction of Specific Outcome for citeprice=2, level=0.95
## fit lwr upr
## 1 4.180593 2.695128 5.666058
##
##
## Prediction of Mean Response for citeprice=2, level=0.95
## fit lwr upr
## 1 4.180593 4.047897 4.313289
Linear hypothesis test:
log(citeprice) = - 0.5
Model 1: restricted model
Model 2: log(subs) ~ log(citeprice)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 179 100.54
2 178 100.06 1 0.48421 0.8614 0.3546
Değişen varyans, heteroskedasticity zaman zaman regresyonlarda karşımıza çıkmaktadır
Ağırlıklı En Küçük Kareler, Weighted Least Squares (WLS) bir çözüm olarak karşımıza çıkmaktadır
Ancak, \(\sigma_i^2\) biliniyor olsaydı her gözlemi bu değere bölerek dönüştürdüğümüz modeli OLS ile tahmin edebilirdik. Ancak bilmiyoruz
Ağırlıklı En Küçük Kareler için tahmin:
OLS, \(\sum_{i=1}^{n}(y_i-\beta_0-\beta_ix_i)^2\),
ağırlıklı olarak, \(\sum_{i=1}^{n}w_i(y_i-\beta_0-\beta_ix_i)^2\)
tekrar yazılabilir
Burada \(w_i\) her bir gözlemin
ağırlığıdır.
\(E(\varepsilon_i^2|x_i,z_i)=h(z_i^T\gamma)\) ki \(h()\) skedastic fonksiyonudur.
Bazı çok kullanılan spesifikasyonlar:
\(E(\varepsilon_i^2|x_i,z_i)=\sigma^2z_i^2\implies w_i=1/z_i\)
WLS Genelleştirilmiş En Küçük Kareler’in, Generalized Least Squares (GLS), özel bir halidir
Çoğunlukla scedastic fonksiyonun şekli bilinmez ve veriden tahmin edilmelidir. Bu bizi mümkün genelleştirilmiş en küçük kareler, feasible generalized least squares (FGLS), yöntemine götürür.
Bu örnek için başlangıç olarak
\[E(\varepsilon^2|x_i,z_i)=\sigma^2z_i^{\gamma_2}\]
\[E(\varepsilon_i^2|x_i,z_i)=\sigma^2 z_i^{\gamma_2}= e^{\gamma_1+\gamma_2 log(x_i)}\] alıp, \(ln(\varepsilon^2)=\gamma_1+\gamma_2ln(x_i)+v_i\), modelini tahmin edebilir sonrasında, ağırlıkları \(w_i=\frac{1}{e^{[\hat \gamma_1+\hat \gamma_2ln(x_i))]}}\) elde edebiliriz
Buradan elde ettiğimiz katsayıları başlangıç olarak alıp, WLS tahmincilerini üretebilir ve sonra tekrar bu hatalar kullanılarak tekrar ağırlıkla bulunabilir. Bu adımları katsayılardaki değişim çok düşük olana kadar sürdürebiliriz.
Applied Econometrics with R, Kleiber, Christian, Zeileis, Achim, Chapter 3
Veri Seti: CPS1988 data frame Mart 1988 Popülasyon Anketi
[1] 28155 7
[1] "wage" "education" "experience" "ethnicity" "smsa"
[6] "region" "parttime"
wage education experience ethnicity smsa
Min. : 50.05 Min. : 0.00 Min. :-4.0 cauc:25923 no : 7223
1st Qu.: 308.64 1st Qu.:12.00 1st Qu.: 8.0 afam: 2232 yes:20932
Median : 522.32 Median :12.00 Median :16.0
Mean : 603.73 Mean :13.07 Mean :18.2
3rd Qu.: 783.48 3rd Qu.:15.00 3rd Qu.:27.0
Max. :18777.20 Max. :18.00 Max. :63.0
region parttime
northeast:6441 no :25631
midwest :6863 yes: 2524
south :8760
west :6091
wage, ucret, (haftalik ucret), education, egitim (yıl olarak) ve experience, deneyim (yıl olarak) sayı cinsinden, ethnicity, etnik köken, factor olarak ve seviyeleri (levels) Caucasian (cauc) ve African-American (afam).
Experience, deneyim = age - education - 6 (potansiyel deneyim olarak düşünülmüş)
\[ln(wage_i)=\beta_0 + \beta_1 \:
experience_i+ \beta_2 \: experience_i^2 + \beta_3 \: education_i +
\beta_4 \: ethnicity_i + \varepsilon\]
- I() fonksiyonuna dikkat edelim. Bu öncelikle bu
hesabın yapılacağı sonrasında modelin tahmin edileceğini göstermektedir.
I(experience^2)=\(experience^2\)
Call:
lm(formula = log(wage) ~ experience + I(experience^2) + education +
ethnicity, data = CPS1988)
Residuals:
Min 1Q Median 3Q Max
-2.9428 -0.3162 0.0580 0.3756 4.3830
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.321e+00 1.917e-02 225.38 <2e-16 ***
experience 7.747e-02 8.800e-04 88.03 <2e-16 ***
I(experience^2) -1.316e-03 1.899e-05 -69.31 <2e-16 ***
education 8.567e-02 1.272e-03 67.34 <2e-16 ***
ethnicityafam -2.434e-01 1.292e-02 -18.84 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5839 on 28150 degrees of freedom
Multiple R-squared: 0.3347, Adjusted R-squared: 0.3346
F-statistic: 3541 on 4 and 28150 DF, p-value: < 2.2e-16
Tüm katsayılar beklenen işaret sahip ve tahminciler istatistiksel olarak anlamlı (çok da sürpriz değil, çünkü gözlem sayısı çok yüksek). Burada ilgileneceğimiz değişken eğitimin getirisi ise, yıllık %8.57 olarak tahmin edilmiş durumda.
ethnicity ethnicityafam olarak görünüyor (başka deyişle bu ethnicity==afam demek). Ancak ethnicity cauc seviyesine de sahip (buna treatment contrast adını veririz, treatment afam referans grup, reference group cauc ile karşılaştırılmaktadır. kukla değişken, dummy variable (veya indicator variable) seviye afam ekonometrik deyimlerde kullanılmaktadır.
Dependent variable: | |
log(wage) | |
experience | 0.077*** |
(0.001) | |
I(experience2) | -0.001*** |
(0.00002) | |
education | 0.086*** |
(0.001) | |
ethnicityafam | -0.243*** |
(0.013) | |
Constant | 4.321*** |
(0.019) | |
Observations | 28,155 |
R2 | 0.335 |
Adjusted R2 | 0.335 |
Residual Std. Error | 0.584 (df = 28150) |
F Statistic | 3,541.036*** (df = 4; 28150) |
Note: | p<0.1; p<0.05; p<0.01 |
herhangi iki iç-içe two nested model için anova() fonksiyonunu kullanabiliriz
Örneğin ethnicity değişkeninin bu modeldeki önemi için
Analysis of Variance Table
Model 1: log(wage) ~ experience + I(experience^2) + education
Model 2: log(wage) ~ experience + I(experience^2) + education + ethnicity
Res.Df RSS Df Sum of Sq F Pr(>F)
1 28151 9719.6
2 28150 9598.6 1 121.02 354.91 < 2.2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Wald test
Model 1: log(wage) ~ experience + I(experience^2) + education + ethnicity
Model 2: log(wage) ~ experience + I(experience^2) + education
Res.Df Df F Pr(>F)
1 28150
2 28151 -1 354.91 < 2.2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Gözlem sayısı fazla ise
\(AIC=-2\:ln(Likelihood) + 2\:p, \: n:number \: of \:observations\)
Değilse düzeltilmiş, ikinci derece AIC, second-order AIC, AICc,
\(AICc=-2\:ln(Likelihood) + 2\:p + \frac{2p(p+1)}{n -(p+1)}\) )
Bayesian Bilgi Kriteri
\(BIC=-2\:ln(Likelihood) + ln(n)\:p\)
[1] 49614.68
[1] 49965.43
[1] 49664.15
[1] 50006.66
Bazı denklemlerde ikinci derece değişkenler (kareleri) sıklıkla görülmektedir.
Bu gibi durumlarda daha esnek bir yöntem kullanarak doğrusal olmayan yapının modellenmesi daha iyi bir yaklaşım olabilir.
\[ln(wage)=\beta_0 + G(experience) + \beta_2 \: education + \beta_3 \: ethnicity + \varepsilon\]
burada \(G()\) tahmin edilecek bir bilinmeyen fonksiyondur. regression splines bu fonksiyonun yapısını daha iyi temsil etmekiçin kullanılabilir.
Spline fonksiyonları, belirli aralıktaki verileri polinom fonksiyonları yolu ile yaklaşık olarak temsil edebilirler (bu örneğimizde cubic polynomial spline fonksiyonlarını experience değişkeni ile tahmin ediyoruz). Önce gözlemler düzgün kantillere bölünür ve her bölünen veri seti ile polinom regresyonlar tahmin edilir.
Ana fikir doğrusal olmayan parçacığın daha esnek bir yol ile modelde kontrol edilebilmesidir. Böylece ilgilendiğimiz doğrusal etkinin olduğu değişkenin katsayısı daha iyi tahmin edilebilir
df parametresi kullanılacak knot sayısı için kurgulanır (bu örnekte 5-3=2) knots. Eğer 2 knots olacaksa bunlar için ilgili kantiller %33.33 ve %66.67 olarak belirlenir
Kaç tane knot kullanılacağı ise aday modeller üzerinden (farklı knot sayıları ile ayrışan adaylar) AIC değerleri ile belirlenebilir
Spline fonksiyonlarının katsayılarını yorumu kolay değildir ve burada ilgilenmeyeceğiz
Spline regresyon modelleri bu sunumun dışında bırakılmıştır
Yukarıdaki model spesifikasyonuna göre eğitimin getirisi yıllık 8.82% olarak tahmin edilmiştir
Call:
lm(formula = log(wage) ~ bs(experience, df = 5) + education +
ethnicity, data = CPS1988)
Residuals:
Min 1Q Median 3Q Max
-2.9315 -0.3079 0.0565 0.3672 3.9945
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.775582 0.056081 49.49 <2e-16 ***
bs(experience, df = 5)1 1.891673 0.075814 24.95 <2e-16 ***
bs(experience, df = 5)2 2.259468 0.046474 48.62 <2e-16 ***
bs(experience, df = 5)3 2.824582 0.070773 39.91 <2e-16 ***
bs(experience, df = 5)4 2.373082 0.065205 36.39 <2e-16 ***
bs(experience, df = 5)5 1.739341 0.119691 14.53 <2e-16 ***
education 0.088181 0.001258 70.07 <2e-16 ***
ethnicityafam -0.248202 0.012725 -19.50 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5747 on 28147 degrees of freedom
Multiple R-squared: 0.3557, Adjusted R-squared: 0.3555
F-statistic: 2220 on 7 and 28147 DF, p-value: < 2.2e-16
Regr. | Without Ethn. | With Splines | |
---|---|---|---|
AIC | 49614.6785 | 49965.4297 | 48720.0162 |
Education | 0.0857 | 0.0874 | 0.0882 |