Doğrusal/Lineer Modeller (Regresyon)

I. Ozkan

Mart 2025

Okumalar

Öğrenme Amaç ve Çıktıları

Anahtar Kelimeler:

Lineer Modeller (Linear Regression)

Reklam Verisi (Advertising Data)

TV radio newspaper sales
230.1 37.8 69.2 22.1
44.5 39.3 45.1 10.4
17.2 45.9 69.3 9.3
151.5 41.3 58.5 18.5
180.8 10.8 58.4 12.9
8.7 48.9 75.0 7.2

Lineer Model, TV Reklamları ve Satışlar

Lineer Modeller

Lineer Modeller

Doğrusal Model Tartışma

Lineer Modeller, En Küçük Kareler Tahmini (Least Square Estimation)

Örneğin:

\(\{(x_1, y_1), (x_2,y_2), \cdots , (x_n, y_n)\}\) \(n\) tane girdi-çıktı çifti olsunlar. \(x_i \in \mathbb{R^k}\) \(k\) elemanlı vektör olsun.

Çıktı, \(y_i \in \mathbb{R}\) tek değişkenli olsun.

Bu durumda lineer model;

\[y_i=\theta_0+\theta_1x_1+ \theta_2x_2+ \cdots + \theta_kx_k+\varepsilon_i\]

Bazı ders kitaplarında \(\theta\) yerine \(\beta\) da yaygın ılarak kullanılmaktadır:

\[y_i=\beta_0+\beta_1x_1+ \beta_2x_2+ \cdots + \beta_kx_k+\varepsilon_i\]

Tahmin \(\hat \theta\) (veya \(\hat \beta\)) değerlerinin birtakım varsayımlar altında bulunmasını amaçlar. Şimdilik varsayımları bir kenara bırakalım. Bu parametrelerin tahminini nasıl yaparız.

\(\hat \theta\), parametre değerleri Kayıp, Maliyet, Hata (Loss, cost, error etc) fonksiyonunun, \(L(\theta)\) minimize edilmesi ile bulunabilir.

Tek Değişkenli Model ve Doğrusal Model Varsayımları

\(E[Y|X]=f(X)+\varepsilon\)

ve doğrusal modelde

\(y_i=\beta_0 + \beta_1x_i+\varepsilon_i, \quad E[\varepsilon]=0\)

\(\beta_0:Kesme \; Terimi, \; (intercept)\)

\(\beta_1:Eğim \; Katsayısı\)

Not: Bazı kitaplarda, \(\varepsilon_i\) yerine \(u_i\) de kullanılmaktadır

Tartışma: Doğrusallık

Doğrusallık için parametrelerde doğrusallığı anlıyoruz. Bu açıdan bakıldığında, \(y=\beta_0 + \beta_1x_i+\varepsilon_i\) ve \(y=\beta_0 + \beta_1x_i^2+\varepsilon_i\) modelleri parametreler açısından doğrusaldır. Yani \(\beta_0,\beta_1\) değerlerinin üssü \(1\)’dir

\(y=\beta_0 + \beta_1x_i+\varepsilon_i\) modeli hem parametre hem de değişkenlere göre doğrusaldır

Hata Terimi (residual, error term)

Tahmin modeli

\(\hat y=\hat \beta_0 +\hat \beta_1x\)

Tahminciler, örneklemlerden elde edilmektedir. Her bir örneklem farklı noktasal tahmincilere ulaşabilirler. Bunlar örneklem ışığında anakütleyi en iyi temsil eden tahminler olacaktır

1- Regresyon modeli parametrelere göre doğrusaldır, \(Y\), \(X\) değişkenleri doğrusal olabilir veya olmayabilir

2- Açıklayıcı değişkenler stokastik değildir

3- \(E[\varepsilon_i|X]=0\)

4- \(Var(\varepsilon_i|X)=\sigma^2, \; Sabit \: Varyans,\; Homoskedastik\)

5- \(Cov(\varepsilon_i,\varepsilon_j|X)=0, i\neq j\)

6- \(X\) değişkenleri arasında çoklu doğrusal bağlantı yoktur

7- Regresyon modeli doğru tanımlanmıştır

8- \(\varepsilon_i \sim N(0,\sigma^2)\)

Basit Doğrusal Model

x y fit res
-10.00 -8.33 -9.25 0.92
-7.78 -6.11 -4.62 -1.49
-5.56 -1.82 0.01 -1.83
-3.33 3.51 4.64 -1.13
-1.11 12.28 9.27 3.01
1.11 13.89 13.90 -0.01
3.33 19.29 18.53 0.76
5.56 26.12 23.16 2.95
7.78 27.89 27.79 0.10
10.00 29.15 32.42 -3.27

\(E[\varepsilon]=0\)

\(\implies E[y-\hat \beta_0 - \hat \beta_1x]=0\)

\(\implies n^{-1}\sum_{i=1}^{n}(y_i-\hat \beta_0 - \hat \beta_1x_i)=0\)

\(Cov(\varepsilon_i,\varepsilon_j)=0, \; i\neq j\)

\(Cov(x,\varepsilon)=E[x \varepsilon]=0\)

\(\implies n^{-1}\sum_{i=1}^{n}x_i(y_i-\hat \beta_0 - \hat \beta_1x_i)=0\)

Yukarıdaki iki \(\hat \beta_0,\hat \beta_1\) tahminci içeren denklem düşünüldüğünde iki denklem ve iki bilinmeyen görülebilir. Bu tahmin yöntemine moment metodu (method of moments) adı verilir.

\(\bar y=\hat \beta_0 + \hat \beta_1 \bar x \implies \hat \beta_0 = \bar y - \hat \beta_1 \bar x\)

\(n^{-1}\sum_{i=1}^{n}x_i(y_i- (\bar y - \hat \beta_1 \bar x) - \hat \beta_1x_i)=0\)

\(\implies \sum_{i=1}^{n}x_i(y_i- \bar y)=\hat \beta_1 \sum_{i=1}^{n} x_i(x_i-\bar x)\)

\(\sum_{i=1}^{n} x_i(x_i-\bar x)=\sum_{i=1}^{n} (x_i-\bar x)^2\)

\(\sum_{i=1}^{n}x_i(y_i- \bar y)=\sum_{i=1}^{n}(x_i - \bar x)(y_i- \bar y)\)

\(\implies \hat \beta_1=\frac{\sum_{i=1}^{n}(x_i - \bar x)(y_i- \bar y)}{\sum_{i=1}^{n} (x_i-\bar x)^2}, \; given \; \sum_{i=1}^{n} (x_i-\bar x)^2>0\)

\(\implies \hat \beta_1=\frac{Cov(X,Y)}{Var(X)}\)

\(\implies \hat \beta_1=\frac{Cov(X,Y) \sqrt{Var(Y)}}{\sqrt{Var(X)}\sqrt{Var(X)}\sqrt{Var(Y)}}\)

\(\implies \hat \beta_1=\frac{Cor(X,Y) \sqrt{Var(Y)}}{\sqrt{Var(X)}}\)

Bu aynı zamanda en küçük kareler (OLS) yöntemi ile aynıdır.

OLS

\(\operatorname*{arg\,min}_{\hat\beta_0,\hat\beta_1} \sum_{}^{}\varepsilon_i^2=\sum_{}^{} (y-\hat \beta_0 - \hat \beta_1x)^2\)

\(\sum_{}^{}\varepsilon_i^2\) aynı zamanda hataların karelerinin toplamı olarak da bilinmektedir (Sum of squared residuals, SSR)

    1. Derece Koşul:

\(\frac{d}{d\hat \beta_0}\sum_{}^{} (y-\hat \beta_0 - \hat \beta_1x)^2=0\)

\(\frac{d}{d\hat \beta_1}\sum_{}^{} (y-\hat \beta_0 - \hat \beta_1x)^2=0\)

Bu türevler yukarıdaki denklemler ile aynı başlangıca ulaştıracaktır

Modeldeki tahminciler birkez elde edildiğinde,

\(\hat y=\hat \beta_0 + \hat \beta_1x\)

OLS regresyon doğrusu olarak da adlandırılır. Ancak bu doğru, örneklem doğrusudur. Popülasyon doğrusu değildir.

OLS tahmininin özellikleri arasında,

Bazı Tanımlar

\(SST=SSE+SSR\)

Bir basit model üzerinden bakarsak. R veri setlerinden cars verisi hızın 15 milden küçük olanları kullanarak yukarıda verilen tanımlara bakarsak:

## 
## Call:
## lm(formula = dist ~ speed, data = cars1)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -6.101 -2.915  1.062  2.690  5.480 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  -8.6425     4.6467  -1.860  0.10523   
## speed         2.3953     0.4547   5.268  0.00116 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.055 on 7 degrees of freedom
## Multiple R-squared:  0.7986, Adjusted R-squared:  0.7698 
## F-statistic: 27.75 on 1 and 7 DF,  p-value: 0.001163
## Analysis of Variance Table
## 
## Response: dist
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## speed      1 456.43  456.43  27.752 0.001163 **
## Residuals  7 115.13   16.45                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\(SST=SSE+SSR\)

\(\implies \sum_{i=1}^{n}(y_i-\bar y)^2=\sum_{i=1}^{n}[(y_i- \hat y_i)+(\hat y_i-\bar y)]^2\)

\(\implies =\sum_{i=1}^{n}[\hat \varepsilon_i+(\hat y_i-\bar y)]^2\)

\(\implies =\sum_{i=1}^{n}\hat \varepsilon_i^2+2\sum_{i=1}^{n} \varepsilon_i(\hat y_i-\bar y)+\sum_{i=1}^{n}+(\hat y_i-\bar y)^2\)
\(\implies SST=SSR+2\sum_{i=1}^{n} \varepsilon_i(\hat y_i-\bar y)+SSE\)

\(\sum_{i=1}^{n} \varepsilon_i(\hat y_i-\bar y)=0\) olduğundan yukarıdaki eşitliğin bozulmadığı görülebilir.

Açıklama Gücü

\(x\) Değişkeninin bağımlı değişken olan \(y\) değişkenini ne kadar açıkladığının basit bir özeti \(R^2\) olarak adlandırılır. Bu bazen belirleme katsayısı (coefficient of determination) olarak da adlandırılır. \(R^2\) basitçe açıklanan değişkenliğin toplam değişkenliğe oranıdır

\(R^2 \equiv \frac{SSE}{SST}=1-\frac{SSR}{SST}\)

\(0<R^2<1\) değeri arasında kalacağından 100 ile çarpılması ile açıklanan değişkenliğin toplam değişkenliğin yüzdesi olarak da kullanılmaktadır.

Yukarıdaki örnek regresyon verileri

speed dist err fit
4 2 -12.78 0.94
7 4 -10.78 8.12
8 16 1.22 10.52
9 10 -4.78 12.91
10 18 3.22 15.31
11 17 2.22 17.71
12 14 -0.78 20.10
13 26 11.22 22.50
14 26 11.22 24.89
Speed ve Dist Korelasyonu: 0.894
Speed ve Dist Korelasyon Karesi: 0.799

Basit Doğrusal Model

\(y_i=\beta_0 + \beta_1x_i+\varepsilon_i, \; \varepsilon \sim N(0,\sigma^2)\)

ve

\(\hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\)

\[\begin{align} \sum_i (x_i - \bar{x})\bar{y} &= \bar{y}\sum_i (x_i - \bar{x})\\ &= \bar{y}\left(\left(\sum_i x_i\right) - n\bar{x}\right)\\ &= \bar{y}\left(n\bar{x} - n\bar{x}\right)\\ &= 0 \end{align}\]

\[\begin{align} \sum_i (x_i - \bar{x})(y_i - \bar{y}) &= \sum_i (x_i - \bar{x})y_i - \sum_i (x_i - \bar{x})\bar{y}\\ &= \sum_i (x_i - \bar{x})y_i\\ &= \sum_i (x_i - \bar{x})(\beta_0 + \beta_1x_i + \varepsilon_i )\\ \end{align}\]

\[\begin{align} \text{E}[\hat{\beta_1}] & = \text{E} \Big[\frac{\sum_i (x_i - \bar{x})(\beta_0 + \beta_1x_i + \varepsilon_i )}{s_{xx}} \Big] \\ & = \text{E} \Big[\frac{\sum_i (x_i - \bar{x})\beta_1x_i}{s_{xx}} \Big] = \text{E} \Big[\frac{\beta_1\sum_i (x_i - \bar{x})x_i}{s_{xx}} \Big] \\ & = \beta_1 \text{E} \Big[\frac{\sum_i (x_i - \bar{x})x_i}{s_{xx}} \Big] = \beta_1 \text{E} \Big[\frac{s_{xx}}{s_{xx}} \Big]=\beta_1 \\ \end{align}\]

\[\begin{align} \text{Var}(\hat{\beta_1}) & = \text{Var} \left(\frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \text{Var} \left(\frac{\sum_i (x_i - \bar{x})y_i}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \text{Var} \left(\frac{\sum_i (x_i - \bar{x})(\beta_0 + \beta_1x_i + \varepsilon_i)}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \text{Var} \left(\frac{\sum_i (x_i - \bar{x})\varepsilon_i}{\sum_i (x_i - \bar{x})^2} \right) \\ &= \frac{\sum_i (x_i - \bar{x})^2\text{Var}(\varepsilon_i)}{\left(\sum_i (x_i - \bar{x})^2\right)^2}, \; \text{Recall: Var}(aX)=a^2\text{Var}(X)\\ &= \frac{\sigma^2}{\sum_i (x_i - \bar{x})^2} \\ &= \frac{\sigma^2}{s_{xx}} \\ \end{align}\]

\[\begin{align} \text{Var}(\hat{\beta}_0) &= \text{Var} (\bar{y} - \hat{\beta}_1 \bar{x}) \\ &= \text{Var} (\bar{y}) + (\bar{x})^2 \text{Var} (\hat{\beta}_1) - 2 \bar{x} \text{Cov} (\bar{y}, \hat{\beta}_1). \end{align}\]

\[\text{Var} (\bar{y}) = \text{Var} \left(\frac{1}{n} \sum_{i = 1}^n y_i \right) = \frac{1}{n^2} \sum_{i = 1}^n \text{Var} (y_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}\]

\[\begin{align} \text{Var} \left( \sum_{i = 1}^n y_i \right) &= \text{Var} \left( \sum_{i = 1}^n \beta_0 + \beta_1 x_i + \varepsilon_i \right)\\ &= \text{Var} \left( \sum_{i = 1}^n \varepsilon_i \right) = \sum_{i = 1}^n \sum_{j = 1}^n \text{Cov} (\varepsilon_i, \epsilon_j)\\ &= \sum_{i = 1}^n \text{Var} (\varepsilon_i)\\ &= n \sigma^2\\ \end{align}\]

\[\begin{align} \text{Cov} (\bar{y}, \hat{\beta}_1) &= \text{Cov} \left\{ \frac{1}{n} \sum_{i = 1}^n y_i, \frac{ \sum_{j = 1}^n(x_j - \bar{x})(y_j - \bar{y})}{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \right \} \\ &= \text{Cov} \left\{ \frac{1}{n} \sum_{i = 1}^n y_i, \frac{ \sum_{j = 1}^n(x_j - \bar{x})y_j}{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \right \} \\ &= \frac{1}{n} \frac{ 1 }{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \text{Cov} \left\{ \sum_{i = 1}^n y_i, \sum_{j = 1}^n(x_j - \bar{x})y_j \right\} \\ &= \frac{ 1 }{ n \sum_{i = 1}^n(x_i - \bar{x})^2 } \sum_{i = 1}^n (x_j - \bar{x}) \sum_{j = 1}^n \text{Cov}(y_i, y_j) \\ &= \frac{ 1 }{ n \sum_{i = 1}^n(x_i - \bar{x})^2 } \sum_{i = 1}^n (x_j - \bar{x}) \sigma^2 \\ &= 0 \end{align}\]

\[\sum_{i = 1}^n(x_i - \bar{x})^2 = \sum_{i = 1}^n x_i^2 - 2 \bar{x} \sum_{i = 1}^n x_i + \sum_{i = 1}^n \bar{x}^2 = \sum_{i = 1}^n x_i^2 - n \bar{x}^2\]

\[\begin{align} \text{E}(\hat{\beta}_0) &= \text{E}(\bar{y} - \hat{\beta}_1 \bar{x}) \\ &= \text{E}\left(\frac{1}{n} \sum_{i = 1}^n y_i - \beta_1 \frac{1}{n} \sum_{i = 1}^n x_i)\right)=\frac{1}{n}\text{E}\left(\sum_{i = 1}^n y_i - \beta_1 \sum_{i = 1}^n x_i)\right) \\ &= \frac{1}{n}\text{E}\left(\sum_{i = 1}^n (\beta_0 + \beta_1x_i + \varepsilon_i) - \beta_1 \sum_{i = 1}^n x_i)\right) \\ &= \frac{1}{n}\text{E}\left(n \beta_0 + \beta_1 \sum_{i = 1}^n x_i + \sum_{i = 1}^n \varepsilon_i - \beta_1 \sum_{i = 1}^n x_i)\right) \\ &= \frac{1}{n}\text{E}\left(n \beta_0 + \sum_{i = 1}^n \varepsilon_i \right) \\ &= \beta_0 \\ \end{align}\]

\[\begin{align} {\rm Var}(\hat{\beta}_0) &= \frac{\sigma^2}{n} + \frac{ \sigma^2 \bar{x}^2}{ \sum_{i = 1}^n(x_i - \bar{x})^2 } \\ &= \frac{\sigma^2 }{ n \sum_{i = 1}^n(x_i - \bar{x})^2 } \left\{ \sum_{i = 1}^n(x_i - \bar{x})^2 + n \bar{x}^2 \right\} \\ &= \frac{\sigma^2 \sum_{i = 1}^n x_i^2}{ n \sum_{i = 1}^n(x_i - \bar{x})^2 }. \end{align}\]

Basit Doğrusal Model Özet

\(y_i=\beta_0 + \beta_1x_i+\varepsilon_i, \; \varepsilon \sim N(0,\sigma^2)\)

\(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\)

\[\text{Var}(\hat{\beta}_0) = \frac{\sigma^2 \sum_{i = 1}^n x_i^2}{ n \sum_{i = 1}^n(x_i - \bar{x})^2 }\]

ve

\(\hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\)

\(\hat \beta_1=\frac{Cov(X,Y)}{Var(X)}\)

\(\hat \beta_1=\frac{Cor(X,Y) \sqrt{Var(Y)}}{\sqrt{Var(X)}}\)

\[\begin{align} \text{Var}(\hat{\beta_1}) &= \frac{\sigma^2}{\sum_i (x_i - \bar{x})^2} \\ &= \frac{\sigma^2}{s_{xx}} \\ \end{align}\]

Basit Doğrusal Model: R Örnekleri

Örnekler için: Prelude to Econometrics Using R Bölüm 5

## Rows: 534
## Columns: 11
## $ wage       <dbl> 5.10, 4.95, 6.67, 4.00, 7.50, 13.07, 4.45, 19.47, 13.28, 8.…
## $ education  <dbl> 8, 9, 12, 12, 12, 13, 10, 12, 16, 12, 12, 12, 8, 9, 9, 12, …
## $ experience <dbl> 21, 42, 1, 4, 17, 9, 27, 9, 11, 9, 17, 19, 27, 30, 29, 37, …
## $ age        <dbl> 35, 57, 19, 22, 35, 28, 43, 27, 33, 27, 35, 37, 41, 45, 44,…
## $ ethnicity  <fct> hispanic, cauc, cauc, cauc, cauc, cauc, cauc, cauc, cauc, c…
## $ region     <fct> other, other, other, other, other, other, south, other, oth…
## $ gender     <fct> female, female, male, male, male, male, male, male, male, m…
## $ occupation <fct> worker, worker, worker, worker, worker, worker, worker, wor…
## $ sector     <fct> manufacturing, manufacturing, manufacturing, other, other, …
## $ union      <fct> no, no, no, no, no, yes, no, no, no, no, yes, yes, no, yes,…
## $ married    <fct> yes, yes, no, no, yes, no, no, no, yes, no, yes, no, yes, n…
## [1] 0.3819221
## 
##  Pearson's product-moment correlation
## 
## data:  CPS1985$wage and CPS1985$education
## t = 9.5316, df = 532, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3070208 0.4521212
## sample estimates:
##       cor 
## 0.3819221

## [1] "lm"
## $names
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"        
## 
## $class
## [1] "lm"
## (Intercept)   education 
##  -0.7459797   0.7504608
## [1] -9.582398e-17
## 
## Call:
## lm(formula = wage ~ education, data = CPS1985)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -7.911 -3.260 -0.760  2.240 34.740 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.74598    1.04545  -0.714    0.476    
## education    0.75046    0.07873   9.532   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.754 on 532 degrees of freedom
## Multiple R-squared:  0.1459, Adjusted R-squared:  0.1443 
## F-statistic: 90.85 on 1 and 532 DF,  p-value: < 2.2e-16
## [1] 4.749525
## [1] 4.753987
## [1] 0.1459
Dependent variable:
wage
education 0.750***
(0.079)
Constant -0.746
(1.045)
Observations 534
R2 0.146
Adjusted R2 0.144
Residual Std. Error 4.754 (df = 532)
F Statistic 90.852*** (df = 1; 532)
Note: p<0.1; p<0.05; p<0.01

\[\hat{Wage_{i}} = -0.74598 + 0.75046 Education_{i}\]
\[\hat{Wage|_{Education=12}} = -0.74598 + 0.75046 \times 12=8.26\]

Wage Education Prediction Residual
1 5.10 8 5.257706 -0.1577063
1100 4.95 9 6.008167 -1.0581671
2 6.67 12 8.259549 -1.5895493
3 4.00 12 8.259549 -4.2595493
4 7.50 12 8.259549 -0.7595493
5 13.07 13 9.010010 4.0599899

##    (Intercept)      education I(education^2) 
##      7.5060592     -0.6009458      0.0529823
## [1] 3.725034e-16
## 
## Call:
## lm(formula = wage ~ education + I(education^2), data = CPS1985)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.655 -3.095 -0.751  2.105 35.023 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)   
## (Intercept)     7.50606    2.98088   2.518  0.01209 * 
## education      -0.60095    0.46425  -1.294  0.19607   
## I(education^2)  0.05298    0.01794   2.953  0.00328 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.72 on 531 degrees of freedom
## Multiple R-squared:  0.1597, Adjusted R-squared:  0.1565 
## F-statistic: 50.45 on 2 and 531 DF,  p-value: < 2.2e-16

\[\hat{Wage_{i}} = -0.750606 - 0.60095 Education_{i}+0.05298 Education_{i}\]

Wage Education Prediction Residual
1 5.10 8 6.089360 -0.9893602
1100 4.95 9 6.389113 -1.4391135
2 6.67 12 7.924161 -1.2541610
3 4.00 12 7.924161 -3.9241610
4 7.50 12 7.924161 -0.4241610
5 13.07 13 8.647773 4.4222273
Dependent variable:
wage
education -0.601
(0.464)
I(education2) 0.053***
(0.018)
Constant 7.506**
(2.981)
Observations 534
R2 0.160
Adjusted R2 0.157
Residual Std. Error 4.720 (df = 531)
F Statistic 50.446*** (df = 2; 531)
Note: p<0.1; p<0.05; p<0.01

Transformasyon

## 
## Call:
## lm(formula = fare ~ dist, data = airfare)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -127.27  -47.08  -15.47   41.52  233.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.033e+02  1.643e+00   62.87   <2e-16 ***
## dist        7.632e-02  1.412e-03   54.06   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 58.55 on 4594 degrees of freedom
## Multiple R-squared:  0.3888, Adjusted R-squared:  0.3887 
## F-statistic:  2923 on 1 and 4594 DF,  p-value: < 2.2e-16
Dependent variable:
fare
dist 0.076***
(0.001)
Constant 103.261***
(1.643)
Observations 4,596
R2 0.389
Adjusted R2 0.389
Residual Std. Error 58.546 (df = 4594)
F Statistic 2,922.832*** (df = 1; 4594)
Note: p<0.1; p<0.05; p<0.01

\[fare_{i} = 103.261 + 0.076 distance_{i}\]

Distance değişkenini değiştirsek (100’e bölsek)

##    fare dist dist100
## 1   106  528    5.28
## 5   104  861    8.61
## 9   207  852    8.52
## 13  243  724    7.24
## 17  119 1073   10.73
Dependent variable:
fare
(1) (2)
dist 0.076***
(0.001)
dist100 7.632***
(0.141)
Constant 103.261*** 103.261***
(1.643) (1.643)
Observations 4,596 4,596
R2 0.389 0.389
Adjusted R2 0.389 0.389
Residual Std. Error (df = 4594) 58.546 58.546
F Statistic (df = 1; 4594) 2,922.832*** 2,922.832***
Note: p<0.1; p<0.05; p<0.01

\(\beta_0\)?

## 
## Call:
## lm(formula = colgpa ~ sat, data = gpa2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.84515 -0.38205  0.02968  0.42623  1.77382 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.631e-01  6.972e-02    9.51   <2e-16 ***
## sat         1.931e-03  6.706e-05   28.80   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6012 on 4135 degrees of freedom
## Multiple R-squared:  0.167,  Adjusted R-squared:  0.1668 
## F-statistic: 829.3 on 1 and 4135 DF,  p-value: < 2.2e-16

\[\hat {gpa_{i}} = \hat {0.663} + \hat {0.002} sat_{i}\]

\[\hat {gpa|_{sat=0}} = 0.663 + 0.002 \times 0=0.663\]

\(\beta_0\) her zaman baktığımız olmayabilir. Ama zaman zaman da bakabiliriz. Örnek, CAPM modeli. Ama konumuz dışında.

Transformasyon: Basit Doğrusal Model

salary sales
1095 27595.0
1001 9958.0
1122 6125.9
578 16246.0
1368 21783.2
1145 6021.4

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                               salary           
## -----------------------------------------------
## sales                         0.015*           
##                               (0.009)          
##                                                
## Constant                   1,174.005***        
##                              (112.813)         
##                                                
## -----------------------------------------------
## Observations                    209            
## R2                             0.014           
## Adjusted R2                    0.010           
## Residual Std. Error    1,365.737 (df = 207)    
## F Statistic            3.018* (df = 1; 207)    
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01
salary sales lnsalary lnsales
1095 27595.0 6.998510 10.225390
1001 9958.0 6.908755 9.206132
1122 6125.9 7.022868 8.720281
578 16246.0 6.359574 9.695602
1368 21783.2 7.221105 9.988894
1145 6021.4 7.043160 8.703075

## 
## ===========================================================================
##                                            Dependent variable:             
##                                --------------------------------------------
##                                        salary                lnsalary      
##                                    (1)         (2)        (3)        (4)   
## ---------------------------------------------------------------------------
## sales                             0.015*               0.00001***          
##                                  (0.009)               (0.00000)           
##                                                                            
## lnsales                                     262.901***            0.257*** 
##                                              (92.355)              (0.035) 
##                                                                            
## Constant                       1,174.005***  -898.929   6.847***  4.822*** 
##                                 (112.813)   (771.502)   (0.045)    (0.288) 
##                                                                            
## ---------------------------------------------------------------------------
## Observations                       209         209        209        209   
## R2                                0.014       0.038      0.079      0.211  
## Adjusted R2                       0.010       0.033      0.075      0.207  
## Residual Std. Error (df = 207)  1,365.737   1,349.496    0.545      0.504  
## F Statistic (df = 1; 207)         3.018*     8.103***  17.785***  55.297***
## ===========================================================================
## Note:                                           *p<0.1; **p<0.05; ***p<0.01

Modeller sırası ile:

\(mod1:salary=\beta_0+\beta_1sales\): Lineer Model

\(mod2:ln(salary)=\beta_0+\beta_1sales\): Log-Lineer Model

\(mod3:salary=\beta_0+\beta_1ln(sales)\): Lin-Log Model

\(mod4:ln(salary)=\beta_0+\beta_1ln(sales)\): Log-Log Model

Bu modellerde \(\beta_1\) nasıl yorumlanır?

Basit Linear Model: Varsayımlar

Log-Log model:

\(mod4:ln(salary)=\hat{4.822}+\hat{0.2567}ln(sales)\)

\(ln(sales)\) stokastik değil

\(E[\varepsilon_i|X]=0\)

\(E[\varepsilon_i|X]=round(mean(resid(mod4)),4)=0\)

## 
## =======================================================
##                             Dependent variable:        
##                     -----------------------------------
##                            lnsalary                    
##                               OLS           coefficient
##                                                test    
##                               (1)               (2)    
## -------------------------------------------------------
## lnsales                    0.257***          0.257***  
##                             (0.035)           (0.033)  
##                                                        
## Constant                   4.822***          4.822***  
##                             (0.288)           (0.276)  
##                                                        
## -------------------------------------------------------
## Observations                  209                      
## R2                           0.211                     
## Adjusted R2                  0.207                     
## Residual Std. Error    0.504 (df = 207)                
## F Statistic         55.297*** (df = 1; 207)            
## =======================================================
## Note:                       *p<0.1; **p<0.05; ***p<0.01

Basit Doğrusal Model: Katsayı Anlamlılık Testi

\(\hat{\beta_1}\) büyük örneklemlerde yaklaşık normal dağılıma sahip

\(t = \frac{\text{tahmin değeri} - \text{Varsayılan değer}}{\text{tahmincinin standart hatası}}\)

\(H_0: \beta_1 = \beta_{1,0}\)

\(H_A: \beta_1 \neq \beta_{1,0}\)

\(t = \frac{\hat{\beta}_1 - \beta_{1,0}}{ SE(\hat{\beta}_1) }\)

## 
## Call:
## lm(formula = lnsalary ~ lnsales, data = ceosal.tmp)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.01038 -0.28140 -0.02723  0.21222  2.81128 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.82200    0.28834  16.723  < 2e-16 ***
## lnsales      0.25667    0.03452   7.436  2.7e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5044 on 207 degrees of freedom
## Multiple R-squared:  0.2108, Adjusted R-squared:  0.207 
## F-statistic:  55.3 on 1 and 207 DF,  p-value: 2.703e-12

\(mod4:ln(salary)=\hat{4.822}+\hat{0.2567}ln(sales)\)

\(\hat{\beta_1}=0.25667 \: \text{standart hata=0.03452}\)

\(\implies t_{207} = \frac{0.25667 - 0}{0.03452}=7.435\)

Güvenlik Aralığı, (Confidence Interval, CI)

\(\text{CI}_{0.95}^{\beta_i} = \left[ \hat{\beta}_i - 1.96 \times \sigma_{\hat{\beta}_i} \, , \, \hat{\beta}_i + 1.96 \times \sigma_{\hat{\beta}_i} \right]\)

##                 2.5 %   97.5 %
## (Intercept) 4.2535377 5.390455
## lnsales     0.1886224 0.324721
##     lower     upper 
## 0.1886224 0.3247210

İç-içe (nested) modeller arasında seçim yapmak için kullanılır. Örneğin,

\(mod4_0:ln(salary)=\hat{\beta_0}+\hat{\beta_1}ln(sales)\)

aşağıdaki gibi tahmin edilmişti

\(mod4:ln(salary)=\hat{4.822}+\hat{0.2567}ln(sales)\)

\(H_0:\hat{\beta_1}=0, \; H_1: \hat{\beta_1} \neq 0\) için t-testi kullanmıştık. Ancak F-testi de kullanılabilir

\(\text{Sıfır Modeli,} mod4_1:ln(salary)=\hat{lnsalary}\)

\[F = \frac{\left( \frac{RSS_0-RSS_1}{p_1-p_0} \right)} {\left( \frac{RSS_1}{n-p_1} \right)} = \left( \frac{RSS_0-RSS_1}{p_1-p_0} \right) \left( \frac{n-p_1}{RSS_1} \right)\]

Alternatif olarak \(R^2 = 1-\frac{RSS_1}{RSS_0}\) kullanılarak

\[F = \left(\frac{RSS_0-RSS_1}{RSS_1}\right)\left(\frac{n-p_1}{p_1-p_0} \right)= \left( \frac{RSS_0}{RSS_1}-1 \right) \left( \frac{n-p_1}{p_1-p_0} \right) \]

\[= \left( \frac{R^2}{1-R^2} \right) \left( \frac{n-p_1}{p_1-p_0} \right)\]

## 
## Call:
## lm(formula = lnsalary ~ lnsales, data = ceosal.tmp)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.01038 -0.28140 -0.02723  0.21222  2.81128 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.82200    0.28834  16.723  < 2e-16 ***
## lnsales      0.25667    0.03452   7.436  2.7e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5044 on 207 degrees of freedom
## Multiple R-squared:  0.2108, Adjusted R-squared:  0.207 
## F-statistic:  55.3 on 1 and 207 DF,  p-value: 2.703e-12
## [1] "F-Değeri=03"
## [1] 66.72217
## [1] 52.656
## [1] 14.06617
## [1] 0.2543768
## [1] 14.06617
## [1] 55.29659
## [1] 2.703393e-12
## Analysis of Variance Table
## 
## Response: lnsalary
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## lnsales     1 14.066 14.0662  55.297 2.703e-12 ***
## Residuals 207 52.656  0.2544                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Birden çok açıklayıcı (ve dolayısı ile eğim olduğunda)

\(H_0:\hat{\beta_1}=\hat{\beta_2}=\hat{\beta_3}=..=\hat{\beta_p}=0\)

\(H_1: \text{en az bir } \hat{\beta_j} \neq 0, j\neq 0\)

\(\text{Sıfır Modeli (Reduced Model): } y_i=\beta_0+\varepsilon_i, \; df=n-1\)

\(\text{Tam Model (Full Model): } y_i=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\varepsilon_i,\; df=n-p+1\)

\[F = \left(\frac{RSS_0-RSS_1}{RSS_1}\right)\left(\frac{n-p_1}{p_1-p_0} \right)= \left(\frac{RSS_0-RSS_1}{p_1-p_0}\right)\left(\frac{n-p_1}{RSS_1}\right)\]

\(\implies F =\left(\frac{RSS_0-RSS_1}{p_1-p_0}\right)/\left(\frac{RSS_1}{n-p_1}\right)=\left(\frac{RSS_0-RSS_1}{df_0-df_1}\right)/\left(\frac{RSS_1}{df_1}\right)\)

Kategorik Bağımsız Değişken

##   male female 
##    289    245
##  Factor w/ 2 levels "male","female": 2 2 1 1 1 1 1 1 1 1 ...
## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                wage            
## -----------------------------------------------
## genderfemale                 -2.116***         
##                               (0.437)          
##                                                
## Constant                     9.995***          
##                               (0.296)          
##                                                
## -----------------------------------------------
## Observations                    534            
## R2                             0.042           
## Adjusted R2                    0.040           
## Residual Std. Error      5.034 (df = 532)      
## F Statistic           23.426*** (df = 1; 532)  
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01
## # A tibble: 2 × 2
##   gender meanwage
##   <fct>     <dbl>
## 1 male       9.99
## 2 female     7.88

\[\begin{equation} Wage_i = 9.995 - 2.116 \cdot I(gender_i=female) \end{equation}\]

\(I(gender_i=female)=female_i=1 \; \text{gender female ise}\)

Eğer gender female ise

\[\begin{equation} Wage_i = 9.995 - 2.116 \end{equation}\]

Eğer gender male ise

\[\begin{equation} Wage_i = 9.995 \end{equation}\]

## 
## ==============================================================================================
##                                                  Dependent variable:                          
##                        -----------------------------------------------------------------------
##                                                         wage                                  
##                                  (1)                     (2)                     (3)          
## ----------------------------------------------------------------------------------------------
## education                                             0.751***                0.683***        
##                                                        (0.077)                 (0.099)        
##                                                                                               
## genderfemale                  -2.116***               -2.124***               -4.370**        
##                                (0.437)                 (0.403)                 (2.085)        
##                                                                                               
## education:genderfemale                                                          0.173         
##                                                                                (0.157)        
##                                                                                               
## Constant                      9.995***                  0.218                   1.105         
##                                (0.296)                 (1.036)                 (1.314)        
##                                                                                               
## ----------------------------------------------------------------------------------------------
## Observations                     534                     534                     534          
## R2                              0.042                   0.188                   0.190         
## Adjusted R2                     0.040                   0.185                   0.186         
## Residual Std. Error       5.034 (df = 532)        4.639 (df = 531)        4.638 (df = 530)    
## F Statistic            23.426*** (df = 1; 532) 61.616*** (df = 2; 531) 41.495*** (df = 3; 530)
## ==============================================================================================
## Note:                                                              *p<0.1; **p<0.05; ***p<0.01
wage education gender kukla_yok kukla_1 kukla_2 kukla_3
5.10 8 female 5.257706 7.878857 4.104041 3.579525
4.95 9 female 6.008167 7.878857 4.855325 4.435200
6.67 12 male 8.259549 9.994913 9.233232 9.302313
4.00 12 male 8.259549 9.994913 9.233232 9.302313
7.50 12 male 8.259549 9.994913 9.233232 9.302313
13.07 13 male 9.010010 9.994913 9.984515 9.985458

\[\begin{equation} Wage_i = 0.22 + 0.75 \cdot education_i - 2.12 \cdot female_i \end{equation}\]

yani,

\[female: Wage_i = 0.22 + 0.75 \cdot education_i - 2.12 = -1.9 + 0.75 \cdot education_i\]

\[male: Wage_i = 0.22 + 0.75 \cdot education_i\]

\[\begin{equation} Wage_i = 0+0.683 \cdot education_i - 4.371 \cdot female_i + 0.173 \cdot education_i \cdot female_i \end{equation}\]

\[female: Wage_i = - 4.371 +(0.683+0.173) \cdot education_i\]
\[male: Wage_i = 0.683 \cdot education_i\]

Son olarak da yalnızca eğim parametresinde kukla kullanırsak

## 
## ======================================================================
##                                      Dependent variable:              
##                        -----------------------------------------------
##                                             wage                      
##                                  (1)                     (2)          
## ----------------------------------------------------------------------
## education                     0.683***                0.811***        
##                                (0.099)                 (0.078)        
##                                                                       
## genderfemale                  -4.370**                                
##                                (2.085)                                
##                                                                       
## education:genderfemale          0.173                 -0.151***       
##                                (0.157)                 (0.030)        
##                                                                       
## Constant                        1.105                  -0.630         
##                                (1.314)                 (1.023)        
##                                                                       
## ----------------------------------------------------------------------
## Observations                     534                     534          
## R2                              0.190                   0.183         
## Adjusted R2                     0.186                   0.180         
## Residual Std. Error       4.638 (df = 530)        4.652 (df = 531)    
## F Statistic            41.495*** (df = 3; 530) 59.664*** (df = 2; 531)
## ======================================================================
## Note:                                      *p<0.1; **p<0.05; ***p<0.01

\[\begin{equation} Wage_i = -0.630+0.811 \cdot education_i - 0.151 \cdot education_i \cdot female_i \end{equation}\]

\[female: Wage_i = - 0.630 +(0.811-0.151) \cdot education_i\]
\[male: Wage_i = -0.630+0.811 \cdot education_i\]

Sıradan En Küçük Kareler, Least Square Estimation

Kayıp Fonksiyonu:

\[L(\theta)=\sum_{}^{}\varepsilon_i^2\]

\[L(\theta)=\sum_{}^{}[y_i-(\hat\theta_0+\hat\theta_1x_1+ \hat\theta_2x_2+ \cdots + \hat\theta_kx_k)]^2\]

olarak yazılabilir. Bu durumda \(\hat \theta\) aşağıdaki gibi minimize edilerek tahmin edilebilir:

\(\operatorname*{arg\,min}_\theta L(\theta)\)

Aynı fonksiyonu matris şeklinde yazarsak (isterseniz \(\theta\) yerine \(\beta\) ile yazalım):

\[L(\beta)=\varepsilon^2=\underbrace{(Y-X\beta)^T}_{\varepsilon^T_{(1xn)}}\underbrace{(Y-X\beta)}_{\varepsilon_{(nx1)}}\]

Matris türevi ile (ipucu: \(\frac{\partial X \beta}{\partial \beta}=X^T \: and \: \frac{\partial \beta^T X \beta}{\partial \beta}=2X^T \beta\)) optimal \(\beta\) vektörü elde edilebilir. Ayrıca matris manipulasyonları da aynı tahmin sonucuna ulaşacaktır.

\[\frac {\partial L(\beta)}{\partial \beta}=\frac {\partial }{\partial \beta}\big[Y^TY+\beta^TX^TX\beta-2Y^TX\beta\big]=0\]

\[\implies \frac {\partial L(\beta)}{\partial \beta}=0+2X^TX\beta-2X^TY=0\]

\[2X^TX\beta=2X^TY \implies \hat\beta=(X^TX)^{-1}X^TY\]

x y fit res
-10.000000 -8.332534 -9.24862046 0.91608680
-7.777778 -6.107651 -4.61852640 -1.48912470
-5.555556 -1.821115 0.01156765 -1.83268244
-3.333333 3.508308 4.64166170 -1.13335352
-1.111111 12.282289 9.27175576 3.01053348
1.111111 13.891142 13.90184981 -0.01070733
##                 [,1]
## (intercep) 11.586803
## x           2.083542
## (Intercept)           x 
##   11.586803    2.083542

Maximum Likelihood Estimation

Olası/olabilir (Likelihood)

\(X\sim N(\mu, \sigma^2)\) olduğunda olasılık yoğunluk (dağılım) fonksiyonu,

\[P(x) = \frac{1}{{\sigma \sqrt {2\pi } }}e^{-(x - \mu)^2/2\sigma ^2 }\]

\(X=\{x_1,x_2,\cdots,x_n\}\) değerlerini gözlemlediğimizi düşünelim. Bu durumda \(\mu,\sigma\) tahminleri likelihood fonksiyonunun maksimizasyonu olarak formüle edilebilir,

\[P(x_1,x_2,...,x_n|parametreler)\]

Gösterim için kolay bir örnek (\(\mu\))

\(x_i \sim N(\mu,1)=\mu+N(0,1)\) olsun,

\(\mu\) parametresini tahmin etmek istiyoruz ve varsayalım ki gözlemlerimiz,

\(x_1=0, \: x_2= 1, \: x_3=0.7, \: x_4=1.5\)

likelihood gözlemlerin bağımsız olduğu varsayımı altında,

\[P(x_1,x_2,x_3,x_4|\mu)=P(x_1|\mu)P(x_2|\mu)P(x_3|\mu)P(x_4|\mu)\]

R programında dnorm(.) fonksiyonu kullanılarak farklı \(\mu\) değerleri için likelihood hesaplanabilir

ipucu:

\(X \sim N(\mu,\sigma^2)\) için yoğunluk fonksiyonu

\(f_x(x)=\frac{1}{{\sigma \sqrt {2\pi } }}e^{-(x - \mu)^2/2\sigma ^2 }\)

Eğer, basit bir örnek üzerinden gösterirsek, standart normal dağılım ise, \(X \sim N\sim(0,1)\)

\[f_x(x)=\frac{1}{\sqrt{2\pi}}e^\frac{-x^2}{2}\]

\(P(x=1|\mu=0, \sigma=1)=dnorm(1) = \frac{1}{\sqrt{2\pi}}e^\frac{-1}{2}=0.242\)

Gözlemlerimize dönersek, Eğer \(\mu=1.5, \sigma=1\) olursa gözlemlerimizin tek tek olasılıkları (likelihood anlamında),

\(P(x=0|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(0-1.5)^2}{2}=0.13\)

\(P(x=1|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(1-1.5)^2}{2}=0.352\)

\(P(x=0.7|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(0.7-1.5)^2}{2}=0.29\)

\(P(x=1.5|\mu=1.5,\sigma=1) = \frac{1}{\sqrt{2\pi}}e^\frac{-(1.5-1.5)^2}{2}=0.399\)

\(\mu=1.5, \sigma=1 \implies P(x_1=0,x_2=1,x_3=0.7,x_4=1.5|\mu=1.5,\sigma=1)=0.0053\)

\(\mu\) değerlerini değiştirirsek, örneğin, \(\mu=1\) olsun,


\(P(x_1=0,x_2=1,x_3=0.7,x_4=1.5|\mu=1,\sigma=1)=0.013\)

hangisi daha yüksek? Öyle bir \(\mu\) değeri bulalım ki likelihood fonksiyonunu maksimize etsin (ipucu, ortalama değeri!).

\(P(x_1,x_2,x_3,x_4|\mu=0.8,\sigma=1)=0.014\)

Lineer Regresyon için likelihood ve Tahminciler, MLE

\(Y\) dağılımı için,

\[y_i \sim N(x_i^T\beta, \sigma^2)=x_i^T\beta+N(0, \sigma^2)\]

\[P(Y|X,\beta,\sigma)=\prod_{1}^{n}P(y_i|x_i,\beta,\sigma)\]

\[P(Y|X,\theta,\sigma)=\prod_{1}^{n}(2 \pi \sigma^2)^{-1/2} e^{-\frac {1}{2\sigma^2}(y_i-x_i^T\beta)^2}\]

\[P(Y|X,\theta,\sigma)=(2 \pi \sigma^2)^{-n/2} e^{-\frac {1}{2\sigma^2}(\sum_{i=n}^{n}y_i-x_i^T\beta)^2}\]

Bir sonraki adım logaritması alınarak (\(P>0\)) devam etmek olur buna Log-Likelihood adı verilir.

\[Log(L(\beta))=l(\beta)=-\frac{n}{2}ln(2 \pi \sigma^2)- \frac{1}{2 \sigma^2}(Y-X\beta)^T(Y-X\beta)\]

Kısmi türevleri, (i) \(\sigma\) biliniyor varsayarak \(\beta\) için (En düşük kareler ile aynı sonuca ulaşır), ve (ii) \(\beta\) biliniyor varsayarak \(sigma\) için (Varyans tahmincisine ulaşılır),

\(E[(y_i-x_i^T\beta)^2]=\frac{1}{n}(Y-X\beta)^T(Y-X\beta)\))

Tekrar regresyon denkleminin olasılık gösterimini hatırlayacak olursak,

\[y_i \sim N(x_i^T\beta, \sigma^2)=x_i^T\beta+N(0, \sigma^2)\]

Serbestlik derecesi \(\beta\), parametre sayısı kadar düşecektir. Yani yansız \(\hat \sigma^2\) bölümde \(n-k, \: k:parametre \: sayısı\) gerektirmektedir. MLE küçük örneklem için yanlı ancak büyük örneklemlerde yansıza yakın sonuç verecektir.

\(x_*\) gözlemlendiğinde, \((X_*,y)\) için olasılık dağılımı,

\[P(y|X_*,\beta,\sigma)=N(y|X_*^T\beta_{ML},\sigma^2)\]

Maksimum Likelihood Tahmincisi

\(\hat \beta \xrightarrow[{}]{p} \beta\)

veya

\(plim(\hat \beta)=\beta\)

veya

\(\lim\limits_{n \to \infty} p(|\hat \beta-\beta|>\alpha) \to 0\)

\(bias(\hat \beta)=E_{p(Data|\beta)}(\hat \beta)-\beta\)

\(V(\hat \beta)=E_{p(Data|\beta)}(\hat \beta -\beta)^2\)

Basit Doğrusal Model: Maksimum Likelihood Tahmincisi

Advertising Data

Kalıntıların (hataların) karelerinin toplamı

\(RSS=\varepsilon_1^2+\varepsilon_2^2+\cdots+\varepsilon_n^2=\sum_{1}^{n}\varepsilon_i^2\)

Doğrusal Model

Basit Doğrusal Model (using R)

# install AER package only once 
# install.packages("AER")
library(AER)
# data set name is Journals
data("Journals")
# number of rows and columns (180x10) 180 obs. with 10 variables
dim(Journals)
[1] 180  10
# name of the columns
colnames(Journals)
 [1] "title"        "publisher"    "society"      "price"        "pages"       
 [6] "charpp"       "citations"    "foundingyear" "subs"         "field"       
# subs and price columns needed, create a new data with only these cols
journals <- Journals[, c("subs", "price")]
# obtain price/citations (here observe $ usage to access the columns of data frame)
# citeprice column added to the data frame
journals$citeprice <- Journals$price/Journals$citations
# start with summary
summary(journals)
      subs            price          citeprice        
 Min.   :   2.0   Min.   :  20.0   Min.   : 0.005223  
 1st Qu.:  52.0   1st Qu.: 134.5   1st Qu.: 0.464495  
 Median : 122.5   Median : 282.0   Median : 1.320513  
 Mean   : 196.9   Mean   : 417.7   Mean   : 2.548455  
 3rd Qu.: 268.2   3rd Qu.: 540.8   3rd Qu.: 3.440171  
 Max.   :1098.0   Max.   :2120.0   Max.   :24.459459  
# may be boxplot (to check the summary of distr.)
boxplot(journals)

Basit Doğrusal Model Örneği: Dergi Fiyat Verisi

Basit Doğrusal Model Örneği: Dergi Fiyat Verisi

Basit Doğrusal Model Örneği: Dergi Fiyat Verisi

\[ln(subs)_i=\beta_0+\beta_1 ln(citeprice)_i + \varepsilon_i\]

[1] "lm"
 [1] "coefficients"  "residuals"     "effects"       "rank"         
 [5] "fitted.values" "assign"        "qr"            "df.residual"  
 [9] "xlevels"       "call"          "terms"         "model"        

Call:
lm(formula = log(subs) ~ log(citeprice), data = journals)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.72478 -0.53609  0.03721  0.46619  1.84808 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)     4.76621    0.05591   85.25   <2e-16 ***
log(citeprice) -0.53305    0.03561  -14.97   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.7497 on 178 degrees of freedom
Multiple R-squared:  0.5573,    Adjusted R-squared:  0.5548 
F-statistic:   224 on 1 and 178 DF,  p-value: < 2.2e-16

\(\sqrt{Var(\varepsilon_i)}=\sqrt{\sigma^2_\varepsilon}=\hat \sigma_\varepsilon\)

RSE veriye modelin nasıl uyfuğunu (lack-of-fit) göstermektedir

R-kare, R-squared

\(R^2\) Bağımsız değişkenlerin doğrusal bileşminin bağımlı değişkenin ne kadarını yüzde olarak açıkladığı ile ilgili ölçümdür.

\(1-\frac{var(residuals)}{var(dependent \:variable)}\)

Burada, var(.): varyansı ifade etmektedir.

\(R^2\)’yi elimizle adım adım hesaplamak istersek (R kullanarak):

Variance(residuals)=var(model$residual)=0.559

Variance(dependent)=var(ln(journal$subs))=1.2625

\(1-\frac{var(residuals)}{var(dependent variable)}= 1-\frac{0.559}{1.2625}= 0.557\)

\(Adjusted \: R^2={R_{adj}^2 = 1 - [\frac{(1-R^2)(n-1)}{n-k-1}]}\)

\(n\) gözlem sayısını ve \(k\) ise bağımsız değişken sayısını göstermektedir. \(R^2\) değerinin her eklenen yeni bağımsız değişken ile artması veya değişmemesi beklenir. Ancak kötüleşmez. Modelin iyileşmesi ile model parametre sayısı arasında ilişki olmalıdır. Eğer her yeni eklenen bağımsız değişken \(R^2\)’yi az da olsa artıracaksa model karmaşıklığı (parsimony) ve model performansı arasında seçim ancak yeni bir ölçüm ile mümkün olabilir. Bu ancak kullanılacak değişkenlerin sayılarının ölçüme ceza olarak girmesi ile, \(R_{adj}^2\), mümkündür. Eğer yeni bağımsız değişken modeli iyileştiriyorsa \(R_{adj}^2\) artar.

\(n=number \: of \: observations=180\)

\(k=number \: of \: dependent \: variables=1\)

\({R_{adj}^2 = 1 - [\frac{(1-0.557)(180-1)}{180-1-1}]}=0.555\)

Grafikler

Tahmin ve Tahmin Aralıkları

Bağımsız değişkenin ifade edeceği tahmin ve güvenlik aralığı (predict the specific outcomes for given independent variables)

\(y = x^T\beta+\varepsilon\)

\(\implies \hat{y} = x^T\hat{\beta}\) since \(E[\varepsilon]=0\)

Tahmin güven aralığı şu şekilde verilebilir:

\(\hat{y}^*\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x^{*T}(X^TX)^{-1}x^* + 1}\)

Bağımsız değişkenin ifade edeceği ortalama tahmin ve güven aralığı (predict the mean response for given independent variables)

Noktasal tahmin değişmez, \(\hat{y} = x^T\hat{\beta}\). Ortalama tahmin ve güven aralığında \(\hat{\beta}\)’nın belirsizliği, \(Var(\hat{\beta})\), göz önüne alınır

Ortalama tahmin ve güven aralığı şu şekilde verilebilir:

\(\hat{y}^*\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x{*^T}(X^TX)^{-1}x^*}\)

burada, \(t_{n-p}^{\alpha/2}\) \(n-p\) serbestlik dereceli t-istatistiğini, \(199(1-\alpha)\) ise güvenlik seviyesini ifade etmektedir

## 
## Call:
## lm(formula = log(subs) ~ log(citeprice), data = journals)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.72478 -0.53609  0.03721  0.46619  1.84808 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     4.76621    0.05591   85.25   <2e-16 ***
## log(citeprice) -0.53305    0.03561  -14.97   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7497 on 178 degrees of freedom
## Multiple R-squared:  0.5573, Adjusted R-squared:  0.5548 
## F-statistic:   224 on 1 and 178 DF,  p-value: < 2.2e-16
## 
## 
## Prediction of Specific Outcome for citeprice=2, level=0.95
##        fit      lwr      upr
## 1 4.180593 2.695128 5.666058
## 
## 
## Prediction of Mean Response for citeprice=2, level=0.95
##        fit      lwr      upr
## 1 4.180593 4.047897 4.313289

Hipotez Test Örneği: Journal Pricing Data


Linear hypothesis test:
log(citeprice) = - 0.5

Model 1: restricted model
Model 2: log(subs) ~ log(citeprice)

  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1    179 100.54                           
2    178 100.06  1   0.48421 0.8614 0.3546

Ağırlıklı En Küçük Kareler, (Weighted Least Squares)

OLS, \(\sum_{i=1}^{n}(y_i-\beta_0-\beta_ix_i)^2\), ağırlıklı olarak, \(\sum_{i=1}^{n}w_i(y_i-\beta_0-\beta_ix_i)^2\) tekrar yazılabilir
Burada \(w_i\) her bir gözlemin ağırlığıdır.

\(E(\varepsilon_i^2|x_i,z_i)=h(z_i^T\gamma)\) ki \(h()\) skedastic fonksiyonudur.

Bazı çok kullanılan spesifikasyonlar:

\(E(\varepsilon_i^2|x_i,z_i)=\sigma^2z_i^2\implies w_i=1/z_i\)

Bu örnek için başlangıç olarak

\[E(\varepsilon^2|x_i,z_i)=\sigma^2z_i^{\gamma_2}\]

\[E(\varepsilon_i^2|x_i,z_i)=\sigma^2 z_i^{\gamma_2}= e^{\gamma_1+\gamma_2 log(x_i)}\] alıp, \(ln(\varepsilon^2)=\gamma_1+\gamma_2ln(x_i)+v_i\), modelini tahmin edebilir sonrasında, ağırlıkları \(w_i=\frac{1}{e^{[\hat \gamma_1+\hat \gamma_2ln(x_i))]}}\) elde edebiliriz

Buradan elde ettiğimiz katsayıları başlangıç olarak alıp, WLS tahmincilerini üretebilir ve sonra tekrar bu hatalar kullanılarak tekrar ağırlıkla bulunabilir. Bu adımları katsayılardaki değişim çok düşük olana kadar sürdürebiliriz.

Çoklu Doğrusal Modeller

[1] 28155     7
[1] "wage"       "education"  "experience" "ethnicity"  "smsa"      
[6] "region"     "parttime"  
      wage            education       experience   ethnicity     smsa      
 Min.   :   50.05   Min.   : 0.00   Min.   :-4.0   cauc:25923   no : 7223  
 1st Qu.:  308.64   1st Qu.:12.00   1st Qu.: 8.0   afam: 2232   yes:20932  
 Median :  522.32   Median :12.00   Median :16.0                           
 Mean   :  603.73   Mean   :13.07   Mean   :18.2                           
 3rd Qu.:  783.48   3rd Qu.:15.00   3rd Qu.:27.0                           
 Max.   :18777.20   Max.   :18.00   Max.   :63.0                           
       region     parttime   
 northeast:6441   no :25631  
 midwest  :6863   yes: 2524  
 south    :8760              
 west     :6091              
                             
                             

Çoklu Doğrusal Modeller

\[ln(wage_i)=\beta_0 + \beta_1 \: experience_i+ \beta_2 \: experience_i^2 + \beta_3 \: education_i + \beta_4 \: ethnicity_i + \varepsilon\]
- I() fonksiyonuna dikkat edelim. Bu öncelikle bu hesabın yapılacağı sonrasında modelin tahmin edileceğini göstermektedir. I(experience^2)=\(experience^2\)


Call:
lm(formula = log(wage) ~ experience + I(experience^2) + education + 
    ethnicity, data = CPS1988)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9428 -0.3162  0.0580  0.3756  4.3830 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      4.321e+00  1.917e-02  225.38   <2e-16 ***
experience       7.747e-02  8.800e-04   88.03   <2e-16 ***
I(experience^2) -1.316e-03  1.899e-05  -69.31   <2e-16 ***
education        8.567e-02  1.272e-03   67.34   <2e-16 ***
ethnicityafam   -2.434e-01  1.292e-02  -18.84   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.5839 on 28150 degrees of freedom
Multiple R-squared:  0.3347,    Adjusted R-squared:  0.3346 
F-statistic:  3541 on 4 and 28150 DF,  p-value: < 2.2e-16

Çoklu Doğrusal Modeller

Dependent variable:
log(wage)
experience 0.077***
(0.001)
I(experience2) -0.001***
(0.00002)
education 0.086***
(0.001)
ethnicityafam -0.243***
(0.013)
Constant 4.321***
(0.019)
Observations 28,155
R2 0.335
Adjusted R2 0.335
Residual Std. Error 0.584 (df = 28150)
F Statistic 3,541.036*** (df = 4; 28150)
Note: p<0.1; p<0.05; p<0.01

Modelleri Nasıl Karşılaştırırız

Analysis of Variance Table

Model 1: log(wage) ~ experience + I(experience^2) + education
Model 2: log(wage) ~ experience + I(experience^2) + education + ethnicity
  Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
1  28151 9719.6                                  
2  28150 9598.6  1    121.02 354.91 < 2.2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Wald test

Model 1: log(wage) ~ experience + I(experience^2) + education + ethnicity
Model 2: log(wage) ~ experience + I(experience^2) + education
  Res.Df Df      F    Pr(>F)    
1  28150                        
2  28151 -1 354.91 < 2.2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Modelleri Nasıl Karşılaştırırız

Gözlem sayısı fazla ise

\(AIC=-2\:ln(Likelihood) + 2\:p, \: n:number \: of \:observations\)

Değilse düzeltilmiş, ikinci derece AIC, second-order AIC, AICc,

\(AICc=-2\:ln(Likelihood) + 2\:p + \frac{2p(p+1)}{n -(p+1)}\) )

Bayesian Bilgi Kriteri

\(BIC=-2\:ln(Likelihood) + ln(n)\:p\)

[1] 49614.68
[1] 49965.43
[1] 49664.15
[1] 50006.66

Kısmi Doğrusal Modeller (Partially Linear Models)

\[ln(wage)=\beta_0 + G(experience) + \beta_2 \: education + \beta_3 \: ethnicity + \varepsilon\]

Kısmi Doğrusal Modeller (Partially Linear Models)


Call:
lm(formula = log(wage) ~ bs(experience, df = 5) + education + 
    ethnicity, data = CPS1988)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9315 -0.3079  0.0565  0.3672  3.9945 

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)              2.775582   0.056081   49.49   <2e-16 ***
bs(experience, df = 5)1  1.891673   0.075814   24.95   <2e-16 ***
bs(experience, df = 5)2  2.259468   0.046474   48.62   <2e-16 ***
bs(experience, df = 5)3  2.824582   0.070773   39.91   <2e-16 ***
bs(experience, df = 5)4  2.373082   0.065205   36.39   <2e-16 ***
bs(experience, df = 5)5  1.739341   0.119691   14.53   <2e-16 ***
education                0.088181   0.001258   70.07   <2e-16 ***
ethnicityafam           -0.248202   0.012725  -19.50   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.5747 on 28147 degrees of freedom
Multiple R-squared:  0.3557,    Adjusted R-squared:  0.3555 
F-statistic:  2220 on 7 and 28147 DF,  p-value: < 2.2e-16

Kısmi Doğrusal Modeller (Partially Linear Models)

Regr. Without Ethn. With Splines
AIC 49614.6785 49965.4297 48720.0162
Education 0.0857 0.0874 0.0882