Linia de Regresie prin Metoda Celor Mai Mici Pătrate: Formulă, Calcul & Exemple

By Leonard Cucosro
Statistics

Linia de regresie prin metoda celor mai mici pătrate este o metodă statistică care găsește cea mai bună dreaptă de ajustare (best-fitting straight line) printr-un set de puncte de date, minimizând suma distanțelor verticale ridicate la pătrat (reziduurile) între valorile observate și valorile prezise. Această dreaptă, reprezentată prin ecuația y = a + bx, oferă cea mai precisă predicție liniară a variabilei dependente bazată pe variabila independentă, utilizând metoda OLS (Ordinary Least Squares) pentru a determina parametrii optimi ai modelului de regresie liniară.

Acest ghid explică ce este metoda celor mai mici pătrate, cum să calculezi ecuația liniei de regresie, exemple de calcul pas cu pas și cum să interpretezi rezultatele pentru analiză statistică și predicție.

Ce Este Linia de Regresie prin Metoda Celor Mai Mici Pătrate?

Linia de regresie prin metoda celor mai mici pătrate (numită și linia de cea mai bună ajustare sau linia de regresie OLS - Ordinary Least Squares) este o dreaptă care reprezintă cel mai bine relația dintre două variabile, minimizând erorile de predicție. Această metodă este fundamentală pentru analiza de regresie liniară și modelarea predictivă.

Principiul Fundamental

Metoda funcționează prin găsirea dreptei care face suma reziduurilor ridicate la pătrat cât mai mică posibil. Un reziduu este distanța verticală dintre un punct de date observat și valoarea prezisă pe linia de regresie.

De ce ridicăm reziduurile la pătrat?

  • Abaterile pozitive și negative nu se anulează reciproc
  • Erorile mai mari sunt penalizate mai puternic decât erorile mai mici
  • Ridicarea la pătrat produce o funcție netedă și diferențiabilă pentru optimizarea matematică
  • Soluția oferă valori unice și neambigue pentru pantă și intersecție

Ecuația Liniei de Regresie

Linia de regresie prin metoda celor mai mici pătrate urmează forma:

y=a+bxy = a + bx

Unde:

  • yy = valoarea prezisă a variabilei dependente
  • xx = valoarea variabilei independente
  • aa = intersecția cu axa y (valoarea lui yy când x=0x = 0)
  • bb = panta (schimbarea lui yy pentru fiecare unitate de schimbare a lui xx)

Scopul este să găsim valorile lui aa și bb care minimizează suma reziduurilor ridicate la pătrat.

Cum Funcționează Metoda Celor Mai Mici Pătrate

Metoda celor mai mici pătrate folosește calculul diferențial pentru a găsi valorile optime ale pantei și intersecției care minimizează erorile de predicție.

Funcția Obiectiv

Vrem să minimizăm suma reziduurilor ridicate la pătrat (SSR):

SSR=i=1n(yiy^i)2=i=1n(yi(a+bxi))2SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (a + bx_i))^2

Unde:

  • yiy_i = valoarea observată pentru punctul de date ii
  • y^i\hat{y}_i = valoarea prezisă pentru punctul de date ii
  • nn = numărul de puncte de date
  • (yiy^i)(y_i - \hat{y}_i) = reziduul pentru punctul de date ii

Minimizare prin Calcul Diferențial

Pentru a găsi minimul, calculăm derivatele parțiale ale SSR în raport cu aa și bb, le egalăm cu zero și rezolvăm sistemul de ecuații rezultat (numite ecuațiile normale).

Acest proces matematic produce două formule pentru calcularea pantei și intersecției optime.

Formule pentru Pantă și Intersecție

Calcularea Pantei (b)

b=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}

Formulă alternativă de calcul:

b=nxiyixiyinxi2(xi)2b = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2}

Unde:

  • xˉ\bar{x} = media valorilor xx
  • yˉ\bar{y} = media valorilor yy
  • nn = numărul de puncte de date

Calcularea Intersecției (a)

a=yˉbxˉa = \bar{y} - b\bar{x}

Important: Calculează întotdeauna panta mai întâi, apoi folosește-o pentru a calcula intersecția. Formula intersecției depinde de valoarea pantei.

Exemplu de Calcul Pas cu Pas

Să calculăm linia de regresie prin metoda celor mai mici pătrate pentru un set de date care examinează relația dintre orele de studiu și scorurile la examen.

Datele

StudentOre Studiate (x)Scor Examen (y)
1265
2370
3475
4582
5688
6790

Întrebarea de cercetare: Putem prezice scorurile la examen bazându-ne pe orele de studiu?

Pasul 1: Calculează Mediile

Mai întâi, calculează media (average) pentru valorile x și y:

xˉ=2+3+4+5+6+76=276=4.5\bar{x} = \frac{2 + 3 + 4 + 5 + 6 + 7}{6} = \frac{27}{6} = 4.5

yˉ=65+70+75+82+88+906=4706=78.33\bar{y} = \frac{65 + 70 + 75 + 82 + 88 + 90}{6} = \frac{470}{6} = 78.33

Pasul 2: Creează un Tabel de Calcul

xix_iyiy_ixixˉx_i - \bar{'{x}'}yiyˉy_i - \bar{'{y}'}(xixˉ)(yiyˉ)(x_i - \bar{'{x}'})(y_i - \bar{'{y}'})(xixˉ)2(x_i - \bar{'{x}'})^2
265-2.5-13.3333.336.25
370-1.5-8.3312.502.25
475-0.5-3.331.670.25
5820.53.671.830.25
6881.59.6714.502.25
7902.511.6729.176.25
Suma93.0017.50

Pasul 3: Calculează Panta

b=(xixˉ)(yiyˉ)(xixˉ)2=93.0017.50=5.31b = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = \frac{93.00}{17.50} = 5.31

Interpretare: Pentru fiecare oră suplimentară de studiu, scorul la examen crește cu aproximativ 5.31 puncte.

Pasul 4: Calculează Intersecția

a=yˉbxˉ=78.33(5.31×4.5)=78.3323.90=54.43a = \bar{y} - b\bar{x} = 78.33 - (5.31 \times 4.5) = 78.33 - 23.90 = 54.43

Interpretare: Un student care studiază 0 ore ar fi prezis să obțină 54.43 puncte (deși această extrapolație poate să nu fie semnificativă în practică).

Pasul 5: Scrie Ecuația de Regresie

y^=54.43+5.31x\hat{y} = 54.43 + 5.31x

Această ecuație ne permite să prezice scorurile la examen pentru orice număr de ore studiate.

Pasul 6: Fă Predicții

Exemplu de predicție: Câte puncte s-ar aștepta să obțină un student care studiază 4.5 ore?

y^=54.43+5.31(4.5)=54.43+23.90=78.33\hat{y} = 54.43 + 5.31(4.5) = 54.43 + 23.90 = 78.33

Studentul ar fi prezis să obțină aproximativ 78.33 puncte.

Măsurarea Acurateței Modelului

După calcularea liniei de regresie, evaluează cât de bine se potrivește datelor folosind aceste metrici cheie:

Suma Reziduurilor Ridicate la Pătrat (RSS)

RSS măsoară eroarea totală de predicție:

RSS=i=1n(yiy^i)2RSS = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2

RSS mai mic indică o potrivire mai bună. Totuși, RSS singur nu indică dacă potrivirea este bună sau rea, deoarece depinde de scala datelor.

Coeficientul de Determinare (R²)

R² indică proporția varianței în yy explicată de xx:

R2=1RSSTSSR^2 = 1 - \frac{RSS}{TSS}

Unde TSS (Suma Totală a Pătratelor) = (yiyˉ)2\sum(y_i - \bar{y})^2

Interpretare:

  • R2=1R^2 = 1: Potrivire perfectă (toate punctele pe dreaptă)
  • R2=0R^2 = 0: Dreapta nu explică nimic din varianță
  • R2=0.75R^2 = 0.75: Modelul explică 75% din varianța în yy

Intervale tipice:

  • Științe sociale: R2>0.3R^2 > 0.3 adesea considerat acceptabil
  • Științe exacte: R2>0.9R^2 > 0.9 adesea așteptat
  • Contextul contează: Judecă pe baza domeniului tău și obiectivelor de cercetare

Eroarea Standard a Estimării

Eroarea standard măsoară distanța medie a punctelor de date față de linia de regresie:

SE=RSSn2SE = \sqrt{\frac{RSS}{n-2}}

Interpretare: Valori mai mici indică predicții mai apropiate de observațiile reale. Numitorul n2n-2 ține cont de estimarea a doi parametri (pantă și intersecție).

Asumpțiile Regresiei prin Metoda Celor Mai Mici Pătrate

Metoda celor mai mici pătrate presupune că anumite condiții sunt îndeplinite pentru ca rezultatele să fie valide și fiabile:

1. Liniaritate

Relația dintre xx și yy trebuie să fie liniară. Relațiile non-liniare necesită transformare sau abordări de modelare diferite.

Verificare: Creează un grafic de dispersie (scatterplot). Punctele ar trebui să se grupeze în jurul unui tipar de dreaptă.

2. Independență

Observațiile trebuie să fie independente una de cealaltă. O observație nu ar trebui să influențeze alta.

Exemplu de violare: Date din serii temporale unde măsurătorile consecutive sunt corelate.

3. Homoscedasticitate

Varianța reziduurilor ar trebui să fie constantă pe toate nivelurile lui xx (răspândire egală).

Verificare: Desenează reziduurile față de valorile prezise. Răspândirea ar trebui să fie aproximativ constantă, nu în formă de pâlnie.

4. Normalitatea Reziduurilor

Pentru testarea ipotezelor și intervalele de încredere, reziduurile ar trebui să urmeze o distribuție normală.

Verificare: Creează un histogram sau un grafic Q-Q al reziduurilor. Acestea ar trebui să aproximeze o distribuție normală.

5. Absența Valorilor Extreme sau a Punctelor Influente

Valorile extreme pot afecta disproporționat linia de regresie.

Verificare: Examinează distanța Cook sau statisticile de leverage pentru a identifica observațiile influente.

Când Să Folosești Regresia prin Metoda Celor Mai Mici Pătrate

Regresia prin metoda celor mai mici pătrate este adecvată când:

Scenarii de Cercetare

Predicție: Vrei să prezici valori ale unei variabile dependente bazate pe o variabilă independentă

  • Prezicerea vânzărilor bazate pe cheltuielile de publicitate
  • Estimarea scorurilor la teste bazate pe orele de studiu
  • Prognozarea producției de culturi bazată pe precipitații

Înțelegerea relațiilor: Vrei să cuantifici relația dintre două variabile

  • Cum afectează temperatura consumul de energie?
  • Care este relația dintre vârstă și venit?
  • Cum afectează cantitatea de îngrășământ creșterea plantelor?

Compararea modelelor: Vrei să compari modele diferite sau să testezi ipoteze despre relații

  • Este relația semnificativă?
  • Diferă panta de zero?
  • Care variabilă predictivă este mai puternică?

Caracteristicile Datelor

Folosește regresia prin metoda celor mai mici pătrate când:

  • Ai date numerice continue pentru ambele variabile
  • Relația pare aproximativ liniară
  • Dimensiunea eșantionului este adecvată (în general n > 30 pentru rezultate fiabile)
  • Asumpțiile sunt îndeplinite în mod rezonabil (verifică diagnosticele)
  • Vrei un model interpretabil și transparent

Avantaje

  • Simplă și interpretabilă: Ușor de înțeles și explicat
  • Eficientă computațional: Calcule rapide chiar și cu seturi mari de date
  • Bine stabilită: Teorie statistică extinsă și instrumente de diagnostic
  • Model de referință: Oferă un punct de referință pentru compararea modelelor mai complexe
  • Soluție analitică: Formule exacte (nu sunt necesare algoritmi iterativi)

Limitări și Alternative

Limitările Metodei Celor Mai Mici Pătrate

1. Sensibilă la valorile extreme: Valorile extreme influențează disproporționat dreapta deoarece erorile sunt ridicate la pătrat

2. Presupune liniaritate: Nu poate captura relații non-liniare fără transformare

3. Necesită asumpții: Violările homoscedasticității sau normalității reduc validitatea

4. Măsoară doar asocierea liniară: R² ridicat nu implică cauzalitate

5. Riscuri de extrapolare: Predicțiile în afara intervalului de date pot fi nesigure

Metode Alternative

Regresie robustă: Mai puțin sensibilă la valori extreme (de exemplu, M-estimatori, deviații absolute minime)

Regresie polinomială: Potrivește relații curbe folosind polinoame de grad superior

Regresie non-liniară: Modelează forme funcționale explicit non-liniare

Regresie Ridge/Lasso: Gestionează multicolinearitatea și efectuează selecția variabilelor

Modele liniare generalizate: Se extinde la variabile de răspuns non-normale (regresie logistică, Poisson)

Greșeli Comune și Cum Să Le Eviți

Greșeala 1: Confundarea Corelației cu Cauzalitatea

Problemă: O relație puternică de regresie nu dovedește că xx cauzează yy. Corelația ar putea fi datorată variabilelor confuzive sau cauzalității inverse.

Exemplu: Vânzările de înghețată și decesele prin înec au o relație pozitivă puternică, dar înghețata nu cauzează înecul. Ambele cresc vara (variabilă confuzivă: temperatura).

Soluție: Folosește regresia pentru predicție și descriere, nu pentru inferență cauzală fără dovezi suplimentare (experimente, teorie, ordonare temporală).

Greșeala 2: Extrapolarea Dincolo de Intervalul de Date

Problemă: Folosirea ecuației de regresie pentru a prezice yy pentru valori xx mult în afara intervalului observat.

Exemplu: Dacă datele tale includ ore studiate de la 1-7, prezicerea scorului pentru cineva care a studiat 20 de ore este nesigură.

Soluție: Fă predicții doar în intervalul valorilor xx observate. Dacă extrapolarea este necesară, recunoaște incertitudinea crescută.

Greșeala 3: Ignorarea Violărilor Asumpțiilor

Problemă: Continuarea cu metoda celor mai mici pătrate în ciuda violărilor clare ale liniarității, homoscedasticității sau normalității.

Soluție: Verifică întotdeauna graficele de diagnostic:

  • Grafic de dispersie (liniaritate)
  • Grafic rezidual (homoscedasticitate)
  • Grafic Q-Q (normalitate)
  • Folosește transformări sau metode alternative dacă asumpțiile sunt violate

Greșeala 4: Raportarea Doar a R² Fără Context

Problemă: Prezentarea R² ca singură măsură a calității modelului fără a lua în considerare tiparele reziduale, semnificația practică sau plauzibilitatea teoretică.

Soluție: Raportează statistici multiple de potrivire (R², eroare standard, grafice reziduale) și interpretează rezultatele în contextul întrebării tale de cercetare.

Greșeala 5: Inversarea Variabilelor Independente și Dependente

Problemă: Schimbarea care variabilă este xx și care este yy produce linii de regresie diferite.

Exemplu: Regresia greutății pe înălțime dă o ecuație diferită de regresia înălțimii pe greutate.

Soluție: Identifică clar care variabilă prezici (variabilă dependentă = yy) pe baza întrebării tale de cercetare și cadrul teoretic.

Calcularea Regresiei prin Metoda Celor Mai Mici Pătrate în Software

Excel

  1. Introdu valorile xx în coloana A, valorile yy în coloana B
  2. Folosește =SLOPE(B:B, A:A) pentru a calcula panta
  3. Folosește =INTERCEPT(B:B, A:A) pentru a calcula intersecția
  4. Sau folosește Data Analysis Toolpak → Regression pentru rezultate complete

R

Pentru un ghid complet despre regresia liniară în R, folosește următorul cod:

# Creează datele
x <- c(2, 3, 4, 5, 6, 7)
y <- c(65, 70, 75, 82, 88, 90)
 
# Potrivește modelul de regresie
model <- lm(y ~ x)
 
# Vizualizează rezultatele
summary(model)
 
# Obține coeficienții
coef(model)  # Intersecție și pantă

Python

import numpy as np
from scipy import stats
 
# Creează datele
x = np.array([2, 3, 4, 5, 6, 7])
y = np.array([65, 70, 75, 82, 88, 90])
 
# Calculează regresia
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
 
print(f"Pantă: {slope}")
print(f"Intersecție: {intercept}")
print(f"R-squared: {r_value**2}")

SPSS

  1. Analyze → Regression → Linear
  2. Mută variabila dependentă în caseta "Dependent"
  3. Mută variabila independentă în caseta "Independent(s)"
  4. Click "Statistics" pentru R², reziduuri și teste de diagnostic
  5. Click "Plots" pentru diagnostice reziduale
  6. Click OK

Exemplu de Aplicație din Lumea Reală

Scenariu: Prezicerea Prețurilor Locuințelor

Un analist imobiliar vrea să prezică prețurile caselor bazate pe suprafața în metri pătrați folosind date din 50 de vânzări recente.

Date: Suprafața variază de la 800 la 3,200 mp, prețurile de la 150,000la150,000 la 450,000

Pașii analizei:

  1. Creează graficul de dispersie: Confirmă relația liniară pozitivă
  2. Calculează regresia:
    • Pantă: b=125b = 125 (fiecare mp suplimentar adaugă $125 la preț)
    • Intersecție: a=50,000a = 50,000
    • Ecuație: Preț = 50,000+50,000 + 125 × (Metri pătrați)
  3. Verifică asumpțiile:
    • Liniaritate: ✓ (graficul de dispersie liniar)
    • Homoscedasticitate: ✓ (graficul rezidual arată răspândire constantă)
    • Normalitate: ✓ (graficul Q-Q aproximativ liniar)
  4. Evaluează potrivirea: R² = 0.82 (82% din variația prețului explicată de suprafață)
  5. Fă predicții:
    • Casă de 1,500 mp: 50,000+50,000 + 125(1,500) = $237,500
    • Casă de 2,000 mp: 50,000+50,000 + 125(2,000) = $300,000

Valoare pentru business: Modelul oferă estimări de preț fiabile pentru proprietăți în intervalul de dimensiuni observat, ajutând la stabilirea prețurilor de listare și identificarea proprietăților subevaluate.

Linia de regresie prin metoda celor mai mici pătrate este o metodă statistică care găsește cea mai bună dreaptă de ajustare printr-un set de puncte de date, minimizând suma distanțelor verticale ridicate la pătrat (reziduurile) între valorile observate și valorile prezise. Dreapta urmează ecuația y = a + bx, unde a este intersecția cu axa y și b este panta. Această metodă oferă cea mai precisă predicție liniară a variabilei dependente bazată pe variabila independentă, făcând erorile totale ridicate la pătrat cât mai mici posibil.
Pentru a calcula linia de regresie prin metoda celor mai mici pătrate: (1) Calculează mediile valorilor x și y, (2) Calculează panta folosind b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)², (3) Calculează intersecția folosind a = ȳ - b·x̄, și (4) Scrie ecuația ca ŷ = a + bx. Calculează întotdeauna panta mai întâi, apoi folosește-o pentru a găsi intersecția. Ecuația rezultată minimizează suma reziduurilor ridicate la pătrat și oferă linia de cea mai bună ajustare prin punctele tale de date.
Linia de regresie prin metoda celor mai mici pătrate minimizează suma reziduurilor ridicate la pătrat (SSR), care este suma distanțelor verticale ridicate la pătrat între valorile y observate și valorile y prezise pe linia de regresie. Metoda ridică la pătrat aceste distanțe pentru a se asigura că abaterile pozitive și negative nu se anulează reciproc și pentru a penaliza erorile mai mari mai puternic decât erorile mai mici. Această minimizare produce valori unice și optime pentru pantă și intersecție care dau linia de cea mai bună ajustare prin punctele de date.
Linia de regresie prin metoda celor mai mici pătrate urmează formula: ŷ = a + bx, unde ŷ este valoarea y prezisă, x este variabila independentă, a este intersecția cu axa y, iar b este panta. Panta se calculează ca b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)², iar intersecția este a = ȳ - b·x̄, unde x̄ și ȳ sunt mediile lui x și y respectiv. Aceste formule sunt derivate folosind calculul diferențial pentru a găsi valorile care minimizează suma reziduurilor ridicate la pătrat.
Regresia prin metoda celor mai mici pătrate presupune: (1) Liniaritate - relația dintre x și y este liniară, (2) Independență - observațiile sunt independente una de cealaltă, (3) Homoscedasticitate - varianța reziduurilor este constantă pe toate valorile x, (4) Normalitate - reziduurile urmează o distribuție normală pentru testarea ipotezelor, și (5) Absența valorilor extreme sau a punctelor influente care afectează disproporționat dreapta. Violările acestor asumpții pot reduce validitatea și fiabilitatea rezultatelor regresiei și ar trebui verificate folosind grafice de diagnostic.
Panta (b) reprezintă schimbarea medie în variabila dependentă (y) pentru fiecare creștere cu o unitate în variabila independentă (x). De exemplu, dacă panta este 5.31 într-o regresie a scorurilor la examen pe orele de studiu, aceasta înseamnă că pentru fiecare oră suplimentară de studiu, scorul la examen este prezis să crească cu 5.31 puncte în medie. O pantă pozitivă indică o relație pozitivă (y crește pe măsură ce x crește), în timp ce o pantă negativă indică o relație inversă (y scade pe măsură ce x crește).
R-squared (R²) este coeficientul de determinare care măsoară proporția varianței în variabila dependentă explicată de variabila independentă. Variază de la 0 la 1, unde 0 înseamnă că linia de regresie nu explică nimic din varianță și 1 înseamnă potrivire perfectă cu toate punctele pe dreaptă. De exemplu, R² = 0.75 înseamnă că 75% din variația în y este explicată de x. Ce este considerat un R² bun depinde de domeniul tău: științele sociale adesea acceptă R² peste 0.3, în timp ce științele exacte pot aștepta peste 0.9.
Folosește regresia prin metoda celor mai mici pătrate când: (1) vrei să prezici valori ale unei variabile dependente bazate pe o variabilă independentă, (2) ai date numerice continue pentru ambele variabile, (3) relația pare aproximativ liniară într-un grafic de dispersie, (4) dimensiunea eșantionului tău este adecvată (în general n mai mare de 30), (5) asumpțiile de liniaritate, independență și homoscedasticitate sunt îndeplinite în mod rezonabil, și (6) vrei un model simplu și interpretabil. Este ideală pentru predicție, înțelegerea relațiilor și stabilirea modelelor de referință înainte de a încerca abordări mai complexe.

Concluzie

Linia de regresie prin metoda celor mai mici pătrate oferă o metodă puternică pentru înțelegerea și prezicerea relațiilor liniare dintre variabile. Prin minimizarea sumei reziduurilor ridicate la pătrat, această tehnică găsește panta și intersecția optime care reprezintă cel mai bine tiparele din date.

Formulele cheie pentru calcularea liniei de regresie sunt simple: mai întâi calculează panta folosind covarianța și varianța variabilelor tale, apoi determină intersecția folosind mediile. Odată ce ai acești parametri, poți scrie ecuația de regresie și face predicții pentru valori noi în intervalul datelor tale.

Amintește-ți să verifici întotdeauna asumpțiile (liniaritate, independență, homoscedasticitate, normalitate) folosind grafice de diagnostic și statistici de potrivire precum R² și eroarea standard. Deși regresia prin metoda celor mai mici pătrate este simplă și interpretabilă, are limitări, inclusiv sensibilitatea la valori extreme și cerința ca relațiile să fie liniare. Când asumpțiile sunt violate, ia în considerare metode robuste de regresie sau transformări.

Fie că prezici scoruri la examene din orele de studiu, estimezi prețurile caselor din suprafața în metri pătrați sau analizezi orice altă relație liniară, metoda celor mai mici pătrate rămâne un instrument statistic fundamental care echilibrează simplitatea cu eficacitatea.

Referințe

  • Chatterjee, S., & Hadi, A. S. (2015). Regression Analysis by Example (5th ed.). Wiley.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis (6th ed.). Wiley.
  • Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models (5th ed.). McGraw-Hill.
  • Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.