Least Squares Regression Line คืออะไร? สูตร วิธีคำนวณ และตัวอย่างการใช้งาน [Line of Best Fit]

By Leonard Cucosth
สถิติStatisticsวิธีวิจัย

Least Squares Regression Line เป็นวิธีการทางสถิติที่ใช้หาเส้นตรงที่เหมาะสมที่สุด (Best-Fitting Straight Line) ผ่านกลุ่มจุดข้อมูลโดยการลดผลรวมของระยะห่างแนวตั้งที่ยกกำลังสอง (Sum of Squared Residuals) ระหว่างค่าที่สังเกตได้กับค่าที่ทำนายให้น้อยที่สุด เส้นตรงนี้แสดงด้วยสมการ y = a + bx และให้การทำนายเชิงเส้น (Linear Prediction) ของตัวแปรตามที่แม่นยำที่สุดจากตัวแปรอิสระ

คู่มือนี้อธิบาย Least Squares Method คืออะไร วิธีคำนวณสมการ Regression Line ตัวอย่างการคำนวณทีละขั้นตอน และวิธีการแปลผลสำหรับการวิเคราะห์ทางสถิติและการทำนาย

Least Squares Regression Line คืออะไร?

Least Squares Regression Line (หรือที่เรียกว่า Line of Best Fit หรือ Ordinary Least Squares Regression Line) คือเส้นตรงที่แทนความสัมพันธ์ระหว่างตัวแปรสองตัวได้ดีที่สุดโดยการลดความคาดเคลื่อนในการทำนายให้น้อยที่สุด วิธีการนี้เป็นพื้นฐานสำคัญของ Linear Regression Analysis และ Predictive Modeling

หลักการพื้นฐาน

วิธีการนี้ทำงานโดยการหาเส้นตรงที่ทำให้ผลรวมของ Squared Residuals น้อยที่สุด Residual คือระยะห่างแนวตั้งระหว่างจุดข้อมูลที่สังเกตได้กับค่าที่ทำนายบน Regression Line

ทำไมต้องยกกำลังสอง Residuals?

  • ค่าเบี่ยงเบนบวกและลบจะไม่หักล้างกัน
  • ความคาดเคลื่อนที่ใหญ่จะถูกลงโทษหนักกว่าความคาดเคลื่อนที่เล็ก
  • การยกกำลังสองสร้างฟังก์ชันที่ราบรื่นและหาอนุพันธ์ได้สำหรับการหาค่าที่เหมาะสมที่สุดทางคณิตศาสตร์
  • วิธีการนี้ให้ค่าที่ไม่ซ้ำซ้อนและชัดเจนสำหรับ Slope และ Intercept

สมการ Regression Line

Least Squares Regression Line มีรูปแบบดังนี้:

y=a+bxy = a + bx

โดยที่:

  • y = ค่าที่ทำนายของตัวแปรตาม (Predicted Value of Dependent Variable)
  • x = ค่าของตัวแปรอิสระ (Value of Independent Variable)
  • a = y-intercept (ค่า y เมื่อ x = 0)
  • b = slope (การเปลี่ยนแปลงของ y เมื่อ x เปลี่ยนแปลงหนึ่งหน่วย)

เป้าหมายคือการหาค่า a และ b ที่ทำให้ผลรวมของ Squared Residuals น้อยที่สุด

Least Squares Method ทำงานอย่างไร

Least Squares Method ใช้แคลคูลัสเพื่อหาค่าที่เหมาะสมที่สุดของ Slope และ Intercept ที่ลดความคาดเคลื่อนในการทำนายให้น้อยที่สุด

Objective Function

เราต้องการลดผลรวมของ Squared Residuals (SSR) ให้น้อยที่สุด:

SSR=i=1n(yiy^i)2=i=1n(yi(a+bxi))2SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (a + bx_i))^2

โดยที่:

  • y_i = ค่าที่สังเกตได้สำหรับจุดข้อมูลที่ i (Observed Value)
  • ŷ_i = ค่าที่ทำนายสำหรับจุดข้อมูลที่ i (Predicted Value)
  • n = จำนวนจุดข้อมูล (Number of Data Points)
  • (y_i - ŷ_i) = Residual สำหรับจุดข้อมูลที่ i

การหาค่าต่ำสุดด้วยแคลคูลัส

เพื่อหาค่าต่ำสุด เราหา Partial Derivatives ของ SSR เทียบกับ a และ b ทั้งสอง ตั้งให้เท่ากับศูนย์ และแก้ระบบสมการที่ได้ (เรียกว่า Normal Equations)

กระบวนการทางคณิตศาสตร์นี้ให้สูตรสองสูตรสำหรับการคำนวณ Slope และ Intercept ที่เหมาะสมที่สุด

สูตรการคำนวณ Slope และ Intercept

การคำนวณ Slope (b)

b=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}

สูตรทางเลือกสำหรับการคำนวณ:

b=nxiyixiyinxi2(xi)2b = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2}

โดยที่:

  • x̄ = ค่าเฉลี่ยของ x (Mean of x Values)
  • ȳ = ค่าเฉลี่ยของ y (Mean of y Values)
  • n = จำนวนจุดข้อมูล (Number of Data Points)

การคำนวณ Intercept (a)

a=yˉbxˉa = \bar{y} - b\bar{x}

สำคัญ: ให้คำนวณ Slope ก่อนเสมอ จากนั้นใช้ค่าดังกล่าวในการคำนวณ Intercept สูตร Intercept ต้องการค่า Slope

ตัวอย่างการคำนวณทีละขั้นตอน

มาคำนวณ Least Squares Regression Line สำหรับชุดข้อมูลที่ศึกษาความสัมพันธ์ระหว่างชั่วโมงที่ศึกษากับคะแนนสอบ

ชุดข้อมูล

นักเรียนชั่วโมงที่ศึกษา (x)คะแนนสอบ (y)
1265
2370
3475
4582
5688
6790

คำถามการวิจัย: เราสามารถทำนายคะแนนสอบจากชั่วโมงที่ศึกษาได้หรือไม่?

ขั้นตอนที่ 1: คำนวณค่าเฉลี่ย

xˉ=2+3+4+5+6+76=276=4.5\bar{x} = \frac{2 + 3 + 4 + 5 + 6 + 7}{6} = \frac{27}{6} = 4.5 yˉ=65+70+75+82+88+906=4706=78.33\bar{y} = \frac{65 + 70 + 75 + 82 + 88 + 90}{6} = \frac{470}{6} = 78.33

ขั้นตอนที่ 2: สร้างตารางการคำนวณ

x_iy_ix_i - x̄y_i - ȳ(x_i - x̄)(y_i - ȳ)(x_i - x̄)²
265-2.5-13.3333.336.25
370-1.5-8.3312.502.25
475-0.5-3.331.670.25
5820.53.671.830.25
6881.59.6714.502.25
7902.511.6729.176.25
ผลรวม93.0017.50

ขั้นตอนที่ 3: คำนวณ Slope

b=(xixˉ)(yiyˉ)(xixˉ)2=93.0017.50=5.31b = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = \frac{93.00}{17.50} = 5.31

การแปลผล: สำหรับทุกชั่วโมงเพิ่มเติมที่ศึกษา คะแนนสอบจะเพิ่มขึ้นประมาณ 5.31 คะแนน

ขั้นตอนที่ 4: คำนวณ Intercept

a=yˉbxˉ=78.33(5.31×4.5)=78.3323.90=54.43a = \bar{y} - b\bar{x} = 78.33 - (5.31 \times 4.5) = 78.33 - 23.90 = 54.43

การแปลผล: นักเรียนที่ศึกษา 0 ชั่วโมงจะได้คะแนนทำนายที่ 54.43 คะแนน (แม้ว่าการอนุมานนี้อาจไม่มีความหมายในทางปฏิบัติ)

ขั้นตอนที่ 5: เขียนสมการ Regression

y^=54.43+5.31x\hat{y} = 54.43 + 5.31x

สมการนี้ช่วยให้เราทำนายคะแนนสอบสำหรับจำนวนชั่วโมงที่ศึกษาใดๆ ได้

ขั้นตอนที่ 6: ทำการทำนาย

ตัวอย่างการทำนาย: นักเรียนที่ศึกษา 4.5 ชั่วโมงจะได้คะแนนเท่าไร?

y^=54.43+5.31(4.5)=54.43+23.90=78.33\hat{y} = 54.43 + 5.31(4.5) = 54.43 + 23.90 = 78.33

นักเรียนจะได้คะแนนทำนายประมาณ 78.33 คะแนน

การวัดความแม่นยำของ Model

หลังจากคำนวณ Regression Line แล้ว ให้ประเมินว่าเส้นนี้เหมาะสมกับข้อมูลได้ดีเพียงใดโดยใช้ตัวชี้วัดสำคัญเหล่านี้:

Residual Sum of Squares (RSS)

RSS วัดความคาดเคลื่อนทั้งหมดในการทำนาย:

RSS=i=1n(yiy^i)2RSS = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2

ค่า RSS ที่ต่ำกว่าแสดงว่าเหมาะสมกว่า อย่างไรก็ตาม RSS เพียงอย่างเดียวไม่บอกว่าความเหมาะสมดีหรือไม่ดี เพราะขึ้นอยู่กับขนาดของข้อมูล

Coefficient of Determination (R²)

R² บอกสัดส่วนของความแปรปรวนใน y ที่อธิบายได้โดย x:

R2=1RSSTSSR^2 = 1 - \frac{RSS}{TSS}

โดยที่ TSS (Total Sum of Squares) = Σ(y_i - ȳ)²

การแปลผล:

  • R² = 1: เหมาะสมสมบูรณ์แบบ (จุดทั้งหมดอยู่บนเส้น)
  • R² = 0: เส้นไม่อธิบายความแปรปรวนเลย
  • R² = 0.75: Model อธิบายความแปรปรวนใน y ได้ 75%

ช่วงค่าทั่วไป:

  • สาขาสังคมศาสตร์: R² > 0.3 มักถือว่ายอมรับได้
  • สาขาวิทยาศาสตร์กายภาพ: R² > 0.9 มักถูกคาดหวัง
  • บริบทมีความสำคัญ: พิจารณาตามสาขาและเป้าหมายการวิจัยของคุณ

Standard Error of the Estimate

Standard Error วัดระยะห่างเฉลี่ยของจุดข้อมูลจาก Regression Line:

SE=RSSn2SE = \sqrt{\frac{RSS}{n-2}}

การแปลผล: ค่าที่เล็กกว่าแสดงว่าการทำนายใกล้เคียงกับค่าที่สังเกตได้มากกว่า ตัวส่วน n-2 คำนึงถึงการประมาณ Parameter สองตัว (Slope และ Intercept)

ข้อสมมติฐานของ Least Squares Regression

Least Squares Method สมมติว่าเงื่อนไขบางประการได้รับการปฏิบัติเพื่อให้ผลลัพธ์ถูกต้องและเชื่อถือได้:

1. Linearity (ความเป็นเส้นตรง)

ความสัมพันธ์ระหว่าง x และ y ต้องเป็นเส้นตรง ความสัมพันธ์ที่ไม่เป็นเส้นตรงต้องการการแปลงหรือวิธีการจำลองแบบที่แตกต่างกัน

การตรวจสอบ: สร้าง Scatterplot จุดควรรวมกลุ่มรอบรูปแบบเส้นตรง

2. Independence (ความเป็นอิสระ)

การสังเกตต้องเป็นอิสระต่อกัน การสังเกตหนึ่งไม่ควรมีอิทธิพลต่ออีกการสังเกตหนึ่ง

ตัวอย่างการละเมิด: ข้อมูล Time Series ที่การวัดติดต่อกันมีความสัมพันธ์กัน

3. Homoscedasticity (ความคงที่ของความแปรปรวน)

ความแปรปรวนของ Residuals ควรคงที่ทุกระดับของ x (การกระจายที่เท่ากัน)

การตรวจสอบ: Plot Residuals เทียบกับค่าที่ทำนาย การกระจายควรค่อนข้างคงที่ ไม่เป็นรูปกรวย

4. Normality of Residuals (การแจกแจงปกติของ Residuals)

สำหรับการทดสอบสมมติฐานและ Confidence Intervals ค่า Residuals ควรมีการแจกแจงแบบปกติ

การตรวจสอบ: สร้าง Histogram หรือ Q-Q Plot ของ Residuals พวกเขาควรประมาณการแจกแจงปกติ

5. No Outliers or Influential Points (ไม่มี Outliers หรือจุดที่มีอิทธิพล)

ค่าที่สุดโต่งสามารถส่งผลต่อ Regression Line ได้อย่างไม่สมส่วน

การตรวจสอบ: ตรวจสอบ Cook's Distance หรือสถิติ Leverage เพื่อระบุการสังเกตที่มีอิทธิพล

เมื่อใดควรใช้ Least Squares Regression

Least Squares Regression เหมาะสมเมื่อ:

สถานการณ์การวิจัย

การทำนาย: คุณต้องการทำนายค่าของตัวแปรตามจากตัวแปรอิสระ

  • ทำนายยอดขายจากค่าใช้จ่ายโฆษณา
  • ประมาณคะแนนสอบจากชั่วโมงที่ศึกษา
  • พยากรณ์ผลผลิตพืชจากปริมาณฝน

การทำความเข้าใจความสัมพันธ์: คุณต้องการวัดความสัมพันธ์ระหว่างตัวแปรสองตัว

  • อุณหภูมิส่งผลต่อการใช้พลังงานอย่างไร?
  • ความสัมพันธ์ระหว่างอายุและรายได้คืออะไร?
  • ปริมาณปุ๋ยส่งผลต่อการเจริญเติบโตของพืชอย่างไร?

การเปรียบเทียบ Model: คุณต้องการเปรียบเทียบ Model ต่างๆ หรือทดสอบสมมติฐานเกี่ยวกับความสัมพันธ์

  • ความสัมพันธ์มีนัยสำคัญหรือไม่?
  • Slope แตกต่างจากศูนย์หรือไม่?
  • ตัวแปรทำนายใดแข็งแกร่งกว่า?

ลักษณะของข้อมูล

ใช้ Least Squares Regression เมื่อ:

  • คุณมีข้อมูลตัวเลขต่อเนื่องสำหรับตัวแปรทั้งสอง
  • ความสัมพันธ์ดูเป็นเส้นตรงโดยประมาณ
  • ขนาดตัวอย่างเพียงพอ (โดยทั่วไป n > 30 สำหรับผลลัพธ์ที่เชื่อถือได้)
  • ข้อสมมติฐานได้รับการปฏิบัติอย่างสมเหตุสมผล (ตรวจสอบการวินิจฉัย)
  • คุณต้องการ Model ที่ตีความได้และโปร่งใส

ข้อดี

  • เรียบง่ายและตีความได้: เข้าใจและอธิบายง่าย
  • ประสิทธิภาพในการคำนวณ: การคำนวณเร็วแม้กับชุดข้อมูลขนาดใหญ่
  • มีการยอมรับอย่างดี: ทฤษฎีทางสถิติและเครื่องมือวินิจฉัยที่กว้างขวาง
  • Model พื้นฐาน: ให้มาตรฐานสำหรับการเปรียบเทียบ Model ที่ซับซ้อนกว่า
  • วิธีการแก้แบบวิเคราะห์: สูตรที่แน่นอน (ไม่ต้องการอัลกอริทึมแบบวนซ้ำ)

ข้อจำกัดและทางเลือกอื่น

ข้อจำกัดของ Least Squares

1. ไวต่อ Outliers: ค่าสุดโต่งมีอิทธิพลต่อเส้นอย่างไม่สมส่วนเพราะความคาดเคลื่อนถูกยกกำลังสอง

2. สมมติความเป็นเส้นตรง: ไม่สามารถจับความสัมพันธ์ที่ไม่เป็นเส้นตรงได้โดยไม่ต้องแปลง

3. ต้องการข้อสมมติฐาน: การละเมิด Homoscedasticity หรือ Normality ลดความถูกต้อง

4. วัดเฉพาะความสัมพันธ์เชิงเส้น: R² สูงไม่ได้หมายถึงความเป็นเหตุเป็นผล

5. ความเสี่ยงในการอนุมาน: การทำนายนอกช่วงข้อมูลอาจไม่เชื่อถือได้

วิธีการทางเลือก

Robust Regression: ไวต่อ Outliers น้อยกว่า (เช่น M-estimators, Least Absolute Deviations)

Polynomial Regression: เหมาะสมกับความสัมพันธ์โค้งโดยใช้พหุนามดีกรีสูงกว่า

Non-linear Regression: จำลอง Model รูปแบบฟังก์ชันที่ไม่เป็นเส้นตรงอย่างชัดเจน

Ridge/Lasso Regression: จัดการ Multicollinearity และทำ Variable Selection

Generalized Linear Models: ขยายไปยังตัวแปรตอบสนองที่ไม่ปกติ (Logistic Regression, Poisson Regression)

ข้อผิดพลาดทั่วไปและวิธีการหลีกเลี่ยง

ข้อผิดพลาดที่ 1: สับสนระหว่าง Correlation กับ Causation

ปัญหา: ความสัมพันธ์ Regression ที่แข็งแกร่งไม่ได้พิสูจน์ว่า x ทำให้เกิด y ความสัมพันธ์อาจเกิดจากตัวแปรกวน (Confounding Variables) หรือความเป็นเหตุเป็นผลย้อนกลับ

ตัวอย่าง: ยอดขายไอศกรีมและการเสียชีวิตจากการจมน้ำมีความสัมพันธ์เชิงบวกที่แข็งแกร่ง แต่ไอศกรีมไม่ได้ทำให้เกิดการจมน้ำ ทั้งสองเพิ่มขึ้นในฤดูร้อน (ตัวแปรกวน: อุณหภูมิ)

วิธีแก้: ใช้ Regression สำหรับการทำนายและการอธิบาย ไม่ใช่การอนุมานเชิงสาเหตุโดยไม่มีหลักฐานเพิ่มเติม (การทดลอง ทฤษฎี ลำดับเวลา)

ข้อผิดพลาดที่ 2: อนุมานเกินช่วงข้อมูล

ปัญหา: ใช้สมการ Regression เพื่อทำนาย y สำหรับค่า x ที่อยู่นอกช่วงที่สังเกตได้มาก

ตัวอย่าง: หากข้อมูลของคุณรวมชั่วโมงที่ศึกษาจาก 1-7 ชั่วโมง การทำนายคะแนนสำหรับคนที่ศึกษา 20 ชั่วโมงไม่น่าเชื่อถือ

วิธีแก้: ทำการทำนายเฉพาะภายในช่วงของค่า x ที่สังเกตได้เท่านั้น หากจำเป็นต้องอนุมาน ให้ยอมรับความไม่แน่นอนที่เพิ่มขึ้น

ข้อผิดพลาดที่ 3: เพิกเฉยต่อการละเมิดข้อสมมติฐาน

ปัญหา: ดำเนินการด้วย Least Squares แม้จะมีการละเมิดความเป็นเส้นตรง Homoscedasticity หรือ Normality อย่างชัดเจน

วิธีแก้: ตรวจสอบ Diagnostic Plots เสมอ:

  • Scatterplot (Linearity)
  • Residual Plot (Homoscedasticity)
  • Q-Q Plot (Normality)
  • ใช้การแปลงหรือวิธีการทางเลือกหากข้อสมมติฐานถูกละเมิด

ข้อผิดพลาดที่ 4: รายงานเฉพาะ R² โดยไม่มีบริบท

ปัญหา: นำเสนอ R² เป็นตัวชี้วัดเพียงตัวเดียวของคุณภาพ Model โดยไม่พิจารณารูปแบบ Residual นัยสำคัญทางปฏิบัติ หรือความเป็นไปได้ทางทฤษฎี

วิธีแก้: รายงานสถิติความเหมาะสมหลายตัว (R² Standard Error Residual Plots) และตีความผลลัพธ์ในบริบทของคำถามการวิจัยของคุณ

ข้อผิดพลาดที่ 5: สลับตัวแปรอิสระและตัวแปรตาม

ปัญหา: การสลับว่าตัวแปรใดคือ x และตัวแปรใดคือ y ให้ Regression Lines ที่แตกต่างกัน

ตัวอย่าง: การถดถอยน้ำหนักเทียบกับส่วนสูงให้สมการที่แตกต่างจากการถดถอยส่วนสูงเทียบกับน้ำหนัก

วิธีแก้: ระบุอย่างชัดเจนว่าตัวแปรใดที่คุณกำลังทำนาย (ตัวแปรตาม = y) ตามคำถามการวิจัยและกรอบทฤษฎีของคุณ

การคำนวณ Least Squares Regression ในโปรแกรม

Excel

  1. ใส่ค่า x ในคอลัมน์ A ค่า y ในคอลัมน์ B
  2. ใช้ =SLOPE(B:B, A:A) เพื่อคำนวณ Slope
  3. ใช้ =INTERCEPT(B:B, A:A) เพื่อคำนวณ Intercept
  4. หรือใช้ Data Analysis Toolpak → Regression สำหรับผลลัพธ์ที่ครอบคลุม

R

# สร้างข้อมูล
x <- c(2, 3, 4, 5, 6, 7)
y <- c(65, 70, 75, 82, 88, 90)
 
# Fit regression model
model <- lm(y ~ x)
 
# ดูผลลัพธ์
summary(model)
 
# รับ Coefficients
coef(model)  # Intercept และ Slope

Python

import numpy as np
from scipy import stats
 
# สร้างข้อมูล
x = np.array([2, 3, 4, 5, 6, 7])
y = np.array([65, 70, 75, 82, 88, 90])
 
# คำนวณ Regression
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
 
print(f"Slope: {slope}")
print(f"Intercept: {intercept}")
print(f"R-squared: {r_value**2}")

SPSS

  1. Analyze → Regression → Linear
  2. ย้ายตัวแปรตามไปที่กล่อง "Dependent"
  3. ย้ายตัวแปรอิสระไปที่กล่อง "Independent(s)"
  4. คลิก "Statistics" สำหรับ R² Residuals และการทดสอบวินิจฉัย
  5. คลิก "Plots" สำหรับการวินิจฉัย Residual
  6. คลิก OK

หากคุณต้องการเรียนรู้การวิเคราะห์ Linear Regression ใน SPSS แบบละเอียด อ่านคู่มือฉบับสมบูรณ์ของเรา: Linear Regression คืออะไร? วิธีการวิเคราะห์ Linear Regression ใน SPSS

ตัวอย่างการประยุกต์ใช้จริง

สถานการณ์: การทำนายราคาบ้าน

นักวิเคราะห์อสังหาริมทรัพย์ต้องการทำนายราคาบ้านจากพื้นที่ตารางฟุตโดยใช้ข้อมูลจากการขาย 50 รายการล่าสุด

ข้อมูล: พื้นที่ตารางฟุตอยู่ในช่วง 800 ถึง 3,200 ตารางฟุต ราคาตั้งแต่ 150,000ถึง150,000 ถึง 450,000

ขั้นตอนการวิเคราะห์:

  1. สร้าง Scatterplot: ยืนยันความสัมพันธ์เชิงบวกเป็นเส้นตรง
  2. คำนวณ Regression:
    • Slope: b = 125 (แต่ละตารางฟุตเพิ่มเติมเพิ่มราคา $125)
    • Intercept: a = 50,000
    • สมการ: ราคา = 50,000+50,000 + 125 × (ตารางฟุต)
  3. ตรวจสอบข้อสมมติฐาน:
    • Linearity: ✓ (Scatterplot เป็นเส้นตรง)
    • Homoscedasticity: ✓ (Residual Plot แสดงการกระจายคงที่)
    • Normality: ✓ (Q-Q Plot เป็นเส้นตรงโดยประมาณ)
  4. ประเมินความเหมาะสม: R² = 0.82 (82% ของความแปรปรวนด้านราคาอธิบายได้ด้วยพื้นที่ตารางฟุต)
  5. ทำการทำนาย:
    • บ้าน 1,500 ตารางฟุต: 50,000+50,000 + 125(1,500) = $237,500
    • บ้าน 2,000 ตารางฟุต: 50,000+50,000 + 125(2,000) = $300,000

คุณค่าทางธุรกิจ: Model ให้การประมาณราคาที่เชื่อถือได้สำหรับอสังหาริมทรัพย์ภายในช่วงขนาดที่สังเกตได้ ช่วยในการกำหนดราคาประกาศและระบุอสังหาริมทรัพย์ที่มีมูลค่าต่ำกว่าที่ควรจะเป็น

Least Squares Regression Line เป็นวิธีการทางสถิติที่ใช้หาเส้นตรงที่เหมาะสมที่สุดผ่านกลุ่มจุดข้อมูลโดยการลดผลรวมของระยะห่างแนวตั้งที่ยกกำลังสอง (Residuals) ระหว่างค่าที่สังเกตได้กับค่าที่ทำนายให้น้อยที่สุด เส้นตรงนี้มีสมการ y = a + bx โดยที่ a คือ y-intercept และ b คือ Slope วิธีการนี้ให้การทำนายเชิงเส้นของตัวแปรตามที่แม่นยำที่สุดจากตัวแปรอิสระโดยทำให้ความคาดเคลื่อนที่ทำนายทั้งหมดที่ยกกำลังสองน้อยที่สุด
วิธีคำนวณ Least Squares Regression Line: (1) คำนวณค่าเฉลี่ยของ x และ y (2) คำนวณ Slope โดยใช้ b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)² (3) คำนวณ Intercept โดยใช้ a = ȳ - b·x̄ และ (4) เขียนสมการเป็น ŷ = a + bx ให้คำนวณ Slope ก่อนเสมอ จากนั้นใช้ค่าดังกล่าวเพื่อหา Intercept สมการที่ได้จะลดผลรวมของ Squared Residuals และให้ Line of Best Fit ผ่านจุดข้อมูลของคุณ
Least Squares Regression Line ลดผลรวมของ Squared Residuals (SSR) ซึ่งเป็นผลรวมของระยะห่างแนวตั้งที่ยกกำลังสองระหว่างค่า y ที่สังเกตได้กับค่า y ที่ทำนายบน Regression Line วิธีการนี้ยกกำลังสองของระยะห่างเหล่านี้เพื่อให้แน่ใจว่าค่าเบี่ยงเบนบวกและลบจะไม่หักล้างกัน และเพื่อลงโทษความคาดเคลื่อนที่ใหญ่กว่ามากกว่าความคาดเคลื่อนที่เล็กกว่า การลดค่าให้น้อยที่สุดนี้ให้ค่าที่ไม่ซ้ำซ้อนและเหมาะสมที่สุดสำหรับ Slope และ Intercept ที่ให้เส้นที่เหมาะสมที่สุดผ่านจุดข้อมูล
สูตร Least Squares Regression Line คือ ŷ = a + bx โดยที่ ŷ คือค่า y ที่ทำนาย x คือตัวแปรอิสระ a คือ y-intercept และ b คือ Slope การคำนวณ Slope ใช้สูตร b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)² และ Intercept คำนวณจาก a = ȳ - b·x̄ โดยที่ x̄ และ ȳ คือค่าเฉลี่ยของ x และ y ตามลำดับ สูตรเหล่านี้ได้มาจากการใช้แคลคูลัสเพื่อหาค่าที่ลดผลรวมของ Squared Residuals ให้น้อยที่สุด
ข้อสมมติฐานของ Least Squares Regression ได้แก่: (1) Linearity - ความสัมพันธ์ระหว่าง x และ y เป็นเส้นตรง (2) Independence - การสังเกตเป็นอิสระต่อกัน (3) Homoscedasticity - ความแปรปรวนของ Residuals คงที่ทุกค่า x (4) Normality - Residuals มีการแจกแจงแบบปกติสำหรับการทดสอบสมมติฐาน และ (5) ไม่มี Outliers หรือจุดที่มีอิทธิพลอย่างสุดโต่งที่ส่งผลต่อเส้นอย่างไม่สมส่วน การละเมิดข้อสมมติฐานเหล่านี้สามารถลดความถูกต้องและความน่าเชื่อถือของผลลัพธ์ Regression และควรตรวจสอบโดยใช้ Diagnostic Plots
Slope (b) แสดงการเปลี่ยนแปลงเฉลี่ยของตัวแปรตาม (y) สำหรับการเพิ่มขึ้นหนึ่งหน่วยของตัวแปรอิสระ (x) ตัวอย่างเช่น หาก Slope คือ 5.31 ใน Regression ของคะแนนสอบเทียบกับชั่วโมงที่ศึกษา นี่หมายความว่าสำหรับทุกชั่วโมงเพิ่มเติมของการศึกษา คะแนนสอบจะเพิ่มขึ้น 5.31 คะแนนโดยเฉลี่ย Slope เชิงบวกบอกถึงความสัมพันธ์เชิงบวก (y เพิ่มขึ้นเมื่อ x เพิ่มขึ้น) ในขณะที่ Slope เชิงลบบอกถึงความสัมพันธ์ผกผัน (y ลดลงเมื่อ x เพิ่มขึ้น)
R-squared (R²) เป็น Coefficient of Determination ที่วัดสัดส่วนของความแปรปรวนในตัวแปรตามที่อธิบายได้โดยตัวแปรอิสระ ค่าอยู่ในช่วง 0 ถึง 1 โดยที่ 0 หมายความว่า Regression Line ไม่อธิบายความแปรปรวนเลย และ 1 หมายถึงความเหมาะสมสมบูรณ์แบบโดยมีจุดทั้งหมดอยู่บนเส้น ตัวอย่างเช่น R² = 0.75 หมายความว่า 75% ของความแปรปรวนใน y อธิบายได้โดย x ว่าอะไรถือว่าเป็น R² ที่ดีขึ้นอยู่กับสาขาของคุณ: สังคมศาสตร์มักยอมรับ R² เหนือ 0.3 ในขณะที่วิทยาศาสตร์กายภาพอาจคาดหวังเหนือ 0.9
ใช้ Least Squares Regression เมื่อ: (1) คุณต้องการทำนายค่าของตัวแปรตามจากตัวแปรอิสระ (2) คุณมีข้อมูลตัวเลขต่อเนื่องสำหรับตัวแปรทั้งสอง (3) ความสัมพันธ์ดูเป็นเส้นตรงโดยประมาณใน Scatterplot (4) ขนาดตัวอย่างของคุณเพียงพอ (โดยทั่วไป n มากกว่า 30) (5) ข้อสมมติฐานของความเป็นเส้นตรง ความเป็นอิสระ และ Homoscedasticity ได้รับการปฏิบัติอย่างสมเหตุสมผล และ (6) คุณต้องการ Model ที่เรียบง่ายและตีความได้ เหมาะสำหรับการทำนาย การทำความเข้าใจความสัมพันธ์ และการสร้าง Baseline Models ก่อนลองวิธีการที่ซับซ้อนกว่า

สรุป

Least Squares Regression Line ให้วิธีการที่มีประสิทธิภาพสำหรับการทำความเข้าใจและทำนายความสัมพันธ์เชิงเส้นระหว่างตัวแปร ด้วยการลดผลรวมของ Squared Residuals เทคนิคนี้จะหาค่า Slope และ Intercept ที่เหมาะสมที่สุดที่แสดงรูปแบบข้อมูลได้ดีที่สุด

สูตรสำคัญสำหรับการคำนวณ Regression Line นั้นตรงไปตรงมา: ขั้นแรกคำนวณ Slope โดยใช้ Covariance และ Variance ของตัวแปรของคุณ จากนั้นกำหนด Intercept โดยใช้ค่าเฉลี่ย เมื่อคุณมี Parameters เหล่านี้ คุณสามารถเขียนสมการ Regression และทำการทำนายสำหรับค่าใหม่ภายในช่วงข้อมูลของคุณได้

อย่าลืมตรวจสอบข้อสมมติฐานเสมอ (Linearity Independence Homoscedasticity Normality) โดยใช้ Diagnostic Plots และสถิติความเหมาะสมเช่น R² และ Standard Error แม้ว่า Least Squares Regression จะเรียบง่ายและตีความได้ แต่ก็มีข้อจำกัดรวมถึงความไวต่อ Outliers และข้อกำหนดว่าความสัมพันธ์ต้องเป็นเส้นตรง เมื่อข้อสมมติฐานถูกละเมิด ให้พิจารณาวิธีการ Robust Regression หรือการแปลง

ไม่ว่าคุณจะทำนายคะแนนสอบจากชั่วโมงที่ศึกษา ประมาณราคาบ้านจากพื้นที่ตารางฟุต หรือวิเคราะห์ความสัมพันธ์เชิงเส้นอื่นๆ Least Squares Method ยังคงเป็นเครื่องมือทางสถิติพื้นฐานที่สมดุลความเรียบง่ายกับประสิทธิผล

หากคุณสนใจเรียนรู้เพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างตัวแปร อ่านคู่มือของเรา: Pearson Correlation ใน Excel คืออะไร? วิธีคำนวณค่าสหสัมพันธ์ด้วยฟังก์ชัน CORREL

เอกสารอ้างอิง

  • Chatterjee, S., & Hadi, A. S. (2015). Regression Analysis by Example (5th ed.). Wiley.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis (6th ed.). Wiley.
  • Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models (5th ed.). McGraw-Hill.
  • Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.