HỒI QUY LOGISTIC LÀ GÌ

  -  

1. Khi nào sử dụng?

Hồi quy logistic (thường được gọi đơn giản là hồi quy logistic nhị thức) được sử dụng để dự đoán xác suất một quan sát rơi vào một trong các loại của biến phụ thuộc dựa trên một hoặc nhiều biến độc lập có thể liên tục hoặc phân loại. Mặt khác, nếu biến phụ thuộc của bạn là một số đếm, phương pháp thống kê nên được xem xét là hồi quy Poisson. Ngoài ra, nếu bạn có nhiều hơn hai loại biến phụ thuộc, đó là khi hồi quy logistic đa thức (multinomial logistic regression) nên được sử dụng.Bạn đang xem: Hồi quy logistic là gì

Ví dụ, bạn có thể sử dụng hồi quy logistic nhị thức để hiểu liệu có thể dự đoán thành tích bài kiểm tra dựa trên thời gian ôn tập và mức độ lo lắng của bài kiểm tra hay không (tức là, trong đó biến phụ thuộc là “thành tích thi”, được đo trên thang phân đôi – “đạt” hoặc “không đạt” – và bạn có hai biến độc lập: “thời gian ôn tập” và “lo lắng khi kiểm tra”).

Bạn đang xem: Hồi quy logistic là gì

2. Mô hình hồi quy logistic

Mô hình hồi quy logistic được sử dụng để dự đoán một biến phân loại bởi một hoặc nhiều biến độc lập liên tục hoặc phân loại. Biến phụ thuộc có thể là nhị thức (binary), thứ tự (ordinal) hoặc đa phân loại (multicategorical).

Biến độc lập có thể là khoảng/tỉ lệ, lưỡng phân (dichotomous), rời rạc (discrete) hoặc hỗn hợp của tất cả.

Phương trình hồi quy logistic (trường hợp biến phụ thuộc là nhị thức) là:


*

Trong đó P là xác suất quan sát một trường hợp i trong kết quả biến Y với một giá trị = 1; e là một hằng số toán học Euler có giá trị gần bằng 2.71828; và các hệ số hồi quy β tương ứng với các biến quan sát.

Chúng ta thương sử dụng mô hình hồi quy để ước lượng hiệu ứng của các biến X về một Odds (Y=1).

3. Diễn giải hiệu ứng trong hồi quy logistic

Cho mục đích ước lượng và tiên đoán, các xác suất có giới hạn nghiêm trọng. Đầu tiên, chúng bị ràng buộc trong phạm vi từ 0 đến 1. Điều này ngụ ý rằng nếu cho một hiệu ứng thực của biến X về kết quả của biến Y vượt quá 1, sự diễn giải có thể là vấn đề. Giới hạn thứ hai, xác suất không thể là âm. Giả sử cho hiệu ứng của một biến độc lập về biến Y là âm, sự diễn giải theo hệ số hồi quy logistic là vô nghĩa. Một vấn đề rằng hệ số hồi quy chỉ nên là dương.

Làm thế nào để giải quyết hai vấn đề trên?

Có hai bước tiếp cận thông qua việc chúng ta thực hiện hai biến đổi. Thứ nhất, chúng ta chuyển đổi xác suất trong Odds (O) là:


*

Đó là, Odds rằng một sự kiện sẽ xảy ra là tỉ lệ của số lần kì vọng rằng sự kiện sẽ xảy ra với số lần kì vọng rằng sự kiện sẽ không xảy ra. Đây là mối quan hệ trực tiếp giữa Odds (Y=1) và xác suất Y=1. Như vậy, cho rằng Odds có thể có giá trị vô cùng, thì xác suất với Odds bây giờ cho phép hệ số hồi quy có thể có bất kì giá trị nào.

Bước tiếp theo là để giải quyết vấn đề thứ hai. Mối quan hệ giữa Odds và xác suất, mở rộng một chút đại số học, chúng ta có thể trình bày lại công thức Odds (O) ở trên theo logarit của Odds (Y=1):


*

Để tính toán logarit cho một trường hợp ngẫu nhiên trong dân số cho giá trị về một biến độc lập hoặc hiệp biến. Bổ sung vào biến phụ thuộc Y có giá trị 1 (ví dụ, 1 (phiếu bầu cho Obama trong năm 2008), 0 (phiếu bầu cho McCain trong năm 2008, tại bầu cử Mỹ). Giả định rằng xác suất bầu phiếu cho Obama P(Y=1) là 0.218 ; và như vậy 1-P = 0.782 . Chúng ta tính được Odds là: Odds=0.218/0.782=0.279. Giá trị này chỉ cho chúng ta nhìn thấy Odds thu được, bây giờ chúng ta phải tiếp tục giả định rằng các hệ số hồi quy logistic liên quan là trong hướng chính xác. Do đó chúng ta cần sử dụng công thức logarit của Odds.

Theo đó, logarit tự nhiên (loge , kí hiệu ln) của Odds (ví dụ ln 0.279 = -1.276). Do đó, logarit của xác suất của phiếu bầu cho Obama là ‘-1.276’. Như vậy, nếu chúng ra chỉ dừng lại ở dự đoán xác suất, chúng ta có thể đi đến các kết quả sai (một số dương). Thứ hai, hiệu ứng đúng của các hiệp biến được liên quan là được đánh giá không đúng mức (đánh giá thấp). Ưu điểm chính của logarit Odds rằng các hệ số thu được là ràng buộc, và chúng có thể là âm cũng như dương, phạm vi từ âm vô cùng đến dương vô cùng.

Phát biểu theo cách này, hồi quy logistic thấy chính xác như hồi quy bội ở phía bên phải của phương trình logarit Odds. Phía bên trái của phương trình không là điểm số của Y. Nó là logarit của Odds (Y=1). Điều này có nghĩa rằng mỗi đơn vị của X có hiệu ứng của β về logarit Odds của Y. Logarit Odds của Y không là một ý tưởng dễ, do vậy, chúng ta cần một cách khác để giải thích về hiệu ứng trong hồi quy logistic, xin đọc phần tiếp theo.

4. Ước lượng mô hình hồi quy logistic với sự hợp lí cực đại (Maximum Likelihood)

Bởi vì hồi quy logistic hoạt động về một biến phân loại, phương pháp của bình phương nhỏ nhất (ordinary least squares – OLS) là không thể sử dụng (nó giả định một biến phụ thuộc được phân phối chuẩn). Do vậy, một phương pháp ước lược chung hơn được sử dụng để phát hiện giá trị phù hợp tốt của các tham số. Điều này được gọi là “ước lượng hợp lí cực đại” (Maximum likelihood estimation).

Hợp lí cực đại (Maximum likelihood) là một kĩ thuật ước lượng tương tác để chọn các ước lượng tham số rằng cực đại sự hợp lí của bộ dữ liệu mẫu là được quan sát. Trong hồi quy logistic, hợp lí cực đại chọn các ước lượng hệ số rằng sự cực đại về logarit của xác suất của quan sát bộ giá trị cụ thể của biến phụ thuộc trong mẫu cho một bộ đã cho của các giá trị X.

Nhưng câu hỏi nghiên cứu cơ bản được giải quyết bởi phương pháp hợp lí cực đại là: Các giá trị tham số gì của dân số có trong thực tế đã làm phát sinh mẫu mà chúng ta được quan sát?

Bởi vì hồi quy logistic sử dụng phương pháp hợp lí cực đại, hệ số xác định (R2) có thể không được ước lượng trực tiếp. Do đó, chúng ta có hai lúng túng cho việc diễn giải hồi quy logistic: Đầu tiên, làm thế nào cũng ta đánh giá được ‘điều tốt của sự phù hợp’ (goodness of fit) – một giả thuyết vô hiệu tổng quát? Thứ hai, làm thế nào chúng ta đánh giá được hiệu ứng từng phần của mỗi biến X? Để trả lời câu hỏi, vui lòng xem phần tiếp theo.

5. Suy luận thống kê và giả thuyết vô hiệu

Câu hỏi thứ nhất, làm thế nào cũng ta đánh giá được ‘điều tốt của sự phù hợp’ (goodness of fit) – một giả thuyết vô hiệu tổng quát? Các suy luận thống kê, cùng với giả thuyết vô hiệu được diễn giải theo các bước sau đây:

– Bước đầu tiên trong diễn giải hồi quy là đánh giá giả thuyết vô hiệu tổng quát (golbal null hypothesis) rằng các biến độc lập không có bất kì mối liên hệ nào với Y. Trong phương pháp hồi quy OLS, chúng ta thực hiện điều này bằng kiểm tra liệu R2 phải là 0 trong dân số sử dụng một F-test. Trong khi hồi quy logistic sử dụng phương pháp hợp lí cực đại (không OLS): Giả thuyết vô hiệu H0 là: β0 = β0 = β0 = 0 . Chúng ta đo lường kích thước củ phần dư từ mô hình này với một logarit thống kê sự hợp lí (likelihood statistic).

– Sau đó chúng ta ước lượng mô hình một lần nữa, giả định rằng giả thuyết vô hiệu là sai lầm, rằng chúng ta tìm thấy giá trị hợp lí cực đại của các hệ số β trong mẫu. Một lần nữa, chúng ta đo lường kích thước của phần dư từ mô hình này với một logarit thống kê sự hợp lí.

Xem thêm: Chơi Game Thợ Săn Tàng Hình 2

– Cuối cùng, chúng ta so sánh hai thống kê bởi tính toán một thống kê kiểm tra: -2(ln Lnull – ln Lmodel)

Thống kê này nói cho chúng biết có bao nhiêu phần dư (hoặc dự đoán lỗi), có thể giảm bằng cách sử dụng các biến X. Giả thuyết vô hiệu gợi ý rằng sự giảm này là 0 ; nếu thống kê là đủ lớn (trong một kiểm tra Chi-bình phương với df = số biến độc lập), chúng ta bác bỏ giả thuyết vô hiệu. Tại đây, chúng ta kết luận rằng ít nhất một biến độc lập có hiệu ứng với logarit Odds.

SPSS cũng chạy ra thống kê R2 để giúp đánh giá sự mạnh mẽ của sự liên kết. Nhưng nó như một R2 giả, không nên được diễn giải vì hồi quy logistic không sử dụng R2 giống như hồi quy tuyến tính.

Câu hỏi thứ hai, làm thế nào chúng ta đánh giá được hiệu ứng từng phần của mỗi biến X?

Khi giả thuyết vô hiệu tổng quát bị bác bỏ, chúng ta sẽ đánh giá hiệu ứng từng phần của các biến dự đoán.

Như trong hồi quy tuyến tính bội, trong hồi quy logistic, điều này ngụ ý rằng giả thuyết vô hiệu cho mỗi biến độc lập bao gồm trong phương trình. Giả thuyết vô hiệu rằng mỗi hệ số hồi quy là bằng 0, hoặc nó không ảnh hưởng đến logarit Odds.

Mỗi ước lượng hệ số B có một sai số chuẩn (standard error) – mức độ trung bình, chúng ta kì vọng B thay đổi từ một mẫu này với mẫu khác bởi cơ hội may rủi. Để kiểm tra ý nghĩa của B, một thống kê kiểm tra (không phải t-test, nhưng là Wald Chi-bình phương) được tính toán, với 1df – bậc tự do. Cần nhớ rằng hệ số B bày tỏ những hiệu ứng của một đơn vị thay đổi của X về logarit Odds.

Trong giáo dục, hiệu ứng là dương, khi giáo dục tăng lên, logarit Odds cũng tăng lên.

Giá trị Exp(B) của một biến độc lập X được sử dụng để dự đoán xác suất của một sự kiện xảy ra dựa trên sự thay đổi một đơn vị trong một biến độc lập khi tất cả các biến độc lập khác được giữ không đổi. Nó cho biết rằng khi nó tăng một đơn vị, Odds cho sự kiện “có” là được nhân lên bởi một giá trị của giá trị Exp(B) (đây là hàm e mũ B, giả sử 1.05, tức là tăng 5%).

6. Mở rộng hồi quy logistic

Bên phải của phương trình hồi quy logistic cũng tương tự như bất kì mô hình hồi quy nào khác, nên chúng ta có thể bao gồm các biến độc lập phân loại và liên tục trong hồi quy logistic. Chúng ta cũng có thể bao gồm các hiệu ứng tương tác.

Hồi quy logistic có khả năng mở rộng trong hai cách:

Hồi quy logistic thứ bậc (Ordinal Logistic Regression) được sử dụng để phân tích logarit tích lũy Odds của điểm số ở thứ hạng cao nhất tiếp theo của một biến thứ tự được nhóm gộp. Ví dụ điển hình là một thang đo khảo sát thái độ để chọn giữa “rất không đồng ý, không đồng ý, trung lập, đồng ý, rất đồng ý”. Chúng ta có thể sử dụng hồi quy logistic thứ bậc để kiểm tra liệu một đơn vị của X tăng, logarit Odds của chọn “không đồng ý” thay vì “rất đồng ý”, hoặc chọn “đồng ý” thay vì “trung lập”.

– Hồi quy logistic đa thức (Multinomial logistic regression) được sử dụng để phân tích loại đa lựa chọn của các kết quả. Ví dụ, chúng ta muốn dự đoán liệu một người là kết hôn, ly hôn, ly thân, chưa kết hôn. Nếu đó là sự loại trừ lẫn nhau và chung sức, chúng ta có thể phân tích logarit tỷ lệ cược của mỗi kết quả so với một đường cơ sở. Ví dụ, chúng ta có thể phân tích logarit tỷ lệ cược của việc kết hôn so với chưa bao giờ kết hôn, ly hôn so với chưa bao giờ kết hôn và ly thân so với chưa bao giờ kết hôn. Chúng ta có thể kiểm tra giả thuyết về những hiệu ứng của các biến dự đoán về mỗi Odds này. Mô hình hồi quy logistic đa thức sau đó để chúng ta kiểm tra các đa thức danh nghĩa.

7. Các giả định kiểm tra

Các giả định cơ bản của hồi quy logistic nhị thức bao gồm:

– Một hoặc nhiều biến độc lập, có thể là liên tục (tức là biến khoảng hoặc tỷ lệ) hoặc biến phân loại (tức là biến thứ tự hoặc danh nghĩa). Ví dụ về các biến liên tục bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100)v.v. Ví dụ về các biến thứ tự bao gồm các mục Likert (ví dụ: thang điểm 5 hoặc 7 từ “rất đồng ý” đến “rất không đồng ý”). Ví dụ về các biến danh nghĩa bao gồm giới tính (nam và nữ), khu vực sống (thành thị và nông thôn), ngành nghề (ví dụ: 5 nhóm: điện, CNTT, cơ khí, ngoại ngữ, kinh tế).

– Các quan sát là độc lập và biến phụ thuộc phải có các danh mục loại trừ lẫn nhau và đầy đủ.

– Cần có mối quan hệ tuyến tính giữa bất kỳ biến độc lập liên tục nào và phép biến đổi logarit Odds (hay còn được gọi là Logit) của biến phụ thuộc. Chúng ta có thể sử dụng quy trình Box-Tidwell (1962) để kiểm tra sự tuyến tính cho giả định này.

Xem thêm: Asia Là Gì, Nghĩa Của Từ Asia, Nghĩa Của Từ Asia Trong Tiếng Việt

Bạn có thể kiểm tra giả định số 4 bằng cách sử dụng thống kê SPSS. Các giả định 1, 2 và 3 nên được kiểm tra đầu tiên, trước khi chuyển sang giả định 4. Bạn nên kiểm tra các giả định này theo thứ tự này vì nó đại diện cho một thứ tự này. Nếu bạn không chạy kiểm tra thống kê trên các giả định này một cách chính xác, kết quả bạn nhận được khi chạy hồi quy logistic nhị thức có thể không hợp lệ.

8. Phân tích hồi quy Logistic nhị thức trong SPSS

Ví dụ, chúng ta có thể sử dụng hồi quy logistic nhị thức để hiểu liệu có thể dự đoán thành tích bài thi Toán của các sinh viên dựa trên thời gian ôn tập, mức độ lo lắng của bài kiểm tra và yếu tố giới tính hay không (tức là, trong đó biến phụ thuộc là “thành tích thi”, được đo trên thang lưỡng phân “đạt” hoặc “không đạt” và ba biến số độc lập: “thời gian ôn tập” và “giới tính”). Có 20 sinh viên được mời tham gia một cuộc thử nghiệm, kể từ khi bài học của môn Toán giải tích kết thúc đến ngày thi cuối kì, họ được đề nghị ghi lại tổng số giờ ôn bài (cộng dồn của mỗi ngày) dành cho môn Toán. Kết thúc kì thi, nhà nghiên cứu thu thập điểm số của 20 sinh viên này theo thang điểm 10 (nếu ≥5 là đạt ‘1’, và Regression > Binary Logistic…