Chào mọi người
Trong bài viết này, tôi sẽ mô tả một phương pháp hồi quy rất cổ điển mà hầu như những ai học kinh tế lượng đều đã từng nghe đến và sử dụng nó. Đó là ols – Hồi quy bình phương nhỏ nhất thông thường. Chúng ta có thể dịch câu này thành phương pháp hồi quy bình phương nhỏ nhất. Đây là phương pháp hồi quy được sử dụng phổ biến nhất trong nghiên cứu. kết quả hồi quy ols được coi là kết quả tiêu chuẩn (điểm chuẩn), mặc dù các phương pháp hồi quy khác được ưu tiên hơn trong một số trường hợp. Vậy thực chất của phương pháp này là gì?
y và x được sử dụng để đại diện cho tất cả các quan sát trong một tổng thể, trong khi y và x đại diện cho các quan sát trong một mẫu được chọn. Lưu ý rằng vì chúng tôi không có nguồn lực/chi phí để thu thập toàn bộ tổng thể nên chúng tôi chỉ có thể thu thập một phần nhỏ của nó (mẫu dữ liệu) và chỉ ước tính các hệ số hồi quy tổng thể trên mẫu. Các hệ số alpha và beta hiện được biểu thị bằng dấu mũ để cho biết đây là các ước tính.
Phương pháp ols sẽ chọn hệ số hồi quy alpha và beta để giảm thiểu sai số bình phương của mô hình ước lượng.
Do đó, mục đích của phương pháp hồi quy ols là ước tính alpha và beta sao cho s đạt giá trị nhỏ nhất.
Tới đây, chúng ta quay lại việc giải bài toán tìm cực tiểu của hàm số s. Bạn có nhớ cách giải bài toán này mà chúng ta đã học ở trường trung học không?
Bước 1: Chúng ta sẽ lần lượt lấy đạo hàm bậc nhất của s theo số mũ alpha và số mũ beta.
Bước 2: Chúng ta quy các đạo hàm về 0 và tính toán các số mũ alpha và beta trên x và y.
Quá trình tính toán này phức tạp hơn nên tôi không giới thiệu ở đây. Nếu bạn quan tâm, chúng ta có thể tìm thêm thông tin trên google. Tìm kiếm theo thuật ngữ: lấy công thức ước lượng bình phương nhỏ nhất hoặc lấy hệ số ols.
Kết quả của bước 2 sẽ giúp chúng ta tính được hàm mũ alpha và beta như sau:
Cấp độ x và cấp độ y là giá trị trung bình của x và y đối với mẫu nghiên cứu và n là tổng số quan sát trong mẫu nghiên cứu.
Các ước tính alpha và beta thu được khi chạy hồi quy ols trong stata sẽ được tính toán như sau.
Làm cách nào để chạy mô hình hồi quy ols trong stata?
Việc chạy một mô hình ols trong stata rất đơn giản, sử dụng lệnh hồi quy (hoặc reg).
Trước khi chạy hồi quy, chúng ta cần thiết lập dữ liệu – điều này có nghĩa là chúng ta phải cho Stata biết rằng dữ liệu chúng ta đang làm việc là dữ liệu chuỗi thời gian, dữ liệu một mức (mặt cắt ngang) hoặc dữ liệu cắt theo bảng. Bạn có thể xem bài viết về các loại dữ liệu từ nghiên cứu tại đây. Nếu dữ liệu đã được cắt ngang thì chúng ta không cần thực hiện bước này.
- Nếu là dữ liệu chuỗi thời gian, chúng ta cần sử dụng lệnh tsset như sau:
- Nếu là dữ liệu bảng, chúng ta cần sử dụng lệnh xtset như sau:
biến thời gian tsset
time_var là một biến mô tả thời gian trong tập dữ liệu.
xtset id_var time_var
id_var là biến đại diện cho đối tượng quan sát được trong tập dữ liệu
Lưu ý: Biến id_var phải là một biến số.
Nếu mẫu dữ liệu không có biến id cần thiết (có biến id kiểu chuỗi), bạn có thể sử dụng lệnh egen để tạo id số.
egen id=group(id_stringvar)
id_stringvar là một biến id thể hiện, bao gồm tên công ty, tên quốc gia, tên thành phố và các dữ liệu khác.
Sau bước khai báo dữ liệu, chúng ta có thể chạy hồi quy bằng lệnh hồi quy.
reg biendoclap1 biendoclap2 biendoclap3 …
Tôi đã chụp một hình ảnh hiển thị kết quả chạy ols từ hướng dẫn sử dụng stata.
Theo mô hình này, ta tìm được mối quan hệ giữa biến phụ thuộc mpg (dặm/gallon) và hai biến độc lập weight (trọng lượng của ô tô), nước ngoài (ô tô là của nước ngoài hay ô tô trong nước).
Thông thường trước tiên chúng ta cần quan tâm đến 3 vấn đề: hệ số hồi quy có ý nghĩa thống kê hay không, mô hình có ý nghĩa không và mô hình có được giải thích tốt hay không.
Đầu tiên hãy kiểm tra các giả định về hệ số hồi quy. Chúng ta có nên kiểm tra xem các hệ số hồi quy có ý nghĩa thống kê hay không?
Giả định của chúng tôi là beta = 0. Mục tiêu của chúng tôi là bác bỏ giả thuyết này. Nghĩa là, beta thực sự khác không và chúng ta có thể sử dụng beta ước tính để giải thích ảnh hưởng của biến độc lập x đối với những thay đổi của biến phụ thuộc y. Để thực hiện kiểm định này, chúng ta có thể sử dụng thống kê t hoặc thống kê z hoặc giá trị p tương ứng.
Chúng tôi thấy rằng hệ số hồi quy cho biến trọng số là -0,0066, tương ứng với giá trị p là 0,000. Điều này có nghĩa là biến trọng số có tác động tiêu cực (có ý nghĩa thống kê) đến biến phụ thuộc. Nói cách khác, xe càng nặng thì càng tốn nhiều nhiên liệu.
Hệ số hồi quy của biến ngoại lai là -1,6500, tương ứng với giá trị p là 0,130. Giá trị p này lớn hơn 0,1, vì vậy tác động ngoại lai lên mpg không có ý nghĩa thống kê. Nói cách khác, dù là xe nhập khẩu hay xe trong nước, nếu các thông số kỹ thuật khác giống nhau thì mức tiêu hao nhiên liệu cũng như nhau.
Vấn đề thứ hai là kiểm định mô hình, còn được gọi là kiểm định f.
Giả định của phép thử này là tất cả các hệ số hồi quy đều bằng 0. Ví dụ beta 1 = beta 2 =….= beta k = 0. Cũng đồng nghĩa nếu giả thuyết không bị bác bỏ. Không có ý nghĩa thống kê với mô hình. Do đó, chúng tôi cũng muốn bác bỏ giả thuyết này. Để thực hiện kiểm tra này, chúng tôi sử dụng thống kê f hoặc giá trị p tương ứng.
Từ bảng kết quả ở trên, chúng ta thấy rằng giá trị f được tính toán là 69,75, tương ứng với giá trị p là 0,000. Vì vậy, tạm thời chúng ta có thể yên tâm rằng mô hình này có ý nghĩa thống kê.
Cuối cùng, chúng ta kiểm tra giá trị của r-squared. r2 đại diện cho tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi mô hình. r2 thường nhận giá trị từ 0 đến 1.
Nhưng có một vấn đề với r2 là mô hình càng đưa nhiều biến độc lập vào thì giá trị của r2 càng lớn. Việc thêm nhiều biến vào mô hình có thể làm cho mô hình dễ bị biến dạng hoặc các bệnh khác của mô hình. Vì vậy, chúng ta nên sử dụng hiệu chỉnh r2. Trong kết quả minh họa ta thấy r2 hiệu chỉnh có giá trị là 65,32%.
Một câu hỏi mà chúng tôi thường đặt ra là điều gì tạo nên một bình phương r tốt. Câu trả lời cho câu hỏi này phụ thuộc vào nó. Giá trị r2 phụ thuộc vào đối tượng nghiên cứu. Có tác giả mong muốn hệ số r2 đạt trên 90%, nhưng cũng có nghiên cứu với r2 quanh mức 10% đã được coi là tốt. Do đó, chúng ta nên đào sâu vào các bài đánh giá nghiên cứu để dễ dàng so sánh kết quả của chúng tôi với kết quả của các nghiên cứu trước đây.
Tuy nhiên, sau ba giai đoạn thử nghiệm này, chúng tôi vẫn không chắc liệu mô hình có thể sử dụng được hay không. Chúng ta cần kiểm tra xem mô hình có bệnh không. Các bệnh/lỗi thường gặp của mô hình bao gồm đa cộng tuyến, biến sai, ngoại sinh, tự tương quan, sai số hàm, v.v. Bạn có thể đọc một bài viết tổng quan về lỗi mô hình ols. đây là.
ad sẽ tiếp tục giới thiệu bệnh của người mẫu, cách phát hiện và cách xử lý trong các bài viết tiếp theo.
Nhấp để truy cập rregress.pdf