بررسی روش های مختلف برآوردیابی در رگرسیون ریج
در رگرسیون خطی چندگانه، موضوع هم خطی چندگانه مشکلاتی را برای برآوردگر حداقل مربعات پارامتر به وجود می آورد. در این پایان نامه، ضمن ارائه این مشکلات، تلاش می شود که برآوردگرهای اریبی مانند برآوردگر حاصل از رگرسیون ریج و یا برآوردگر لیو جایگزین برآوردگرهای حاصل از کمترین مربعات نماییم. این برآوردگرها اغلب دارای یک پارامتر اریبی k یا d هستند. می توان با انتخاب مناسب k یا d برآوردگری با میانگین مربعات خطای کمتری نسبت به برآوردگر حداقل مربعات بدست آورد. روش های مختلف برآورد کردن پارامتر اریبی در رگرسیون ریج معمولی را ارائه داده و سپس با استفاده از این روش ها، برآوردگرهای تعدیل یافته جدیدی بدست می آوریم. برآوردگر ریج خطی شده را معرفی کرده و با استفاده از معیار ، به بهینه کردن این برآوردگر و دو نسخه تعمیم یافته برآوردگر لیو می پردازیم. در پایان به وسیله یک مطالعه شبیه سازی و یک سری داده واقعی، عملکرد برآوردگرهای معرفی شده را با هم مقایسه می کنیم.
Abstract
A Survey on Different Estimation Methods in the Ridge Regression
In Multiple linear Regression models, multicollinearity caused some problems for least squares estimator of the
model’s parameter. In this thesis, we present these problems. moreover, we attempted to replace biased estimators which are obtained from ridge regression or liu estimation process by the estimators which are obtained by least squares method. It is essential to note that these estimators have a biased parameter, k or d. by an appropriate selection of k or d, we can find an estimator with minimum mean square error property relative to ordinary least squares estimator. We also present methods of estimating biased parameter in ordinary ridge regression and than from these methods, new modify estimators are obtained. we introduce a Linearized Ridge Regression estimator and using PRESS criterion, we optimaize this estimator and also two versions of Generalized Liu estimators. At last, using a simulation study and a real set of data, we compare performance of given estimators.
تاریخچه و تعاریف مقدماتی
در این فصل به تعاریف و مقدمات لازم از جمله مدل رگرسیونی چند گانه، مفهوم هم خطی چند گانه، رگرسیون ریج و غیره که در فصل های بعد به آن نیاز داریم، خواهیم پرداخت.
1-1– رگرسیون خطی چندگانه
تحلیل رگرسیون فن و تکنیکی آماری برای بررسی و به مدل درآوردن ارتباط بین متغیرها است. واژه رگرسیون اولین بار توسط فرانسیس گالتون در سال 1877 معرفی شد. رگرسیون تقریباً در هر زمینهای از جمله مهندسی، فیزیک ، اقتصاد، مدیریت، علوم زیستی، علوم اجتماعی و غیره کاربرد دارد. هدف این است كه رابطه بین یكی از متغیرها (متغیر پاسخ)، با متغیرهای دیگر (متغیرهای رگرسیونی) بررسی شود.
مدل رگرسیونی که مشتمل بر بیش از یک متغیر رگرسیونی(مستقل) باشد، مدل رگرسیون چندگانه نامیده می شود.(رضوی پاریزی (1382)).
مدل استاندارد برای رگرسیون خطی چندگانه به صورت زیر می باشد:
(1-1)
که در آن
= ε
بردار از متغیر پاسخ، ماتریس با رتبه از متغیرهای رگرسیونی (ماتریس طرح)، β بردار از پارامترهای مجهول و بردار تصادفی خطاها است.
رگرسیون خطی چندگانه بر این فرض ها استوار است:
1- در نتیجه
2- در نتیجه .
در یک مدل رگرسیون خطی چندگانه، ابتدا باید بردار را برآورد کردکه یکی از روش های برآوردیابی، روش حداقل مربعات می باشد که در زیر به آن می پردازیم.