رگرسیون چند متغیره

اجرای رگرسیون

با کلیک بر روی “اجرای برنامه” می توانید بصورت آنلاین داده های خود را وارد نموده و بلافاصله نتیجه برازش رگرسیونی را در فایل ورد با شرح ضرایب برازش شده  و آزمونهای معنی داری مدل دریافت کنید

اجرای برنامه

آشنايي با رگرسيون

در سال ۱۸۷۷ فرانسیس گالتون  در مقاله‌ای که درباره بازگشت به میانگین منتشر کرده‌بود اظهار داشت که متوسط قد پسران دارای پدران قدبلند، کمتر از قد پدرانشان می‌باشد. به نحو مشابه متوسط قد پسران دارای پدران کوتاه‌قد نیز، بیشتر از قد پدرانشان گزارش شده‌است. به این ترتیب گالتون پدیده بازگشت به طرف میانگین را در داده‌هایش مورد تأکید قرارداد. برای گالتون رگرسیون مفهومی زیست‌شناختی داشت، اما کارهای او توسط کارل پیرسون برای مفاهیم آماری توسعه داده‌شد. گرچه گالتون برای تأکید بر پدیده «بازگشت به سمت مقدار متوسط» از تحلیل رگرسیون استفاده کرد، اما به هر حال امروزه واژه تحلیل رگرسیون جهت اشاره به مطالعات مربوط به روابط بین متغیرها به کار برده‌می‌شود.

 

تحلیل رگرسیون

تحلیل رگرسیونی یا تحلیل وایازشی فن و تکنیکی آماری برای بررسی و مدل‌سازی ارتباط بین متغیرها است. رگرسیون تقریباً در هر زمینه‌ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیش‌بینی مورد نیاز است.

تحلیل رگرسیونی، یکی از پرکاربردترین روشها در بین تکنیک‌های آماری است.

در تحقیقاتی که از تحلیل رگرسیون استفاده می شود، هدف معمولا پیش بینی یک یا چند متغیر ملاک از یک یا چند متغیر پیش بین است. چنانچه هدف پیش بینی یک متغیر ملاک از چند متغیر پیش بین باشد از مدل رگرسیون چندگانه استفاده می‌شود. در صورتی که هدف، پیش بینی همزمان چند متغیر ملاک از متغیرهای پیش بین یا زیر مجموعه ای از آنها باشد از مدل رگرسیون چند متغیری استفاده می‌شود. در تحقیقات رگرسیون چندگانه هدف پیدا کردن متغیرهای پیش بینی است که تغییرات متغیر ملاک را چه به تنهایی و چه مشترکا پیش بینی کند. ورود متغیرهای پیش بین در تحلیل رگرسیون به شیوه های گوناگون صورت می‌گیرد. در این جا سه روش اساسی مورد بحث قرار می‌گیرد:

الف) روش همزمان،    ب)روش گام به گام،     ج) روش سلسله مراتبی.

در روش همزمان تمام متغیرهای پیش بین با هم وارد تحلیل می‌شود. در روش گام به گام اولین متغیر پیش بین بر اساس بالاترین ضریب همبستگی صفرمرتبه با متغیر ملاک وارد تحلیل می‌شود. از آن پس سایر متغیرها پیش بین بر حسب ضریب همبستگی تفکیکی (جزئی) و نیمه تفکیکی (نیمه جزئی) در تحلیل وارد می‌شود. در این روش پس از ورود هر متغیر جدید ضریب همبستگی نیمه تفکیکی یا تفکیکی ، تمام متغیرهایی که قبلا در معادله وارد شده اند به عنوان آخرین متغیر ورودی مورد بازبینی قرار می‌گیرد و چنانچه با ورود متغیر جدید معنی داری خود را از دست داده باشد، از معادله خارج می‌شود. به طور کلی در روش گام به گام ترتیب ورود متغیرها در دست محقق نیست.

در روش سلسله مراتبی ترتیب ورود متغیرها به تحلیل بر اساس یک چارچوب نظری یا تجربی مورد نظر محقق صورت می‌گیرد. به عبارت دیگر پژوهشگر شخصا درباره ترتیب ورود متغیرها به تحلیل تصمیم گیری می‌کند. این تصمیم گیری که قبل از شروع تحلیل اتخاذ می‌شود می‌تواند بر اساس سه اصل عمده زیر باشد:

– رابطه علت و معلولی.

– رابطه متغیرها در تحقیقات قبلی.

– ساختار طرح پژوهشی (برای مثال در طرح های عاملی ابتدا اثرهای اصلی و سپس اثرهای متقابل آنها وارد تحلیل می‌شود).

از آن جا که روش تحلیل رگرسیون سلسله مراتبی با توجه به چارچوب نظری یا تجربی وپژه ای صورت می گیرد، در تحقیقات علوم رفتاری از اهمیت خاصی برخوردار است. لازم به تذکر است که برای این گونه تحقیقات آشنایی با روشهای آماری تحلیل رگرسیون الزامی است.

 

 

تعریف لغوی

واژه رگرسیون(Regression) را از لحاظ لغوی در فرهنگ لغت به معنی پسروی، برگشت و بازگشت است. اما از دید آمار و ریاضیات به مفهوم بازگشت به یک مقدار متوسط یا میانگین به‌کار‌می‌رود. بدین معنی که برخی پدیده‌ها به مرور زمان از نظر کمی به طرف یک مقدار متوسط میل می‌کنند.

 

رگرسیون کاذب

رگرسیون کاذب با فرض اینکه متغیرهای و مانا می‌باشند تخمین‌های ما از پارامترها و تست‌های و درست می‌باشد. برای نشان‌دادن سازگاری تخمین‌های حداقل مربعات معمولی، ما از این نتایج زمانی که اندازه نمونه افزایش می‌یابد و واریانس نمونه به واریانس جامعه همگرا می‌شود، استفاده می‌کنیم. متأسفانه وقتی سری نامانا باشد واریانس خوش تعریف نیست، زیرا حول یک میانگین ثابت نوسان نمی‌کند. برای توضیح بیشتر دو متغیر و را در نظر بگیرید که بوسیله یک فرآیند گام تصادفی تعریف می‌شود.

که و دارای توزیع مستقل می‌باشد.هیچ دلیلی برای ارتباط بین و وجود ندارد. یک محقق اگراثر را روی و یک جزء ثابت رگرس کند و رگرسیون زیر را انجام دهد :

خط راست:

نتایج این رگرسیون ممکن است بوسیله r^۲ بالا و خود همبستگی بالا بین باقیمانده‌ها و هم‌جنین دارای ارزش معنی‌داری برای پارامتر باشد. این پدیده به رگرسیون کاذب معروف است. در این گونه از موارد دو سری نامانا ارتباط کاذبی دارند به این علت که که هر دوی آنها در طول زمان تغییر می‌کنند و تابعی از زمانند. هماطور که گراجر و نی یو بلد بیان کردند در این حالت رگرسیون دارای r^۲ بالا؛ و آماره دوربین واتسون پایین خواهدبود و تست‌های و ممکن است خیلی گمراه‌کننده باشند. دلیل آن نیز این است که توزیع‌های آماره‌های تست‌های سنتی خیلی متفاوت از نتایجی که تحت فرض مانایی گرفته‌می‌شود، می‌باشد. بخصوص همانطور که فلیپس (۱۹۸۷)نشان داد؛ همانطور که اندازه نمونه افزایش می‌یابد نمی‌توان به معنی‌داری تخمین زن حداقل مربعات معمولی و آماره‌های تست‌های و و آماره دوربین واتسون اعتماد کرد. دلیل آن این است که و متغیرهای می‌باشد و جزء خطا نیز یک متغیر نامانا می‌باشد.

اگر ارزش‌های گذشته هر دو متغیر وابسته و مستقل را در رگرسیون وارد کنیم مشکل رگرسیون کاذب حل می‌شود. در این حالت تخمین‌های حداقل مربعات معمولی برای همه پارامترها سازگار می‌باشد.

 

شیوه‌ها

شیوه‌های مهم تحلیل‌های رگرسیونی به شرج زیر هستند.

این تنوع باعث شده‌است که بتوان به راحتی هر نوع داده‌ای (اغلب از نوع داده‌های پیوسته) را تحلیل کرد و به راحتی نتیجه‌گیری نمود.

 

 

محاسبه

برای انجام یک تحلیل رگرسیونی ابتدا تحلیل‌گر حدس می‌زند که بین دو متغیر، نوعی ارتباط وجود دارد، در حقیقت حدس می‌زند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع‌آوری اطلاعات کمی از دو متغیر می‌پردازد و این داده‌ها را به صورت نقاطی در یک نمودار دو بعدی رسم می‌کند.

 

نرم افزارها

نرم افزارهای بسیاری هستند که قابلیت محاسبه رگرسیون را دارند و مشهورترین آنها عبارتند از:

رگرسیون خطی

رگرسیون خطی یا تنازل خطی یا وایازی خطی (Linear regression) یکی از روشهای تحلیل رگرسیون است. در رگرسیون خطّی، متغیّر وابسته ترکیب خطی‌ای از ضرایب (پارامترها) است (لازم نیست که نسبت به متغیرهای مستقل خطی باشد). مثلاً تحلیل رگرسیونی سادهٔ زیر با نقطه، متغیر مستقل و ضرایب و خطی است:

خط راست:

در هر دو حالت، مقدار خطاست و پانویس شمارهٔ هر مشاهده (هر جفت و ) را نشان می‌دهد. با داشتن مجموعه‌ای از این نقطه‌ها می‌توان مدل را به دست آورد:

عبارت مانده نام دارد: . روش رایج برای به‌دست‌آوردن پارامترها، روش کمترین مربعات است. در این روش پارامترها را با کمینه‌کردن تابع زیر به دست می‌آورند:

در مورد رگرسیون ساده، پارامترها با این روش برابر خواهند بود با:

که در آن و میانگین و هستند.

 

 

 

 

 

کلیات رگرسیون خطی ساده

یکی از پرکاربردترین روش های آماری در علوم مختلف، اجرای انواع روش های رگرسیون برای تعیین رابطه ی بین یک متغیر وابسته با یک یا چند متغیر مستقل می باشد . متغیر وابسته ، پاسخ و متغیرهای مستقل ، متغیرهای توضیحی نیز نامیده می شوند. اجرای یک مدل رگرسیونی با تعریف مدل رگرسیون امکان پذیر است. مدل رگرسیون ساده با متغیر وابسته یY وp-1  متغیر مستقل X1,X2,…,Xp-1 به صورت زیر تعریف می شود ،

به عنوان مثال فرض کنید یک محقق قصد دارد اثر دو متغیر سن و وزن را بر فشارخون اندازه گیری نماید. برای این مطالعه مقادیر سن و وزن برای n=500 نفر اندازه گیری می شود. در این مطالعه سن و وزن متغیرهای مستقل یا پیشگو و متغیر فشارخون متغیر وابسته می باشد.

معادله ی (1) را می توان به فرم ماتریسی زیر نیز تعریف کرد:

ماتریسX مقادیر مشاهده شده ی p-1  متغیر را برای n نفر نشان می دهد. بردارY نیز مقادیر مشاهده  شده ی متغیر وابسته برای نمونه ای به حجم n می باشد. در یک مدل رگرسیونی  ها پارامترهای مدل بوده و به کمک روش های مختلفی مانند روش حداقل مربعات و روش درستنمایی ماکزیمم برآورد می شوند.  ها نیز جملات خطا نامیده می شوند و دارای توزیع نرمال با میانگین صفر و واریانس  هستند.

معادله ی رگرسیون با تعریف ماتریس متغیرهای توضیحی و بردارهای متغیر پاسخ ، پارامترهای مدل و جملات خطا به صورت زیر تعریف می شود :

 

برآوردضرایب رگرسیون :به کمک روش حداقل مربعات مقادیر بردار  با می نیمم کردن معادله

حاصل می شود. برآورد بردار   را با  نشان داده و با توجه به فرم ماتریسی تعریف شده در معادله (2) به صورت زیر محاسبه می شود

 

مقادیر برازش شده وخطاها : با برآوردپارامترهای مدل ، برآورد بردارYبا استفاده از رابطه ی

حاصل می شود. به  مقادیر برازش شده گفته می شود.

تفاوت بین مقادیر واقعی و مقادیر برازش شده مانده های رگرسیون نامیده می شوند؛

 

مجموع و میانگین مربعات: برای تهیه ی جدول آنالیز واریانس و بررسی معنی داری مدل برازش داده شده  به معرفی مقادیر مجموع مربعات خطا و میانگین مربعات خطا می پردازیم.

 

مجموع مربعات کل : این مقدار مجموع توان دوم تفاضل هریک از اعضای بردار Y از میانگین این بردار حاصل می شود. مجموع مربعات کل با SSTO نمایش داده شده و به صورت زیر تعریف می شود .

SSTO دارای n-1 درجه آزادی است .

J     ماتریسی n*n است که تمام اعضای آن 1 هستند.

مجموع مربعات رگرسیون : این مقدار میزان  تغییراتی از متغیر پاسخ را که توسط مدل برازش شده تبیین می شود، نشان می دهد. مجموع مربعات رگرسیون دارای p-1 درجه آزادی می باشد:

مجموع مربعات خطا : میزان تغییراتی از متغیر پاسخ که توسط مدل رگرسیون بیان نمی شود ، در مجموع مربعات خطا قرار می گیرد. این عبارت دارای n-p درجه ی آزادی است.

 

ماتریس H به شکل زير تعریف می شود :

با توجه به تعاریف ارائه شده ذکر این نکته لازم به نظر می رسد که مجموع تغییرات متغیر پاسخ به وسیله ی دو جزء مجموع مربعات رگرسیون و مجموع مربعات خطا قابل بیان می باشد.

SSTO=SSR+SSE 

به این ترتیب میانگین مربعات رگرسیون و میانگین مربعات خطا از تقسیم SSR و SSE بر درجه آزادی هریک حاصل می شوند وداریم :

 

 

رگرسیون لجستیک

وایازش لوجستیک یک مدل آماری رگرسیون برای متغیرهای وابسته دوسویی مانند بیماری یا سلامت، مرگ یا زندگی است. این مدل را می‌توان به عنوان مدل خطی تعمیم‌یافته‌ای که از تابع لوجیت به عنوان تابع پیوند استفاده می‌کند و خطایش از توزیع چندجمله‌ای پیروی می‌کند، به‌حساب‌آورد.

این مدل به صورت

است که

 

 

رگرسیون لجستیک، شبیه رگرسیون خطی است با این تفاوت که نحوه محاسبه ضرایب در این دو روش یکسان نمی باشد. بدین معنی که   رگرسیون لجستیک، به جای حداقل کردن مجذور خطاها (کاری که   رگرسیون خطی انجام می دهد)، احتمالی را که یک واقعه رخ می دهد، حداکثر می کند. همچنین، در تحلیل   رگرسیون خطی، برای آزمون برازش مدل و معنی داربودن اثر هر متغیر در مدل، به ترتیب از آماره های Fوt استفاده می شود، در حالی که در   رگرسیون لجستیک، از آماره های کای اسکوئر(X2) و والد[۱]استفاده می شود (مومنی، ۱۳۸۶: ۱۵۸).

آماره کای دو به منظور تعیین میزان اثرگذاری متغیر (متغیرهای مستقل) بر متغیر وابسته و بطور کلی برازش کل مدل است و قابل مقایسه با آماره F در تحلیل رگرسیون معمول است. آزمون والد نیز معنی داربودن متغیرهای وارد شده در معادله رگرسیون را بررسی می کند و قابل مقایسه با آماره t در رگرسیون معمولی است.

در رگرسیون لجستیک از مفهومی به نام نسبت برتری (نسبت که نسبت احتمال وقوع حادثه به احتمال عدم وقوع حادثه مورد نظر است) استفاده شده و لگاریتم نسبت برتری براساس رابطه زیر محاسبه می شود. این مدل به مدل لجیت معروف است.

رگرسیون لجستیک نسبت به تحلیل تشخیصی نیز ارجحیت دارد و مهم ترین دلیل آن است که در تحلیل تشخیصی گاهی اوقات احتمال وقوع یک پدیده خارج از طیف(۰) تا (۱) قرار می گیرد و متغیرهای پیش بین نیز باید دارای توزیع در داخل محدوده (۰) تا (۱) قرار دارد و رعایت پیش فرض نرمال بودن متغیرهای پیش بینی لازم نیست .

 

انواع   رگرسیون لجستیک

همان طور که در ابتدای مبحث تحلیل   رگرسیون لجستیک گفته شد، در   رگرسیون لجستیک، متغیر وابسته می تواند به دو شکل دووجهی و چندوجهی باشد. به همین خاطر، در نرم افزارSPSS شاهد وجود دو نوع تحلیل   رگرسیون لجستیک هستیم که بسته به تعداد مقولات و طبقات متغیر وابسته، می توانیم از یکی از این دو شکل استفاده کنیم:

۱-رگرسیون لجستیک اسمی دووجهی: موقعی است که متغیر وابسته در سطح اسمی دووجهی (دوشقی) است. یعنی در زمانی که با متغیر وابسته اسمی دووجهی سروکار داریم.

۲-رگرسیون لجستیک اسمی چندوجهی: موقعی مورد استفاده قرار می گیرد که متغیر وابسته، اسمی چندوجهی (چندشقی) است

 

 

 

 

 

 

 

 

 

منابع

  1. تحلیل وایازشی [ریاضی] هم‌ارزِ regression analysis (انگلیسی)؛ منبع: گروه واژه‌گزینی و زیر نظر حسن حبیبی، «فارسی»، در (۱۳۷۶-۱۳۸۵)، فرهنگ واژه‌های مصوب فرهنگستان، تهران: انتشارات فرهنگستان زبان و ادب فارسی، شابک۹۷۸-۹۶۴-۷۵۳۱-۷۷-
  2. کتاب مقدمه ای بر مدل های خطی آماری . نوشته ی مایکل کاتنر (Michael H.Kutner) و جان نتر ((John Neter