No category

پایان نامه ارشد رایگان درباره رگرسیون، ضرایب رگرسیونی، مدل‌های رگرسیونی، متغیر وابسته

دسامبر 1, 2018

استفاده از گاوهای نر دارای ارزش اصلاحی می‌باشد (وَن‌رادِن و همکاران، ۲۰۰۹). زیرا این حیوانات دارای ارزش‌های اصلاحی قابل اعتمادی هستند. زمانی که به‌دست آوردن فنوتیپ‌های واقعی وقت‌گیر و پرهزینه باشد، استفاده از ارزش‌های اصلاحی قابل اعتماد می‌تواند جایگزین مناسبی باشد. از آنجایی که حیوانات جمعیت مرجع هم باید دارای فنوتیپ و هم ژنوتیپ باشند، تعداد افراد جمعیت مرجع باید ازلحاظ هزینه‌های تعیین ژنوتیپ و رکوردگیری بهینه شود. اگر چه تحقیقات زیادی در خصوص بهینه‌سازی جمعیت مرجع صورت نگرفته است اما از نظر تئوری، جمعیت مرجع باید متشکل از کل دامنه ژنوتیپی و فنوتیپی نژاد یا توده باشد که منجر به برآورد دقیق و قابل اعتمادی شود. بنابراین جمعیت مرجع باید تا حد امکان معرف مناسبی از کل جمعیت باشد.
استراتژی دیگر استفاده از حیواناتی در جمعیت مرجع است که خویشاوندی نزدیکی با افراد کاندیدا داشته باشند که این امر منجر به افزایش صحت ارزش‌های اصلاحی خواهد شد (هابیَر و همکاران، ۲۰۰۷). این حالت نشان می‌دهد که در خصوص جمعیت مرجع ویژه لاین، برای دستیابی به برآورد دقیق ارزش‌های اصلاحی برای هر لاین، جمعیت مرجع باید دارای تعدادی فرد از هر لاین باشد. به‌عبارتی‌دیگر، جمعیت مرجع باید از همه لاین‌ها تشکیل شده باشد. دلیل احتمالی آن این است که ترکیب افراد از خانواده‌ها و لاین‌های مختلف باعث می‌شود که تمام LD هایی که در این خانواده‌ها یا لاین‌ها پایدار هستند در معادلات پیش‌بینی استفاده شوند. البته تنها درصورتی این امکان وجود دارد که تراکم نشانگری به‌اندازه کافی بالا باشد به‌طوری که هر QTL حداقل با یکی از نشانگرها در سطح بالایی از عدم تعادل لینکاژی در خانواده‌ها و نژادها باشد. دِروس و همکاران (۲۰۰۸b) نشان داد که به‌منظور پیش‌بینی دقیق ارزش‌های اصلاحی ژنومی برای نژاد جرسی با استفاده از معادلات پیش‌بینی بر اساس یک جمعیت مرجع گاوهای هلشتاین، حداقل ۳۰۰۰۰۰ SNP مورد نیاز است در حالی که تراشه‌های موجود (۵۰K) برای ارزیابی‌های داخل نژادی (یا به عبارتی برای همان نژاد) کارآمد هستند.
همچنین می‌توان از حیوانات تجاری برای تشکیل جمعیت مرجع استفاده کرد. مزیت این حالت این است که می‌توان اطلاعات فنوتیپی صفاتی را که معمولاً در حیوانات اصلاحی رکورد برداری نمی‌شوند، به‌راحتی جمع‌آوری کرد. از این قبیل صفات می‌توان به صفات کیفیت لاشه، مصرف خوراک، پاسخ به چالش‌های بیماری و عملکرد تحت شرایط مدیریت و پرورش تجاری اشاره کرد. برای مثال در کشورهای در حال توسعه، جمعیت مرجع می‌تواند بیشتر تحت شرایط روستایی (نسبت به شرایط غیر معمول و غیر متعارف گله‌های اصلاحی) مدیریت شوند (گُدارد و هِیز، ۲۰۰۷).
۲-۸- مزایای انتخاب ژنومی
انتخاب ژنومی فاقد محدودیت‌هایی است که در کاربرد روش‌های BLUP و انتخاب به کمک نشانگر وجود داشت. در همین زمان اندک (از زمان ارایه تراشه‌های DNA تاکنون) انتخاب ژنومی توانسته است نرخ پیشرفت ژنتیکی در حیوانات اهلی را افزایش دهد (وِیگِل و همکاران، ۲۰۱۰). افزایش در صحت پیش‌بینی‌های ژنومی، به‌ویژه در رابطه با گاوهای نر جوان در مرحله قبل از ورود به آزمون نتاج به خوبی مشاهده شده است (شِفِر، ۲۰۰۶). به علاوه، می‌تواند اطلاعات قابل اعتمادتری نیز از حیوانات ماده به‌دست آورد که می‌تواند منجر به پیشرفت ژنتیکی بیشتری از طریق مسیر انتخاب گاوهای ماده شود. مطالعات مختلفی استفاده از تراشه‌های DNA در جلوگیری از کاهش پیشرفت ژنتیکی و افزایش پنهانی همخونی ناشی از اشتباه در شجره را، سودمند ارزیابی کردند. نتایج اولیه انتخاب ژنومی در گاوهای شیری در استرالیا نشان داد که ارزش‌های اصلاحی ژنومی برآورد شده به‌طور قابل توجهی بیشتر از ارزش‌های اصلاحی برآورد شده به روش سنتی می‌باشند حتی اگر تعداد افراد در جمعیت مرجع کم (در حدود ۶۰۰ راس) باشد (هِیز و همکاران، ۲۰۰۹).
یکی دیگر از مزیت‌های انتخاب ژنومی نسبت به مدل‌های تک SNP این است که تمام SNP ها به‌طور همزمان برازش می‌شوند. این ویژگی اجازه می‌دهد که اگر زمانی که چندین SNP با یک QTL در حالت عدم تعادل لینکاژی باشند از تمام اطلاعات استفاده شود. همچنین برای هر نوع ساختار جمعیتی قابل استفاده بوده و از طرف دیگر منجر به کاهش نتایج مثبت دروغین خواهد شد (دِکرز، ۲۰۱۲).
۲-۹- روش‌های آماری پیش‌بینی ژنومی
به‌منظور استفاده از اطلاعات ژنومی در اصلاح دام، لازم است که اثر هر جایگاه برآورد، و در نهایت جایگاه‌های دارای جهش علّی (و یا مرتبط با جهش علّی) تشخیص داده شود. با استفاده از پانل‌های خیلی متراکم SNP تعداد نشانگرها از تعداد رکوردها خیلی بیشتر خواهند بود. برازش مدل‌های رگرسیونی p زیاد (تعداد مجهولات: اثرات نشانگری) و n کم (تعداد معلومات: مشاهدات فنوتیپی) به روش‌های انتخاب متغیر و یا افت برآوردها نیاز دارد. رگرسیون ارزش‌های ژنوتیپی از مشاهدات فنوتیپی به‌صورت تقریبی از ارزش‌های ژنتیکی حقیقی است که می‌تواند تابع پیچیده‌ای از ژنوتیپ حیوان در تعداد بسیار زیادی ژن و نیز اثر متقابل پنهانی ژن‌ها با هم و نیز ژن‌ها با محیط باشد. بنابراین، مقادیر باقیمانده مدل‌های رگرسیونی کل ژنوم، یک متغیر تصادفی است که اثرات غیر ژنتیکی، به اضافه خطاهای تقریبی است که می‌تواند ناشی از LD ناقص بین نشانگرها و QTL و یا به علت نقص مدل (در نظر نگرفتن اثرات متقابل) باشد.
با در نظر گرفتن ژنوتیپ در جایگاه‌های مورد مطالعه به‌عنوان اثر مستقل در یک مدل رگرسیون خطی می‌توان نوشت:
که در این مدل، y متغیر وابسته یا فنوتیپ i اُمین فرد، µ عرض از مبداء مدل یا اثر مشترک تمام افراد، xij متغیرهای مستقل (ژنوتیپ نشانگرها) بوده، ?j نیز اثر jاُمین کوواریت و ei اثرات تصادفی باقیمانده می‌باشد. فرم ماتریسی مدل فوق بدین‌صورت می‌باشد:
که y بردار فنوتیپ‌ها، ماتریس ضرایب برای بردار ضرایب رگرسیونی و بردار ضرایب رگرسیونی و بردار اثرات باقیمانده می‌باشد.
برآوردهای حداقل مربعات ضرایب بدین‌صورت می‌باشد:
که مجموع مربعات باقیمانده می‌باشد.
میانگین حداقل مربعات یک برآورد گر بدین‌صورت بیان می‌شود: که در این حالت مقدار واقعی پارامتر و مقدار برآورد شده می‌باشد MSE را می‌توان به دو مؤلفه تجزیه کرد:
که و به‌ترتیب مربع اریبی و واریانس برآوردگرها می‌باشند.
مقادیر مورد انتظار برآوردهای حداقل مربعات ضرایب رگرسیون برابر است با:
در صورتی که و باشد در نتیجه برآوردهای حداقل مربعات، برآوردهای نااریبی از ضرایب رگرسیونی را می‌دهد.
بخش دوم فرمول MSE، که واریانس برآوردگرها می‌باشد بیانگر تفاوت و تنوع برآوردگرها در نمونه‌گیری‌های متعدد می‌باشد. ماتریس واریانس-کواریانس برآوردهای حداقل مربعات ضرایب رگرسیون به این صورت می‌باشد:
که واریانس باقیمانده مدل می‌باشد. بنابراین MSE مربوط به j اُمین ضریب تابعیت برابر است با . که در ماتریس مذکور j اُمین عنصر قطری معکوس ماتریس ضرایب می‌باشد. این ماتریس به‌عنوان ماتریس C و به این صورت تعریف می‌شود:.
واریانس برآوردهای حداقل مربعات تحت تاثیر ۴ عامل قرار می‌گیرد: ۱) اندازه نمونه (n). 2) تعداد پیش‌بینی کننده‌ها (برآوردگرها). ۳) درجه وابستگی بین پیش‌بینی کننده‌ها ۴) واریانس باقیمانده.
زمانی که تعداد برآوردگرها از تعداد مشاهدات (متغیر وابسته) بیشتر باشد برآوردهای حداقل مربعات بی‌نظیر (unique) نخواهند بود. این حالت در رابطه با ارزیابی‌های مبتنی بر ژنوم به‌خوبی صدق می‌کند به‌طوری‌که تعداد پارامترهای برآورد شده (نشانگرهای متراکم در یک تراشه، p) در مقایسه با تعداد مشاهدات (n) خیلی بیشتر است. برای مثال در یک تراشه ۶۰K SNP و تعداد ۲۰۰۰ رکورد فنوتیپی در جمعیت مرجع، تعداد اثرات نشانگری که باید برآورد شوند ۳۰ برابر تعداد مشاهدات خواهد بود. ازاین‌رو، در حل معادلات چند مجهولی به‌علت زیاد بودن تعداد مجهولات و کمتر بودن تعداد معادلات، مشکل معکوس کردن ماتریس‌های ضرایب در روش‌های آماری مانند روش حداقل مربعات معمولی پیش می‌آید. به‌طوری‌که معکوس مستقیم این ماتریس‌ها امکان پذیر نیست. لذا به‌منظور فایق آمدن بر این مشکل دو راهکار پیشنهاد شده است:
۲-۹-۱- انتخاب متغیر: مشکل انتخاب k برآورگر از p برآوردگر (که kp) را می‌توان به‌عنوان مشکل مقایسات مدل‌ها تلقی کرد. به‌طوری‌که در حالت ایده‌آل، ما قصد داریم تمام مدل‌های ممکن را برازش نموده و مطابق با معیارهای انتخاب مدل (معنی داری، ضریب تبیین، آزمون نسبت درستنمایی، AIC و غیره) بهترین مدل را انتخاب کنیم. اما زمانی که p بالا می‌رود برازش تمام مدل‌ها امکان‌پذیر نیست. به‌جای آن می‌توان از الگوریتم‌های جستجو استفاده کرد. یک الگوریتم جستجوی خیلی ساده، برازش تک تک برآورگرها در یک مدل و به‌طور جداگانه است (تابعیت تک نشانگری). هرکدام از این مدل‌ها مقدار خاصی از ارتباط بین نشانگر و فنوتیپ‌ها را ارایه می‌دهد (مانند p-value). بنابراین، میتوان مدل نهایی را بر اساس k اُمین برآوردگر اول مطابق با مقدار ارتباط تشکیل داد. این روش امروزه در مطالعات ارتباطی کل ژنوم (GWAS) به‌طور متداول استفاده می‌شود.
۲-۹-۲- افت برآورد: زمانی که تعداد مشاهدات (n) خیلی کم و تعداد برآوردگرها (p) خیلی زیاد باشد برآوردهای حداقل مربعات واریانس بالایی دارند و درنتیجه MSE نیز بالا می‌رود. در این حالت صحت پیش‌بینی مدل کاهش می‌یابد. به‌منظور مقابله با این مشکل، برآوردهای جریمه‌ای ضرایب رگرسیون طراحی شده است. ایده اصلی، کاهش MSE به‌وسیله کاهش واریانس برآوردگرها می‌باشد هرچند که برآوردهای اریبی حاصل شود. یک روش رایج استفاده از برآوردهای جریمه شده، رگرسیون ریج می‌باشد. این برآوردها در یک مدل بهینه حاصل می‌شود که در این صورت، بین نیکویی برازش مدل و پیچیدگی مدل یک تعادل برقرار می‌شود. فرم کلی مدل بهینه به این صورت می‌باشد:
که در این مدل تابع ضرر می‌باشد که عدم برازش مدل بر داده‌ها را اندازه‌گیری می‌کند، میزان پیچیدگی مدل می‌باشد و پارامتر تنظیم کننده می‌باشدکه کنترل کننده تعادل بین برازش و پیچیدگی مدل می‌باشد.
اگر برابر با مجموع مربعات خطا باشد.
و نیز برابر مجموع مربعات ضرایب رگرسیونی باشد. به‌طورمعمول، برخی از ضرایب رگرسیونی جریمه نمی‌شوند و بنابراین:
که S مجموعه ای از ضرایب را بیان می‌کند که باید جریمه شوند.
در حالتی که به سمت صفر میل کند برآوردهای مدل فوق همان برآوردهای حداقل مربعات خواهند بود. مدل فوق را می‌توان در فرم ماتریسی به این صورت نوشت:
که برابر است با مجموع مربعات خطا و برابر است با مجموع مربعات ضرایب رگرسیونی. در اینجا برابر است با: . که ماتریسی قطری است که

No Comments

Leave a Reply