|
|
ارزیابی ژنومی روش ماشین بردار پشتیبان و روشهای رایج پیشبینی ژنومی در بروز متفاوت فنوتیپ آستانهای مطالعه شبیهسازی
|
|
|
|
|
نویسنده
|
نادری یوسف
|
منبع
|
پژوهش در نشخواركنندگان - 1398 - دوره : 7 - شماره : 4 - صفحه:17 -32
|
|
|
چکیده
|
سابقه و هدف: بسیاری از صفات برجسته در دامهای اهلی شامل: مقاومت به بیمارها و سختی زایش مشمول یک توزیع طبقه بندی از فنوتیپ هستند. این صفات به علت اهمیت در آسایش حیوان و گرایشات انسانی به تولیدات با کیفیت بالا و سالم از اهمیت ویژهای در اصلاح دام برخوردار میباشند. بنابراین شناسایی و تشخیص واریانت های ژنتیکی موثر بر صفات آستانهای اعم از مقاومت به بیماری یکی از اهداف اصلی در ژنتیک حیوانی است. در این راستا گزینش ژنومی میتواند نقش مهمی در افزایش پیشرفت ژنتیکی صفات آستانهای ایفا کند. هدف از تحقیق حاضر، ارزیابی سطح زیر منحنی مشخصه عملکرد (auroc) ژنومی روشهای ماشین بردار پشتیبانی (svm)، gblup و بیز لاسو (lasso) برای نرخ مختلف توزیع فنوتیپ دودویی در جمعیت مرجع بود.مواد و روشها: یک جمعیت پایه 1000 راسی برای 1000 نسل با استفاده از نرم افزار qmsimشبیهسازی شد. جمعیتهای ژنومی برای سطوح مختلف وراثتپذیری (0.05 و 0.2)، عدم تعادل پیوستگی (0.221 و 0.435) و تعداد متفاوت جایگاه صفات کمی (100 و 1000) بر روی 29 کروموزوم شبیهسازی شدند. جهت ایجاد نسبتهای مختلف فنوتیپ آستانهای دودویی، فنوتیپ افراد جمعیت مرجع وابسته به این که باقیمانده آنها کمتر از میانگین باقیمانده (e ̅ : رویکرد اول)، e ̅〖1sd〗_e (رویکرد دوم) یا e ̅〖+1sd〗_e باشد کد یک (فنوتیپ نامطلوب) و سایر حیوانات کد صفر (فنوتیپ مطلوب) اختصاص داده شدند. جهت آنالیز دادههای شبیهسازی شده سه مدل آماری شامل: svm، بیز لاسو و gblup به کار گرفته شد.نتایج: بهترین نرخ آستانه جمعیت مرجع هنگامی بود که فنوتیپ نامطلوب این مجموعه نسبتی نزدیک به شرایط واقعی داشت (1〖sd〗_ee ̅) و منجر به ایجاد بیشترین سطح زیر منحنی مشخصه عملکرد در روشهای ماشین بردار پشتیبانی، بیز لاسو و gblup شد. بیشترین (0.813) و کمترین (0.521) میزان سطح زیر منحنی مشخصه عملکرد برای روش ماشین بردار پشتیبانی مشاهده شد. به طور کلی وراثت پذیری صفت عاملی موثر بر سطح زیر منحنی مشخصه عملکرد ژنومی روشهای آماری ماشین بردار پشتیبانی، بیز لاسو و gblup بود. به طوری که با افزایش وراثت پذیری سطح زیر منحنی مشخصه عملکرد ژنومی در هر سه روش آماری افزایش یافت. میانگین ldبرای جمعیتهای lld و hld در فاصله 0.05 سانتی مورگان به ترتیب 0.221 و 0.435 بود و سطح زیر منحنی مشخصه عملکرد ناشی از روشهای gblup، بیز lasso و ماشین بردار پشتیبانی با افزایش سطح عدم تعادل پیوستگی افزایش یافت. نتایج این تحقیق نشان داد که سطح بالای ld میان qtlها و نشانگرها، باعث افزایش احتمال نمونهگیری نشانگرهای مجاور در روشهای باز نمونهگیری میشود، که این امر عملکرد مثبت ماشین بردار پشتیبانی را به همراه داشت.با وجود سطح زیر منحنی مشخصه عملکرد ژنومی بالاتر بیز لاسو و gblup در جمعیتهای مختلف، هنگامی که صفات گسسته توسط تعداد زیادی qtl کنترل شدند، روش ماشین بردار پشتیبانی عملکرد بهتری داشت.نتیجهگیری: علیرغم نقش مهم نرخ توزیع فنوتیپ دودویی در جمعیت مرجع، بهترین پیشبینی سطح زیر منحنی مشخصه عملکرد ژنومی صفات گسسته دودویی روش ماشین بردار پشتیبانی به ساختار ژنتیکی جمعیت مورد آنالیز و پارامتر جریمه وابسته بود.
|
کلیدواژه
|
بیز لاسو، سطح زیر منحنی مشخصه عملکرد، صحت ژنومی، یادگیری ماشین
|
آدرس
|
دانشگاه آزاد اسلامی واحد آستارا, باشگاه پژوهشگران جوان و نخبگان, گروه علوم دامی, ایران
|
پست الکترونیکی
|
yousefnaderi@gmail.com
|
|
|
|
|
|
|
|
|
Genomic evaluation of support vector machine and common genomic prediction methods in different prevalence of threshold phenotype- A simulation study
|
|
|
Authors
|
|
Abstract
|
Background and objectives: Many prominent traits in livestock including disease resistance and dystocia, present a classification distribution of phenotypes. These traits are important in animal breeding due to importance of animal welfare and human tendency for healthy and high quality products. Therefore, identifying and characterizing the genetic variants that impact threshold traits, ranging from disease susceptibility, is one of the central objectives of animal genetics. In this regard, genomic selection can have an important role in increasing the genetic progress of the threshold traits. The objective of current study was genomic evaluation of area under receiver operating characteristic curve (AUROC) of support vector machine (SVM), GBLUP and Bayes LASSO methods for different rates of binary phenotype distribution in training set.Materials and methods: A population of 1000 animals genotyped for 10,000 markers was simulated using QMSim software. Genomic population were simulated to reflect variations in heritability (0.05 and 0.2), number of QTL (100 and 1000) and linkage disequilibrium (low and high) for 29 chromosomes. In order to create different rates of discrete phenotype, the animal’s phenotype of training set was coded as 1 (inappropriate phenotype) depending on whether their phenotype residuals was less than the average of residuals (e ̅), e ̅ 1〖SD〗_eor e ̅+ 1〖SD〗_efor the first, second and third approaches, respectively, and other individuals was defined as code 0 (appropriate phenotype). Three statistical models were implemented to analyze the simulated data including SVM, GBLUP and Bayes LASSO methods.Results: Optimal training sets were characterized by inappropriate phenotype rate that were similar to the population real, leading to the highest AUROC in SVM, GBLUP and Bayes LASSO methods, in which concluded for e ̅ 1〖SD〗_e threshold point to the training set. The highest (0.813)and lowest(0.521) AUROC were observed for SVM method.Generally, heritability of trait was a factor affecting on genomic AUROC of SVM, GBLUP and Bayes LASSO methods; so that we recognized an increase in genomic AUROC with increase in heritability in all three statistical methods. Average r2 in the low and high LD scenarios was 0.221 and 0.435 at distances of 0.05 cM and the results showed an increase in genomic AUROC using GBLUP, Bayes LASOO and SVM methods with increasing in linkage disequilibrium. The result of current study showed that high level of LD between SNP and QTLs increased the probability of adjacent markers sampling for resampling methods. Therefore, this resulted in a positive performance of SVM. Despite of the higher AUROC of GBLUP and Bayes LASSO methods at different scenarios, SVM method showed a better performance when discrete traits were controlled by a large number of QTLs.Conclusions: Despite the important role of different rates of binary phenotype distribution in training set, SVM method to predict genomic AUROC of discrete traits depends on genetic basis of the population analyzed and cost parameter.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|