معلومة

ما الاختبار الذي يجب تطبيقه للكشف عن التوقيعات الجينومية للاختيار؟


أود أن أسألك عن اقتراحاتك لاختيار اختبار لاكتشاف توقيعات التحديد في نموذج الماوس التالي:

لدينا ثلاث مجموعات: الحيوانات التي تظهر الصفة أ ، والسمة ب والضوابط. تم اختيار هذه الحيوانات على مدى العقود الأربعة الماضية (تم تزاوج الضوابط بشكل عشوائي ولا تظهر أيًا من السمات). هذا هو إجمالي 170 جيلًا (حوالي 4 أجيال في السنة).

نريد الكشف عن التواقيع الجينومية لانتقاء الصفتين A و B.

أنا جديد في علم الجينوم السكاني ، لكن وفقًا لهذه الورقة (http://www.ncbi.nlm.nih.gov/pubmed/21218185) ، تظهر شجرة ديسم (الشكل 1). يجب أن أقوم بتطبيق اختبار عدم التوازن في Fst و Linckage ، بالنظر إلى أن النطاق الزمني سيكون قصيرًا (40 عامًا ، 170 جيلًا) وهناك مجموعات سكانية متعددة.

هل يمكنك تأكيد ما إذا كان هذا هو النهج الصحيح؟

شكرا


أفترض في هذه الإجابة أنه ليس لديك أي معلومات حول البيئة التي تؤثر على ضغط الاختيار بحيث لا يمكن استخدام طرق مثل Bayenv2.

الخوارزميات القياسية هي:

  • اختبار لوونتين كراكوير
  • fdist
  • BayeScan
  • FLK
  • الكمبيوتر

أظهر Whitlock و Lotterhos 2014 أن أداء FLK و Bayenv2 في أغلب الأحيان أفضل من الثلاثة الآخرين. أظهر عدد من المقالات (Meirmans 2012 و Bierne et al 2013 و De Mita et al 2013 و Fourcade et al 2013) أيضًا أن fdist و BayeScan يعانون من معدل إيجابي كاذب مرتفع. لذلك أوصي بالذهاب مع FLK ولكن ربما لست جيدًا بما يكفي لتقديم نصيحة جيدة جدًا.

لاحظ أنه يجب أن تتعلم قليلاً عن كيفية عمل هذه الخوارزميات وعدم استخدامها بشكل أعمى.


الملخص

تعرضت الأغنام المستأنسة للانتخاب الاصطناعي لإنتاج الألياف واللحوم والحليب وكذلك للانتقاء الطبيعي. من المحتمل أن تكون هذه التحديدات قد فرضت توقيعات اختيار مميزة على جينوم الأغنام. لذلك ، قد يساعد اكتشاف توقيعات الاختيار عبر الجينوم في توضيح آليات الاختيار وتحديد الجينات المرشحة ذات الأهمية لمزيد من التحقيق. هنا ، تم الكشف عن تواقيع الانتقاء في ثلاث سلالات من الأغنام ، سونيت (ن= 66) ، لحم الضأن الألماني (ن= 159) ، ودوربر (ن= 93) ، باستخدام صفيف Illumina OvineSNP50 Genotyping BeadChip. قدم كل حيوان معلومات عن التركيب الوراثي لـ 43273 تعدد أشكال النيوكليوتيدات الفردية (SNPs). اعتمدنا اثنين من الإحصائيات التكميلية المستندة إلى النمط الفرداني من تماثل الزيجوت النسبي الممتد (REHH) واختبارات تماثل الزيجوت المتماثل (XP-EHH) عبر السكان. في المجموع ، تم تحديد 707 و 755 و 438 منطقة جينومية خاضعة للاختيار الإيجابي في Sunite و German Mutton و Dorper sheep ، على التوالي ، وتم اكتشاف 42 من هذه المناطق باستخدام تحليلي REHH و XP-EHH. كانت هذه المناطق الجينومية تؤوي العديد من الجينات المهمة ، والتي تم إثرائها بمصطلحات علم الوجود الجيني المرتبطة بتنمية العضلات ، والنمو ، والتمثيل الغذائي للدهون. تتداخل أربعة عشر من هذه المناطق الجينومية مع تلك المحددة في دراساتنا السابقة حول الارتباط على مستوى الجينوم ، مما يشير أيضًا إلى أن هذه الجينات الخاضعة للاختيار الإيجابي قد تكمن وراء سمات النمو التنموية. تساهم هذه النتائج في تحديد الجينات المرشحة ذات الأهمية وتساعد في فهم الآليات التطورية والبيولوجية للتحكم في السمات المعقدة في الأغنام الصينية والغربية.


اكتشاف الجينوم الكامل لتوقيعات الاختيار الحديثة في أبقار سارابي: سلالة توراين إيرانية فريدة من نوعها

يمكن أن يسمح تحديد المناطق الجينومية قيد الاختيار بفهم أفضل لبيولوجيا الأنماط الظاهرية المحددة والتي تكون مفيدة لتطوير الأدوات المصممة لزيادة كفاءة الاختيار.

موضوعي

كان الهدف من هذه الدراسة هو اكتشاف أي آثار لتوقيعات الاختيار الحديثة بالإضافة إلى تحديد الجينات المقابلة و QTLs الكامنة وراء توقيعات الاختيار هذه في أبقار سارابي.

أساليب

تم التنميط الجيني لعينات من 20 حيوانًا لـ 777،962 تعدد الأشكال عبر الجينوم باستخدام Illumina BovineHD BeadChip. تم إجراء تحليل تواقيع الاختيار باستخدام منهجية درجة النمط الفرداني المتكاملة (iHS).

نتائج

ما مجموعه ثماني مناطق مهمة (ص & lt 0.0001) من توقيعات التحديد الحديثة المحتملة على BTA14 و BTA17. بالإضافة إلى ذلك ، تم تحديد تسعة جينات في المناطق التي تحتوي على توقيعات اختيار ، مثل KCNQ3 ، HHLA1 ، OC90 ، EFR3A ، ADCY8 ، ASAP1 ، TMEM132B، و TMEM132C. أظهرت دراسة QTLs المبلغ عنها في هذه المناطق من جينوم الأبقار أنها مرتبطة بسمات مهمة مثل الحليب والتكاثر والإنتاج.

استنتاج

كشفت النتائج عن مناطق جينومية متعددة بالإضافة إلى جينات جديدة متعددة تحت الانتقاء الإيجابي على BTA14 و BTA17. علاوة على ذلك ، قدمت المناطق المختارة المرشحة التي تتداخل مع QTL المبلغ عنها في قاعدة بيانات الماشية QTL أدلة إضافية على أهمية المناطق المكتشفة قيد الاختيار. توفر هذه الدراسة أساسًا لتحليل تفصيلي لتوقيعات الاختيار المفترضة المحددة في جينوم الماشية خاصةً سلالات الماشية الأصلية والمتطورة محليًا وتوفر وسيلة لتحسين سلالة جيدة التنظيم.


أساليب

الحيوانات والتنميط الجيني

كانت مادة الدراسة عبارة عن الحمض النووي الجيني الذي تم الحصول عليه من الدم أو بصيلات الشعر من 530 حيوانًا مأخوذة من كل سلالات خنازير الأربعة: البولندية Landrace (PL ، ن = 135) ، Puławska (PUL ن = 155) ، Złotnicka الأبيض (ZW ن = 141) ، Złotnicka مرقطة (ZS ن = 99) تختلف من حيث الإنتاج والتكاثر والميزات الخارجية. تم اختيار الحيوانات لتكون غير مرتبطة لمدة جيلين على الأقل وتنشأ من قطعان مختلفة. تضمنت كل عينة سكانية ما لا يقل عن 7٪ من الذكور. كان هذا لأننا قمنا بتحليل العشائر المتكاثرة (ترصيع التكاثر) حيث تتطابق نسبة الذكور مع عدد الخنازير المصممة للتكاثر الطبيعي. تمت الموافقة على جميع الإجراءات الخاصة بالحيوانات من قبل لجنة أخلاقيات رعاية الحيوان المحلية رقم II في كراكوف - رقم الإذن 1293/2016 وفقًا للوائح الاتحاد الأوروبي. تمت تنقية الحمض النووي الجيني باستخدام مجموعة Sherlock AX (A & ampA Biotechnology) وبعد مراقبة الجودة تم التنميط الجيني باستخدام اختبار PorcineSNP60 BeadChip (Illumina) وفقًا لبروتوكول Infinium Ultra القياسي. تم التحكم في جودة الأنماط الجينية التي تم الحصول عليها من خلال تقييم معدلات النداء وتم استخدام العينات التي تحتوي على أكثر من 97 ٪ فقط من الأنماط الجينية المسماة لمزيد من التحليل. من بين 61،565 من تعدد الأشكال التي تم فحصها ، تم الحصول على لوحة من 50،485 علامة عن طريق إزالة تعدد الأشكال المعينة على contigs ، الموجود على الكروموسومات الجنسية (مجموعة جينوم Sscrofa10.2) أو تصنيفها على أنها مجسات كثافة فقط.

تحليل البيانات

تم تخفيض مجموعة SNP التي تمت تصفيتها مبدئيًا عن طريق تطبيق مرشحات تعدد الأشكال على مستوى السكان. تضمنت عملية التصفية إزالة SNPs مع MAF أقل من 5٪ و SNPs بأكثر من 20٪ من الأنماط الجينية المفقودة عبر جميع السلالات. تم تطبيق قطع MAF المستخدم لتصفية SNPs على جميع السكان (جميع السلالات). سمح ذلك بالاحتفاظ بنسبة صغيرة من تعدد الأشكال أحادية الشكل فقط في بعض السلالات (يفترض أنها ثابتة لسبب ما ، بما في ذلك الانتخاب وزواج الأقارب). تم استخدام قيمة MAF البالغة 0.01 لتوصيف تعدد أشكال SNP المتبقية. تنحرف SNPs عن HWE مع الحرجة ص- تمت إزالة قيمة 1.0E-06 في كل سلالة على حدة مما أدى إلى لوحة نهائية من 43923 تعدد الأشكال المشتركة بمتوسط ​​مسافة بين العلامات 55.7 كيلو بايت (± 78.0). تم الكشف عن إشارات تنويع التحديد باستخدام زوج Wright’s Fشارع [18] ، المقياس الكلاسيكي للتمايز الجيني للسكان. يقع طراز Fشارع تم معالجة القيم التي تم الحصول عليها للمقارنات الزوجية في كل SNP وفقًا لمنهجية اقترحها Akey et al. [19] وطبقت كذلك من خلال دراسات أخرى [7]. باختصار ، موحدة Fشارع تم حساب القيم (دأنا) كما:

حيث (E اليسار [_^ يمين ) و (sd يسار [_^ right] ) تشير إلى القيمة المتوقعة والانحراف المعياري لـ Fشارع بين السلالات أنا و ي محسوبة من جميع النيوكلوتايد الذي تم تحليله 43،923. سمح ذلك بإجراء مقارنة بين كل سلالة مع جميع السلالات الأخرى قيد الدراسة. لحساب العشوائية في تباين الموضع حسب الموقع ، تم تنفيذ نافذة منزلقة 10-SNP على القيم التي تم الحصول عليها. تم بعد ذلك تحديد مناطق المرشح المختارة على أنها النسبة المئوية 99.9 للتوزيعات التجريبية لمتوسط ​​النافذة dأنا القيم. تم دمج المناطق المجاورة قيد التحديد و (أثناء البحث عن محتوى الجينات) تم توسيع المناطق على كلا الطرفين بمقدار 25 كيلو بايت لاكتشاف الجينات المجاورة والتي يحتمل ارتباطها.

تم الكشف عن إشارات الاختيار الإيجابي داخل السلالات المفردة باستخدام إحصائيات REHH المطبقة في برنامج Sweep v.1.1 [6]. أولاً ، تم تقسيم الطرز الوراثية التي تم الحصول عليها إلى مراحل واحتسابها باستخدام برنامج fastPhase [20]. ثم تم استخدام الأنماط الجينية المرحلية للكشف عن الأنماط الفردانية الأساسية بحد أدنى ثلاثة ولا يزيد عن عشرين تعدد الأشكال. تم بعد ذلك إخضاع أطول أنماط الفردانية الأساسية غير المتداخلة التي تم اكتشافها لاختبار EHH ، والذي يعتمد على مقارنة النمط الفرداني الأساسي مع كل من التردد العالي و EHH الأعلى مع الأنماط الفردانية الأساسية الأخرى في نفس الوقت المكان. في وقت لاحق ، هناك احتمال أن يكون نمطا فرداني تم اختيارهما عشوائيا داخل منطقة أساسية متطابقين بالنسب لكامل الفاصل الزمني الذي يمتد المنطقة الأساسية إلى منطقة معينة. المكان تم حسابها [15 ، 21]. أخيرًا ، مع الأخذ في الاعتبار التباين في معدلات إعادة التركيب عبر الجينوم ، تم استخدام إحصائيات تماثل الزيجوت المتماثل (REHH) النسبية الموسعة [15] وحُسبت عند مسافة 1 سم تقريبًا (تقريبًا 1 ميغا بايت) [22] على كلا الاتجاهين المنبع والمصب (مع استثناء) من نهايات الكروموسوم) من كل نواة مقابل جميع النوى الأخرى داخل المنطقة. لتحديد أهمية REHH ، تم تخصيص أنماط الفرد لعشرين حاوية تردد وتمت مقارنة قيم REHH بين الأنماط الفردية الأساسية المتكررة الموجودة داخل المنطقة. REHH ص- تم الحصول على القيم في النهاية من خلال التحويل اللوغاريتمي لقيم REHH داخل هذه الصناديق (للوصول إلى الحالة الطبيعية) وحساب المتوسط ​​والانحراف المعياري. الأنماط الفردانية الأساسية الأكثر تطرفاً ص- تم ترشيح القيم (الممتدة بمقدار 0.5 ميجا بايت في كل اتجاه) للتردد (& gt 0.25) وتم فحصها لتداخل جينات ENSEMBL للخنازير باستخدام متصفح UCSC Genome Browser.

تم إجراء الشرح الوظيفي للجينات المكتشفة باستخدام خادم الويب KOBAS 3.0 [23] و WebGestalt (مجموعة أدوات GEneSeTAnaLysis المستندة إلى WEB) [24]. تم إجراء تحليل تخصيب قائمة الجينات وفقًا لجميع جينات الخنازير المعروفة التي تطبق تصحيحًا للاختبارات المتعددة.

تم أيضًا تصور التمايز السكاني باستخدام تحليل المكون الرئيسي (PCA) استنادًا إلى الأنماط الجينية SNP و cladogram لمتوسط ​​الزوجي F.شارع المسافات التي تم إنشاؤها باستخدام طريقة ربط الجوار (NJ) [25].


استنتاج

تم العثور على تواقيع الحمض النووي المرشح لجميع تسلسلات النواقل الاصطناعية تقريبًا. في عدد قليل من الحالات ، يحول التداخل بين البلازميدات الطبيعية والنواقل الاصطناعية من الكشف عن بصمات الحمض النووي. مع استثناءين ، حيث تم العثور على التوقيعات في ك = 23 و 47 ، تم تفسير الافتقار إلى تغطية التوقيع لتسلسل المتجهات من خلال حدوث تناظرية طبيعية مكافئة ، مما يوضح حدود العديد من تمييزات المتجهات / البلازميد. يجب تضمين النظائر الطبيعية في أنظمة الكشف عن التواقيع القائمة على النواقل جنبًا إلى جنب مع مشتقات البلازميد الطبيعية الأخرى ، والتي يمكن استخدامها لتجنب الاكتشاف من مجموعة التوقيع الأساسية الحالية. مع إمكانية تحويل البلازميدات إلى تسلسل ناقل صناعي [29 ، 30] ، يعد تطوير توقيعات DNA التنبؤية تحديًا مهمًا. كحد أدنى ، يجب تضمين التوقيعات من ال 21 بلازميدات التي تشترك في عناصر وظيفية متعددة مع تسلسل ناقل اصطناعي موجود لتتبع البلازميدات الطبيعية المعدلة المحتملة. إن العثور على 364 توقيعًا تغطي المجموعة الكاملة تقريبًا من متواليات المتجهات يعني أن هناك تكرارًا عاليًا للتسلسل ، مما يجعل من الممكن الاحتفاظ بقاعدة بيانات موسعة لتوقيعات الحمض النووي لتتبع جميع النواقل المتسلسلة.

يجب توجيه العمل المستقبلي نحو تصميم المقايسة الحيوية باستخدام توقيعات الحمض النووي على المصفوفات الدقيقة لاختبار فاعلية الكشف عن البكتيريا المعدلة وراثيًا من عينة ، والتي تشمل البكتيريا المعدلة والتي تحدث بشكل طبيعي. نحن نخطط للتعاون بشكل أوثق مع العلماء في مجال الهندسة الوراثية لتحسين أدوات المعلوماتية الحيوية لدينا لتوقع بناء ناقلات مشتق من البلازميد الطبيعي في المستقبل. كما هو الحال مع أي محاولة لمواجهة الاستخدام الضار للتكنولوجيا ، فإن اكتشاف الهندسة الوراثية في الميكروبات سيكون تحديًا هائلاً يتطلب العديد من الأدوات المختلفة والجهود المستمرة. سيوفر التعاون مع المجتمع العلمي لتسلسل وتتبع تسلسل النواقل المتاحة فرصة لتوقيعات الحمض النووي لدعم الكشف والردع ضد تطبيقات الهندسة الوراثية الخبيثة.


زائدة

تقريب غاوسي لعملية موران

نحن نقرب عمليات موران ذات الوقت المستمر بمزيج من عملية حتمية وعملية ضوضاء غاوسية. نتبع هنا الإجراء الذي حدده بوليت (1990) ، والذي يستند إلى نتائج كورتز (1970 ، 1971). يختلف التقريب الغاوسي المستخدم هنا اختلافًا طفيفًا عن التقريب الذي وصفه Nagylaki (1990) من حيث (أ) لا يفترض أن الاختيار ضعيف و (ب) يسمح لقيم العمليات الأصلية والمحدودة في النقطة الزمنية الأولية لتكون مختلف.

تصف عملية موران العشوائية الرقم ن ( ن ) (ر) من المسوخ في مجموعة ذات حجم ثابت ن في الوقت ر. يمكن أن يزيد هذا الرقم بمقدار واحد من أنا إلى أنا + 1 بالمعدل والنقصان بواحد بالسعر هنا ، ميكرومترث و λث هي معدلات المواليد والوفيات من النوع البري ، و ميكرومترم و λم هي معدلات المواليد والوفيات من النوع المتحور ، على التوالي. نحن نفترض λث = λم, ميكرومترث = 1 ، واسمحوا ميكرومترم = (1 + س)ميكرومترث = 1 + س. ثم (A1) مع Define Let X ( ن ) (ر) = ن ( ن ) (ر)/ن يكون تواتر الطفرة في السكان في وقت ر. حد X ( ن ) , ز(ر, x0) = ليمن→∞X ( ن ) (ر) ، هي دالة حتمية ، في ظل ظروف انتظام معينة ، تحقق المعادلتين 1 و 2 معها x0 = ليمن→∞X ( ن ) (0) والحل المعطى بواسطة (3).

الآن دع (A2) تكون العملية المقاربة التي تصف الضوضاء حول المسار الحتمي. إذا عرفنا توزيع ض(ر) ، يمكننا تقريب التردد X ( ن ) بشكل محدود ن بواسطة

تعتبر عملية الضوضاء المقاربة بشكل عام عملية انتشار ، ولكن طالما أنها لا تزال بعيدة عن امتصاص الحدود ، يمكن تقريبها من خلال عملية غاوسية مع اللحظتين الأوليين المناظرتين. ميزة هذا النهج هي أنه يمكن حساب اللحظتين الأوليين من عملية الانتشار بشكل تحليلي ، مما يؤدي إلى تعبير عن التوزيع الاحتمالي لتردد الأليل في الوقت المناسب ر.

إذا كانت القيمة الأولية لعملية الحد من الضوضاء ، فعندئذ متوسط ​​وتباين عملية الضوضاء في الوقت المناسب ر ≥ 0 هي ض(ر) = م(ر, x0)ض0 وفار ض(ر) = σ 2 (ر, x0) على التوالي ، أين م(ر, x0) يفي بالمعادلات (A4) (A5) و σ 2 (ر, x0) يفي بالمعادلتين (A6) (A7) يتم إعطاء حل المعادلتين A4 و A5 والذي بواسطته ، بعد الاستبدال و ز، ينتج حل المعادلتين A6 و A7 والذي بواسطته ، بعد الاستبدال جي و ز، ينتج إذا كانت الحالة الحقيقية للعملية العشوائية X ( ن ) معروف أن يكون X ( ن ) (0) عند النقطة الزمنية 0 ، يمكننا تقريب القيمة الأولية لعملية الحد من الضوضاء مثل. ثم من (A3) لدينا بشكل متماثل ، إذا كانت قيمة العملية X ( ن ) معروف أن يكون X ( ن ) (ر') في وقت لاحق ر′ ≥ x0، ثم في الوقت المناسب رر′ لدينا (A8) (A9) حيث Δر = رر′ و □ر وفارر تشير إلى التوقع والتباين المشروط بالنظر إلى حالة العملية في الوقت المناسب ر′. وبالتالي ، التوزيع الشرطي لتردد الأليل X ( ن ) في الوقت ر نظرا لقيمته في الوقت المناسب ر′ ≤ ر يمكن تقريبه عن طريق توزيع غاوسي بمتوسط ​​معطى بواسطة (A8) والتباين المعطى بواسطة (A9). نطبق هذا التقريب على كل فترة مراقبة (رأنا−1, رأنا), أنا = 1, … , إل. كما هو مذكور أعلاه ، القيمة الأولية للعملية الحتمية ، x0، هي معلمة مجانية يمكن تركيبها مع ن و س. ومع ذلك ، وضعنا x0 ليكون مساويا لتردد الأليل المرصود ν0 في الوقت 0 لتقليل عدد المعلمات المجهزة.

لاحظ أن التقريبات الموصوفة هنا تعمل من أجل عملية Moran التي تعتمد على الكثافة كما يمكن رؤيتها من المعادلات A1. لا تعتمد عملية رايت فيشر على الكثافة ، وبالتحديد ، فإن التقديرات التقريبية الموصوفة هنا غير صالحة ، على الرغم من أنها تعمل بشكل جيد من الناحية العملية.


مقدمة

يمكن أن تُعزى ولادة الحضارة البشرية وصعودها إلى تعويد وزراعة النباتات والحيوانات البرية. من خلال توفير تدفق أكثر موثوقية من الموارد مثل الطعام والملابس ، سهلت عملية التدجين هذه التحول من الكفاف القائم على الصيد والقطاف إلى الزراعة. في الحيوانات ، من المحتمل أن يكون التدجين قد حدث عبر عمليات متعددة المراحل اعتمادًا على الأنثروبوفيلي من السلف البري (المسار التعايش) و / أو احتياجات البشر (الفريسة أو المسارات الموجهة) 1. سواء أكان ذلك بدأ من سلف الحيوانات البرية أو البشر ، عن قصد أم بغير قصد ، فإن الأساس الأساسي للتدجين نشأ من انخفاض الخوف من البشر ، أي اللطف 2. بعد ذلك ، يمكن للبشر أن يواصلوا عملية التدجين عن طريق تربية أفراد لديهم سمات مواتية من خلال عملية تسمى الانتقاء الاصطناعي. ومع ذلك ، لا يقتصر التدجين على الانتقاء الاصطناعي ، بل يشمل أيضًا تخفيف ضغوط الانتقاء الطبيعي مثل الافتراس والتجويع ، والآثار غير المباشرة وغير المقصودة على السمات المرتبطة بالأسر وتلك المختارة بشكل مصطنع 2. بالإضافة إلى التدجين ، أدى تدجين الحيوانات إلى مجموعة من التغييرات المورفولوجية والفسيولوجية والسلوكية الشائعة للعديد من الأنواع. يشار إلى هذه السمات المشتركة - بما في ذلك التلطخ ، والتغيرات في لون المعطف ، والدورات الإنجابية المعدلة ، والهرمونات المتغيرة ومستويات الناقل العصبي ، وخصائص الاستدلال - بشكل جماعي باسم "متلازمة التدجين" (DS) 3.

بشكل عام ، تم اقتراح فرضيتين للتحكم في العلاقة بين تطور DS والجينات الأساسية المسؤولة. أولاً ، اقترح Crockford 4 أن تنظيم تركيزات هرمون الغدة الدرقية أثناء التطور قد يكون مرتبطًا بالنمط الظاهري المعاد لـ DS (فرضية هرمون الغدة الدرقية THH). يتم إنتاج هرمونات الغدة الدرقية ثلاثي يودوثيرونين وسلائفه رباعي يودوثيرونين أثناء نمو الجنين والجنين ، ويلعبان أيضًا أدوارًا رئيسية في تطور ما بعد الولادة والأحداث 4،5. تم دعم THH من خلال البحث في الدجاج المنزلي ، على سبيل المثال ، حيث تم ربط طفرة ثابتة في جين مستقبل هرمون الغدة الدرقية المحفز على نطاق واسع بالسمات المميزة لـ DS 6.

الفرضية الثانية التي اقترحها ويلكينز وآخرون. 3 يتنبأ أن DS هو نتيجة لنقص طفيف في خلايا القمة العصبية أثناء التطور الجنيني ، وهو نتاج لانتقاء اصطناعي للسلوك على التباين الجيني الدائم (فرضية خلية القمة العصبية NCCH). في الخيول ، على سبيل المثال ، تم إثراء جينات مختارة لوظائف مثل التعلم الترابطي ، والإرسال غير الطبيعي للتشابك ، وشكل الأذن ، ومورفولوجيا الخلية العصبية ، بالإضافة إلى الجينات المنسوخة في مناطق الدماغ التي تحتوي على الخلايا العصبية المتعلقة بالحركة والتعلم والمكافأة 7. في القطط ، ارتبطت المناطق الجينومية قيد الاختيار بـ (1) الناقلات العصبية ، المسؤولة عن تعصيب هرمون السيروتونين في الدماغ ، والحفاظ على اتصالات عصبية محددة في الدماغ وتكييف الخوف ، (2) التطور الحسي مثل السمع والرؤية والشم ، و (3) وبقاء خلية القمة العصبية 8. سلطت المقارنات بين جينومات كلاب القرية والذئاب الضوء أيضًا على دور هجرة خلايا القمة العصبية والتمايز والتطور في تدجين الكلاب 9. على الرغم من وجود أدلة على كلا الفرضيتين ، إلا أنهما ليسا بالضرورة متعارضين ، وقد تختلف المساهمة النسبية لكل منهما على طول سلسلة متصلة 5. علاوة على ذلك ، على الرغم من أن DS يتم تقاسمها بشكل عام بين الأنواع المستأنسة ، فقد لا توجد مجموعة عالمية من المبادرين الجيني الأساسيين وقد تنشأ كل حالة من DS من آليات مستقلة. سيساعد الفحص المكثف للجينات المختارة بشكل مصطنع من قبل البشر عبر مجموعة متنوعة من الأنواع والظروف على تعزيز فهم DS.

تقدم إبل العالم القديم فرصة فريدة لدراسات التدجين لأنها حافظت على مستويات عالية نسبيًا من التباين الجيني ، وهي متعددة الأغراض إلى حد كبير ، وتفتقر إلى الاختناقات الثانوية المرتبطة بتطور سلالة معينة غالبًا ما تكون مميزة للأنواع المحلية 10،11،12،13. تمثل الجمال المحلية في العالم القديم ، في جوهرها ، سمات "المراحل الأولية" لعملية التدجين ، والتي ركزت في المقام الأول على اختيار اللطافة والطاعة. من بين الأنواع الثلاثة الموجودة للإبل في العالم القديم ، هناك نوعان مستأنسان (الجمل ذات السنام الواحد ، الجمل العربي، وجمال جرثومية ذات سنامين كاميلوس بكتريانوس) وواحد لا يزال بريًا (جمال برية ذات سنامين الجمل الحديدي). الإبل ذات السنامين ، C. ferus و C. جرثومي، سلف مشترك

قبل 1 مليون سنة من الوقت الحاضر (ybp) 14 ، في حين أن السلف المشترك لجميع أنواع الجمل في العالم القديم الثلاثة موجود بين 4.4 و 7.3 مليون ybp 14،15. الإبل المستأنسة هي مورد أساسي ، فهي توفر الغذاء والعمالة والسلع والرياضة لملايين البشر. علاوة على ذلك ، يمتلك كل نوع مجموعة متنوعة من التكيفات مع الظروف الصحراوية القاسية ، بما في ذلك آليات تحمل درجات الحرارة القصوى والجفاف والتضاريس الرملية. حددت الدراسات الجينومية الحديثة للإبل أنماط الاختيار المتوافقة مع التعديلات المذكورة أعلاه 15،16 ، بالإضافة إلى قياس التنوع الجيني وفحص التاريخ الديموغرافي 15،16،17،18. ومع ذلك ، تقتصر هذه الدراسات على التحليلات من جينوم واحد لكل نوع ، وبالتالي تحيز العديد من استنتاجات الاختيار والتكيف. على سبيل المثال ، مع حجم عينة صغير وأنواع مرتبطة ارتباطًا وثيقًا ، قد لا تشير الاختلافات بين التسلسلات إلى أحداث التثبيت ، بل قد لا تشير إلى تعدد أشكال الفصل غير المرصود مما يؤدي إلى تقديرات مبالغ فيها لـ كا / كانساس نسبة 19. علاوة على ذلك ، فإن مسودة الجينومات عرضة لأخطاء في العدد المقدر للجينات - وبالتالي تشويه استنتاجات التكيف على أساس الجينات المتعامدة بين الأنواع (على سبيل المثال ، كا / كانساس النسبة والتوسع الجيني واختبارات الانكماش) ​​20.

في هذه الدراسة ، نتبع نهج الجينوم لاستنتاج كل من الاختيار الإيجابي والتاريخ الديموغرافي لإبل العالم القديم مع التركيز على الجينات التي يحتمل أن تساهم في النمط الظاهري لـ DS. معتبرا أن الأجداد البرية المباشرة لكل جمل محلي (C. dromedarius و C. جرثومي) انقرضت منذ آلاف السنين ، على عكس معظم الماشية الأخرى ، استنتجنا الاختيار الإيجابي بشكل مستقل لكل جمل مستأنس باستخدام اختبارات محددة لنمط العلاقة بينها وبين نظيرتها البرية (C. ferus). من خلال إعادة تسلسل الجينومات المتعددة من كل نوع ، وجدنا دليلًا على الاختيار الإيجابي للجينات المرتبطة بفرضيتي DS. هذه النتائج ، إلى جانب الموارد الجينومية الواسعة المتاحة ، هي مساهمة مهمة في فهم كل من التاريخ التطوري للإبل والسمات الجينية الكامنة وراء تدجينها.


الانتماءات

معهد علوم الكمبيوتر ، مؤسسة الأبحاث والتكنولوجيا - هيلاس ، نيكولاو بلاستيرا 100 ، 70013 ، هيراكليون ، كريت ، اليونان

Nikolaos Alachiotis & amp Pavlos Pavlidis

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

مساهمات

N.A. و P.P. تصور الدراسة ، وأجرى التجارب ، وكتب الورقة البحثية NA التي ابتكرت الخوارزمية وكتبت الكود.

المؤلفون المراسلون


المواد والأساليب

كانت البيانات المستخدمة في هذه الدراسة من IBHM (B ovine H ap M ap C onsortium وآخرون. 2009) ومتاح للجمهور على www.bovinehapmap.org. قام IBHM بتقييم الأنماط الجينية للحيوانات من 19 سلالة من الماشية (انظر الجدول 1) بالإضافة إلى الحيوانات المفردة من نوعين خارج المجموعة (Anoa و Water Buffalo) ، والتي لم يتم تضمينها في هذه الدراسة. وشملت أخذ العينات بوس توروس, B. indicus والسلالات الاصطناعية من مواقع جغرافية مختلفة وأهداف تربية مختلفة تاريخياً (الجدول 1). شملت الدراسة 497 حيوانا. قام IBHM بأخذ عينات من 24 حيوانًا لكل سلالة ، باستثناء Red Angus (12) ، و Holstein (53) ، و Limousin (42). كانت الحيوانات بشكل عام غير مرتبطة ، باستثناء عدد قليل من السلالات التي تم تضمينها بين الأبوين والنسل الثلاثة للمساعدة في التحقق من صحة التنميط الجيني. لم يتم النظر في نسل هذه الثلاثيات في هذه الدراسة.

السلالات المشمولة في الدراسة ومواقع المنشأ وأخذ العينات الخاصة بكل منها

بالنسبة لـ IBHM ، تم الحصول على الأنماط الجينية لـ 37470 تعدد أشكال النوكليوتيدات المفردة (SNPs). فقط تلك الأشكال المتعددة الأشكال التي تم تخصيصها لكروموسوم (29 جسمية و X) في بناء Btau_4.0 لجينوم الأبقار تم أخذها في الاعتبار في هذا التحليل ، ومع ذلك ، ترك 32،689 تعدد الأشكال. يوضح الجدول 2 توزيع تعدد الأشكال عبر الكروموسومات. تحتوي الكروموسومات 6 و 14 و 25 على المزيد من تعدد الأشكال في IBHM ، لأن هذه الكروموسومات كانت مستهدفة بشكل خاص ، حيث تحتوي على جينات تؤثر على الصفات المظهرية المهمة اقتصاديًا في الماشية (K Hatkar وآخرون. 2004).

معلومات بشأن عدد وكثافة SNP واختبارات الأهمية لكل كروموسوم (BTA)

اختبار الإحصائية:

تم اشتقاق إحصاء الاختبار المستخدم في هذه الدراسة من عمل K im و S tephan (2002) وتم تعديله بواسطة N ielsen وآخرون. (2005). يعتمد هذا النهج على حساب الاحتمال المركب للترددات الأليلية لـ SNP الملاحظة عبر "النوافذ المنزلقة" للمواضع المجاورة. مقاربات K im و S tephan (2002) و N ielsen وآخرون. (2005) اعتمد على نسبة احتمال مركبة لاختبار الأهمية ، بينما استخدمت طريقتنا اختبار التقليب. تختلف الطرق الثلاثة في التوزيع النظري المقترح للترددات الأليلية. استخدم K im و S tephan (2002) نموذجًا جينيًا ، بينما استخدم N ielsen وآخرون. (2005) قارن طريقتين: (أ) التوزيع المنفصل المرصود للترددات الأليلية عبر جميع المواقع و (ب) التوزيع البارامتري المفترض لوصف الترددات الأليلية للمواقع في غياب الاختيار. في هذه الدراسة ، تم نمذجة ترددات SNP الأليلية لتتبع توزيع بسيط ذي الحدين. كان من المفترض أن يكون نهج اختبار التقليب أكثر قوة ، من خلال استناده إلى التوزيع المحدد للترددات الأليلية التي لوحظت في البيانات ، بدلاً من التوزيع النظري.

لإنشاء الاختبار ، تم حساب تكرار الأليل الرئيسي لكل موضع على كل كروموسوم عبر جميع السلالات للحصول على الترددات المتوقعة في الماشية المختارة بدون سمة نمطية معينة. نظرًا لاختلاف بعض السلالات في عدد الحيوانات المشمولة ، تم حساب الترددات أولاً داخل السلالة ثم تم حساب متوسطها عبر السلالات. يمكن الإشارة إلى هذه الترددات الأليلية (عند التعبير عنها كنسبة) صاي جاي ل يعشر SNP (ي = 1 إلى نأنا) على ال أناالكروموسوم العاشر (أنا = 1 إلى 30) ، أين نأنا هو عدد SNPs على الكروموسوم أنا.

بعد ذلك ، تكررت العملية لمجموعة فرعية من السلالات ذات النمط الظاهري المشترك التي تم البحث عن توقيعات الانتخاب الخاصة بها. تم الإشارة إلى هذه الترددات صاي جاي.

بدءا من الموقع ي = 1 من BTA1 ، تم حساب احتمالات سجل مركب حدودي (سلبي) (CLL) من أجل انزلاق النوافذ من ث SNP ، وفقًا للصيغة التالية: (1) أين داي جاي هو سحب عشوائي من توزيع الترددات الأليلية بمتوسط ​​حقيقي = تياي جاي. لجميع المواقع حيث صاي جاي أو صاي جاي ≥ 0.95 ، تم حساب الاحتمالات الدقيقة وفقًا للتوزيع ذي الحدين. للمكان أين صاي جاي و صاي جاي & lt 0.95 ، تم استخدام التقريب الطبيعي للتوزيع ذي الحدين.

تم حساب CLL لثلاثة أحجام نافذة منزلقة: ث = 5 و 9 و 19 تعدد الأشكال.

اختبار التقليب:

تم استلهام إجراء اختبار التقليب من الطريقة التي طورها C hurchill و D oerge (1994) لاختبار الأهمية في رسم خرائط الارتباط متعدد التركيز. تم تحديد عتبات القيم الحرجة لخطأ النوع الأول لكل كروموسوم. لكروموسوم معين أنابدأ الإجراء بالاختيار العشوائي بدون استبدال ن × 24 فردًا من مجموعة البيانات الكاملة المكونة من 497 فردًا في 19 سلالة ، حيث ن هو عدد السلالات ذات النمط الظاهري المشترك (أو هدف الانتخاب) التي يتم البحث عن توقيعات الانتقاء الخاصة بها. لاختيار هؤلاء الأفراد ، تم أولاً اختيار السلالة بشكل عشوائي ، ثم تم اختيار فرد من تلك السلالة. كانت هذه العملية المكونة من خطوتين ضرورية لتجنب التمثيل الزائد (السفلي) للسلالات مع & gt (& lt) 24 حيوانًا في مجموعة البيانات الكاملة. بعد ذلك ، تم حساب CLLs للنوافذ المنزلقة من SNP ، وفقًا للمعادلة 1. ثم تم تسجيل الحد الأقصى من CLL لكل من 50000 تبديل. تكررت هذه العملية لكل كروموسوم ولمجموعات فرعية من أعداد مختلفة من ن سلالات. كان إنشاء توزيع CLL لكل كروموسوم ضروريًا لمراعاة الاختلافات بين الكروموسومات في الطول المادي وعدد SNP ، بالإضافة إلى أي اختلافات في عدم توازن الارتباط. تم إنشاء القيم الحرجة (احتمالية السجل المركب الحرج ، CCLL) لاختبار الأهمية عند مستويات α = 0.25 و 0.10 و 0.05 و 0.01 على مستوى الجينوم بأكمله عن طريق فرز الحد الأقصى لـ 50000 CLLs لكل كروموسوم وتخزين 416 ، 166 ، أكبر قيمة 83 و 16 على التوالي. هذه CCLL أنا α (للكروموسوم BTA أنا والمستويات الخاصة بكل منها من α) تمت مقارنتها بـ CLLاي جاي لتحديد المناطق الجينومية ذات الترددات الأليلية المختلفة بشكل كبير عن تلك المتوقعة في عينة عشوائية من الأفراد. تم اعتبار هذه المناطق لإيواء توقيعات الاختيار.

يوفر نهج اختبار التقليب هذا بعض المزايا مقارنة بالطرق الأخرى بناءً على بناء نسب الاحتمالية. أولاً ، يستبعد الحاجة إلى وضع افتراضات محددة حول النموذج الجيني الكامن وراء البيانات الحقيقية أو البيانات المحاكاة لاستخدامها في تكوين نسبة الاحتمالية. ثانيًا ، يمكن تطبيق نهج اختبار التقليب هذا على إحصائيات اختبار أخرى ، مثل Fشارع أو مقاييس عدم توازن الارتباط التي يمكن استخدامها للكشف عن توقيعات الاختيار. ومع ذلك ، فهي قابلة للتطبيق فقط على دراسات مثل IBHM التي تشمل أعدادًا كبيرة من المجموعات المتنوعة وراثيًا ، مثل سلالات الماشية.

التحقق من صحة المواقع المعروفة:

تم اختبار قدرة هذه الطريقة على تحديد بصمات الانتقاء من خلال تطبيقها على مجموعتين فرعيتين من السلالات ذات الأنماط الظاهرية الشائعة ، ولون المعطف الأسود ونقص القرون ، وكلاهما تتحكم فيهما الجينات في مواقع جينومية محددة جيدًا. م أتوكومالي وآخرون. (2009) استخدمت مجموعات من السلالات لها نفس زوج الصفات لتوصيف وتقييم دقة مقايسة كتابة SNP عالية الكثافة للماشية.

لون المعطف الأسود:

يتم تحديد لون المعطف في الماشية إلى حد كبير عن طريق تعدد الأشكال في جين مستقبل الميلانوكورتين 1 (MC1R) الموجود على BTA18. يوجد ما لا يقل عن ثلاثة أليلات رئيسية في هذا المكان ، النوع E + البري ، والموضع الأسود المهيمن E D ، والموضع الأحمر المتنحي (K الرئة وآخرون. 1995). يقع MC1R بين bp 13،776،888 و 13،778،639 (Btau_4.0 build). من بين السلالات في IBHM ، يمتلك Holsteins و Angus النمط الظاهري الأسود المميز الناتج عن وجود E D. لذلك ، تم عمل مجموعة فرعية باستخدام البيانات من هاتين السلالتين و CLL18ي تم حسابها لـ BTA18 ومقارنتها بـ CCLL 18.0.01 بناءً على عينات عشوائية من 48 ماشية. لم يتم تضمين أي تعدد أشكال تعدد الأشكال في MC1R في لوحة تحليل IBHM ، حيث كان أقرب تعدد أشكال تعدد الأشكال يحيط بـ MC1R ، عند 13،497،415 و 14،111،894.

غياب القرون:

الماشية ذات قرون طبيعية ومعظم السلالات المدرجة في IBHM تشترك في هذا النمط الظاهري. ومع ذلك ، يمكن أن تتسبب الطفرة السائدة في أن تكون الماشية بلا قرون أو يتم تلقيحها. تعتبر هذه الحالة بشكل عام مرغوبة في معظم بيئات الإنتاج. Therefore, some breeds have been selected to be 100% polled, including the Angus and Red Angus in the IBHM, and others such as the Hereford and Limousin breeds in the IBHM have a majority of polled animals. The gene responsible for horns has not yet been characterized, but the causative mutation has been localized to a region of ∼1 Mbp on the proximal end of BTA1 (B renneman وآخرون. 1996 D rögemüller وآخرون. 2005). The most recent data indicate that the polled gene lies between bp 600,000 and 1,600,000 (D rögemüller وآخرون. 2005).

CLL1ي were therefore calculated for a subset of the four breeds with significant numbers of polled animals (بمعنى آخر., Angus, Red Angus, Hereford, and Limousin). To gauge significance, the CLL1ي were compared to CCLL 1,0.01 generated with random groups of 96 individuals.

Search for selection signatures for dairy production:

The method was then applied to all chromosomes, by using the B. الثور breeds selected primarily for milk production. This subset comprised five breeds, Brown Swiss, Guernsey, Holstein, Jersey, and Norwegian Red. CLLاي جاي were calculated for a subset of these five breeds and compared to CCLL أنا ,0.01 of randomly sampled groups of 120 (بمعنى آخر., 5 × 24) individuals. Following this procedure, the SNP windows with the greatest CLL were identified for each chromosome and the number of distinct selection signatures was counted. Adjacent signatures were considered “distinct” if they were separated by at least three consecutive windows with nonsignificant CLL (ص > 0.05, genome-wide).

The approach described above would tend to detect putative signatures of selection that were associated with mutations creating alleles with positive influences on dairy production that occurred prior to divergence of the B. الثور into specialized breeds. However, in some instances, recombination might have occurred in these regions after the radiation of founder populations of specific breeds. When this happens, each single breed of the subset could be expected to have significant differences in SNP allele frequencies from the entire IBHM, but the direction of the difference may differ from breed to breed. In such a case, averaging allele frequencies across the subset would tend to “cancel out” the significant differences in the individual breeds, precluding detection of a signature of selection.

Therefore, the test was also applied separately to each of the five breeds, by comparing CLLاي جاي to CCLL أنا α created through random sampling of 24 individuals. Regions where statistically significant CLL was observed in multiple breeds were then identified, and assumed to represent signatures of selection for dairy traits, even if no signature was observed in the combined data from all five dairy breeds.

Test of ascertainment bias:

The approach used to select genetic markers can introduce ascertainment bias in population genetics studies (N ielsen 2004). No specific adjustments were made in this study to account for possible sources of ascertainment bias. However, several features of the analysis applied herein were assumed to render it relatively robust against ascertainment bias. First, the basis for the study was a large group of very diverse breeds (B runelle وآخرون. 2008 B ovine H ap M ap C onsortium وآخرون. 2009 S eabury وآخرون. 2010), including breeds that did and did not contribute significantly to the SNP ascertainment process. Also, the test sets always included multiple breeds, decreasing the influence of any single breed. As noted earlier, the method described and applied here is only applicable to studies of multiple breeds, such as would be available in a HapMap study. Second, windows of SNP were used, limiting the influence of any single SNP for which ascertainment bias may be present. Finally, a certain proportion of any ascertainment bias that may have been present would have contributed to greater variability in the permutation test as well as the actual tests for selection signatures.

Nevertheless, a specific investigation of one possible source of ascertainment bias was undertaken. As noted earlier, the IBHM included a wide group of breeds, including B. الثور, B. indicus, and hybrid breeds. Given their diverse domestication history and documented genomic differences (على سبيل المثال, B runelle وآخرون. 2008 B ovine H ap M ap C onsortium وآخرون. 2009 S eabury وآخرون. 2010), including both taurine and indicine breeds in the study had the potential to introduce ascertainment bias. A parallel study was thus done to examine this possibility. Specifically, the tests for selection signatures in dairy breeds were also performed by using a subset of the IBHM from which the indicine and hybrid breeds (Beefmaster, Brahman, Gir, Nelore, Santa Gertrudis, and Sheko) had been removed. The parallel study was initially performed for the first 10 chromosomes. Results with and without the indicine breeds were quite similar. The correlation of CLL from the two analyses was ∼0.70. Perhaps more importantly, the extreme values of CLL generally fell in the same genomic regions in both analyses. However, exclusion of the indicine breeds greatly decreased significance of the results. First, historical selection for milk production in the indicine breeds has been weak or indirect, or both, decreasing the potential for allelic differences between the five dairy breeds and the overall population. Second, removing these breeds decreased the precision of the test. For these reasons, inclusion of both taurine and indicine breeds was deemed the best strategy and only those results will be discussed further.


خلفية

Domestication is the process of animal adaptation to captive environment and human interventions such as providing protection, offering food and promoting animal breeding [1]. Compared to their wild ancestors, domestic animals have great variation in behavior, morphology and physiology in response to domestication, and this variation is the result of genetic changes across many generations. The genetic differentiation among domestic animals and their wild ancestors is influenced by multiple mechanisms, including selection, mutation, drift and gene flow [2]. Detecting selective signatures associated with domestication is important for understanding the genetic basis of both adaptations to new environments and rapid phenotype change. In recent years, whole-genome resequencing delivers a comprehensive view of detecting the signatures left by domestication, such as in pig [3], chickens [4], dogs [5] and yaks [6].

Chinese domestic ducks are among the earliest domesticated waterfowl in the world dating back to 2228 years before present (YBP) [7]. China is famous for its abundance of waterfowl breeds, as many as 31 domestic duck breeds have been recognized. Owing to domestication and directional breeding, domestic ducks have many typical characteristics in morphology, behavior and production performance, such as reduction in brain size [8], leg morphology changes [9], decrease aggression behaviors [10] and higher egg productivity. Domestic ducks have been bred for various purposes, such as egg and/or meat production. Shaoxing and Shanma ducks are Chinese excellent egg-type duck breeds, characterized by small body size, early maturity and high productivity. In Chinese written history, Shaoxing duck can be traced back to the Song Dynasty about 1000 years ago. Through 50 years of systematic breeding, the egg production of Shaoxing ducks reached 300 at the age of 500 days [11]. Shanma duck, another famous Chinese indigenous duck, has been domesticated for 400 years in Fujian Province [12]. Fenghua (FH) duck is a special dual-purpose local duck breed in Zhejiang Province, which has similar appearance with mallards. Different from other domestic breeds, Fenghua duck still retains some habits of wild ducks such as seasonal reproduction, flying and high disease resistance, because of the short time of domestication. Chinese Pekin ducks are named Cherry Valley Pekin ducks after they were exported to the United Kingdom in1872. After more than 100 years of intensive selection, Cherry Valley Pekin ducks are famous for their fast-growth, high lean rate and high feed conversion ratio [13].

Although many studies have been conducted on the diversity and origin of Chinese domestic ducks by applying microsatellite markers, mitochondrial DNA sequencing and whole-genome resequencing, the origin and evolution of Chinese domestic ducks are still debated. Some scholars suggest that Chinese domestic ducks originated from wild mallards [14, 15], while others argue that domestic ducks might also originate from Chinese spot-billed ducks [16, 17]. Mallard is the most common wild duck species in China, which is of particular economic importance [18]. Chinese spot-billed duck is a close relative of mallard, with distributions partially overlapping in most of Japan, Korea, and northeastern China [19]. Owing to the observed hybridization of mallards and spot-billed ducks in East Asia [19], another hypothesis suggests that domestic ducks might originate from hybrids of mallards and spot-billed ducks [17, 20].

Ducks are not only economically import, but serve as important non-model study systems in evolutionary biology [21]. Thus, elucidating the evolutionary history of the various domestic breeds is essential when attempting to understand how different selective regimes have shaped their genetic variation. Therefore, we sequenced the genomes of 60 individuals from two wild populations, the spot-billed ducks and mallards, and four indigenous Chinese breeds (Fenghua, Shaoxing, Shanma and Cherry Valley Pekin ducks) to explore the genetic relationships among wild and domestic ducks and identify the genomic footprints of selection during the domestication of native ducks.


نتائج

The Test Statistics

The primary goal of our study was to detect evidence of recent, local positive selection from the whole-genome SNP data of both the International HapMap Project and Perlegen Sciences [14,15]. For the Perlegen dataset, we used the data from all 71 unrelated individuals sampled in three groups: African American (23), European American (24), and Han Chinese (24). For the HapMap dataset, we only included unrelated individuals from three groups specifically 60 Yorubans, 40 Europeans, and 45 Han Chinese (see Methods). Given the obvious shared ancestry between the groups in Perlegen and HapMap, we hereafter refer to them as Africans (Afr), Europeans (Eur), and Chinese (Chn), respectively.

Our approach is based on the idea of extended haplotype homozygosity (EHH). First proposed by Sabeti et al. [25], the EHH statistic is a measure of the decay of identity of haplotypes as a function of distance from a “core” allele, and the EHH associated with an allele that has risen to a particular frequency under neutrality is expected to differ from the EHH of an allele that has risen to the same frequency by positive selection. Under neutral genetic drift, a young derived allele that is at low frequency will have few associated recombination events, and therefore will have low haplotype diversity and high EHH, whereas a high-frequency ancestral allele will have high haplotype diversity and low EHH because of the many recombination events that have occurred. A young derived allele under positive selection, however, rises rapidly in frequency while retaining extensive EHH, and leaves the alternative allele in low frequency with low EHH.

Previous approaches compare the EHH decay between the alleles (hereafter, we refer to the EHH of an allele as EHHA) of a site/core-haplotype within a single population, so that the alleles with excessive EHH and high allele frequency indicate positive selection [21,25]. An obvious caveat of this approach is that the intrapopulation comparison has low power when the selected allele is at high frequency, and becomes impossible when the selected allele is fixed. Seeking a novel strategy to overcome this problem, our approach compares the decay of EHH of an individual SNP site (EHHS), rather than EHHA, between populations. EHHS is defined as the decay of identity of haplotypes starting from the tested SNP site of a population as a function of distance. Starting at site i, the normalized EHHS at site ي would be:

This is the haplotype homozygosity between أنا و ي normalized by the homozygosity at site أنا. Note that both the haplotype homozygosity and homozygosity calculations are based on the site, regardless of the status of each allele.

In principle, EHHS is roughly the average EHHA for the two alternative alleles weighted by their squared allele frequencies, and starts at a value of one and decays towards zero (Figure 1A). EHHS is therefore largely determined by the EHHA of the high-frequency allele, decaying very fast under neutrality when the dominating allele is the ancestral allele, or remaining extensive when the beneficial derived allele sweeps to a very high allele frequency or to fixation (Figure 1A).


شاهد الفيديو: التوقيع ازاى توقع فورمه أكلاشيه علامة شخصية (كانون الثاني 2022).