معلومة

مفهوم الحمل الجيني العالي للمرض والفصل غير العشوائي للمتغيرات الضارة


أنا جديد في هذا المجال. كنت أقرأ Shakeel et al. (2018) وجاء عبر الجمل أدناه

يعد معدل ظهور وتوزيع المتغيرات الضارة في السكان مهمًا في تحديد أنماط الحمل الجيني الأساسي للأمراض ، لأن زيادة تراكم الحمل الجيني للأمراض بسبب الفصل غير العشوائي للمتغيرات الضارة أمر ضار جدًا لدرجة أن التثبيت أو بالقرب من التثبيت يمكن أن تلعب هذه الطفرات دورًا مهمًا في انقراض مجموعات سكانية معزولة ذات حجم سكاني فعال صغير.

لست متأكدًا من فهم مفهوم الجمل بشكل صحيح ، على وجه الخصوص

الحمل الجيني للمرض وتراكمه نتيجة الفصل غير العشوائي للمتغيرات الضارة.

هل يمكنك من فضلك أن تشرح لي قليلاً عن ذلك؟

شكرا كثيرا مسبقا


التطورات الحديثة في فهم الأساس الجيني الجزيئي لمرض الميتوكوندريا

روبرت دبليو تايلور ، مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، فراملينجتون بليس ، نيوكاسل أبون تاين ، NE2 4HH ، المملكة المتحدة.

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد الطب الوراثي ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مختبر NHS عالي التخصص لتشخيص الميتوكوندريا ، نيوكاسل أبون تاين ، صندوق مؤسسة NHS ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مختبر NHS عالي التخصص لتشخيص الميتوكوندريا ، نيوكاسل أبون تاين ، صندوق مؤسسة NHS ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة

مختبر NHS عالي التخصص لتشخيص الميتوكوندريا ، نيوكاسل أبون تاين ، صندوق مؤسسة NHS ، نيوكاسل أبون تاين ، المملكة المتحدة

روبرت دبليو تايلور ، مركز ويلكوم لأبحاث الميتوكوندريا ، معهد علم الأعصاب ، جامعة نيوكاسل ، فراملينجتون بليس ، نيوكاسل أبون تاين ، NE2 4HH ، المملكة المتحدة.

محرر التواصل: فيرينا بيترز

معلومات التمويل: مجلس البحوث الطبية ، المنحة / رقم الجائزة: G0800674 المعهد الوطني للبحوث الصحية ، رقم المنحة / الجائزة: NIHR-HCS-D12-03-04 The Lily Foundation UK NHS High Specialized Services for Rare Mitochondrial Disorders Wellcome Trust، Grant / Award Number: 203105 / Z / 16 / Z


مفهوم لبساتين البذور يعتمد على علامات جينات الإنزيم

أدت الأساليب المتقدمة لزراعة الغابات في تورينجيا وكذلك ضرورة الحفاظ على الموارد الوراثية لأنواع الأشجار المهددة بالانقراض إلى هدف إنشاء بساتين بذور التنوب الفضي (أبيس ألبا مطحنة.). من أجل الجمع بين العديد من الميزات الاقتصادية والوراثية في إنشاء بساتين البذور هذه ، تم اختيار الحيوانات المستنسخة باستخدام إجراء متعدد الخطوات مصحوبًا بمسوحات وراثية في مواقع الإنزيم المتماثل.

من بين المواد الأولية المكونة من 26 مدرجًا أصليًا ، تم اختيار 500 شجرة إضافية وفقًا لحيويتها ونموها. استنادًا إلى العديد من استراتيجيات أخذ العينات حيث تم تصنيف مجموعات الاستنساخ وفقًا لمستوى التنوع الجيني وحدوث الأليلات النادرة ودرجة تماثل الزيجوت ، تم أخيرًا اختيار 130 نسخة من مجموعة الشجرة الزائدة. من المفترض أن تشمل هذه الحيوانات المستنسخة جميع الميزات الأساسية المنسوبة إلى بستان البذور الذي يجب أن ينتج محصولًا حيويًا ومحسنًا للبذور ويحافظ على الجينات من التنوب الفضي.


نتائج

إطار عمل GRIPT

تم تصميم GRIPT خصيصًا لاكتشاف جينات مرض مندل من خلال إعطاء الأولوية للجينات ذات الحمل الطفري الضار الأعلى بشكل ملحوظ في المرضى من الضوابط باعتبارها الجينات المرشحة. في التنفيذ ، تصنف GRIPT أولاً المتغيرات داخل كل جين لكل فرد في كل من مجموعات المرضى والمراقبين وفقًا لدرجة التأثير المتغير التي يوفرها المستخدمون ، على سبيل المثال ، درجة CADD [19] (الشكل 1 ، راجع قسم "الطرق"). بناءً على الدرجات المتغيرة ، يتم حساب درجة الجين لكل جين يقيس حمل الطفرة الضارة للجين في كل فرد بموجب نموذج وراثي معين ، أي ، صبغي جسمي سائد (AD) ، وراثي جسمي متنحي (AR) ، مهيمن مرتبط بـ X ( XD) ، أو النموذج المتنحي (XR) المرتبط بـ X (راجع قسم "الطرق"). بعد ذلك ، يتم تطبيق اختبار فيشر المبني على مزيج من الاختبار ذي الحدين واختبار مجموع رتبة ويلكوكسون (WRST) لمقارنة توزيع درجات الجين في المرضى وعناصر التحكم لكل جين ، و ص يتم تعيين القيمة المرتبطة بإحصاء الاختبار. هذا الاختبار المركب مناسب بشكل خاص لمقارنة توزيعين شديد الانحراف مع تجاوزات الصفر ، مثل توزيع درجات الجين في الحالة ومجموعات التحكم (الشكل 2 ، انظر قسم "الطرق") [20]. أخيرًا ، تقارن GRIPT وترتب جميع الجينات بناءً على إحصائية الاختبار لكل جين (الشكل 1).

مخطط التدفق المنطقي لـ GRIPT. أولاً ، سيتم جمع عينات من مجموعات الحالة والتحكم وإخضاعها لـ NGS ، على سبيل المثال ، WES. بعد استدعاء المتغير ، سيتم تصفية المتغيرات الشائعة و / أو الحميدة المعروفة بناءً على التعليق التوضيحي المتغير وتكرار أليلها في قواعد البيانات الكبيرة للسكان العاديين وقواعد البيانات الداخلية. وهكذا ، بالنسبة لكل جين ، لن يتبقى سوى عدد قليل من المتغيرات النادرة. بعد ذلك ، ستضع GRIPT تعليقات توضيحية وتصنف الضرر لكل متغير ، على سبيل المثال ، باستخدام درجة CADD. بناءً على درجات المتغير ، سيتم حساب درجة الجين لقياس حمل الطفرة الضار لكل جين في كل فرد وفقًا لنموذج وراثي معين (راجع قسم "الطرق"). بعد ذلك ، سيتم حساب اختبار فيشر المبني على مزيج من الاختبار ذي الحدين واختبار مجموع رتبة ويلكوكسون (WRST) لقياس الاختلاف في توزيع درجات الجينات بين مجموعة المرضى ومجموعة التحكم لكل جين ، و ص سيتم تعيين القيمة المرتبطة بإحصاء الاختبار. هذا الاختبار المركب مناسب بشكل خاص لقياس الفرق بين توزيعين شديد الانحراف مع تجاوزات 0 ، مثل توزيع درجة الجين في مجموعة المريض / المجموعة الضابطة المحسوبة بواسطة GRIPT (الشكل 2). أخيرًا ، وفقًا لإحصائية الاختبار لكل جين ، تقارن GRIPT وترتب جميع الجينات

مثال توزيع نقاط الجينات. يوضح هذا الشكل توزيع درجات الجين لـ USH2A في مجموعة مرض شبكية من 250 مريضًا (باللون الأحمر) وفي مجموعة تحكم مكونة من 250 فردًا (باللون الأزرق). X المحور: الدرجة الجينية لـ USH2A لكل فرد. ص المحور: عدد المرضى أو الضوابط مع النتيجة المقابلة. مثل الجين USH2A ، فإن توزيع درجات الجينات لمعظم الجينات منحرف للغاية مع تجاوزات الأصفار

يختبر تحليل المحاكاة حساسية ونوعية GRIPT

لتقييم حساسية وخصوصية GRIPT ، قمنا بمحاكاة بيانات WES للمرضى ومجموعات التحكم في كل من نماذج الوراثة AR و AD بناءً على ملف تعريف متغير للجينوم البشري في قاعدة بيانات ExAC [21] (راجع قسم "الطرق") . لتقليد مجموعة المرضى ذات التباين العالي في موضع المرض حيث يمثل جين مرض معين نسبة صغيرة فقط من المرضى ، تم اختيار الطفرات المسببة للأمراض لنفس الجين بشكل عشوائي من قاعدة بيانات طفرة الجينات البشرية (HGMD) وارتفعت إلى نسبة صغيرة (على سبيل المثال ، 0.5٪ ، 1٪ ، 2٪ ، أو 3٪ ، على التوالي) من الأفراد في مجموعة المرضى (انظر قسم "الطرق"). تم تحديد حجم مجموعة المرضى عند 600 ومجموعة التحكم عند 5000. تكررت محاكاة كل سيناريو 30 مرة. تم استخدام مستوى دلالة إحصائية على مستوى الجينوم (GWSL) يبلغ 2.7 × 10 6 باعتباره ذا دلالة إحصائية ص قطع القيمة للتصحيح متعدد الاختبارات (بالنظر إلى حوالي 18500 جينة ترميز بروتين جسمية تم شرحها بواسطة جينات RefSeq). تم قياس أداء GRIPT بثلاثة معايير: (1) ترتيب جين المرض مع الطفرات المسببة للأمراض ، مما يشير إلى حساسية الأداة (2) النسبة المئوية للمحاكاة التي يمر فيها جين المرض GWSL ، مما يشير إلى القوة الإحصائية للأداة و (3) عدد الجينات المرشحة الصبغية الجسدية الهامة ، مما يشير إلى خصوصية الأداة. علاوة على ذلك ، تمت مقارنة أداء GRIPT بأربع أدوات تحليل جماعية شائعة ، بما في ذلك مكتشف الجينات لمرض مندليان ، VAAST2 ، وثلاثة اختبارات ارتباط جماعي ، CMC (اختبار العبء) ، SKAT ، و KBAC (نموذج النواة) ، على نفس مجموعات البيانات [11 ، 14 ، 15 ، 17 ، 22].

حساسية وخصوصية GRIPT في ظل نماذج AR و AD

لاختبار أداء GRIPT في تحديد جين مرض AR ، RPE65 كمثال. RPE65 هو جين مدروس جيدًا مع طفرات معروفة بأنها تسبب مرض AR Leber الخلقي (LCA) والتهاب الشبكية الصباغي (RP) [23،24،25]. تم تلخيص أداء الاختبارات الأربعة في الشكل 3 والملف الإضافي 1: الجدول S1. الشكل 3 أ-ج والملف الإضافي 1: يوضح الجدول S1 أن GRIPT لديها حساسية وخصوصية كبيرة في الكشف RPE65، حتى عندما تكون نسبة RPE65 كان المرضى منخفضين للغاية ، مما يحاكي سيناريو مجموعة المرضى ذات التباين الموضعي العالي. عندما RPE65 كانت نسبة المرضى منخفضة تصل إلى 0.5٪ ، حسب تصنيف GRIPT RPE65 في المتوسط ​​السادس ، وتحقيق 66.67٪ من الطاقة. عندما RPE65 وصلت نسبة المرضى ≥ 1٪ ، مرتبة GRIPT RPE65 الأول في جميع التجارب بقوة 100٪. عبر نطاق RPE65 نسب المريض ، حددت GRIPT في المتوسط ​​ثلاثة مرشحين مهمين لكل محاكاة. في المقابل ، مع نسبة منخفضة من RPE65 المرضى ، كان لدى الخوارزميات الأربعة الأخرى حساسية وقدرة أقل بكثير من GRIPT (WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S1). على سبيل المثال ، عندما يكون ملف RPE65 كانت نسبة المريض ≤ 1٪ ، وكانت قوى الاختبارات الأربعة الأخرى 10٪ ومتوسط ​​رتبة RPE65 بين 38 و 3068. كل من الطرق الأربعة الأخرى حددت في المتوسط ​​صفر أو جين مرشح مهم واحد.

تحليل محاكاة GRIPT و VAAST2 و CMC و SKAT و KBAC ضمن نماذج AR و AD. تم اختبار نماذج AR و AD على 0.5٪ و 1٪ و 2٪ و 3٪ من المرضى الذين يحملون الطفرات الممرضة لـ RPE65 أو TINF2، على التوالى. كان حجم مجموعة المرضى 600. وكان حجم مجموعة التحكم 5000. يظهر أداء GRIPT و VAAST2 و CMC و SKAT و KBAC باللون الأحمر والأزرق والأخضر والأرجواني والبرتقالي ، على التوالي. أ ترتيب RPE65 تحت نموذج AR يظهر في boxplot. ب تم قياس قوة الأدوات الخمس حسب نسبة تشغيل المحاكاة التي يتم فيها قبل 65 اجتاز GWSL الموضحة في مخطط النقطة. ج يظهر عدد الجينات المرشحة الصبغية الجسدية الهامة تحت نموذج AR في boxplot. د ترتيب TINF2 تحت نموذج م. ه قوة الأدوات الخمس لـ TINF2. F عدد المرشحين الوراثي الجسدي المهم في ظل نموذج ميلادي. تصنيفات RPE65 / TINF2.0 التي تم إنشاؤها بواسطة GRIPT تمت مقارنتها مع تلك التي تم إنشاؤها بواسطة الطرق الأربعة الأخرى على التوالي باستخدام WRST أحادي الطرف. الطرق التي ولّدت ترتيبًا أسوأ بكثير من GRIPT تم تمييزها بعلامة "*" إذا ص القيمة & lt 0.05 ، "**" إذا ص القيمة & lt 0.01 ، و "***" إذا ص القيمة & لتر 0.001

بالتوازي مع ذلك ، تم اختبار أداء GRIPT في تحديد جين مرض الزهايمر باستخدام TINF2 كمثال. TINF2 هو جين معروف مسبب للمرض لمتلازمة AD Revesz وخلل التقرن الخلقي [26،27،28]. كما هو مبين في الشكل 3d – f والملف الإضافي 1: الجدول S1 ، افتقرت GRIPT إلى الطاقة عندما كان ملف TINF2 كانت نسبة المرضى منخفضة جدًا ، ولكن تم تحسين أدائها بشكل كبير مثل TINF2 زيادة نسبة المريض. على وجه التحديد ، كما TINF2 زادت نسبة المريض من 0.5 إلى 1٪ ، وزادت قوة GRIPT من 3.33 إلى 53.33٪. عندما TINF2 وصلت نسبة المرضى إلى ≥ 2٪ ، وكان TINF2 يحتل المرتبة الأولى دائمًا من قبل GRIPT بقوة 100٪. في المتوسط ​​، حددت GRIPT حوالي اثنين من الجينات المرشحة الهامة. بالمقارنة ، كان أداء الطرق الأربع الأخرى أسوأ بكثير من GRIPT (WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S1). على سبيل المثال ، متى TINF2 زادت نسبة المريض من 0.5 إلى 1٪ ، وزادت قوة VAAST2 من 0 إلى 13.33٪ ، و CMC من 0 إلى 36.67٪ ، و SKAT من 0 إلى 6.67٪ ، و KBAC من 0 إلى 6.67٪.

معيار على 400 جينة مرضية معروفة تم اختيارها عشوائياً

لتوسيع تقييم GRIPT ، أجرينا محاكاة باستخدام 400 من الجينات المندلية المسببة للأمراض التي تم اختيارها عشوائيًا من قاعدة بيانات OMIM ، بما في ذلك 200 جينة AR و 200 AD. لكل جين ، قمنا بمحاكاة مجموعات المرضى بحجم 600 واستخدمنا نفس مجموعة التحكم المحاكاة بحجم 5000. تم تلخيص النتائج في الشكل 4 والملف الإضافي 1: الجدول S2.

معيار GRIPT و VAAST2 و CMC و SKAT و KBAC على 400 جينة مرض مندلية. تم اختبار نماذج AR و AD على 0.5٪ و 1٪ و 2٪ و 3٪ من المرضى الذين يحملون الطفرات المسببة للأمراض لكل من 200 جين AR وكل من 200 جين AD على التوالي. كان حجم مجموعة المرضى 600. وكان حجم مجموعة التحكم 5000. يظهر أداء GRIPT و VAAST2 و CMC و SKAT و KBAC باللون الأحمر والأزرق والأخضر والأرجواني والبرتقالي ، على التوالي. أ ترتيب 200 جين AR. ب قوة الاختبارات الخمسة لـ 200 جين AR. ج عدد المرشحين الوراثي الجسدي المهم في ظل نموذج AR. د ترتيب 200 جينات ميلادية. ه قوة الاختبارات الخمسة لـ 200 جين ميلادي. F عدد المرشحين الوراثي الجسدي المهم في ظل نموذج ميلادي. تمت مقارنة تصنيفات جينات AR / AD التي تم إنشاؤها بواسطة GRIPT بتلك التي تم إنشاؤها بواسطة الطرق الأربعة الأخرى على التوالي باستخدام WRST أحادي الطرف. الطرق التي ولّدت ترتيبًا أسوأ بكثير من GRIPT تم تمييزها بعلامة "*" إذا ص القيمة & lt 0.05 ، "**" إذا ص القيمة & lt 0.01 ، و "***" إذا ص القيمة & لتر 0.001

بما يتفق مع نتائج RPE65، أظهر GRIPT حساسية وخصوصية بارزة في الكشف عن 200 جين AR حتى عندما كانت نسبة المرضى المنسوبين إلى نفس جين المرض منخفضة جدًا (الشكل 4 أ-ج). باستمرار ، أظهر VAAST2 و CMC و SKAT و KBAC أداءً أسوأ بكثير من GRIPT عندما كان لدى مجموعة المرضى تغايرية عالية في الموضع (الشكل 4 أ-ج ، WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S2). عندما كانت نسبة المرضى المنسوبين إلى نفس جين المرض منخفضة مثل 0.5٪ ، تم تصنيف جينات المرض في المتوسط ​​24 من قبل GRIPT محققة 52.5٪ من الطاقة ، في حين أن الطرق الأربعة الأخرى كانت 0٪. عندما تساوت نسبة المريض 1٪ ، تم تصنيف جينات المرض في المتوسط ​​أولاً بواسطة GRIPT بقوة 97٪. في المقابل ، تراوحت قوة الطرق الأربعة الأخرى بين 0.5 و 11.5٪. عندما وصلت نسبة المرضى إلى 2٪ ، احتلت جينات المرض المرتبة الأولى دائمًا من قبل GRIPT بقوة 100٪. في المقابل ، تراوحت قوة الطرق الأربعة بين 11.5 و 97.5٪. عبر نطاق نسب المريض ، حددت GRIPT في المتوسط ​​جينًا مرشحًا مهمًا واحدًا مقارنةً بصفر أو مرشح واحد بواسطة كل من الطرق الأربعة الأخرى.

بما يتفق مع نتائج TINF2، كان الأداء العام لـ GRIPT أفضل من أو يمكن مقارنته بالطرق الأربع الأخرى في اكتشاف 200 جينات AD (WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S2). عندما كانت نسبة المرضى المنسوبين إلى نفس جين المرض ≤ 1٪ ، فإن GRIPT والاختبارات الأربعة الأخرى لديها طاقة منخفضة للغاية ، أي ≤ 29.5٪ لـ GRIPT ، ≤ 13٪ لـ VAAST2 ، ≤ 21.5٪ لـ CMC ، ≤ 31٪ لـ SKAT و 4.5٪ لـ KBAC (الشكل 4 د-و). عندما زادت نسبة المرضى المنسوبة إلى نفس الجين إلى 2٪ ، تم تصنيف جينات المرض في المرتبة الثالثة في المتوسط ​​بواسطة GRIPT بقوة 87٪. وبالمقارنة ، تراوحت قوة الاختبارات الأربعة الأخرى بين 68 و 85.5٪. عندما وصلت نسبة المرضى إلى 3٪ ، احتلت جينات المرض المرتبة الأولى في 97.5٪ من عمليات المحاكاة بواسطة GRIPT بقوة 99٪. وبالمقارنة ، زادت قوة الاختبارات الأربعة الأخرى إلى 93-99٪. عبر نطاق نسب المريض ، في المتوسط ​​، تم تحديد واحد إلى اثنين من الجينات المرشحة المهمة بواسطة GRIPT مقارنةً بين صفر وخمسة مرشحين بواسطة الطرق الأربعة الأخرى.

تشير عمليات المحاكاة إلى أن GRIPT قوي للغاية

يمكن أن يتأثر أداء تحليل المجموعة الضابطة بالعديد من العوامل المربكة ، مثل حجم مجموعة المرضى ، والطبقات السكانية ، وقطع تردد التصفية المتغير ، وحجم المجموعة الضابطة. لتقييم تأثيرها ، أجرينا عمليات المحاكاة باستخدام RPE65 و TINF2 كأمثلة ضمن نماذج AR و AD ، على التوالي ، وقارن GRIPT مع VAAST2 و CMC و SKAT و KBAC باستخدام نفس مجموعات البيانات تحت كل سيناريو. بالإضافة إلى ذلك ، قمنا باختبار تأثير أنظمة درجات المتغيرات المختلفة على أداء GRIPT.

حجم عينة مجموعة المريض

قمنا بمحاكاة مجموعات المرضى في مجموعة من الأحجام ، على سبيل المثال ، 50 ، 100 ، 300 ، 600 ، 800 ، مع 2٪ من المرضى يحملون الطفرات المسببة للأمراض من نفس جينات المرض ، ومجموعات التحكم بحجم 5000. النتائج ملخصة في الشكل 5 وملف إضافي 1: الجدول S3.

تأثير أحجام مجموعات المرضى. تم اختبار أحجام مجموعة المرضى عند 50 ، و 100 ، و 300 ، و 600 ، و 800. وتم تحديد حجم المجموعة الضابطة عند 5000. النسبة المئوية للمرضى الذين يحملون الطفرات المسببة للأمراض من RPE65 أو TINF2 تم تعيينه على 2٪. يظهر أداء GRIPT و VAAST2 و CMC و SKAT و KBAC باللون الأحمر والأزرق والأخضر والأرجواني والبرتقالي على التوالي. أ ترتيب RPE65 تحت نموذج AR. ب قوة الاختبارات الخمسة ل RPE65. ج عدد المرشحين الوراثي الجسدي المهم في ظل نموذج AR. د ترتيب TINF2 تحت نموذج م. ه قوة الاختبارات الخمسة ل TINF2. F عدد المرشحين الوراثي الجسدي المهم في ظل نموذج ميلادي. تصنيفات RPE65 / TINF2.0 التي تم إنشاؤها بواسطة GRIPT تمت مقارنتها مع تلك التي تم إنشاؤها بواسطة الطرق الأربعة الأخرى على التوالي باستخدام WRST أحادي الطرف. الطرق التي ولّدت ترتيبًا أسوأ بكثير من GRIPT تم تمييزها بعلامة "*" إذا ص القيمة & lt 0.05 ، "**" إذا ص القيمة & lt 0.01 ، و "***" إذا ص القيمة & لتر 0.001

كما هو مبين في الشكل 5 أ-ج ، تحت نموذج AR ، تحافظ GRIPT على حساسية عالية لأفواج المرضى مع مجموعة متنوعة من الأحجام والتغاير الموضعي العالي على الرغم من انخفاض خصوصيتها للأفواج الصغيرة من المرضى ذات التغاير الموضعي العالي. بالمقارنة ، كان أداء الطرق الأربع الأخرى أسوأ بكثير من GRIPT في نفس المواقف (WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S3). على وجه التحديد ، حيث زاد حجم مجموعة المرضى من 50 إلى 300 مع 2 ٪ من المرضى الذين يحملون RPE65 الطفرات المسببة للأمراض ، متوسط ​​رتبة RPE65 يزيد من 31 إلى 1 بواسطة GRIPT بقوة 100٪. انخفض عدد المرشحين المهمين الذين تم تحديدهم بواسطة GRIPT من 107 إلى 8. عندما وصل حجم مجموعة المرضى إلى ≥ 300 ، تم تصنيف GRIPT دائمًا RPE65 أولاً بقوة 100٪. انخفض متوسط ​​عدد المرشحين المهمين إلى ما بين واحد وثمانية. في المقابل ، كانت قوة الطرق الأربعة الأخرى 0٪ عندما يكون حجم مجموعة المريض & lt 300. عندما وصل حجم مجموعة المريض إلى 300 ، كانت القوة 33.33-100٪ لـ VAAST2 ، 0-40٪ لـ CMC ، 3– 56.67٪ لـ SKAT و0–16.67٪ لـ KBAC. وكان متوسط ​​عدد المرشحين المهمين الذين تم تحديدهم بواسطة كل من الطرق الأربع بين 0 و 26.

بموجب نموذج AD ، عندما كانت مجموعة المرضى صغيرة ولديها تغايرية عالية في الموقع ، كان لدى GRIPT حساسية وخصوصية منخفضة ، ولكن تم تحسين أدائها بشكل كبير مع زيادة حجم مجموعة المريض (الشكل 5 د-و). تم تنفيذ الطرق الأربعة الأخرى بشكل نسبي أو أسوأ بكثير في ظل نفس السيناريوهات (الشكل 5d-f ، WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S3). على وجه التحديد ، عندما زاد حجم مجموعة المريض من 50 إلى 100 مع نسبة 2 ٪ من المرضى TINF2زادت قوة GRIPT من 6.67 إلى 33.33٪ وانخفض متوسط ​​عدد المرشحين المهمين من 79 إلى 28. عندما زاد حجم مجموعة المرضى إلى 300 ، TINF2 تم تصنيفها في المرتبة الأولى في المتوسط ​​من قبل GRIPT بقوة 100 ٪. كان متوسط ​​عدد المرشحين المهمين من قبل GRIPT بين اثنين وثمانية. بالمقارنة ، عندما يكون حجم مجموعة المريض 300 لتر ، زادت القوة من 6.67 إلى 36.67٪ لـ CMC وظلت عند 0٪ لـ VAAST2 و SKAT و KBAC. عندما وصل حجم مجموعة المريض إلى 300 ، كانت القوة بين 3.33 و 100٪ للاختبارات الأربعة. كان متوسط ​​عدد المرشحين المهمين في كل اختبار من الاختبارات الأربعة بين 0 و 103.

التقسيم الطبقي للسكان من الأفواج

وقد لوحظ أن الطيف المتنوع لجين المرض يختلف بين السكان الذين ينتمون إلى أعراق مختلفة وأن التقسيم الطبقي للسكان المرتفع يمكن أن يضعف أداء تحليل الأتراب [16]. لاختبار تأثير التقسيم الطبقي للسكان على GRIPT ، قمنا بمحاكاة مجموعات المرضى كمزيج من الأفراد الأفارقة واللاتينيين ومجموعات التحكم مع الأفراد اللاتينيين فقط ، بناءً على تردد الأليل في قاعدة بيانات ExAC مع العرق المقابل (انظر قسم "الطرق"). تمت محاكاة النسبة التي لا مثيل لها بين مجموعات الحالة والتحكم عند 0٪ ، و 20٪ ، و 40٪ ، و 60٪ ، و 80٪ ، و 100٪. تم تحديد حجم مجموعة المرضى عند 500 ومجموعة التحكم عند 5000. تم تحديد نسبة المرضى الذين يحملون الطفرات المسببة للأمراض لنفس الجين عند 1٪. تم تلخيص النتائج في الشكل 6 وملف إضافي 1: الجدول S4.

تأثير التقسيم الطبقي للسكان. تم اختبار النسب التي لا مثيل لها بين مجموعة المرضى ومجموعة المراقبة عند 0٪ و 20٪ و 40٪ و 60٪ و 80٪ و 100٪. النسبة المئوية للمرضى الذين يحملون RPE65 أو TINF2 تم تعيين الطفرات المسببة للأمراض عند 1٪. كان حجم مجموعة المرضى 500. كان حجم مجموعة التحكم 5000. يظهر أداء GRIPT و VAAST2 و CMC و SKAT و KBAC باللون الأحمر والأزرق والأخضر والأرجواني والبرتقالي ، على التوالي. أ ترتيب RPE65 تحت نموذج AR. ب قوة الاختبارات الخمسة ل RPE65. ج عدد المرشحين الوراثي الجسدي المهم في ظل نموذج AR. د ترتيب TINF2 تحت نموذج م. ه قوة الاختبارات الخمسة ل TINF2. F عدد المرشحين الوراثي الجسدي المهم في ظل نموذج ميلادي. تصنيفات RPE65 / TINF2.0 تمت مقارنة الجينات التي تم إنشاؤها بواسطة GRIPT بتلك التي تم إنشاؤها بواسطة الطرق الأربعة الأخرى على التوالي باستخدام WRST أحادي الذيل. الطرق التي ولّدت ترتيبًا أسوأ بكثير من GRIPT تم تمييزها بعلامة "*" إذا ص القيمة & lt 0.05 ، "**" إذا ص القيمة & lt 0.01 ، و "***" إذا ص القيمة & لتر 0.001

كما هو مبين في الشكل 6 أ-و ، انخفضت حساسية ونوعية GRIPT بشكل طفيف مع زيادة نسبة الإثنية التي لا مثيل لها بين الحالات والضوابط. ومع ذلك ، فإن GRIPT أقل تأثرًا بشكل كبير بالتقسيم الطبقي للسكان مقارنة بالطرق الأربع الأخرى حتى عندما يكون لمجموعة المرضى عدم تجانس موضعي مرتفع (WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S4). على وجه التحديد ، في ظل نموذج AR ، حيث زادت نسبة العرق التي لا مثيل لها بين المرضى وعناصر التحكم من 0 إلى 100٪ (أي من المتطابق تمامًا إلى غير المتطابق تمامًا) ، فإن متوسط ​​رتبة RPE65 انخفض من 1 إلى 32 بواسطة GRIPT ولكن دائمًا بقوة 100٪ (الشكل 6 أ-ج). تم تقليل الخصوصية مع زيادة متوسط ​​عدد الجينات المرشحة المهمة من 2 إلى 111 (الشكل 6 أ-ج). في المقابل ، تراوحت صلاحيات CMC و SKAT و KBAC بين 0 و 20٪. زاد متوسط ​​عدد الجينات المرشحة المهمة من 1 إلى 1929 لـ CMC ، ومن 0 إلى 2603 لـ SKAT ، ومن 0 إلى 1921 لـ KBAC. بالإضافة إلى ذلك ، مع زيادة نسبة الإثنية التي لا مثيل لها ، زاد وقت تشغيل VAAST2 بشكل كبير (على سبيل المثال ، يحتاج 120-240 ساعة مع خمس وحدات معالجة مركزية متوازية لإنهاء تشغيل محاكاة واحدة). لذلك ، تم اختبار VAAST2 فقط لنسبة العرق التي لا مثيل لها والتي تتراوح من 0 إلى 60٪. في ظل هذه السيناريوهات ، تراوحت قوة VAAST2 بين 10 و 26.7٪. زاد متوسط ​​عدد الجينات المرشحة المهمة التي تم تحديدها بواسطة VAAST2 من 0 إلى 1502.

وفقًا لنموذج AD ، فإن GRIPT أقل تأثراً بشكل ملحوظ بالتقسيم الطبقي للسكان (WRST ، ص القيمة ، راجع الملف الإضافي 1: الجدول S4). حيث زادت نسبة الإثنية التي لا مثيل لها من 0 إلى 100٪ ، فإن متوسط ​​رتبة TINF2 انخفض من اثنين إلى تسعة بواسطة GRIPT بقوة 96.67-100٪ (الشكل 6d-f). ارتفع متوسط ​​عدد الجينات المرشحة المهمة من 3 إلى 19. وبالمقارنة ، متوسط ​​رتبة TINF2 انخفض من 3 إلى 75 لـ VAAST2 ، ومن 7 إلى 57 لـ CMC ، ومن 44 إلى 166 لـ SKAT ، ومن 3 إلى 33 لـ KBAC. كانت القوة من 0 إلى 13.33٪ لـ VAAST2 ، و 53.33-66.67٪ لـ CMC ، و 0-3.33٪ لـ SKAT ، و0-6.67٪ لـ KBAC. زاد متوسط ​​عدد الجينات المرشحة المهمة من صفر إلى خمسة لـ VAAST2 ، ومن 4 إلى 35 لـ CMC ، ومن صفر إلى اثنين لـ SKAT ، ومن صفر إلى واحد لـ KBAC. (الشكل 6 د-و).

ترشيح التردد المتغير

من المتوقع أن تكون الطفرات المسببة للأمراض المندلية نادرة جدًا في السكان ، ومن المحتمل أن تكون المتغيرات البشرية الشائعة حميدة للأمراض المندلية النادرة. لذلك ، لتقليل تعقيد التحليل / الحساب ، يتم أولاً تصفية المتغيرات من WES بشكل تقليدي أولاً من متغيرات الجينوم البشري الشائعة بناءً على تردد الأليل في قاعدة بيانات كبيرة لمتغيرات الجينوم البشري ، على سبيل المثال ، gnomAD و ExAC [21]. لتقليد هذا السيناريو ، تمت محاكاة مجموعات المريض والمراقبة المذكورة أعلاه باستخدام المتغيرات التي يبلغ الحد الأقصى لترددها السكاني ≤ 0.5 ٪ في قاعدة بيانات ExAC لنموذج AR وأقصى تردد للسكان هو 0.01 ٪ لنموذج AD. هنا ، قمنا بفحص تأثير قطع ترشيح التردد المريح (أي الأعلى) على طرق تحديد الجينات المرضية. لقد قمنا بمحاكاة بيانات WES الخاصة بأفواج المرضى والمراقبين باستخدام مجموعة من الانقطاعات الترددية المتغيرة على التوالي: 0.5٪ و 1٪ و 2٪ لنموذج AR و ≤ 0.01٪ و 0.5٪ و ≤ 1٪ لـ نموذج م. تم تحديد نسبة المرضى المنسوبين إلى نفس الجين عند 1٪. تم تحديد حجم مجموعة المرضى عند 600 ومجموعة التحكم عند 5000. وأظهرت النتائج أن تضمين المزيد من المتغيرات / الضوضاء لكل فرد باستخدام قطع تصفية التردد العالي كان له تأثير ضئيل على أداء GRIPT بموجب نموذج AR ، ولكنه قلل من قوتها في ظل نموذج م. تعرض أداء الطرق الأربعة الأخرى للخطر إلى حد كبير وكان أسوأ بكثير من أداء GRIPT أو يمكن مقارنته (الشكل 7 أ-و ، ملف إضافي 1: الجدول S5).

تأثير ترشيح التردد المتغير. تم اختبار قطع تردد التصفية المتغير عند 0.5٪ و 1٪ و 2٪ بموجب نموذج AR وعند 0.01٪ و 0.5٪ و 1٪ بموجب نموذج AD. النسبة المئوية للمرضى الذين يحملون RPE65 أو TINF2 تم تعيين الطفرات المسببة للأمراض عند 1٪. كان حجم مجموعة المرضى 600. كان حجم مجموعة التحكم 5000. يظهر أداء GRIPT و VAAST2 و CMC و SKAT و KBAC باللون الأحمر والأزرق والأخضر والأرجواني والبرتقالي ، على التوالي. أ ترتيب RPE65 تحت نموذج AR. ب قوة الاختبارات الخمسة ل RPE65. ج عدد المرشحين الوراثي الجسدي المهم في ظل نموذج AR. د ترتيب TINF2 تحت نموذج م. ه قوة الاختبارات الخمسة ل TINF2. F عدد المرشحين الوراثي الجسدي المهم في ظل نموذج ميلادي. تصنيفات RPE65 / TINF2.0 التي تم إنشاؤها بواسطة GRIPT تمت مقارنتها بتلك التي تم إنشاؤها بواسطة الطرق الأربعة الأخرى على التوالي باستخدام WRST أحادي الطرف. الطرق التي ولّدت ترتيبًا أسوأ بكثير من GRIPT تم تمييزها بعلامة "*" إذا ص القيمة & lt 0.05 ، "**" إذا ص القيمة & lt 0.01 ، و "***" إذا ص القيمة & لتر 0.001

على وجه التحديد ، في ظل نموذج AR ، حيث زاد قطع تصفية التردد من 0.5 إلى 2٪ ، صنفت GRIPT RPE65 الأول في 98.89٪ من عمليات المحاكاة ، ويحقق دائمًا طاقة بنسبة 100٪. كان متوسط ​​عدد الجينات المرشحة المهمة حوالي ثلاثة (الشكل 7 أ-ج). في المقابل ، ترتيب RPE65 من خلال الاختبارات الأربعة الأخرى انخفض بشكل كبير ، مع ≤ 10٪ من الطاقة لـ VAAST2 و 0٪ من الطاقة لـ CMC و SKAT و KBAC. تحت نموذج AD ، مع زيادة قطع التردد المتغير من 0.01 إلى 1٪ ، فإن متوسط ​​رتبة TINF2 انخفض من 5 إلى 590 بواسطة GRIPT مع انخفاض الطاقة من 53.33 إلى حوالي 3٪. كان متوسط ​​عدد الجينات المرشحة المهمة بين صفر واثنين (الشكل 7 د-و). انخفضت قوة VAAST2 من 13.33 إلى 10٪ ، و CMC من 36.67 إلى 0٪ ، و SKAT من 6.67 إلى 0٪ لـ SKAT ، و KBAC من 6.67 إلى 0٪.

تأثير حجم مجموعة التحكم

من الناحية النظرية ، يجب أن يكون الطيف المتغير للجين في مجموعة تحكم كبيرة أقل تحيزًا وأقرب إلى التوزيع الحقيقي من ذلك الموجود في مجموعة تحكم صغيرة. وبالتالي ، يمكن أن تعمل مجموعات التحكم الكبيرة بشكل أفضل كعنصر تحكم / خط أساسي ، على سبيل المثال ، لاستبعاد الجينات التي تحتوي على أعداد كبيرة من المتغيرات الحميدة النادرة في السكان. لاختبار تأثير حجم مجموعة التحكم ، قمنا بمحاكاة مجموعات تحكم أصغر بحجم 600 واستخدمنا مجموعات الحالة السابقة بحجم 600 لتكرار التحليل. تم تلخيص النتائج في الشكل 8 وملف إضافي 1: الجدول S6.

تأثير أحجام مجموعة التحكم. تم اختبار نماذج AR و AD على 0.5٪ و 1٪ و 2٪ و 3٪ من المرضى الذين يحملون الطفرات الممرضة لـ RPE65 أو TINF2، على التوالى. كان حجم مجموعة المرضى 600. كان حجم مجموعة التحكم 600. يظهر أداء GRIPT و VAAST2 و CMC و SKAT و KBAC باللون الأحمر والأزرق والأخضر والأرجواني والبرتقالي ، على التوالي. أ ترتيب RPE65 تحت نموذج AR. ب قوة الأدوات الخمس لـ RPE65. ج عدد المرشحين الوراثي الجسدي المهم في ظل نموذج AR. د ترتيب TINF2 تحت نموذج م. ه قوة الأدوات الخمس لـ TINF2. F عدد المرشحين الوراثي الجسدي المهم في ظل نموذج ميلادي. تصنيفات RPE65 / TINF2.0 التي تم إنشاؤها بواسطة GRIPT تمت مقارنتها بتلك التي تم إنشاؤها بواسطة الطرق الأربعة الأخرى على التوالي باستخدام WRST أحادي الطرف. الطرق التي ولّدت ترتيبًا أسوأ بكثير من GRIPT تم تمييزها بعلامة "*" إذا ص القيمة & lt 0.05 ، "**" إذا ص القيمة & lt 0.01 ، و "***" إذا ص القيمة & لتر 0.001

تحت نموذج AR ، ظلت GRIPT حساسة في الترتيب RPE65. عندما RPE65 زادت نسبة المريض من 0.5 إلى 2٪ ، وارتفع متوسط ​​رتبة RPE65 من 45 إلى 1. ومع ذلك ، فإن ص قيمة ال RPE65 لم يجتاز GWSL في أي من عمليات المحاكاة ، حيث أظهر GRIPT بقوة 0٪. تمشيا مع النتائج مع مجموعة تحكم أكبر ، كان أداء الأدوات الأربعة الأخرى أسوأ بكثير من GRIPT (الشكل 8 أ-ج ، WRST ، ص القيمة ، راجع ملف إضافي 1: الجدول S6). على سبيل المثال ، عندما يكون ملف RPE65 تساوي نسبة المريض 1٪ ، وكان متوسط ​​رتبة RPE65 981 لـ VAAST2 ، و 6243 لـ CMC ، و 7611 لـ SKAT ، و 2892 لـ KBAC. وبالمثل ، فإن ص قيم RPE65 من الاختبارات الأربعة الأخرى لم يجتاز GWSL لغالبية عمليات المحاكاة أيضًا ، كما هو موضح كقوة اختبار أقل من 13.33٪.

تحت نموذج AD مع مجموعات التحكم الصغيرة ، تم تصنيف TINF2 بواسطة GRIPT والطرق الأربع الأخرى كانت متسقة مع ذلك مع مجموعات التحكم الكبيرة (الشكل 8d-f ، الملف الإضافي 1: الجدول S6). أعطت الطرق الخمس TINF2 a low ranking when the TINF2 patient proportion was low. But the ranking of TINF2 rose as the TINF2 patient proportion increased. When the TINF2 patient proportion increased to 3%, all five methods ranked TINF2 to the top. However, similar to the results under the AR model, the ص value of TINF2 by the five methods did not pass the GWSL in the majority of the simulations under the AD model, shown as the power below 36.67% (Fig. 8d–f).

The effect of different variant scoring systems

To test whether the performance of GRIPT will be affected by different variant score systems, besides CADD score, we applied the Deleterious Annotation of genetic variants using Neural Networks (DANN) and Rare Exome Variant Ensemble Learner (REVEL) scores to annotate the variant scores in GRIPT respectively and repeated the aforementioned analyses. DANN scoring system shares the same feature set and training data as CADD (which was trained with a linear kernel support vector machine, SVM) but was trained with a non-linear deep neural network. DANN achieves about a 19% relative reduction in the error rate and about a 14% relative increase in the area under the curve (AUC) metric over CADD’s SVM methodology [29]. REVEL is an ensemble method for predicting the pathogenicity of missense variants by integrating the individual tools, including MutPred, FATHMM, VEST, PolyPhen, SIFT, PROVEAN, MutationAssessor, MutationTaster, LRT, GERP, SiPhy, phyloP, and phastCons. REVEL outperformed (ص < 10 −12 ) individual tools and seven ensemble methods (i.e., MetaSVM, MetaLR, KGGSeq, Condel, CADD, DANN, and Eigen) in analyzing independent test sets and also showed the best performance for distinguishing pathogenic from rare neutral variants with allele frequencies < 0.5% [30]. As shown in Additional file 2: Figure S1-S4 and Additional file 1: Table S2-S5, the benchmark analysis with 400 AR and AD genes, the analyses of the impacts of patient cohort size, population stratification, and variant frequency filtering all showed that the results based on DANN and REVEL scores are consistent with the previous results based on CADD score. The consistency based on different variant score systems demonstrated the reliability and robustness of the statistic test framework of GRIPT.

Comparison to the traditional GWAS single variant test

To compare the performance of GRIPT with the traditional GWAS single variant test, we simulated the basic scenario with 0.5–3% of patients carrying the pathogenic mutations of RPE65 و TINF2, respectively, and applied GRIPT and Fisher’s exact test to the data. As shown in Fig. 9 and Additional file 1: Table S1, Fisher’s exact test performed much worse than GRIPT. Under the AR model, when the RPE65 patient proportion was 0.5%, RPE65 was ranked on average sixth by GRIPT with 66.67% power. When the RPE65 patient proportion was ≥ 1%, RPE65 was always ranked first by GRIPT with 100% power. In contrast, the average ranking of RPE65 by Fisher’s exact test was in the range of 890 to 32,000, always with 0% power (Fig. 9a–c). Under the AD model, as TINF2 patient proportion increased from 0.5 to 1%, the power of GRIPT increased from 3.33 to 53.33%. When the TINF2 patient proportion was ≥ 2%, GRIPT always ranked TINF2 first with 100% power. In comparison, as the proportion of TINF2 patients increased, the average ranking of TINF2 by Fisher’s exact test was improved from 12,675th to 23th, but the test power remained at 0% (Fig. 9d–f). The reasons may be as follows: (1) GRIPT is a gene-wise test that ranks the functional effects of variants and incorporates the Mendelian inheritance models to compute the gene score. In contrast, the traditional single variant test considers one variant in a gene each time and is mainly based on the allele frequency difference between cases and controls. Thus, the single variant test does not have sufficient power to detect the heterogeneous rare deleterious variants in Mendelian disease cohorts, although it might be suitable for common complex diseases. (2) The multiple test correction requests a much more stringent ص value cutoff for the single variant test than the gene-wise GRIPT due to the larger number of tests applied in the single variant test than in GRIPT (i.e., variants vs. genes).

The comparison of the performance of Fisher’s exact test with GRIPT. The AR and AD models were tested with 0.5%, 1%, 2%, and 3% of patients carrying the pathogenic mutations of RPE65 أو TINF2, على التوالى. The patient cohort size was 600. The control cohort size was 5000. The performance of GRIPT and Fisher’s exact test are shown in red and blue, respectively. أ The ranking of RPE65 under the AR model. ب The power of the two tests for RPE65. ج The number of significant autosomal candidate genes under the AR model. د The ranking of TINF2 under the AD model. ه The power of the two tests for TINF2. F The number of significant autosomal candidates under the AD model. The rankings of RPE65/TINF2 generated by GRIPT were compared to those generated by Fisher’s exact test with one-tailed WRST. The methods that generated significantly worse ranking than GRIPT were marked with “*” if ص value < 0.05, “**” if ص value < 0.01, and “***” if ص value < 0.001

The performance to detect genes with modest-effect variants

To test the performance of GRIPT in detecting genes with modest-effect variants, we simulated the scenario of patients carrying allele complex composed of modest-effect mutations by concurrently spiking two known modest-effect mutations of ABCA4, chr1:94476467:T>A (p.Asn1868Ile), and chr1: 94517254:C>G (p.Gly863Ala) [31] into the varying percentages (i.e., 0.5%, 1%, 2%, and 3%) of patients under the AR model. Both GRIPT and the collapsing test CMC were applied to the data. As shown in Fig. 10 and Additional file 1: Table S7, GRIPT significantly outperformed the collapsing test in detecting genes with modest-effect variants. The reason behind might be that GRIPT ranks the functional effects of variants and takes account of the Mendelian inheritance model to compute the gene score. In contrast, the collapsing test aggregates all the variants within a gene regardless of their functional effect and the Mendelian inheritance mode to compute the mutation burden, resulting in higher background noise therefore, it is less sensitive and more prone to false positives for genes with large numbers of rare benign variants.

The performance of GRIPT and CMC on detecting genes with modest-effect variants. The AR model was tested with 0.5%, 1%, 2%, and 3% of patients concurrently carrying the modest-effect variants (p.Asn1868Ile and p.Gly863Ala) of ABCA4, على التوالى. The patient cohort size was 600. The control cohort size was 5000. The performance of GRIPT and CMC are shown in red and blue, respectively. أ The ranking of ABCA4 under the AR model. ب The power of the two tests for ABCA4. ج The number of significant autosomal candidate genes under the AR model. The rankings of ABCA4 generated by GRIPT were compared to those generated by CMC with one-tailed WRST. The methods that generated significantly worse ranking than GRIPT were marked with “*” if ص value < 0.05, “**” if ص value < 0.01, and “***” if ص value < 0.001

Analysis of real patient cohort data displays GRIPT’s excellent performance

To further validate the performance of GRIPT, we applied it to real WES data of three different patient cohorts respectively, including a Leber’s congenital amaurosis (LCA) cohort, a retinitis pigmentosa (RP) cohort, and a congenital disorder of glycosylation (CDG) cohort. Both the LCA cohort and RP cohort were composed of the patients carrying the pathogenic mutations of different genes, and the proportion of patients attributed to each disease gene was small. Furthermore, the patient ethnicity of the LCA cohort or RP cohort was an admixture of Caucasian, African American, Latino, and Asian, whereas the CDG cohort was composed of the patients all attributed to PGM3 from two families. The performance of GRIPT was also compared with VAAST2, CMC, SKAT, and KBAC on the same datasets.

The LCA cohort

LCA is a genetic heterogeneous disease and can be caused by mutations in at least 22 genes (http://www.sph.uth.tmc.edu/RetNet, accessed as of September 3, 2017). We performed WES on 115 sporadic LCA patients. As LCA is a rare Mendelian disorder, variants with maximum population allele frequency > 0.5% were filtered out based on the allele frequency in the large public databases of normal populations (i.e., 1000 genome, dbSNP, ESP6500, ExAC, gnomAD) and an internal database. We only focused on rare protein-changing variants including nonsense variants, splicing donor/acceptor variants, missense variants, and small INDELs, since they are more likely to be the disease-causing mutations. One previously simulated control cohort (ن = 5000) was used as the control cohort for these tests.

GRIPT showed high sensitivity for the LCA cohort with high locus and ethnicity heterogeneity. It successfully detected the disease gene that only accounted for ≤ 1% of the patients. Specifically, the first nine candidate genes ranked by GRIPT were all known retinal disease genes (Table 1). Among a total of 203 significant candidates, 19 genes were known disease genes, each of which accounted for 0.87–6.09% (one to seven patients) of the cohort. Most interestingly, GRIPT was able to identify novel retinal disease genes, i.e., POMGNT1 (ص = 2.81 × 10 −10 ) and MFSD8 (ص = 2.81 × 10 −10 ). POMGNT1 was a gene causing non-syndromic RP newly discovered in 2016 [32] and accounted for one patient of this cohort, who carried a stop-gain mutation and a missense mutation in POMGNT1. Mutations in MFSD8 have been linked to macular dystrophy recently [33] and accounted for one patient of the LCA cohort, who carried a splice donor mutation and a missense mutation in MFSD8.

In comparison, the other tools lacked power in detecting the disease genes accounting for small proportions of this cohort. A total of 7 significant candidates were identified by VAAST2, 27 by CMC, 6 by SKAT, and 1 by KBAC. Among them, 5 genes by VAAST2 were known disease genes, 3 genes by CMC, 2 genes by SKAT, and 1 gene by KBAC, each of which accounted for 2.61–6.09% (three to seven patients) of the cohort. However, none of these known genes were the recently identified novel retinal disease genes.

The RP cohort

RP is an inherited retinal disease with even greater genetic heterogeneity compared to LCA. So far, mutations in more than 65 genes were found to cause the disease (http://www.sph.uth.tmc.edu/RetNet, accessed by September 3, 2017). WES was performed for 154 sporadic RP patients. After filtering, the WES data of the real patient cohort and a simulated control cohort (ن = 5000) were subjected to analysis. GRIPT again showed excellent power in identifying low-frequency disease genes underlying the cohort with high locus and ethnicity heterogeneity. As shown in Table 2, eight genes whose rankings ranged from first to 11th by GRIPT were known retinal disease genes. Among the 157 significant candidates (ص < 2.7e−6) identified by GRIPT, 17 are known disease genes, each of which explained 0.649–8.44% (1 to 13 patients) of the cohort. Furthermore, GRIPT was able to identify three novel retinal disease genes recently published, i.e., POMGNT1 (ص = 3.95 × 10 −15 ), TRNT1 (ص = 6.25 × 10 −8 ) and HGSNAT (ص = 2.10 × 10 −7 ). Mutations in POMGNT1 [32] accounted for two patients of the cohort, who carried two different homozygous missense mutations. Mutations in HGSNAT, a gene causing nonsyndromic RP [34], explained two patients in this cohort. One patient carried two missense mutations, and the other carried a disruptive inframe deletion and a missense mutation. Mutations in TRNT1, a gene causing RP and erythrocytic microcytosis [35], accounted for one patient in the cohort, who carried a frameshift mutation and a missense mutation in TRNT1.

In comparison, the other tools had weak power in detecting the low-frequency disease genes underlying this cohort. A total of 4 significant candidate genes were identified by VAAST2, 25 by CMC, 6 by SKAT, and 2 by KBAC. Among them, 2 genes by VAAST2 were known disease genes, 0 by CMC, 1 by SKAT, and 0 by KBAC, each of which accounted for 5.19–8.44% (8 to 13 patients) of the cohort. And none of these known genes were the novel retinal disease genes recently identified.

The CDG cohort

The CDG cohort was composed of six patients from two families who all carry the pathogenic mutations of PGM3 gene [36, 37]. The WES data were downloaded from dbGaP (phs000809.v1.p1) [36]. Thus, this cohort serves as a real data example of a genetic homogeneous disease with extremely small case cohort size from an independent external source. After filtering and annotation, the real WES data and a simulated control cohort (ن = 5000) were analyzed by the five tools. GRIPT showed the highest accuracy and efficiency in analyzing this homogeneous external cohort. GRIPT correctly ranked PGM3 first (ص = 0), taking less than 30 min with one CPU. VAAST2 also ranked PGM3 first (ص = 2.50 × 10 −6 ) but took about 6 h with five parallel CPUs. CMC ranked PGM3 11th (ص = 3.79 × 10 −64 ) and took about 2.5 h with one CPU. ال ص value of PGM3 by SKAT equals to 0 but is the same as the other 162 genes (ص = 0), taking 9.3 h with one CPU. ال ص value of PGM3 by KBAC equals to 2 × 10 −6 but is the same as the other 62 genes (ص = 2 × 10 −6 ), taking 7.8 h and one CPU.


Biology of mtDNA

Although the vast majority of mitochondrial protein transcription and translation is encoded for and controlled by the nucleus ( Ryan & Hoogenraad 2007 ), mitochondria retain their own DNA — a remnant of an α-proteobacteria ancestry ( Gray وآخرون آل. 1999 ). The roles of mtDNA are well conserved across the eukaryotes, not least the encoding of vital components of the oxidative phosphorylation pathway ( Saraste 1999 ). On the other hand, the size and structure of the mitochondrial genome can vary dramatically across eukaryotes ( Burger وآخرون آل. 2003 ). In animals, they are mostly double-stranded, circular, and lack introns, with highly conserved size and gene content: genomes range between 15 and 20 kb and generally encode 22 transfer RNAs, two ribosomal RNAs and 13 subunits of the oxidative phosphorylation pathway ( Wolstenholme & Clary 1985 Kocher وآخرون آل. 1989 Shadel & Clayton 1997 ). mtDNA may aggregate into nucleoprotein complexes on the inner mitochondrial membrane, referred to as nucleoids, with 2 to 10 mtDNA copies per nucleoid ( Satoh & Kuroiwa 1991 Legros وآخرون آل. 2004 Malka وآخرون آل. 2006 ), the evolution and dynamics of which are now beginning to be understood ( Kucej & Butow 2007 Bogenhagen وآخرون آل. 2008 ). Total cellular mtDNA copy number can vary between cell types (Table 1).

نوع من الخلايا Per mitochondrion Per cell (×10 3 )
Somatic 1–15 (average 4.6) 2 1.6–4.1 1
Mature oocyte 1–2 3,4 100–200 5,6
Mature sperm 1 7 0.1 7

Replication of mtDNA, which occurs semi-autonomously from nuclear control ( Larsson وآخرون آل. 1998 Ekstrand وآخرون آل. 2004 Ryan & Hoogenraad 2007 ), is relaxed so that some of the multiple mtDNA copies in a healthy organelle replicate more than others by chance, or because they possess some intrinsic replicative advantage ( Birky 1994 , 2001 ). Segregation of mtDNA between cells in mitosis and meiosis occurs vegetatively due to: (i) relaxed replication of mtDNA, (ii) its stochastic partitioning into daughter organelles, and (iii) the stochastic partitioning of organelles into daughter cells ( Birky 2001 ). Intergenerational transmission of mtDNA is characterised by a genetic bottleneck at early developmental stages, through which mtDNA molecules must pass (Box 1 Box 1 The mitochondrial bottleneck The paradox of dramatic shifts in frequency of mtDNA genotypes across few generations, despite vast numbers of mtDNA molecules in mature oocytes ( Hauswirth & Laipis 1982 Ashley وآخرون آل. 1989 ), can be explained, in part, by a mitochondrial bottleneck that occurs during early developmental stages ( Bergstrom & Pritchard 1998 ). Although not the only factor likely at work ( Birky 2001 Cao وآخرون آل. 2007 ), this bottleneck may prevent an accumulation of deleterious mutations and ‘mutational meltdown’, that would otherwise occur in a clonally inherited molecule via Muller's ratchet ( Bergstrom & Pritchard 1998 Shoubridge & Wai 2007 ). While there is little contention about their existence, what remains debated is whether it is at embryogenesis, or oogenesis, that the strongest effects of mitochondrial bottlenecks are felt ( Jenuth وآخرون آل. 1996 Smith وآخرون آل. 2002 Cao وآخرون آل. 2007 Cree وآخرون آل. 2008 Khrapko 2008 ). During mammalian embryogenesis, total embryonic mtDNA content remains constant during early stages of the cleaving embryo ( Cao وآخرون آل. 2007 Cree وآخرون آل. 2008 ), with mitochondria being equally apportioned to daughter cells. Most of the blastocyst forms extra-embryonic tissues thus, only a subset of all cells (the inner cell mass, ICM) will contribute to the developing embryo ( Hogan وآخرون آل. 1986 Fleming وآخرون آل. 1992 ). The apportionment of mitochondria to the ICM constitutes a numerical bottleneck, during which rare mtDNA haplotypes are prone to loss ( Bergstrom & Pritchard 1998 ). During mammalian oogenesis, the vast number of germ cells at maturity originates from a limited number of progenitor germ cells (PGCs), each of which contains approximately 10–100 mitochondria ( Shoubridge & Wai 2007 ). There is then an enormous expansion in cell number (to

10 7 primary oocytes in mice and human, respectively), and increase in mitochondria number. The number of mtDNA molecules increases dramatically to around 200 000 mtDNA copies in mature oocytes ( Jansen & de Boer 1998 Shoubridge & Wai 2007 ). This large decrease in mtDNA per cell during embryogenesis, and dramatic increase in oogenesis, means only a subset of maternal mtDNAs will re-populate successive generations. For a heteroplasmic individual this often means a return to homoplasmy, but can lead to strong founder effects ( Bergstrom & Pritchard 1998 ).
, Fig. 1). This bottleneck, which may result in a reduction from millions to as few as 100 mtDNA copies ( Jenuth وآخرون آل. 1996 Wolff وآخرون آل. unpublished), can have a dramatic effect on offspring mtDNA genotype ( Koehler وآخرون آل. 1991 Blok وآخرون آل. 1997 Cree وآخرون آل. 2008 ).

The mammalian mitochondrial bottleneck. 1 and 2 represent the stages that have the strongest effect on haplotype segregation. ICM, inner cell mass PGC, progenitor germ cell. Estimates of mtDNA copy per cell come from Cao وآخرون آل. (2007 ) and Shoubridge & Wai (2007 ).


Access options

Get full journal access for 1 year

All prices are NET prices.
VAT will be added later in the checkout.
Tax calculation will be finalised during checkout.

Get time limited or full article access on ReadCube.

All prices are NET prices.


استنتاج

In this review, we put forward our proposition that hybrid necrosis resulting from immune incompatibility would function as a potential opposing force to the expression heterosis in hybrids. Our reasoning bases on recent molecular and genetic findings on hybrid necrosis in plant species covering both natural and selectively bred germplasms. Autoimmunity is a major mechanism underlying hybrid necrosis arising from a new combination of highly diversified immune components from different parental origins, which obligatorily results in compromise in growth and yield. Thus, hybrid necrosis illustrates an extreme degree of trade-off manifestation between growth and immunity. In the plant performance equilibrium model that we propose, the shifted equilibrium to the extremes is expressed as either hybrid necrosis or heterosis. Although the degree of contribution made from anti-hybrid necrosis to determining heterosis is yet to be examined, yield penalty associated with enhanced resistance observed throughout breeding history, including hybrid breeding in rice, clearly points to the link between heterosis and disease resistance traits. We encourage rice researchers to revisit the cases of underperforming hybrids in the breeding panel under the new concept of hybrid necrosis as an opposing force to heterosis. Despite the seemingly low breeding interests, such underperformance, when addressed under epistatic interactions and environmental variables affecting performances, might reveal an underestimated contribution of hybrid necrosis to restrict the full manifestation of heterosis. The findings will not only shed light on guided breeding strategies in the post-genome era but also greatly inform us of evolutionary processes shaping up an immune system including the valuable ر gene repertoire. The more we understand the downside of hybrid performance, the better could we combine beneficial traits of yield and disease resistance. Valuable rice germplasms bred throughout history await a new wave of immune-centered breeding for heterosis.


Disorders - Psychiatric Genetics

Twin studies
- DZ 10-20% concordance
- MZ 50-60% concordance
- Metananalysis: 81% heritable in twin studies (BPD: 80, AD: 55, ASD: 90, MDD 30(F)/40(M))
- Offspring of MZ twins discordant for psychosis = 12% Sz in child of affected vs 7% in unaffected, 21% BPD in child of affected vs 25% in unaffected

Adoption studies
- Sz in biological parents = increased risk
- Sz in adoptive parents = no increased risk

Parentage(family) - Denmark whole pop.
- discordant MZ twins.
. with both parents Sz, risk: 67.5% any psych disorder, 39.5% related disorders, 27% Sz
. with both parents BPD, risk: 44.2% any psych disorder, 36% BPD or MDD, 24.9% BPD
. with one parent Sz, one BPD, risk: 15.6% Sz, 11.7% BPD

Chromosomal abnormality
- triosomy 21: icnreased risk
- 22q11DS: 1/4000, 25% Sz or psychosis. VCFS patients account for 0.3% patients with Sz
- CNVs (1kb-millions) e.g. low copy repeats undergo non-allelic homologous recombinations 2 + 2 -> 3 + 1

GWAS
- each loci impacts OR1.1-1.12
- so thousands of variants required to cause schizophrenia
- Loci may elude to disease mechanism, informing treatment despite small effect size

CNV
- confirmed CNVs found in 2.5% Sz cases, 0.6% controls
- 12 loci (0.2-0.4mb) certain to cause Sz: others will exist but too rare or effect size too small to have been found
- CNV implicated in Sz cause other phenotypes (ie pleiotropic) (Heart defects in 22q11DS & chr7dup/del (WBS), 16p13.1 in ADHD, 1q21.1 in microcephaly, 10p11.2dup in ASD)
- all Sz CNVs also impicated in developmental delay/ASD/congenital malformation (DD/ASD/CM)
- large CNVs don't play large role in BPD
- De novo CNVs in Sz found in 5% cases, 2.2% controls, essentially specific abnormalities of postsynpatic signalling complexes in pathogenesis

64% decreased fecundity in Sz represents strong selection coefficient, so lower frequency of mutant allele in population BUT is dependent on mutation rate.

common variants may be beneficial e.g. increase creativity

CNV penetrance is much higher for DD/ASM/Cm than for Sz
- Sz CNVs have incomplete penetrance, but associated disorders eg 22q11DS are much highr (20-100% penetrance)

Low mood/anhedonia
+ fatigue, psychomotor retardation, insomnia, loss of appetite, poor concentration, suicidality, helplessness

Elevated mood/irritability
+ goal directed activity, psychomotor agitation, decreased need for sleep, racing thoughts & speech, distractable, increased libido & self esteem

Mania vs Hypomania
- 1 week : 4 days
- marked impairment : not impaired in social functioning
- maybe hospitalised : not
- may have psychotic features : doesn't

When euthymic.
- cognitive abnormality
- reduced response inhibition
- executive deficits
- decreased attention
- increased impulsivity
- poor problem solving

POSTNATAL DEPRESSION
10-15%, a fews days to 6 months postpartum, duration "weeks to months to years", present with typical MDD symptoms, treat with CBT +/- antidepressants

POSTPARTUM PSYCHOSIS
1 in 1000, with around 50% first episode of psychosis. Typically up to 2 weeks postpartum, lasts "weeks to months", present with severe affective psychosis, mood disorder, mixed psychosis, perplexity. "Kaleidoscopic" - rapidly changing & progressing clinical picture. treat as psychiatric emergency, antipsychotics, hospital admission

PPP causes suffering for women & impacts relationships with partner and child with possible long term conseqeunces for social & cognitive development of child

uses:
- research interview
- case note review
- questionnaire

perinatal episodes highest in women with BP1 (BP2 less so). PMH of BP1 = 3% mania, mixed, affective psychosis in first 6 weeks PP (2013)

increased risk perinatal depression in BP1, BP2, MDD

increased risk perinatal mania/psychotic depression in BP1

much greater RR admission of women with BPD than with Sz or MDD

Bio-psycho-social triggers:
- Stress (birth=significant life event)
- specific issues in transition to parenthood
- sleep disruption
- hormonal changes (sex steroids, thyroid, HPA axis)
- immunological)

Parity strongly associated with PPP risk
- BP1 30-40% parity 1 pregnancies affected but < 0.2% after that
- no association in parity with PND

Pre-eclampsia (placental dysfunction = global effect)
- inadequate placentation -> abnormal release of angiogenic & antiangiogenic factors -> systemic illness with CNS effects and disruption of BBB
- psychosis not merely posictal (after seizure)
- associated with mood symptoms - why??

Sleep loss
- associated with PPP but not PND
- sleep disturbance is key symptom of BPD

1) Profound, progressive loss of dopaminergic neurons in substantia nigra pars compacta
2) Intracellular inclusions (Lewy bodies) in brain stem & cortical areas (made up of alpha-synuclein)

Motor symptoms not apparent until degeneration of 70-80% nigrostriatal nerve terminals

Parkin (PARK2)
- AR
- early onset PD (20% EOPD WW)
- Dups, triplications, deletions, frameshift, nonsense & splice mutations reported
- No Lewy bodies, condition closely resembles sporadic PD

PINK1
- AR, EOPD
- PINK1 kinase domain affected by dels, missense, frameshift, nonsense
- no specific pathology reported

DJ1
- AR, <10% EOPD
- ThiJ/Pfpl-like domain affected by rearrangements, framshift, splic, missense
- no specific pathology reported

PARK8/LRRK2
- AD, late onset PD (mean onset around 60)
- asymetrical, levodopa-responsive PD (L-dopa: amino-acid precursor of dopamine, acts by replenishing depleted striatal dopamine) usually with Lewy bodies
- encodes protein Padarin
- Kinase domain deletion exon 41: G2019S (WW found in 4% familial PD, 1% sporadic. Rare in N. Europe. 40% familial, sporadic PD in N. African Arabian & 10-30% in Ashkenazi population

Glucocerebrosidase (GBA)
- AD, Lewy bodies & dementia
- homozygous/compound hets = Gaucher's disease (parkinsonian symptoms in many GD patients, relatives of GD have heightened risk: ?carriers have increased risk PD)
- mutlicentre study confirmed 5x increased risk PD
- GD 1/850 in AJ pop. 1/50,000 usually.
- >300 mutations described in GBA1 gene (N370S, L444P are majority in PD, GD)
- lifetime incidence for carriers: 20% at 70, 30% at 80


Monogenic causes of non-obstructive azoospermia: challenges, established knowledge, limitations and perspectives

20% of azoospermia cases remain idiopathic. Non-obstructive azoospermia (NOA) is mostly explained by congenital factors leading to spermatogenic failure, such as chromosome abnormalities. The knowledge of the monogenic causes of NOA is very limited. High genetic heterogeneity due to the complexity of spermatogenesis and testicular function, lack of non-consanguineous familial cases and confirmatory studies challenge the field. The reported monogenic defects cause syndromic NOA phenotypes presenting also additional congenital problems and isolated NOA cases, explained by spermatogenic defects. The established and recently reported NOA genes (ن = 38) represent essential guardians of meiosis, transcriptional and endocrine regulators of reproduction. Despite the list being short, 92% of these loci are predicted to functionally interact with each other (STRING analysis: average 5.21 connections/gene, enrichment ص < 10 –16 ). Notably,


المواد والأساليب

Monte Carlo Simulations of a Single Adaptive Mutation in Fisher's Model.

We investigate the evolution of a single locus in Fisher's geometric model (9). Alleles are represented by vectors (ص) in an abstract, د-dimensional Euclidean phenotype space. Mutant alleles are obtained by adding a mutation vector (م) to the parental allele: صب = صأ + م. The directions of mutation vectors are distributed uniformly mutation sizes (م) are distributed according to a probability distribution ص(م) with an average mutation size <م>. We consider two such distributions in detail, the uniform distribution ص(م) ∝ uniform(0,2<م>) and the exponential distribution ص(م) ∝ exp(−م/<م>). Haploid organismal phenotypes are equal to the allelic phenotype. In diploids, the phenotype is a weighted average of its two constituent alleles. In the case of the heterozygous mutant, the phenotype can be expressed as صأب = صأ + حم، مع ح being the phenotypic dominance of the mutant allele.

The fitness of a phenotype is determined by its distance from the fitness optimum ص*. Following precedent (10, 11), we use a Gaussian fitness function: ث(ص) = exp[−(ص-ص*) 2 /(2σث 2 )]. For convenience, we set the origin of the phenotype space to be at ص* and choose the scale of the space such that σث 2 = 1. We begin by considering mutations arising in a population that is monomorphic for the wild-type allele صأ = (2,0,…,0). The invasion probability of new mutations is then approximately πhap(م) = 2[ث(صب)/ث(صأ) − 1] in haploids (10). In diploids, we assume that mutants initially exist only as heterozygotes, therefore: πdip(م) = 2[ث(صأب)/ث(صأ) − 1].

Results in Figs. S1 and S2 were obtained from Monte Carlo simulations of the above model based on 10 7 randomly drawn mutations per data point. The ratios udip/uhap of the rates at which adaptive mutations occur in diploids vs. haploids were estimated by counting the overall numbers of mutations where صبαhap in haploids or, respectively, صأبαdip in diploids. For the ratios الخامسdip/الخامسhap of the rates at which adaptive mutations invade the population, each adaptive mutation was additionally weighted by its respective invasion probability, πhap أو πdip. Among successfully invading mutations, the expectation values, <ث(صأب) − ث(صأ)> in diploids and <ث(صب) − ث(صأ)> in haploids, were measured to estimate the ratios <Δثdip>/<Δثhap>. Estimates of δu were obtained by counting the fraction of adaptive mutations with heterozygote advantage in the diploid scenario. ل δالخامس, each adaptive mutation was thereby additionally weighted by its respective invasion probability.

Simulation of Adaptive Walks Toward a Fixed Fitness Optimum.

To investigate adaptive walks toward a fixed fitness optimum, we simulated the full stochastic population dynamics in the above scenario under an infinite alleles assumption. We focused on the instructive case of a 2D Fisher's model with complete phenotypic codominance (ح = 1/2). The phenotype of a heterozygous diploid is then always the coordinate-wise average of its two alleles: صأب = (صأ + صب)/2.

Mutations are modeled by a Poisson process with rate μ = 2.5⋅10 −7 per individual and generation. Mutation directions are drawn uniformly, and mutation sizes are sampled from an exponential distribution with mean <م> = 1. Population sizes are نhap = 10 5 for haploids and نdip = 5⋅10 4 for diploids, ensuring that new mutations arise at equal overall rates in the two populations (Θ = 2cNμ = 0.05, where ج is ploidy).

The state of the population at any given time point is specified by the set of alleles <صأنا> present in the population and their associated population frequencies <xأنا>. Allele frequency dynamics are modeled in a Wright–Fisher framework with selection (44). For haploids, we use the standard Wright–Fisher sampling procedure in which allele frequencies xأنا(ر + 1) in the next generation are drawn from a multinomial distribution ص(ن,<صأنا hap (ر)>) with selection-adjusted probabilities: صأنا hap (ر) ∝ ث(صأنا)xأنا(ر). In the case of diploids, we first convert allele frequencies into genotype frequencies (assuming Hardy–Weinberg equilibrium) to calculate the selection-adjusted probabilities: صأنا dip (ر) ∝ ∑يث(صاي جاي)xأنا(ر)xي(ر). Allele frequencies xأنا(ر + 1) are then drawn from ص(2ن,<صأنا dip (ر)>). In both cases, صأنا و xأنا are normalized such that ∑أناصأنا = ∑أناxأنا = 1.

As specified above, simulations start from a population that is monomorphic for the wild type صأ = (2,0) with the optimal phenotype located at the origin, yielding an initial population average fitness of ث(صأ) ∼0.13. Populations are then evolved for 10 4 generations, which typically suffices to approach the fitness optimum closely (<w> > 0.96 at end of a run Fig. S4أ).

Simulations Under a Moving Fitness Optimum.

For the analysis of the moving optimum scenario, we adjust our simulation as follows. At the start of the simulation, the population is initialized to be monomorphic for the optimal phenotype: ص*(ر = 0) = صأ = (0,0). In each subsequent generation, the optimum ص*(ر) moves one step in a random direction and the size of the mutation is sampled from the positive half of a Gaussian distribution with variance σenv 2. In a single simulation run, the population is evolved for 10 7 generations (∼100ن). We exclude the first 10 5 generations of each run from our analysis as a “burn-in” period so as to remove the influence of the initial state of the population.

Ascertainment of Balanced Polymorphisms During Adaptive Walks.

Balanced polymorphisms can consist of several alleles (45, 46). We determine the presence of a balanced polymorphism at a given time point in our simulation runs using Kimura's analytic conditions (47). Assume that ن alleles <ص1,…,صن> are present in the population with diploid fitness values given by ث(صاي جاي). Let تي be the matrix defined by تياي جاي = ث(صاي جاي) − ث(صفي) − ث(صjn) + ث(صnn) (أنا,ي = 1,…,ن). Let Δأنا be the determinant obtained when substituting all elements in the أناth column of the fitness-matrix ث(صاي جاي) (أنا,ي = 1,…,ن) with 1. The necessary and sufficient conditions for the existence of a stable equilibrium with all individual population frequencies xأنا of the alleles being nonzero are then that تي is negative definite and that (−1) n − 1 Δأنا > 0 for all أنا = 1,…,ن. Geometrically, these first two conditions specify a peak in ن-dimensional fitness space, and only one such peak is allowed for all alleles to coexist (47).

For heterozygote advantage to be consequential (i.e., to be capable of effectively stabilizing a balanced polymorphism against the stochastic fluctuations arising from random genetic drift), the fitness advantages of a heterozygote over its two homozygote have to be at least of order 1/ن (10). Because we are only interested in such consequential cases of heterozygote advantage, we thus require, as a third condition, that for at least one pair of alleles in a balanced polymorphism, it holds that ث(صاي جاي) > max[ث(صii),ث(صjj)] + 1/ن.

In our simulations, we evaluate these three conditions for the fitness matrix of all alleles with frequencies 0.05 < xأنا < 0.95. Negative definiteness of تي is tested by numerically calculating eigenvalues using symmetrical bidiagonalization with the QR reduction method (48) and checking for the negativity of all eigenvalues. Signs of determinants Δأنا are estimated using numerical LU decompositions (48).


شاهد الفيديو: دور التحليل الجيني في الكشف عن الأمراض (كانون الثاني 2022).