معلومة

نسبة الانتقال / التحويل


أنا آخذ فصلًا في المعلوماتية الحيوية وفي هذه المرحلة ننتقل فقط إلى الأشياء الأساسية حول البيولوجيا الجزيئية. يقوم نصف الفصل بالقراءة / البحث بمفردنا ، لذلك ليس هناك الكثير من الوقت في الفصل لطرح الأسئلة أو مراجعة الأمثلة. أحد الموضوعات هو نسبة الانتقال / التحويل ، ولست متأكدًا بنسبة 100٪ من أنني أفهمها. هل تقارن فقط الرمز الأول للسلسلة 1 بالرمز الأول للسلسلة 2؟ ماذا لو كان الرمزان اللذان تقارنتهما متماثلان؟ هل تتجاهله فقط؟ لنفترض أن السلسلة 1 هي ACGATG والسلسلة 2 هي TCAGTG. هل ستكون النسبة 2/1؟

ها هي المقارنات التي أجريتها. الانتقالات: G -> A، A -> G، Transversions: A -> T، ولا أيضًا: C -> C، T -> T، G -> G

هل هذا صحيح أم أنني أسير في الطريق الخطأ تمامًا؟


أنت على الطريق الصحيح تقريبًا.

هذه المخططات من ويكيبيديا واضحة تمامًا في رأيي.


المزيد من الشرح الكيميائي قليلاً (والذي لا تحتاجه بالضرورة للقيام بالمعلوماتية الحيوية ، ولكن أعتقد أنه من الأفضل دائمًا أن تعرف بالضبط ما الذي تتعامل معه خارج الكمبيوتر!)

الفكرة هي أن لديك أربعة نيوكليوتيدات أساسية: السيتوزين والثايمين بيريميدين والأدينين (A) والجوانين (G) والتي تسمى البيورينات. تتميز البيريميدين بحلقة آزو كربونية 6 تسمى أ بيريدين، بينما تحتوي البيورينات على حلقة مزدوجة أكبر ، تتكون من حلقة بيريدين + حلقة إيميدازول.

يُعرَّف الانتقال بأنه ممر البيورين -> البيورين أو بيريميدين -> بيريميدين.
التحويل هو مرور البيورين -> بيريميدين ، أو العكس.

يمكن أن تحدث هذه الطفرات على سبيل المثال بسبب مواد كيميائية معينة ، مثل عوامل الألكلة ، أو الإشعاعات المؤينة.


في مثالك المحدد ، بالنظر إلى التسلسلات

ACGATG TCAGTG

لديك 3 طفرات:

أ -> T G -> A A -> G

إذن لديك تحويل واحد (من البيورين A إلى بيريميدين T) وتحولين (بين البيورينات A و G).


تقدير الانتقال / معدل التحيز التحيز وأخذ عينات الأنواع

يتم تقدير نسب معدل الانتقال / التحويل (ti / tv) عن طريق مقارنة التسلسل الزوجي وتحليل الاحتمالية المشتركة باستخدام السيتوكروم الميتوكوندريا ب جينات 28 نوعًا من الرئيسيات ، تمثل كلاً من Strepsirrhini (الليمور واللوري) والأنثروبويدا (القرود والقردة والبشر). تكشف المقارنة الزوجية عن وجود ارتباط سلبي قوي بين تقديرات نسبة ti / tv ومسافة التسلسل ، حتى عندما يتم تصحيح كلاهما لاستبدالات متعددة. يتغير تقدير الاحتمالية القصوى لنسبة ti / tv مع الأنواع المدرجة في التحليل. تم العثور على انحياز ti / tv داخل الأصناف الليمورية قوية كما هو الحال في anthropoids ، في تناقض مع دراسة سابقة أخذت عينات واحدة فقط من الليمور. تظهر المحاكاة النتيجة المفاجئة المتمثلة في أن كلاً من طريقة التصحيح الزوجي وتحليل الاحتمالية المشتركة يميلون إلى التصحيح المفرط للبدائل المتعددة والمبالغة في تقدير نسبة ti / tv ، خاصةً عند اختلاف التسلسل المنخفض. ومع ذلك ، فإن التحيز ليس كبيرًا بما يكفي لتفسير الأنماط المرصودة. يمكن استبعاد تحيزات تردد النوكليوتيدات ، وتباين معدلات الاستبدال بين المواقع ، والديناميكيات التطورية المختلفة في مواقع الكودون الثلاثة كأسباب محتملة. يشير اختبار نسبة الاحتمالية إلى أن نسب معدل ti / tv قد تكون متغيرة بين السلالات التطورية. بدون أي دليل بيولوجي لمثل هذا الاختلاف ، ومع ذلك ، لم يتبق لنا تفسيرات معقولة للأنماط المرصودة بخلاف تأثير التشبع المحتمل بسبب الطبيعة غير الواقعية للنموذج المفترض.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


الاستقالات لها تأثيرات تنظيمية أكبر من التحولات

خلفية: من المرجح أن تغير عمليات التحويل (Tv's) تسلسل الأحماض الأمينية للبروتينات أكثر من التحولات (Ts) ، والانحرافات المحلية في نسبة Ts: Tv تشير إلى الانتقاء التطوري للجينات. يظل النوعان المختلفان من الطفرات لهما تأثيرات مختلفة في التسلسلات غير المشفرة للبروتين غير معروف. تؤثر المتغيرات الجينية بشكل أساسي على التعبير الجيني عن طريق تعطيل ارتباط عوامل النسخ (TFs) والبروتينات الأخرى المرتبطة بالحمض النووي. نظرًا لأن التلفزيون يتسبب في حدوث تغييرات أكبر في شكل العمود الفقري للحمض النووي ، فقد افترضنا أن التلفزيون سيكون له تأثيرات أكبر على ارتباط TF والتعبير الجيني.

نتائج: هنا ، نقدم خطوطًا متعددة من الأدلة التي توضح أن للتلفزيون تأثيرات أكبر على الحمض النووي التنظيمي بما في ذلك تحليلات أشكال ربط TF وربط TF الخاص بأليل. في هذه التحليلات ، لاحظنا استنفاد التلفزيون داخل أشكال ربط TF ومواقع ربط TF. باستخدام فحوصات مراسل موازية على نطاق واسع ، قدمنا ​​أيضًا دليلًا تجريبيًا على أن للتلفزيون تأثيرات أكبر من تأثيرات Ts على نشاط العناصر التنظيمية للجينات البشرية.

الاستنتاجات: من المرجح أن تعطل أجهزة التلفزيون ارتباط TF ، مما يؤدي إلى تغييرات أكبر في التعبير الجيني. على الرغم من أن الاختلافات الملحوظة صغيرة ، إلا أن هذه النتائج تمثل خاصية أساسية جديدة للتنوع التنظيمي. يمكن أن يكون فهم ميزات التباين الوظيفي غير المشفر مفيدًا للكشف عن الأسس الجينية للسمات والأمراض المعقدة في الدراسات المستقبلية.

الكلمات الدالة: مقايسة مراسل موازية بشكل كبير التباين التنظيمي التحولات SNPs التحولات.


Dnadist - برنامج لحساب مصفوفة المسافةمن تسلسل النوكليوتيدات

& # 169 حقوق الطبع والنشر 1986-2008 من قبل جامعة واشنطن. كتبه جوزيف فيلسنشتاين. يُسمح بنسخ هذا المستند بشرط عدم فرض رسوم عليه وعدم إزالة إشعار حقوق النشر هذا.

يستخدم هذا البرنامج متواليات النوكليوتيدات لحساب مصفوفة المسافة ، في إطار أربعة نماذج مختلفة لاستبدال النوكليوتيدات. يمكنه أيضًا حساب جدول التشابه بين متواليات النيوكليوتيدات. تقدر المسافة لكل زوج من الأنواع إجمالي طول الفرع بين النوعين ، ويمكن استخدامها في برامج مصفوفة المسافات Fitch أو Kitsch أو Neighbor. هذا بديل لاستخدام بيانات التسلسل نفسها في برنامج الاحتمالية القصوى Dnaml أو برنامج البخل Dnapars.

يقرأ البرنامج تسلسل النوكليوتيدات ويكتب ملف إخراج يحتوي على مصفوفة المسافة ، أو جدول تشابه بين التسلسلات. النماذج الأربعة لاستبدال النوكليوتيدات هي نماذج Jukes and Cantor (1969) ، Kimura (1980) ، نموذج F84 (Kishino and Hasegawa ، 1989 Felsenstein and Churchill ، 1996) ، والنموذج الكامن وراء مسافة LogDet (Barry and Hartigan ، 1987) Lake، 1994 Steel، 1994 Lockhart et al.، 1994). يمكن إجراء كل شيء باستثناء مسافة LogDet للسماح بمعدلات غير متكافئة للاستبدال في مواقع مختلفة ، كما فعل Jin and Nei (1990) لنموذج Jukes-Cantor. يأخذ البرنامج في الاعتبار بشكل صحيح مجموعة متنوعة من غموض التسلسل ، على الرغم من أنه في الحالات التي توجد فيها يمكن أن يكون بطيئًا.

يفترض نموذج Jukes and Cantor (1969) أن هناك تغييرًا مستقلاً في جميع المواقع ، باحتمالية متساوية. ما إذا كانت التغييرات الأساسية مستقلة عن هويتها ، وعندما تتغير ، هناك احتمال متساوٍ في النهاية مع كل من القواعد الثلاثة الأخرى. وبالتالي ، فإن مصفوفة احتمالية الانتقال (هذا مصطلح تقني من نظرية الاحتمالات ولا علاقة له بالانتقالات على عكس عمليات الاستبدال) لفترة قصيرة من الزمن dt:

حيث a هو u dt ، حاصل ضرب معدل الاستبدال لكل وحدة زمنية (u) وطول dt للفترة الزمنية. لفترات أطول من الوقت ، هذا يعني أن احتمال اختلاف تسلسلين في موقع معين هو:

ومن ثم ، إذا لاحظنا p ، فيمكننا حساب تقدير لطول الفرع ut عن طريق عكس هذا للحصول على

ut = - 3/4 log e (1-4 / 3 p)

نموذج Kimura "ثنائي المعامل" متماثل تقريبًا مثل هذا ، لكنه يسمح بالفرق بين معدلات الانتقال ومعدلات التحويل. مصفوفة احتمالية الانتقال الخاصة بها لفترة زمنية قصيرة هي:

حيث a هو u dt ، حاصل ضرب معدل التحولات لكل وحدة زمنية و dt هو طول dt للفاصل الزمني ، و b هو v dt ، وهو حاصل ضرب نصف معدل الانقلابات (أي معدل التحويل المحدد ) وطول الفترة الزمنية dt.

يشتمل نموذج F84 على معدلات انتقال وتحويل مختلفة ، ولكنه يسمح أيضًا بترددات مختلفة للنيوكليوتيدات الأربعة. هذا هو النموذج المستخدم في Dnaml ، وهو برنامج تسلسل النوكليوتيدات التسلسل الأقصى للاحتمالية في هذه الحزمة. ستجد النموذج الموضح في المستند الخاص بهذا البرنامج. قدم كيشينو وهاسيغاوا (1989) احتمالات الانتقال لهذا النموذج ، وتم شرحها بمزيد من التفصيل في ورقة أعدتها أنا وجاري تشرشل (1996).

تسمح مسافة LogDet بنموذج عام إلى حد ما للاستبدال. يحسب المسافة من محدد المصفوفة الملحوظة تجريبياً لاحتمالات مشتركة للنيوكليوتيدات في النوعين. يتوفر شرح لها في فصل Swofford et al. (1996).

النماذج الثلاثة الأولى مرتبطة ارتباطًا وثيقًا. يقلل نموذج Dnaml إلى نموذج Kimura ذو المعلمتين إذا افترضنا أن ترددات التوازن للقواعد الأربعة متساوية. نموذج Jukes-Cantor بدوره هو حالة خاصة لنموذج Kimura 2-معلمة حيث a = b. وبالتالي فإن كل نموذج هو حالة خاصة لتلك التي تتبعه ، جوكس كانتور هو حالة خاصة لكلا النموذجين الآخرين.

يمكن تكييف تصحيح Jin and Nei (1990) للتغير في معدل التطور من موقع إلى موقع لجميع النماذج الثلاثة الأولى. يفترض أن معدل الاستبدال يختلف من موقع إلى آخر وفقًا لتوزيع جاما ، مع معامل التباين الذي يحدده المستخدم. يُطلب من المستخدم ذلك عند اختيار هذا الخيار في القائمة.

كل مسافة يتم حسابها هي تقدير ، من هذا الزوج المعين من الأنواع ، لوقت الاختلاف بين هذين النوعين. بالنسبة لنموذج Jukes-Cantor ، يتم حساب التقدير باستخدام صيغة ut الواردة أعلاه ، طالما أن رموز النيوكليوتيدات في التسلسلتين إما A ، C ، G ، T ، U ، N ، X ، أو - (تشير الأربعة الأخيرة إلى حذف أو نوكليوتيد غير معروف). هذا التقدير هو أقصى تقدير احتمالية لهذا النموذج. بالنسبة لنموذج Kimura ذو المعلمتين ، باستخدام رموز النوكليوتيدات فقط ، يتم أيضًا حساب الصيغ الخاصة بهذا التقدير. هذه أيضًا ، في الواقع ، تحسب الحد الأقصى لتقدير الاحتمالية لهذا النموذج. في حالة Kimura ، يعتمد الأمر على التسلسلات المرصودة فقط من خلال طول التسلسل والعدد الملحوظ من اختلافات الانتقال والانتقال بين هذين التسلسلين. الحساب في هذه الحالة هو الحد الأقصى لتقدير الاحتمالية وسيختلف نوعًا ما عن التقدير الذي تم الحصول عليه من الصيغ في ورقة Kimura الأصلية. كانت هذه الصيغة أيضًا تقديرًا أقصى احتمالية ، ولكن مع نسبة الانتقال / التحويل المقدرة تجريبياً ، بشكل منفصل لكل زوج من المتواليات. في الحالة الحالية ، يتم استخدام نسبة انتقال / تحويل واحدة محددة مسبقًا مما يجعل الحسابات أكثر صعوبة ولكنه يحقق تناسقًا أكبر بين المقارنات المختلفة.

بالنسبة لنموذج F84 ، أو لأي من النماذج حيث يحتوي أحد التسلسلين أو كليهما على واحد على الأقل من أكواد الغموض الأخرى مثل Y و R وما إلى ذلك ، يتم أيضًا حساب الاحتمالية القصوى باستخدام الكود الذي تم كتابته في الأصل لـ Dnaml. عيبه أنه بطيء. المسافة الناتجة هي في الواقع أقصى تقدير احتمالية لوقت التباعد (إجمالي طول الفرع بين) التسلسلين. ومع ذلك ، سيكون البرنامج الحالي أسرع بكثير من الإصدارات السابقة للإصدار 3.5 ، لأنني قمت بتسريع التكرارات.

يحسب نموذج LogDet المسافة من محدد مصفوفة التواجد المشترك للنيوكليوتيدات في النوعين ، وفقًا للصيغة حيث F عبارة عن مصفوفة يكون عنصرها (i ، j) هو جزء المواقع التي تحدث فيها القاعدة i يحدث أحد الأنواع والقاعدة j في الآخر. f j i هو جزء المواقع التي توجد فيها القاعدة j للأنواع i. لا يمكن لمسافة LogDet التعامل مع رموز الغموض. يجب أن يكون لها تسلسلات محددة تمامًا. يتمثل أحد قيود مسافة LogDet في أنها قد تكون غير محدودة في بعض الأحيان ، إذا كان هناك العديد من التغييرات بين أزواج معينة من النيوكليوتيدات. يمكن أن يكون هذا ملحوظًا بشكل خاص مع المسافات المحسوبة من تسلسلات التمهيد.

لاحظ أن هناك افتراضًا بأننا نبحث في جميع المواقع ، بما في ذلك تلك التي لم تتغير على الإطلاق. من المهم عدم قصر الانتباه على بعض المواقع بناءً على ما إذا كانت قد غيرت فعل ذلك أم لا من شأنه أن يؤدي إلى تحيز المسافات بجعلها كبيرة جدًا ، وهذا بدوره من شأنه أن يتسبب في إساءة تفسير المسافات لمعنى تلك المواقع التي تغيرت.

لجميع طرق المسافة هذه ، يسمح لنا البرنامج بتحديد أن قواعد "الموضع الثالث" لها معدل استبدال مختلف عن الموضعين الأول والثاني ، وأن الإنترونات لها معدل مختلف عن exons ، وهكذا. يتيح لنا خيار الفئات الذي يتيح لنا إنشاء ما يصل إلى 9 فئات من المواقع وتحديد معدلات تغيير مختلفة لها.

بالإضافة إلى حسابات المسافات الأربع ، يمكن للبرنامج أيضًا حساب جدول أوجه التشابه بين متواليات النيوكليوتيدات. هذه القيم هي كسور المواقع المتطابقة بين التسلسلات. القيم القطرية هي 1.0000. لم يتم إجراء أي محاولة لحساب التشابه بين النيوكليوتيدات غير المتطابقة ، بحيث لا يتم منح أي رصيد لوجود (على سبيل المثال) البيورينات المختلفة في المواقع المقابلة في التسلسلين. تم طلب هذا الخيار من قبل العديد من المستخدمين الذين يحتاجون إليه لأغراض وصفية. ليس المقصود أن يتم استخدام الجدول لاستنتاج الشجرة.

تنسيق الإدخال والخيارات

المدخلات قياسية إلى حد ما ، مع إضافة واحدة. كالعادة يوضح السطر الأول من الملف عدد الأنواع وعدد المواقع.

بعد ذلك تأتي بيانات الأنواع. يبدأ كل تسلسل بسطر جديد ، له اسم أنواع مكون من عشرة أحرف يجب ملؤه فارغًا ليكون بهذا الطول ، متبوعًا على الفور ببيانات الأنواع في الرمز المكون من حرف واحد. يجب أن تكون التسلسلات إما في تنسيقات "معشق" أو "متسلسلة" موصوفة في وثيقة برامج التسلسل الجزيئي. الخيار الأول يختار بينهم. يمكن أن تحتوي التسلسلات على فراغات داخلية في التسلسل ولكن يجب ألا تكون هناك فراغات إضافية في نهاية السطر المنتهي. لاحظ أن الفراغ ليس رمزًا صالحًا للحذف - كما أنه ليس رمزًا للنقطة (".").

يتم تحديد الخيارات باستخدام قائمة تفاعلية. تبدو القائمة كما يلي:

يكتب المستخدم إما "Y" (متبوعًا ، بالطبع ، بحرف رجوع) إذا كان سيتم قبول الإعدادات المعروضة ، أو الحرف أو الرقم المقابل لخيار سيتم تغييره.

يقوم الخيار D بتحديد إحدى طرق المسافة الأربعة ، أو جدول التشابه. يتم التبديل بين الطرق الخمس. الطريقة الافتراضية ، إذا لم يتم تحديد أي منها ، هي طراز F84.

إذا تم تحديد خيار G (توزيع جاما) ، فسيُطلب من المستخدم توفير معامل التباين في معدل الاستبدال بين المواقع. هذا يختلف عن المعلمات المستخدمة من قبل Nei و Jin ولكنها مرتبطة بهما: تُعرف المعلمة a أيضًا باسم "alpha" ، معلمة الشكل لتوزيع Gamma. يرتبط بمعامل الاختلاف بواسطة

(يتم استيعاب المعلمة ب هنا من خلال شرط أن يتم قياس الوقت بحيث يكون متوسط ​​معدل التطور 1 لكل وحدة زمنية ، مما يعني أن أ = ب). عندما ننظر في الحالات التي تكون فيها المعدلات أقل تغيرًا ، يجب أن نضع حجمًا أكبر وأكبر ، حيث تصبح السيرة الذاتية أصغر وأصغر.

يظهر الخيار F (الترددات) عند تحديد مسافة أقصى احتمال. تتطلب هذه المسافة تزويد البرنامج بترددات التوازن للقواعد الأربعة A و C و G و T (أو U). إعداده الافتراضي هو الذي قد يوفر للمستخدمين الكثير من الوقت. إذا كنت تريد استخدام الترددات التجريبية للقواعد ، التي تمت ملاحظتها في تسلسل الإدخال ، كترددات أساسية ، فأنت ببساطة تستخدم الإعداد الافتراضي لخيار F. هذه الترددات التجريبية ليست في الحقيقة أقصى تقديرات احتمالية للترددات الأساسية ، لكنها غالبًا ما تكون قريبة من تلك القيم (ما هي تقديرات الاحتمالية القصوى في ظل سلالة "نجمية" أو "انفجار"). إذا قمت بتغيير إعداد الخيار F ، فستتم مطالبتك بترددات القواعد الأربع. يجب إضافة هذه إلى 1 ويجب كتابتها في سطر واحد مفصول بفواصل وليس بفواصل.

لا يمثل الخيار T في هذا البرنامج Threshold ، ولكنه بدلاً من ذلك هو خيار Transition / transversion. يُطلب من المستخدم إدخال رقم حقيقي أكبر من 0.0 ، مثل النسبة المتوقعة للانتقالات إلى عمليات الاستبدال. لاحظ أن هذه ليست نسبة النوع الأول إلى النوع الثاني من الأحداث ، ولكن النسبة المتوقعة الناتجة من التحولات إلى عمليات الاستبدال. تعتمد العلاقة الدقيقة بين هاتين الكميتين على الترددات في المجمعات الأساسية. القيمة الافتراضية للمعلمة T إذا لم تستخدم الخيار T هي 2.0.

يسمح الخيار C بفئات معدل معرفة من قبل المستخدم. تتم مطالبة المستخدم بعدد الأسعار المحددة من قبل المستخدم ، والمعدلات نفسها ، والتي لا يمكن أن تكون سالبة ولكن يمكن أن تكون صفرًا. هذه الأرقام ، التي يجب أن تكون غير سالبة (يمكن أن يكون بعضها صفرًا) ، يتم تحديدها بالنسبة لبعضها البعض ، بحيث إذا تم تعيين معدلات الفئات الثلاث على 1: 3: 2.5 ، فسيكون لهذا نفس المعنى الذي تم تعيينه على 2: 6: 5. يتم بعد ذلك تخصيص الأسعار للمواقع من خلال قراءة ملف اسمه الافتراضي "الفئات". يجب أن يحتوي على سلسلة من الأرقام من 1 إلى 9. يمكن أن يظهر سطر جديد أو فراغ بعد أي حرف في هذه السلسلة. وبالتالي قد يبدو ملف الفئات كالتالي:

إذا تم السماح بفئات الأسعار المعينة من قبل المستخدم ومعدلات توزيع جاما ، يفترض البرنامج أن السعر الفعلي في الموقع هو نتاج معدل الفئة المعين من قبل المستخدم ومعدل توزيع جاما. يتيح لك هذا تحديد أن بعض المواقع لديها معدلات تغيير أعلى أو أقل مع السماح أيضًا للبرنامج بالسماح بتباين الأسعار بالإضافة إلى ذلك. (قد لا يكون لهذا دائمًا معنى بيولوجي مثالي: سيكون من الطبيعي أن نفترض حدًا أعلى للمعدل ، كما ناقشنا في مقالة فيلسنشتاين وتشرشل). ومع ذلك ، قد ترغب في استخدام كلا النوعين من اختلاف السعر.

يحدد الخيار L أن الملف الناتج يجب أن يكون له مصفوفة المسافة في شكل مثلث منخفض.

يتم استدعاء خيار W (الأوزان) بالطريقة المعتادة ، مع السماح فقط بالوزن 0 و 1. يختار مجموعة من المواقع ليتم تحليلها ، متجاهلاً الآخرين. المواقع المحددة هي تلك التي لها وزن 1. إذا لم يتم استدعاء الخيار W ، فسيتم تحليل جميع المواقع. يأخذ خيار Weights (W) الأوزان من ملف اسمه الافتراضي "weights". الأوزان تتبع التنسيق الموضح في ملف التوثيق الرئيسي.

سيسألك الخيار M (مجموعات بيانات متعددة) عما إذا كنت تريد استخدام مجموعات متعددة من الأوزان (من ملف الأوزان) أو مجموعات بيانات متعددة من ملف الإدخال. تعني القدرة على استخدام مجموعة بيانات واحدة بأوزان متعددة أنه سيتم استخدام مساحة قرص أقل بكثير لبيانات الإدخال هذه. تمتلك أداة التمهيد والرافعة Seqboot القدرة على إنشاء ملف أوزان بأوزان متعددة. لاحظ أيضًا أنه عندما نستخدم أوزانًا متعددة للتمهيد ، يمكننا أيضًا الحفاظ على فئات أسعار مختلفة لمواقع مختلفة بطريقة مفيدة. إذا كنت تستخدم خيار مجموعات البيانات المتعددة بدلاً من الأوزان المتعددة ، فلا يجب عليك في نفس الوقت استخدام خيار فئات الأسعار المعرفة من قبل المستخدم (الخيار ج) ، لأن فئات الأسعار المعرفة من قبل المستخدم يمكن أن تقترن بعد ذلك بالمواقع الخاطئة. لا يعد هذا مصدر قلق عند استخدام الخيار M باستخدام أوزان متعددة.

الخيار 0 هو الخيار المعتاد. تم وصفه في ملف التوثيق الرئيسي لهذه الحزمة. الخيار الأول هو نفسه الموجود في برامج التسلسل الجزيئي الأخرى وهو موصوف في ملف التوثيق لبرامج التسلسل.

تنسيق الإخراج

أثناء حساب المسافات ، يقوم البرنامج بطباعة على شاشتك أو إنهاء أسماء الأنواع بدورها ، متبوعة بنقطة واحدة (".") لكل نوع آخر تم من أجله حساب المسافة إلى تلك الأنواع. وبالتالي ، إذا كان هناك عشرة أنواع ، تتم طباعة اسم النوع الأول ، متبوعًا بتسع نقاط ، ثم في السطر التالي ، تتم طباعة اسم النوع التالي متبوعًا بثماني نقاط ، ثم التالي متبوعًا بسبع نقاط ، وهكذا. يجب أن يشكل نمط النقاط مثلثًا. عند كتابة مصفوفة المسافة في ملف الإخراج ، يتم إخطار المستخدم بذلك.

يحتوي ملف الإخراج في السطر الأول على عدد الأنواع. يتم بعد ذلك طباعة مصفوفة المسافة في شكل قياسي ، حيث يبدأ كل نوع في سطر جديد باسم الأنواع ، متبوعًا بالمسافات إلى الأنواع بالترتيب. تستمر هذه في خط جديد بعد كل تسع مسافات. إذا تم استخدام الخيار L ، فإن مصفوفة المسافات تكون في شكل مثلث منخفض ، بحيث تتم طباعة المسافات إلى الأنواع الأخرى التي تسبق كل نوع. وبخلاف ذلك ، تكون مصفوفة المسافة مربعة مع مسافات صفرية على القطر. بشكل عام ، يكون تنسيق مصفوفة المسافات بحيث يمكن أن يكون بمثابة مدخلات في أي من برامج مصفوفة المسافات.

إذا تم تحديد خيار طباعة البيانات ، فسوف يسبق ملف الإخراج البيانات بمزيد من المعلومات الكاملة حول الإدخال وتحديد القائمة. يبدأ ملف الإخراج بإعطاء عدد الأنواع وعدد الأحرف ، وهوية مقياس المسافة الذي يتم استخدامه.

إذا تم استخدام الخيار C (الفئات) ، تتم طباعة جدول بالمعدلات النسبية للاستبدال المتوقع في كل فئة من المواقع ، وقائمة بالفئات الموجودة في كل موقع.

ثم تتبع ترددات التوازن للقواعد الأربعة. إذا تم استخدام مسافات Jukes-Cantor أو Kimura ، فستكون بالضرورة 0.25: 0.25: 0.25: 0.25. يُظهر الإخراج بعد ذلك نسبة الانتقال / التحويل التي تم تحديدها أو استخدامها افتراضيًا. في حالة مسافة Jukes-Cantor ، سيكون هذا دائمًا 0.5. تتم أيضًا طباعة معلمة الانتقال-التحويل (على عكس النسبة): تُستخدم داخل البرنامج ويمكن تجاهلها. ثم تتبع تسلسل البيانات ، مع طباعة التسلسلات الأساسية في مجموعات من عشر قواعد على طول خطوط تنسيقي Genbank و EMBL.

يتم قياس المسافات المطبوعة من حيث الأعداد المتوقعة من الاستبدالات ، مع احتساب كل من التحولات والاستبدالات ولكن ليس بدائل القاعدة في حد ذاتها ، وقياسها بحيث يتم تعيين متوسط ​​معدل التغيير ، المتوسط ​​على جميع المواقع التي تم تحليلها ، على 1.0 إذا كان هناك هي فئات متعددة من المواقع. هذا يعني أنه سواء كانت هناك فئات متعددة من المواقع أم لا ، فإن جزء التغيير المتوقع للفروع الصغيرة جدًا يساوي طول الفرع. بالطبع ، عندما يبلغ طول الفرع ضعف طوله ، فهذا لا يعني أنه سيكون هناك ضعف صافي التغيير المتوقع على طوله ، نظرًا لأن بعض التغييرات قد تحدث في نفس الموقع وتتراكب أو حتى تنعكس. تقديرات طول الفرع هنا من حيث الأرقام الأساسية المتوقعة للتغييرات. هذا يعني أن الفرع الذي يبلغ طوله 0.26 يبلغ 26 ضعف طول الفرع الذي سيظهر فرقًا بنسبة 1٪ بين متواليات النيوكليوتيدات في بداية الفرع ونهايته. لكننا لا نتوقع أن تكون التسلسلات في بداية الفرع ونهايته مختلفة بنسبة 26٪ ، حيث سيكون هناك بعض التراكب في التغييرات.

إحدى المشكلات التي يمكن أن تنشأ هي أن نوعين أو أكثر يمكن أن يكونا مختلفين لدرجة أن المسافة بينهما يجب أن تكون لانهائية ، حيث ترتفع الاحتمالية إلى أجل غير مسمى مع زيادة وقت الاختلاف المقدر. على سبيل المثال ، مع نموذج Jukes-Cantor ، إذا كان التسلسلان يختلفان في 75٪ أو أكثر من مواضعهما ، فإن تقدير وقت الاختلاف سيكون لانهائيًا. نظرًا لعدم وجود طريقة لتمثيل مسافة لا نهائية في ملف الإخراج ، يعتبر البرنامج هذا خطأ ، ويصدر رسالة خطأ تشير إلى أي زوج من الأنواع يسبب المشكلة ، ويتوقف. قد يكون الأمر كذلك ، لو استمر في الجري ، لكان قد واجه أيضًا نفس المشكلة مع أزواج أخرى من الأنواع. إذا تم استخدام مسافة Kimura ، فقد لا تكون هناك رسالة خطأ ، فقد يعطي البرنامج ببساطة قيمة مسافة كبيرة (إنه يتكرر نحو اللانهاية والقيمة هي المكان الذي توقف فيه التكرار فقط). وبالمثل ، قد تصبح بعض تقديرات الاحتمالية القصوى كبيرة أيضًا لنفس السبب (تظهر التسلسلات تباعدًا أكبر مما هو متوقع حتى مع طول الفرع اللانهائي). آمل في المستقبل إضافة المزيد من رسائل التحذير التي من شأنها أن تنبه المستخدم إلى هذا.

إذا تم تحديد جدول التشابه ، فإن الجدول الناتج ليس بتنسيق يمكن استخدامه كمدخل لبرامج مصفوفة المسافة. يحتوي على عنوان ، ويتم وضع أسماء الأنواع أيضًا في أعلى أعمدة الجدول (أو بالأحرى ، الأحرف الثمانية الأولى من كل اسم موجود هناك ، والحرفان الآخران محذوفان لتوفير مساحة). لا يوجد خيار لوضع الجدول في تنسيق يمكن قراءته بواسطة برامج مصفوفة المسافة ، ولا يوجد خيار لجعله في جدول كسور الاختلاف بطرح قيم التشابه من 1. ويتم ذلك عمداً لجعله من الصعب استخدام هذه القيم لبناء الأشجار. لا يتم تصحيح قيم التشابه للتغييرات المتعددة ، وسيكون استخدامها لبناء الأشجار (حتى بعد تحويلها إلى كسور من الاختلاف) خاطئًا ، حيث سيؤدي ذلك إلى تعارض حاد بين أزواج التسلسلات البعيدة وأزواج التسلسلات القريبة.

ثوابت البرنامج

الثوابت المتاحة لتغييرها من قبل المستخدم في بداية البرنامج تشمل "maxcategories" ، الحد الأقصى لعدد فئات الموقع ، "التكرارات" ، التي تتحكم في عدد المرات التي يكرر فيها البرنامج خوارزمية EM المستخدمة للقيام أقصى مسافة احتمالية ، "طول الاسم" ، طول أسماء الأنواع بالأحرف ، و "إبسيلون" ، وهي معلمة تتحكم في دقة نتائج التكرارات التي تقدر المسافات. سيؤدي تصغير "epsilon" إلى زيادة أوقات التشغيل ولكنه ينتج عنه مزيد من الدقة في المنازل العشرية. هذا لا ينبغي أن يكون ضروريا.

يقضي البرنامج معظم وقته في إجراء العمليات الحسابية الحقيقية. الخوارزمية ، مع عمليات حسابية منفصلة ومستقلة تحدث لكل نمط ، تفسح المجال للمعالجة المتوازية بسهولة.

مجموعة بيانات الاختبار

محتويات ملف الإخراج (مع تشغيل جميع الخيارات الرقمية)

(لاحظ أنه عند إيقاف تشغيل خيارات عرض بيانات الإدخال ، يكون الإخراج في شكل مناسب للاستخدام كملف إدخال في برامج مصفوفة المسافة).


الأساس الجزيئي للتنوع الجيني للفيروسات

إستيبان دومينغو ، في الفيروسات مثل السكان ، 2016

2.4 استنتاجات حول التطور مستمدة من أنواع الطفرات

قد تعتمد نسبة طفرات الانتقال مقابل الطفرات التحويلية في البداية على آلية النسخ المتماثل المحددة للفيروس التي قد تميل إلى إنتاج بعض أنواع الطفرات بشكل تفضيلي على الأنواع الأخرى. بالنسبة لفيروس معين ، غالبًا ما ينعكس التطور قصير المدى في هيمنة التحولات التي تكون أقل وضوحًا عند مقارنة التسلسلات ذات الصلة البعيدة لنفس الفيروس. لوحظ تأثير المسافة التطورية على الانتقال إلى نسبة التحويل في مقارنة تسلسل FMDV التي أجريت في مختبرنا على مدى عدة عقود ، والتي تراوحت بين تحليلات الأطياف الطافرة بالنسبة لتسلسل الإجماع المقابل لها إلى مقارنة العزلات الفيروسية المستقلة من المرض. اندلاع [استعراض العمل على تطور مرض الحمى القلاعية في (دومينغو وآخرون ، 1990 ، 2003)]. يمكن فهم هذين المستويين من تحليلات التسلسل (شبه الأنواع مقابل العزلات المستقلة) بمقارنة الفصلين 3 و 7.

غالبًا ما تُعتبر نسبة الطفرات المترادفة وغير المترادفة التي توسطت في تنويع التسلسلات الجينومية الفيروسية التي تنتمي إلى سلالة النشوء والتطور نفسها مفيدة للقوى التطورية الأساسية. ربما بسبب الفكرة المتجذرة (وإن كانت غير مؤكدة) القائلة بأن الوظيفة البيولوجية من المرجح أن تتواجد في البروتين أكثر من الحمض النووي أو الحمض النووي الريبي ، فإن نسبة البدائل غير المرادفة (تم تصحيحها لكل موقع غير معروف في التسلسل قيد الدراسة) (يُطلق عليها dن) ، إلى عدد الاستبدالات المترادفة لكل موقع مرادف (يسمى دس) ، (ω = دنس) لاستنتاج الوضع السائد للتطور (Nei and Gojobori ، 1986). عندما ω = 1 ، يعتبر التطور محايدًا ، عندما يكون الاختيار & lt 1 المطهر (أو السلبي) هو المسيطر ، وعندما يسود الاختيار الإيجابي (أو الاتجاهي) (Yang and Bielawski ، 2000). تمت مناقشة أنواع الاختيار التي خضعت لها الفيروسات في القسم 3.4 من الفصل 3.

هناك عدة أسباب لتوخي الحذر بشأن أهمية ω: (1) لا يلزم أن تكون الطفرات المترادفة محايدة ، لأسباب نوقشت في القسم 2.3 السابق. (2) في سياق التطور ، قد تكون الأحداث المهمة ولكنها عابرة للاختيار الإيجابي (يُطلق عليها الاختيار الإيجابي العرضي) بسبب واحد أو عدد قليل من بدائل الأحماض الأمينية مصحوبة بعدد أكبر من الطفرات المترادفة التي يمكن تحملها. في هذه الحالة ، ستشير إلى تنقية الانتقاء على الرغم من الدور الحاسم للانتقاء الإيجابي الناجم عن طفرة واحدة أو عدة طفرات غير مترادفة في النتيجة التطورية والتي لا تكفي لحساب ω & gt 1 (Crandall et al. ، 1999). (3) في دليل صارخ على الحجج المذكورة أعلاه ، أدت التحيزات الطفرية ذات الدلالة الإحصائية إلى قيمة ω تشير إلى الاختيار الإيجابي في في المختبر تجربة التطور التي تحاكي تطور الجينات الكاذبة حيث لم يكن الاختيار الإيجابي ممكنًا (فارتانيان وآخرون ، 2001). (4) قد يسمح التغيير المرادف لكودون بالحصول على تغيير غير مرادف ذي صلة من خلال طفرة نقطية. المصطلح شبه مجهول تم استخدامه لوصف الكودونات التي تشفر نفس الحمض الأميني ، ولكن لها إمكانات تطورية مختلفة فيما يتعلق بالأحماض الأمينية التي يمكن الوصول إليها في البروتين المشفر. تقارب الكودونات البديلة لحمض أميني معين نظامًا متكررًا لنقاط فضاء تسلسل يكون للتغير المرتبط بالنمط الظاهري احتمالية مختلفة (الفصول 3 و 4). (5) أخيرًا ، يجب اعتبار أن ω تم اقتراحه في البداية للمقارنة بين الجينومات ذات الصلة البعيدة وليس ذات الصلة الوثيقة كما هو الحال غالبًا في تطور الفيروسات على المدى القصير (Kryazhimskiy and Plotkin ، 2008).

لكل هذه الأسباب ، يجب اعتبار قيم ω كاختبار تشخيصي للقوى الوسيطة في تطور فيروس DNA و RNA فقط على أنها غير مباشرة وموحية ، وليس كمعامل نهائي. على الرغم من هذه الحجج ، فإن استخدام ω لاقتراح نمط تطور الفيروس لا يزال مستمراً بشكل مدهش في أدبيات تطور الفيروس. نحن نستخدم ω بطريقة محدودة فقط في الفصول اللاحقة ، لأنه لا يساعد في تفسير الأحداث التطورية الحرجة المتعلقة بالفيروسات. تنطبق أوجه القصور ذات الصلة على اختبارات الحياد الأخرى التي تم تطويرها لتفسير أصل تعدد أشكال الحمض النووي في السنوات التي أعقبت قمة الجدل بين محايد الانتقاء (فو ، 1997 آشاز ، 2009).


نسبة التحولات إلى عمليات الاستبدال

Although there are two possible transversions but only one possible transition, transition mutations are more likely than transversions because substituting a single ring structure for another single ring structure is more likely than substituting a double ring for a single ring. Also, transitions are less likely to result in amino acid substitutions (due to wobble base pair), and are therefore more likely to persist as "silent substitutions" in populations as single nucleotide polymorphisms (SNPs). ΐ] A transversion usually has a more pronounced effect than a transition because the third nucleotide codon position of the DNA, which to a large extent is responsible for the degeneracy of the code, is more tolerant of transition than a transversion: that is, a transition is more likely to encode for the same amino acid.


أسباب الطفرات الجينية

In Summary: Major Types of Mutations

يمكن أن يخطئ بوليميراز الحمض النووي أثناء إضافة النيوكليوتيدات. يتم تصحيح معظم الأخطاء ، ولكن إذا لم يتم تصحيحها ، فقد تؤدي إلى حدوث طفرة تُعرّف على أنها تغيير دائم في تسلسل الحمض النووي. يمكن أن تكون الطفرات من أنواع عديدة ، مثل الاستبدال, حذف, إدراج، و النقل. قد تؤدي الطفرات في جينات الإصلاح إلى عواقب وخيمة مثل السرطان. يمكن أن تحدث الطفرات أو قد تحدث بشكل عفوي.


Phylogeny and Evolution of 12S rDNA in Gruiformes (Aves)

Peter Houde , . Gabriel A. Montaño , in Avian Molecular Evolution and Systematics , 1997

4. Transformation Weighting

As transformations saturate, the observed ratio of transversions to transitions deviates significantly from the instantaneous ratio ( Brown وآخرون., 1982 Mindell and Honeycutt, 1990 Knight and Mindell, 1993 ). In other words, the ratio of transversions to transitions appears much closer to 1:1 for deep divergences than for shallow divergences. In spite of this, approximately the same intrinsic difference in rates of transversions to transitions probably occurred throughout the evolutionary history of a group, i.e., all levels of divergence. Thus, weighting schemes for phylogeny reconstruction should attempt to employ the instantaneous ratio rather than one averaged across all levels of divergence, including those saturated. Transversion weighting makes the difference between the recovery or lack of recovery of the traditionally recognized monophyletic clades Gruidae, Rallidae, and Heliornithidae in many of our phylogeny reconstructions. The monophyly of these families is supported in whole or part by a variety of morphological and DNA studies, employing both phenetic and cladistic methodologies ( Olson, 1973 , 1985 Sibley and Ahlquist, 1990 Krajewski, 1989 Houde, 1994 Krajewski and Fetzner, 1994 ).

We estimated a ratio of instantaneous rate of transversions to transitions from two most parsimonious phylogenies, one large and not known to be correct (including all 17 gruiform taxa herein), and the other small but believed to be correct (a ladderized tree of Grus, Anthropoides, Balearica, Aramus, Psophia، و Gallus). Both trees produced identical results on relative transformation rates. The ratio of observed transversions to transitions was expressed as a function of total substitutions. In several cases where no transversions were observed, they were assigned a value of 1 to preclude the biologically meaningless ratio of infinity. A second-order regression was fitted to the plots and the intercept at one substitution was calculated. The instantaneous ratio is 6:1, even though there was substantial scatter of observed values near the origin (from 2:1 to 19:0).

We also estimated the transformation ratio by fitting a two-parameter model of transversion and transition rates to both the large and small phylogenies ( Kimura, 1980 ). We used TREECALC ( Milligan, 1994 ) to find the transformation ratio with the maximum likelihood ( Felsenstein, 1981 ) for the sequence matrix given a user-specified topology with specified branch lengths. Like the first approach, this estimates the instantaneous rate of transformations rather than an average rate of change over the entire phylogeny. The resulting ratio of 7.3:1 from both large and small phylogenies is in fairly good agreement with the previous estimate. We observed no difference in topology of optimal trees obtained by changing the weighting of transversions from 6 to 7.3 and we used the larger value for the phylogeny reconstructions presented here.

In reality, A/Y transversions appear to outnumber G/Y transversions in our data by about an order of magnitude. In light of the high frequency of transitions, the few G/Y transversions may primarily represent A/Y transversion followed by A/G transition. A weighting scheme of 6:1 for A/Y transversions and 60:1 for G/Y transversions produced similar bootstrap support for the same groups as the 7.3:1 weighting for all transversions, but performed worse in recovering Gruidae monophyly.

Gaps were treated in two ways in parsimony analyses: as missing data and with an intermediate weight of 4 (to satisfy the triangle inequality for weights of all transformation types) with 8:1 transversion-to-transition weights.


Transition to Transversion Ratio

Human mutations don't occur randomly. In fact, transitions (changes from A <-> G and C <-> T) are expected to occur twice as frequently as transversions (changes from A <-> C, A <-> T, G <-> C or G <-> T). Thus, another useful diagnostic is the ratio of transitions to transversions in a particular set of SNP calls. This ratio is often evaluated separately for previously discovered and novel SNPs.

Across the entire genome the ratio of transitions to transversions is typically around 2. In protein coding regions, this ratio is typically higher, often a little above 3. The higher ratio occurs because, especially when they occur in the third base of a codon, transversions are much more likely to change the encoded amino acid. A refinement to this analysis, in protein coding regions, is to examine the transition to transversion ratio separately for non-degenerate, two-fold degenerate, three-fold degenerate and four-fold degenerate sites.


Transitions and Transversions

Point mutations occurring in DNA can be divided into two types: transitions and transversions. A transition substitutes one purine for another ( $ extrm leftrightarrow extrm$ ) or one pyrimidine for another ( $ extrm leftrightarrow extrm$ ) that is, a transition does not change the structure of the nucleobase. Conversely, a transversion is the interchange of a purine for a pyrimidine base, or vice-versa. See Figure 1. Transitions and transversions can be defined analogously for RNA mutations.

Because transversions require a more drastic change to the base's chemical structure, they are less common than transitions. Across the entire genome, the ratio of transitions to transversions is on average about 2. However, in coding regions, this ratio is typically higher (often exceeding 3) because a transition appearing in coding regions happens to be less likely to change the encoded amino acid, particularly when the substituted base is the third member of a codon (feel free to verify this fact using the DNA codon table). Such a substitution, in which the organism's protein makeup is unaffected, is known as a silent substitution.

Because of its potential for identifying coding DNA, the ratio of transitions to transversions between two strands of DNA offers a quick and useful statistic for analyzing genomes.


شاهد الفيديو: رياضيات على السريع: من كسر إلى عدد عشري (ديسمبر 2021).