معلومة

أهمية معرفة محتوى GC للكائن الحي


كنت أبحث في النسب المئوية لمحتوى GC لبعض الكائنات الحية. أعرف أيضًا حساب نسبة محتوى GC. ولكن ، ما أريد معرفته هو ، ما هي المعلومات التي سنحصل عليها. ، دعونا نفترض إذا كان الجينوم البشري يحتوي على 40٪ من GC في الجينوم.

هل يساعدنا في مقارنة عدد الجينات بين الأنواع المختلفة ، على سبيل المثال ، تحتوي البكتيريا على محتوى GC أقل من الإنسان ، فهل يعني ذلك أن الإنسان ينتج جينات أكثر من البكتيريا؟

أم أن 40٪ من الجينوم يحتوي على مناطق ترميز بها وأن المزيد من الجينات توجد في تلك المناطق؟ ما هو الرقم "40٪" الذي يشير إلينا بالفعل؟

الرجاء مساعدتي في فهم المفهوم. سأكون شاكرا إجاباتك واقتراح القراءة.

تحرير: سؤالي هو ما الذي تساعدنا معرفة النسبة المئوية لمحتوى GC في معرفة؟ إذا كان محتوى GC 40٪ ، فهل يرتبط بعدد الجينات في الجينوم؟ تحياتي ، براككي راما.


سؤال مهم. يبدو أن محتوى GC يتطور بمرور الوقت ويبدو أيضًا أن محتوى GC لمناطق التشفير أعلى منه في المناطق المحيطة غير المشفرة (انظر المرجع 1). إذا كانت هناك وظيفة محددة لهذا المحتوى العالي من GC أم لا (إذا فهمت هذا الحق) تتم مناقشتها بين المجموعات التي تقوم بالبحث في هذا المجال. ألقِ نظرة على المراجع (وربما أيضًا مراجعها) لاتخاذ قرار بشأن هذا:

  1. تدفع كل من العمليات الانتقائية والمحايدة تطور محتوى GC في الجينوم البشري.
  2. دمج علم الجينوم والمعلوماتية الحيوية وعلم الوراثة الكلاسيكي لدراسة آثار إعادة التركيب على تطور الجينوم.
  3. إعادة التركيب يقود تطور محتوى GC في الجينوم البشري
  4. تطور محتوى GC في جينومات الثدييات: فرضية تحويل الجينات المتحيزة
  5. ديناميكيات محتوى GC المتناقضة عبر 33 جينومًا للثدييات: العلاقة مع سمات تاريخ الحياة وأحجام الكروموسوم

يشرح نموذج بسيط يعتمد على الطفرات والاختيار الاتجاهات في استخدام الكودون والأحماض الأمينية وتكوين GC داخل الجينومات وعبرها

تم الإبلاغ على نطاق واسع عن الارتباطات بين تكوين الجينوم (من حيث محتوى GC) واستخدام أكواد معينة وأحماض أمينية ، ولكن تم شرحها بشكل سيئ. نوضح هنا أن نموذجًا بسيطًا للعمليات التي تعمل على مستوى النيوكليوتيدات يشرح استخدام الكودون عبر عينة كبيرة من الأنواع (311 بكتيريا و 28 عتائق و 257 حقيقيات نوى). يتنبأ النموذج كميًا بالاستجابات (الانحدار والاعتراض لخط الانحدار على محتوى الجينوم GC) للكودونات الفردية والأحماض الأمينية لتكوين الجينوم.

نتائج

تستجيب الكودونات لتكوين الجينوم على أساس محتواها من GC بالنسبة لمرادفاتها (تشرح 71-87 ٪ من التباين في الاستجابة بين الكودونات المختلفة ، اعتمادًا على القياس). يتم تحديد استجابات الأحماض الأمينية من خلال متوسط ​​محتوى GC في كودوناتها (موضحًا 71-79٪ من التباين). توجد اتجاهات مماثلة في الجينات داخل الجينوم. يشرح الاختيار المعتمد على الموضع لتقليل الخطأ سبب استجابة القواعد الفردية بشكل مختلف لضغط الطفرة الاتجاهية.

الاستنتاجات

يقترح نموذجنا أن محتوى GC يدفع استخدام الكودون (بدلاً من العكس). إنه يوحد مجموعة كبيرة من الأدلة التجريبية المتعلقة بالعلاقات بين محتوى GC واستخدام الأحماض الأمينية أو الكودون في أنظمة متباينة. العلاقة بين محتوى GC والكودون واستخدام الأحماض الأمينية غير تاريخية ، يتم تكرارها بشكل مستقل في المجالات الثلاثة للكائنات الحية ، مما يعزز فكرة أن الجينات والجينومات عند توازن الطفرة / الانتقاء تعيد إنتاج علاقة فريدة بين الحمض النووي وتكوين البروتين. وبالتالي ، قد يكون النموذج مفيدًا في التنبؤ بتسلسل الأحماض الأمينية أو النوكليوتيدات في الأصناف سيئة التوصيف.


بلوق

هناك مشكلة مفتوحة منذ فترة طويلة في علم الأحياء هي سبب اختلاف محتوى G + C (الجوانين بالإضافة إلى السيتوزين) من الحمض النووي بشكل كبير عبر المجموعات التصنيفية. من الناحية النظرية ، يجب أن تكون مقادير القواعد الأربعة في الحمض النووي (الأدينين ، والجوانين ، والسيتوزين ، والثايمين) متساوية تقريبًا ، ويجب أن يدفع الانحدار إلى المتوسط ​​جميع الكائنات الحية إلى محتوى جينومي G + C بنسبة 50٪. هذا ليس ما نجده. في بعض الكائنات الحية ، مثل السل الفطري، محتوى G + C هو 65٪ ، بينما في الآخرين ، مثل كلوستريديوم البوتولينوم (كائن التسمم الغذائي) محتوى G + C هو 28٪ فقط.

نعلم بشكل عام أن محتوى G + C يرتبط (ولكن ليس تمامًا) بحجم الجينوم الكبير في البكتيريا. عادةً ما يعني محتوى G + C المنخفض جدًا حجم جينوم أصغر ، وفي الواقع الطفيليات الدقيقة داخل الخلايا والمتعايشات مثل بوخنيرا أفيديكولا (التعايش الداخلي المن) يحتوي على بعض من أدنى محتويات G + C للجميع (عند 23 ٪).

ليس من الصعب أن نفهم وجود قليلكائنات -GC ، نظرًا لأنه من المعروف جيدًا أن معظم الطفرات الانتقالية هي انتقالات من GC إلى AT. غالبًا ما يُطلق على الانتشار العالي للطفرات في اتجاه A + T اسم "AT الانجراف".

لكن بعض الكائنات الحية تسير في الاتجاه الآخر ، حيث تطور محتوى G + C مرتفعًا بشكل غير عادي في جينوماتها ، مما يشير إلى أن شيئًا ما يجب أن يقاوم انحراف AT في تلك الكائنات.

في الآونة الأخيرة ، قامت مجموعة من العلماء الصينيين (انظر وو وآخرون. ، "فيما يتعلق بالآلية الجزيئية لتباين محتوى GC بين الجينومات eubacterial ،" Biology Direct ، 2012 ، 7: 2) طورت الفكرة القائلة بأن محتوى G + C المرتفع يرجع ، على وجه التحديد ، إلى وجود الحمض النووي الجين ، الذي يرمز إلى بوليميراز إصلاح الحمض النووي منخفض الدقة. يقولون إن هذا الجين يدفع أزواج A: T لتصبح أزواج G: C أثناء إصلاح الحمض النووي منخفض الدقة الذي يحدث في بكتيريا معينة في أوقات الإجهاد. لا تحتوي كل البكتيريا على الحمض النووي بوليميراز. وو وآخرون. مناقشة نظريتهم بشيء من التفصيل في مقال نشر في يناير 2014 في مجلة ISME.

في الدراسات الجينومية السابقة الخاصة بي ، قمت برعاية قائمة تضم 1373 نوعًا من البكتيريا eubacterial (لا توجد فيها أنواع مرتين) ، تغطي نطاقًا واسعًا من قيم G + C. عندما علمت بـ الحمض النووي فرضية وو وآخرون. ، قررت التحقق من ذلك مقابل مجموعتي المنسقة من الكائنات الحية.

أول شيء فعلته هو الانتقال إلى UniProt.org والقيام ببحث الحمض النووي. عادت حوالي 1882 زيارة في البحث ، لكن العديد من النتائج كانت للبروتينات استنتج أن تكون وحدات فرعية من DNA polymerase III alpha ، وليس بالضرورة من الحمض النووي تشكيلة. من أجل القضاء على الإيجابيات الكاذبة ، قررت قصر بحثي على حسن النية فقط الحمض النووي الإدخالات التي تمت مراجعتها. أدى ذلك على الفور إلى خفض عدد الزيارات إلى 77.

ولكن من بين 77 زيارة ، تم إدراج بعض الأنواع أكثر من مرة (بسبب إدخالات سلالات متعددة من الكائن الحي). ألغيت تكرار القائمة على مستوى الأنواع وانتهى بي الأمر بـ 60 نوعًا فريدًا.

في هذه المرحلة ، كتبت رمز JavaScript صغيرًا للتحقق من كل كائن من 1373 كائنًا في قائمتي المنسقة مقابل 60 كائنًا معروفًا-الحمض النووي- الكائنات الحية التي تم الحصول عليها من UniProt. كانت هناك 47 مباراة. تم رسم المباريات باللون الأحمر في الرسم البياني أدناه.

اضغط على الصورة لتكبيرها. في هذه المؤامرة ، يوجد محتوى الجينوم A + T (مقياس تصنيفي) على المحور السيني ومحتوى البيورين في منطقة الترميز على المحور ص. (N = 1373) تمثل النقاط باللون الأحمر الكائنات الحية التي تمتلك أ الحمض النووي بولييراز عرضة للخطأ. انظر النص للمناقشة.

يرسم هذا الرسم البياني محتوى A + T (وهو بالطبع واحد فقط مطروحًا منه محتوى G + C) على المحور الأفقي ، مقابل محتوى البيورين لمنطقة الترميز (A + G) على المحور الرأسي. (لمزيد من المعلومات حول أهمية محتوى منطقة الترميز البيورين ، راجع منشوراتي السابقة هنا وهنا. ومع ذلك ، فهي ليست مهمة للمناقشة الحالية.) لاحظ أن النقاط الحمراء تميل إلى الحدوث على الجانب الأيسر من الرسم البياني ، في منطقة محتوى G + C المرتفع (منخفض A + T). تمثل النقطة الحمراء الأبعد جهة اليمين جينوم المتدهورة السكاروفاج. 6 فقط من أصل 47 الحمض النوويتحتوي الكائنات الحية الإيجابية على محتوى G + C أقل من 50٪ (A + T أعلى من 50٪). البقية لديهم جينومات غنية بـ G + C.

هذا ، بالطبع ، مجرد اختبار سريع وغير رسمي ("فحص سلامة العقل ، إذا صح التعبير) لفرضية Wu المتعلقة الحمض النووي (وهو عبارة عن بوليميراز إصلاح غير ضروري لتكرار الحمض النووي الطبيعي ، ولا تمتلكه جميع البكتيريا). قد تؤدي أنواع مختلفة من أخطاء أخذ العينات إلى إبطال هذه النتائج. أيضًا ، فإن فرضية وو نفسها مفتوحة للنقد على أساس أن الارتباط لا يثبت السببية. ومع ذلك ، فهي فرضية مثيرة للاهتمام واختبار عشوائي لـ 47 الحمض النووي- تميل الأنواع الإيجابية في مجموعتي المؤلفة من 1373 كائنًا إلى تقديم التحقق القصصي على الأقل من نظرية وو التي الحمض النووي يتسبب في الانجراف نحو محتوى G + C مرتفع.

بالطبع ، لا تشرح نظرية وو النطاق الواسع لمحتويات G + C التي لوحظت في كائنات أخرى غير بكتيريا. (لا يوجد الحمض النووي في حقيقيات النوى ، على سبيل المثال.) الفكرة العامة ، مع ذلك ، أن محتوى الجينوم G + C يميل إلى أن يكون انعكاسًا لمكونات "إصلاح" الخلية (أنظمة الإنزيم المستخدمة في إصلاح الحمض النووي) ، على ما أعتقد. في هذا الصدد ، تأكد من رؤية تحليلي السابق لكيفية تأثير وجود أو عدم وجود جين Ogg1 على محتوى البيورين في منطقة الترميز.

هنا ، بالمناسبة ، هم 47 الحمض النووي- كائنات حية تظهر كنقاط حمراء في الرسم البياني أعلاه:

أغروباكتريوم توميفاسيانز
التهاب الجراثيم
Alkalilimnicola ehrlichii
اللاهوجينية اللاهوائية
اللاهودية العضلية sp.
اروماتوليم اروماتيكوم
Azoarcus sp.
Bdellovibrio جرثومي
البورديتيلا القصبي
البورديتيلا الشلل الديكي
Bradyrhizobium sp.
البروسيلا أبورتس
Burkholderia مالي
Burkholderia pseudomallei
Caulobacter الهلال
بكتريا الخناق الوتدية
كفاءة الوتدية
الوتدية الجلوتاميك
الوتدية jeikeium
ديكلوروموناس أروماتيكا
أوكسيدات الجلوكونوباكتر
الحيلة chejuensis
Idiomarina loihiensis
Methylococcus capsulatus
المتفطرة البقريّة
السل الفطري
Nocardia farcinica
حب الشباب بروبيونيباكتيريوم
تألق الزائفة
Pseudomonas mendocina
Pseudomonas putida
سيودوموناس سيرينجاي
رالستونيا بيكيتي
Ralstonia solanacearum
Rhizobium sp.
Rhodopseudomonas palustris
Ruegeria pomeroyi
المتدهورة السكاروفاج
دواء سينورهيزوبيوم
التكافؤ الحراري
Synechocystis sp.
Teredinibacter turnerae
فيبرايو بارايموليتيكوس
Vibrio vulnificus
Xanthomonas axonopodis
Xanthomonas campestris
Xanthomonas oryzae


مقدمة

يعكس تكوين الأحماض الأمينية استخدام عشرين من الأحماض الأمينية القياسية في البروتينات. إن فهم التغيرات في تكوين الأحماض الأمينية بين البروتينات المتماثلة هو مفتاح التحقيق في أداء البروتين ، حيث يمكن للبروتينات أن تكتسب وظائف جديدة من خلال بدائل الأحماض الأمينية (Misawa et al. ، 2008). تختلف تركيبات الأحماض الأمينية باختلاف البروتينات ، حتى بين تلك البروتينات المتماثلة. تم الإبلاغ عن ارتباط تكوين الأحماض الأمينية بفئات بنية البروتين (Bahar et al. ، 1997 Horner et al. ، 2008 Du et al. ، 2014) ، كفاءة التمثيل الغذائي (Akashi and Gojobori ، 2002 Kaleta et al. ، 2013 ) ، وكفاءة الترجمة (دو وآخرون ، 2017). ذكرت Sueoka (1961 ، 1962) أولاً أن هناك ارتباطًا بين محتويات GC وتكوين الأحماض الأمينية للبروتينات ، ومن ثم تم الإبلاغ عن تحيز النيوكليوتيدات في استخدام الأحماض الأمينية المتحيزة في الجينومات البكتيرية والفيروسية على نطاق واسع (Rooney ، 2003 Bohlin et al. ، 2013 Goswami et al.، 2015). يمكن أن يؤدي تقليل التكلفة أيضًا إلى تشكيل تكوين الأحماض الأمينية (Seligmann، 2003 Raiford et al.، 2008 Bivort et al.، 2009). هناك عامل آخر يؤثر على اكتساب وفقدان الأحماض الأمينية في تطور البروتين وبالتالي يتسبب في استخدام الأحماض الأمينية المتحيزة وهو ترتيب الأحماض الأمينية التي يتم تجنيدها في الرموز الجينية (جوردان وآخرون ، 2005 هيرست وآخرون ، 2006 ماكدونالد ، 2006 ليو وآخرون ، 2015). ومع ذلك ، ما زلنا لا نعرف كيف تساهم ميزة الأحماض الأمينية في تشكيل تركيباتها المتحيزة في البروتينات.

ظهرت الحياة وتطورت ، وتم تسجيل بصمة التطور بواسطة الجينومات (Martin et al. ، 2016). إذا كان تكوين الأحماض الأمينية في الحياة المبكرة معروفًا ، فمن الممكن استنتاج العوامل التي تسبب الاستخدام المتحيز للأحماض الأمينية للبروتينات أثناء عملية التطور. قام Brooks and Fresco (2002) بتحليل ترددات الأحماض الأمينية في البروتينات الموجودة ووجدوا أن ترددات العديد من الأحماض الأمينية زادت منذ تباعد آخر سلف مشترك عالمي (LUCA). LUCA ، التي يمكن استنتاجها من خلال مقارنة جينومات أحفادها ، هي أحدث سلف تطورت منه جميع الأنواع الحية حاليًا. وايس وآخرون. (2016) تتبع LUCA من خلال معايير النشوء والتطور وحدد مجموعة من الجينات من 355 عائلة ، مما يعني نمط حياة محدد للغاية. أماكن العمل هذه المطثيات و الميثانوجينات باعتبارها أقدم الكائنات الحية المتباينة ، والتي توفر لنا نظرة ثاقبة مثيرة للاهتمام حول LUCA (Mcinerney ، 2016). الأركيون الميثانوجيني المولد للهيدروجين Methanococcus maripaludis S2 (MmarS2) هو كائن حي مدروس جيدًا وهو لاهوائي ، H2- يعتمد على مسار Wood-Ljungdahl ويستخدمه (Goyal et al. ، 2014). وبالتالي ، من الممكن اختيار هذا الكائن الحي كممثل واحد لـ LUCA للتحقيق في تباين ترددات الأحماض الأمينية.

نظرًا لأن معظم الجينات الأساسية قديمة وتم الحفاظ عليها بشكل تطوري أكثر (جوردان وآخرون ، 2002 تشين وآخرون ، 2010) ، فقد استخدمنا الجينات الأساسية كمجموعة تمثيلية للجينات القديمة ولاحظنا تركيبة الأحماض الأمينية للبروتينات المتطابقة مع تلك البروتينات. ممارس 2. أولاً ، تبين أن محتويات GC في جينات ترميز البروتين هذه لها تأثيرات أكثر أهمية على انحراف الأحماض الأمينية من ترتيب توظيف الأحماض الأمينية مع بروتينات LUCA والبروتينات غير LUCA. ثانيًا ، لا يتوافق اكتساب وفقدان الأحماض الأمينية لهذه البروتينات المتماثلة جيدًا مع أوامر توظيف الأحماض الأمينية. وبالتالي ، فإن اختلافات GC لها تأثيرات على تحيز استخدام الأحماض الأمينية أكثر من ترتيب التوظيف للأحماض الأمينية. يؤثر محتوى GC على تكوين الأحماض الأمينية ربما بسبب كفاءة الطاقة.


دليل غير إشعاعي للأرض القديمة

Dendrochronology

Dendrochronology هو استخدام البيانات من حلقات الشجرة السنوية حتى عينات التاريخ. حلقات الأشجار تكون أوسع في السنوات الرطبة وأضيق في سنوات الجفاف. في الأشجار من فترات متداخلة ، يمكن استخدام أنماط الاختلافات في سماكة الحلقة عبر السنين لربط الفترات التي تمثلها حلقات من أشجار مختلفة ، ويمكن حتى مطابقة الفترات في الأشجار من مواقع مختلفة. باستخدام طرق الارتباط هذه مع الأشجار الأوروبية ، قام علماء الشجرة بتجميع سلسلة متواصلة من حلقات الأشجار يبلغ طولها 12410 سنوات (فريدريش وآخرون ، 2004) ، مما يدل على أن الأرض أقدم بكثير من 6000 عام.

فارفيس

Varves عبارة عن طبقات رسوبية رفيعة ، عادةً ما تكون بضعة مليمترات وغالبًا ما تكون & lt1 مم ، والتي تترسب سنويًا في البحيرات وبعض البيئات البحرية ، حيث تستقر الجسيمات المعلقة ببطء في القاع. عادة ، يتكون varve من طبقة فاتحة اللون تترسب خلال الربيع والصيف وطبقة أغمق ترسب خلال الخريف والشتاء. يرجع الاختلاف في الألوان إلى زيادة تراكم قذائف الكائنات المجهرية خلال فصلي الربيع والصيف ، عندما تكون هذه الكائنات أكثر وفرة (Goslar et al. ، 1995 Thunell et al. ، 1995 Kitagawa & amp van der Plicht ، 1998) . يمكن مطابقة سلسلة الاختلافات الكيميائية في الفارف من سنة إلى أخرى في رواسب من بحيرات مختلفة. هذا يسمح بالارتباط بين متواليات مختلفة من البحيرات القديمة المختلفة. باستخدام هذه الطريقة ، يمثل التسلسل المستمر للمتغيرات

13000 سنة تم بناؤها من رواسب البحيرات السويدية القديمة (Wohlfarth et al. ، 1995).

في بعض الحالات ، تنتج الرواسب المأخوذة من بحيرة واحدة آلاف الأنواع. سلسلة متصلة من 9662 varves معروفة من الرواسب في قاع بحيرة Gósciąż في بولندا (Goslar et al. ، 1995). سلسلة من & GT12000 varves معروفة من بحيرة إيري بأمريكا الشمالية (سيرز ، 1948). سلسلة متواصلة من 29100 متغير تأتي من بحيرة Suigetsu في اليابان (Kitagawa & amp van der Plicht ، 1998). لذلك ، تراكمت هذه البحيرات الرواسب لما لا يقل عن 9662 و 12000 و 29100 سنة على التوالي ، وهو ما لا يمكن أن يحدث إلا إذا كانت الأرض قديمة على الأقل.

سلسلة varve المذكورة أعلاه هي من رواسب تمثل فقط عهدي الهولوسين والبليستوسين من عصر النيوجين (انظر الشكل 1). يسجل Varves في الصخور الرسوبية من بعض الفترات السابقة فترات زمنية أطول. يحتوي The Green River Formation ، وهو رواسب بحيرة في وايومنغ وكولورادو ويوتا من عصر الإيوسين ، على العديد من المتغيرات التي لا يمكن عدها. باستخدام متوسط ​​سمك varve في طبقات مختلفة من هذا التكوين والسماكة الإجمالية لتلك الطبقات ، قام Bradley (1929) بحساب ذلك

6.5 مليون متغير موجودة ، مما يشير إلى أن البحيرة تراكمت الرواسب لمدة 6.5 مليون سنة. باستخدام نفس الطريقة ، قام Stamp (1925) بحساب ذلك

يوجد 2.17 مليون نوع مختلف في رواسب Oligocene-Miocene في ميانمار ، وقد حسب روبي (1930) ذلك

2 مليون varves موجودة في Upper Cretaceous Graneros Shale ، وديعة بحرية من الغرب الأوسط الأمريكي. لذلك يقدم فارفيس دليلاً على أن عمر الأرض يبلغ ملايين السنين.

من الاعتراضات النموذجية لمبدعي خلق الأرض الشابة لتقديم أدلة لفترات طويلة من الزمن أن عددًا كبيرًا من الطبقات الرقيقة يمكن أن تمثل فترة زمنية قصيرة على سبيل المثال ، طبقات الرماد التي تم إنتاجها خلال يوم واحد من خلال ثوران جبل سانت هيلينز تحتوي على العديد من الأشياء الجيدة. التصفيح (ويتمور ، 2008). ومع ذلك ، فإن هذا الاعتراض لا معنى له ، لأن التصفيح بالرماد البركاني ليست مختلفة. يفتقر الرماد البركاني إلى قشور الكائنات الحية الدقيقة المائية التي تلون الطبقة الصيفية من فارف ، وتوضح التجارب التي تستخدم مصائد الرواسب أن الصفيحة الواحدة تستغرق عامًا لتتراكم (Thunell et al. ، 1995).

الجليد القطبي

يحتوي الجليد القطبي على طبقات نمو سنوية يمكن التعرف عليها بصريًا. في قلب جليدي من جرينلاند ، تم إحصاء 40500 من هذه الطبقات بصريًا (Alley et al. ، 1993) ، مما يدل على أن المنطقة كانت تتراكم الجليد - وبالتالي فهي موجودة - لأكثر من 40000 سنة. Alley et al. أكد (1993) أن الطبقات كانت سنوية بالفعل من خلال حساب ليس فقط الحدود المرئية للطبقات ولكن أيضًا التغيرات في تراكم الغبار والخصائص الكيميائية لجليد القطب الشمالي المعروف أنها تتغير سنويًا. تسجل نوى جليدية أخرى في القطب الشمالي فترات زمنية تبلغ

تُظهر نوى الجليد القطبي أنماطًا من التغييرات في التوقيعات الكيميائية ، وتراكم الغبار ، وتراكم حبوب اللقاح التي تختلف عبر القرون ويمكن مطابقتها من قلب جليدي إلى آخر. يمكن أيضًا مطابقة مثل هذه التغييرات مع التغييرات المقابلة عبر حلقات الأشجار في السجل الشجري وعبر المتغيرات في سجل رواسب البحيرة. يسجل كل من السجل الجليدي ، والسجل الشجري ، وسجلات رواسب البحيرة نفس عدد السنوات بين الأحداث المناخية المحددة. لذلك فإن كل طريقة من طرق التأريخ تؤكد دقة الطريقة الأخرى. على سبيل المثال ، تؤكد الطرق الثلاثة أن متوسط ​​درجات الحرارة ارتفع بشكل كبير في أوروبا منذ حوالي 11450-11390 عامًا (Björck et al. ، 1996). يتم تأكيد صحة التقديرات الزمنية التي تنتجها هذه الطرق من خلال الوجود ، في طبقات الجليد من الفترات المتوقعة ، للتساقط من الانفجارات البركانية في الأوقات المعروفة (Johnsen et al. ، 1992).

يسجل قلب جليدي من بحيرة فوستوك ، أنتاركتيكا ، فترة زمنية أطول بكثير من 40 ألف عام. يبلغ عمق نواة الجليد في فوستوك 3623 مترًا ، أي ما يقرب من نصف عمق نوى الجليد في جرينلاند التي تبلغ 40000 عام ، وهي عبارة عن

2300 م (Johnsen et al.، 1992 Alley et al.، 1993). يتم ضغط طبقات الجليد السنوية على أعماق كبيرة إلى سماكات أصغر بوزن الطبقات التي تغطيها. باستخدام القيم المعروفة لحجم هذا الضغط ، يتم تقدير الفترة الزمنية التي سجلتها نواة الجليد في فوستوك على أنها


ملخص المؤلف

يختلف التركيب الكلي للنيوكليوتيدات لجينوم الكائن الحي اختلافًا كبيرًا بين الأنواع. حدد العمل السابق بعض العوامل البيئية (مثل توافر الأكسجين) المرتبطة بالعدد النسبي لقواعد GC على عكس قواعد AT في جينومات الأنواع. ترتبط العديد من هذه البيئات المرتبطة بمحتوى مرتفع من GC أيضًا بمعدلات عالية نسبيًا من تلف الحمض النووي. لقد أظهرنا أن الكائنات الحية التي تمتلك مسار إصلاح الحمض النووي غير المتماثل غير المتماثل ، والذي يعد إحدى الآليات لإصلاح فواصل الحمض النووي المزدوجة ، لديها محتوى GC مرتفع مقارنة بالتوقعات. نظهر أيضًا أن بعض المواقع على الجينوم المعرضة بشكل خاص لكسر الشرائط المزدوجة تحتوي على محتوى مرتفع من GC. يقودنا هذا إلى اقتراح أن الدافع الأساسي المهم للتنوع في تكوين النيوكليوتيدات عبر البيئات هو معدل تلف الحمض النووي (على وجه التحديد فواصل الخيط المزدوج) الذي يتعرض له الكائن الحي الذي يعيش في كل بيئة.

الاقتباس: Weissman JL، Fagan WF، Johnson PLF (2019) ربط محتوى GC العالي بإصلاح الشقوق المزدوجة في الجينومات بدائية النواة. بلوس جينيه 15 (11): e1008493. https://doi.org/10.1371/journal.pgen.1008493

محرر: Xavier Didelot ، جامعة وارويك ، المملكة المتحدة

تم الاستلام: 16 أغسطس 2019 وافقت: 25 أكتوبر 2019 نشرت: 8 نوفمبر 2019

حقوق النشر: © 2019 Weissman et al. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط ذكر المؤلف والمصدر الأصليين.

توافر البيانات: جميع البيانات المستخدمة جاءت من مستودعات عامة. كانت الجينومات بدائية النواة المتسلسلة بالكامل من قاعدة بيانات RefSeq غير الزائدة الخاصة بـ NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). كانت العلاقات بين بدائيات النوى من SILVA Living Tree (https://www.arb-silva.de/projects/living-tree/). كانت مجموعات الجينومات ذات الصلة من قاعدة بيانات Alignable Tight Genomic Cluster (ATGC) (http://dmk-brain.ecn.uiowa.edu/ATGC/). كانت بيانات السمات بدائية النواة مأخوذة من قاعدة بيانات ProTraits (http://protraits.irb.hr/). كانت الروابط بين الجينومات وإنزيمات التقييد من قاعدة بيانات REBASE (http://rebase.neb.com/rebase/rebase.html). يمكن العثور على ملفات ورموز البيانات الوسيطة على: https://github.com/jlw-ecoevo/gcku.

التمويل: تم دعم JLW من قبل زمالة GAANN من وزارة التعليم الأمريكية وجامعة ماريلاند بالإضافة إلى زمالة COMBINE من جامعة ماريلاند وبتمويل من NSF DGE-1632976. تم دعم WFF جزئيًا لمختبر أبحاث الجيش الأمريكي ومكتب أبحاث الجيش الأمريكي بموجب منحة W911NF-14-1-0490. تم دعم PLFJ جزئيًا بواسطة NIH R00 GM104158. لم يكن للممولين دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


إتقان علم الأحياء: الفصل الأول

يتم إعادة تدويرها داخل النظام البيئي ، ويتم إعادة استخدامها باستمرار.

يخرجون من النظام البيئي في شكل حرارة.

تتدفق عبر النظام ، وتفقد بعض العناصر الغذائية في هذه العملية.

يعرض النظام البيئي خصائص معقدة غير موجودة في المجتمعات الفردية بداخله.

يعد فهم التفاعلات بين المكونات المختلفة داخل النظام الحي هدفًا رئيسيًا لنهج بيولوجيا الأنظمة لفهم التعقيد البيولوجي.

يكشف فهم التركيب الكيميائي للحمض النووي عن كيفية توجيهه لعمل الخلية الحية.

تستخدم جميع الكائنات الحية ، بما في ذلك بدائيات النوى وحقيقيات النوى ، أساسًا نفس الشفرة الجينية.

الأطراف الأمامية لجميع الثدييات لها نفس البنية الأساسية ، معدلة لبيئات مختلفة.

هيكل الحمض النووي هو نفسه في جميع الكائنات الحية.

الطريقة العلمية هي إجراء يستخدم للبحث عن تفسيرات الطبيعة. تتكون الطريقة العلمية من الملاحظات ، وصياغة الفرضيات ، وتصميم التجارب وتنفيذها ، وتكرار هذه الدورة.

يمكن أن تكون الملاحظات إما كمية أو نوعية. الملاحظات الكمية هي قياسات تتكون من أرقام ووحدات ، مثل ملاحظة أن الجليد يذوب عند صفر درجة مئوية. في المقابل ، الملاحظات النوعية هي ملاحظات لا تعتمد على الأرقام أو الوحدات ، مثل ملاحظة أن الماء واضح.

الفرضية هي تفسير مؤقت للملاحظات. الفرضية ليست صحيحة بالضرورة ، لكنها تضع فهم العالم للملاحظات في شكل يمكن اختباره من خلال التجريب.

ثم يتم إجراء التجارب لاختبار صحة الفرضية. التجارب هي ملاحظات يفضل إجراؤها في ظل ظروف يكون فيها متغير الاهتمام مميزًا بوضوح عن أي متغير آخر.

إذا أظهرت التجربة أن الفرضية غير صحيحة ، فيمكن تعديل الفرضية ، ويمكن إجراء المزيد من التجارب لاختبار الفرضية المعدلة. تتكرر هذه الدورة ، وتنقح الفرضية باستمرار.

إذا اتبعت مجموعة كبيرة من الملاحظات نمطًا قابلاً للتكرار ، فيمكن تلخيص هذا النمط في قانون - تعميم لفظي أو رياضي لظاهرة. على سبيل المثال ، لاحظ الناس على مر السنين أن الشمس تشرق كل صباح من الشرق ، وكل ليلة تغرب الشمس في الغرب. يمكن وصف هذه الملاحظات في قانون ينص على أن: "الشمس تشرق دائمًا من الشرق وتغرب في الغرب. & quot


بلوق

1. يختلف محتوى GC في DNA باختلاف الأنواع ، وهو يختلف كثيرًا.

2. لا يبدو أن التطور يتجه نحو "نسبة CG: AT المثلى" من أي نوع.

إذا كان هناك شيء مثل نسبة GC: AT المثلى للحمض النووي ، فمن المؤكد أن الكائنات الحية الدقيقة قد اكتشفت ذلك الآن. بدلاً من ذلك ، نجد تنوعًا هائلاً: توجد بكتيريا في كل نقطة في طيف GC٪ ، تعمل من 16٪ GC للحمض النووي الخاص بـ Candidatus Carsonella ruddii (تعايش من قمل النبات القافز) إلى 75٪ من أجل اللاهوجينية اللاهوائية 2CP-C (بكتيريا التربة). في كل طرف من طرفي الطيف تجد الأيروبس واللاهوائيات المتطرفة ومسببات الأمراض وغير الممرضة. حول التعميم الوحيد الذي يمكنك القيام به هو أنه كلما كان جينوم الكائن أصغر ، زاد احتمال أن يكون غنيًا بـ A + T (نسبة GC منخفضة).

يرتبط حجم الجينوم بشكل فضفاض بمحتوى GC. الأصغر جدا
تميل البكتيريا إلى أن يكون لها حمض نووي غني بـ AT (منخفض GC).
إن التنوع الهائل في نسب GC: AT بين البكتيريا مثير للإعجاب. لكن هل يمثل ببساطة نزهة عشوائية في جميع أنحاء الفضاء المحتمل للحمض النووي؟ أم أن النقاط المختلفة في الطيف تشكل منافذ خاصة ذات مزايا مهمة؟ ما هي الميزة التي يمكن أن تكون لامتلاك DNA عالي GC؟ أو حمض نووي عالي AT؟

تخبرنا بعض الأدلة الدقيقة أن هذا ليس مجرد انحراف عشوائي عن المتوسط. أولاً ، لنفترض أننا نتفق من أجل الجدل على أن نقل الجينات الجانبي (LGT) شائع في عالم الميكروبات (وهي وجهة نظر أتفق معها). على مدار ملايين السنين ، مع قطع من الحمض النووي من جميع الأنواع (نسبة عالية من GC ، وانخفاض نسبة GC) تطير ذهابًا وإيابًا ، يجب أن تفرض LGT انحدارًا إلى المتوسط: يجب أن تجعل الجينومات تميل نحو 50-50 GC: نسبة ال. من الواضح أن هذا لم يحدث.

ثم هناك ضغوط طفرية عادية. لقد بدأ قبولها بشكل جيد إلى حد ما (انظر Hershberg and Petrov ، "الدليل على أن الطفرة متحيزة عالميًا تجاه AT في البكتيريا ،" علم الوراثة PLoS، 2010 ، 6: 9 ، e1001115 ، النسخة الكاملة هنا) أن الطفرة الطبيعية منحازة بشدة في اتجاه AT بحكم حقيقة أن نزع أمين السيتوزين و methylcytosine (الذي يحدث تلقائيًا عند التردد العالي) يؤدي إلى استبدال 'C' مع "T" ، وبالتالي تصبح أزواج GC أزواجًا من AT. إن التحيز الطبيعي القوي للطفرات تجاه AT يقول ذلك الكل يجب أن يزحف الحمض النووي في اتجاه نسبة GC المنخفضة وينتهي به الأمر إلى أقل من 50٪ GC. لكن، مرة أخرى، ليس هذا ما نراه. نرى أن الكائنات عالية GC مثل اللاهوائية (والعديد من الآخرين) يحافظون على محتوى حمضهم النووي العالي بشكل غير عادي (75٪) عبر ملايين الأجيال. حتى الكائنات الحية في منتصف الطريق مثل بكتريا قولونية (مع محتوى 50٪ GC) لا تنزلق ببطء في اتجاه AT عالي / منخفض GC.

من الواضح أن شيئًا مضحكًا يحدث. للحصول على كائن حي عالي الجودة مثل اللاهوائية للحفاظ على محتوى GC الفائق من الحمض النووي الخاص به ضد السحب المستمر للطفرات في اتجاه AT ، يجب أن يبذل طاقة كبيرة في الحفاظ على نسبة GC العالية. لكن لماذا؟ لماذا تدفع إضافية للحفاظ على نسبة GC عالية؟ وكيف يتم دفع التكلفة؟

أعتقد أنني توصلت إلى إجابة محتملة. يتعلق الأمر بتكلفة تكرار الحمض النووي ، حيث يتم احتساب "التكلفة" من حيث الوقت اللازم لتجميع نسخة جديدة من الحمض النووي (لتقسيم الخلايا). يجب أن يفضل أي شيء يفضل تكلفة النسخ المتماثل المنخفضة (سرعة النسخ العالية) البقاء على قيد الحياة وهذا هو افتراضي الرئيسي.

وافتراضي الآخر هو أن بوليميرات الحمض النووي (الإنزيمات المشاركة في النسخ المتماثل) ليست عرافًا. لا يمكنهم معرفة ، حتى تظهر الحاجة ، أي من ثلاثي فوسفات deoxyribonucleotide الأربعة (dATP ، dTTP ، dGTP ، dCTP) ستكون مطلوبة في لحظة معينة ، لإطالة خيط DNA الجديد. عندما تنشأ الحاجة إلى (دعنا نقول) "A" ، يجب أن يأتي "A" (في شكل dATP) من مجموعة داخلية موجودة من dNTPs تحتوي على جميع القواعد الأربعة (dATP ، dTTP ، dGTP ، dCTP) في أي شيء التركيزات الموجودة فيها. على الإنزيم أن ينتظر حتى يحدث dATP (إذا كان هذا هو المطلوب) بشكل عشوائي ليغلق في الموقع النشط. الاحتمالات ليست سوى واحد من كل أربعة (بافتراض تركيزات متساوية من dNTPs) من dATP تأتي في الوقت المناسب تمامًا. الاحتمالات هي 3 من 4 أن بعض dNTP غير الصحيح (إما dGTP أو dTTP أو dCTP) سيحاول ويفشل في احتواء الموقع النشط أولاً ، قبل ظهور dATP.

لكن تخيل أن الحمض النووي الخاص بك هو 75٪ G + C. وافترض أنك قمت بتنظيم عملية التمثيل الغذائي داخل الخلايا للحفاظ على dGTP و dCTP بنسبة 3: 1 على dATP و dTTP. احتمالات "الضربة الأولى" العشوائية الجيدة ترتفع.

لمحاكاة الاحتمالات المختلفة ، كتبت برنامجًا (بلغة JavaScript) يحاكي تكرار الحمض النووي ، حيث يبلغ طول جزيء الحمض النووي للقالب 1000 زوج قاعدي وحجم تجمع dNTP هو 10000 قاعدة. يسمح لك البرنامج بضبط جينوم الكائن الحي GC٪ على ما تريد ، وكذلك تعيين نسبة GC النسبية لتجمع dNTP على ما تريد. الحمض النووي للقالب هو مجرد سلسلة عشوائية من قواعد A و T و G و C (إجمالي 1000) ، مما يعكس وفرتها النسبية كما هو محدد في معامل GC٪. تم إعداد مجموعة dNTPs لتكون مصفوفة عشوائية (مرة أخرى تعكس الوفرة المحددة في معلمة GC٪).

الطريقة التي يعمل بها البرنامج هي هذه. اقرأ قاعدة من القالب. إحضار قاعدة عشوائيًا من المجموعة الأساسية. إذا كانت القاعدة هي القاعدة (من أصل أربعة) التي تم طلبها ، فقم بتسجيل "1" لمعامل التوقيت ، واستمر في قراءة قاعدة أخرى من القالب. إذا كانت القاعدة ليس الشخص المطلوب ، أعده إلى مصفوفة التجمع في موقع عشوائي ، ثم أحضر قاعدة أخرى عشوائيًا من التجمع وقم بزيادة معامل التوقيت. (لكل عملية إحضار ، ترتفع معلمة التوقيت بمقدار 1.) استمر في الجلب (وإلقاء القواعد الخلفية) حتى تظهر القاعدة المناسبة ، مع زيادة معامل الوقت حسب الاقتضاء. (تتعقب معلمة الوقت عدد محاولات الجلب.) عندما تظهر القاعدة الصحيحة ، يتقلص التجمع بمقدار قاعدة واحدة. بمعنى آخر ، يستهلك النسخ المتماثل التجمع ، ولكن كما قلت سابقًا ، يحتوي التجمع على عشرة أضعاف عدد القواعد (للبدء) مثل قالب الحمض النووي. لذا فإن التجمع ينتهي بنسبة 10٪ أصغر في نهاية النسخ المتماثل.

تمثل كل نقطة في هذا الرسم البياني متوسط ​​100 جولة مونت كارلو ، كل شوط يمثل تكرارًا كاملاً لقالب DNA بسعة 1000 نقطة أساس ، مستمدًا من مجموعة من 10000 قاعدة. النقاط الزرقاء عبارة عن عمليات تشغيل تستخدم قالب DNA يحتوي على 25٪ من محتوى G + C. النقاط الحمراء عبارة عن مسارات تستخدم الحمض النووي بنسبة 75٪ G + C. يمثل المحور X تراكيب مختلفة للمجمع الأساسي. انظر النص للحصول على التفاصيل. انقر للحصول على صورة أكبر.

قمت بتشغيل عمليات محاكاة مونت كارلو لقوالب الحمض النووي التي تحتوي على محتويات GC بنسبة 75٪ ، و 50٪ ، و 25٪ ، باستخدام مجموعات قاعدة تم إعدادها بحيث يكون لديها في أي مكان من 15٪ GC إلى 85٪ (بزيادات 2.5٪). تظهر النتائج الخاصة بقوالب GC 75٪ و 25٪ GC (التي تمثل كائنات GC عالية ومنخفضة) في الرسم البياني أعلاه. تمثل كل نقطة على الرسم البياني متوسط ​​100 عملية نسخ متماثل كاملة. يُظهر المحور Y متوسط ​​عدد عمليات الجلب لكل قاعدة DNA (لذلك ، تعني القيمة المنخفضة التكرار السريع ، وتعني القيمة العالية تكرارًا أبطأ للحمض النووي). يُظهر المحور X النسبة المئوية لـ GC في التجمع الأساسي ، اعترافًا بحقيقة أن وفرة dNTP النسبية في كائن حي قد تختلف ، وفقًا للقيود البيئية وكذلك مع نقاط ضبط الاستتباب الخاصة بالكائن.

Maximal replication speed (the low point of each curve) happens at a base-pool GC percentage that is displaced in the direction of the DNA's own GC%. So, for the 25%-GC organism (blue data points), max replication efficiency comes when the base-pool is about 33% GC. For the 75% GC organism (red points) the sweet spot is at a base-pool GC concentration of 65%. (Why this is not exactly symmetrical with the other curve, I don't know but bear in mind, these are Monte Carlo runs. Some variation is to be expected.)

The interesting thing to note is that max replication efficiency, for each organism, comes at 3.73 fetches per base-pair (Y-axis). Cache that thought. It'll be important in a minute.

The real jaw-dropper is what happens when you plot a curve for template DNA with 50% GC content. In the graph below, I've shown the 50%-GC runs as black points. (The red and blue points are exactly as before.)

This is the same graph as before, but with replication data for a 50%-GC genome (black points). Again, each data point represents the average of 100 Monte Carlo runs. Notice that the black curve bottoms out at a higher level (4.0) than the red or blue curves (3.73). This means replication is less efficient for the 50%-GC genome.

Notice that the best replication efficiency comes in the middle of the graph (no big surprise), but check the Y-value: 4.00. The very fastest DNA replication, when the DNA template is 50% GC, requires 4 fetches per base, compared to best-case base-fetching efficiency of 3.73 for the 25%-GC and 75%-GC DNAs.What does this mean? It means DNA replication, in a best-case scenario, is 6.75% more efficient for the skewed-GC organisms. (The difference between 3.73 and 4.00 is 6.75%.)

This goes a long way toward explaining why GC extremism is stable in organisms that pursue it. There is replication efficiency to be had in keeping your DNA biased toward high or low GC. (It doesn't seem to matter which.)

Consider the dynamics of an ATP drawdown. The energy economy of a cell revolves around ATP, which is both an energy molecule and a source for the adenine that goes into DNA and RNA. One would expect normal endogenous concentrations of ATP to be high relative to other NTPs. For a low-GC% organism, that's also a near-ideal situation for DNA replication, because high AT in the base pool puts you near the max-replication-speed part of the curve (see blue points). A sudden drawdown in ATP (when the cell is in crisis) shifts replication speed to the right-hand part of the blue curve, slowing replication significantly. This is what you want if you're an intracellular symbiont (or a mitochondrion, incidentally). You want to stop dividing when the host cell is unable to divide because of an energy crisis.

Consider the high-GC organism (red dots), on the other hand. If ATP levels are high during normal metabolism, replication is not as efficient as it could be, but so what? It just means you're willing to tolerate less-efficient replication in good times. But as ATP draws down (perhaps because nutrients are becoming scarce), DNA replication actually becomes more efficient. This is what you want if you're a free-living organism in the wild. You want to be able to continue replicating your DNA even as ATP becomes scarce. And indeed that's what happens (according to the red data points): As the base pool becomes more GC-rich, replication efficiency increases. The best efficiency comes when base-pool A+T is down around 35%.

I think these simulations are meaningful and I think they help explain the DNA-composition extremism seen among microorganisms. If you're a professional scientist and you find these results tantalizing, and you'd like to co-author a paper for علم الوراثة PLoS (or another journal), please get in touch. (My Google mail is kas-dot-e-dot-thomas.) I'd like to coauthor with someone who is good with statistics, who can contribute more ideas to this line of investigation. I think these results are worth sharing with the scientific community at large.


مناقشة

Significances of incorporating GC and purine contents into models

Empirical relationships between GC content and codon (amino acid) usage have been widely reported but explained in most of the cases less comprehensively. Here we show that each codon as well as each nucleotide in cellular genomes follows a very similar trend when GC content varies (Figures 2, 3, 4 and Additional files 2, 3, 4), albeit lesser differences between prokaryotes and eukaryotes due to their sequence heterogeneity (for example, isochores in vertebrates [42, 43], integral membrane proteins with hydrophobic nature, horizontal transfer of DNA and questionable predicted coding regions, etc.). Our results strongly suggest that mutation and selection not only act at different levels but also exhibit different priorities that are attributable to the organization of the genetic code [44, 45]. At the nucleotide level, we observe that the compositions of all species for a given GC content are very similar and more or less predictable. Consequently, GC content becomes a significant predictor for nucleotide, codon, and amino acid compositions, since half of the amino acids are rather GC content-sensitive in their first and second codon positions [44–47]. However, it does not mean that GC content, varying from 17% to 75%, is the sole determinant of compositions at all levels [31, 48] purines have been widely reported to have a determinative role in amino acid physicochemical properties and purines in the second codon position may control the charge and hydrophobicity of amino acids [44, 46, 49, 50]. Similar to GC content, purine content also differs from one species to another, albeit with a relatively smaller range in a nearly 10% deviation below or above the half line. In bacteria, for instance, the minimum of purine content is 48.0% for Clavibacter michiganensis subsp. michiganensis NCPPB 382, whereas the maximum is 58.8% for Clostridium tetani E88. The slight deviation of purine content, indicating a complex interplay of mutation and selection and reflecting an important balance between the purine-sensitive and insensitive amino acids--15 and 5 (as signified by their codons' sensitivity to purine variations at the third codon position), respectively [51]--can give rise to completely different compositions at the levels of both codons and amino acids (as indicated in Equations 1-8).

Therefore, our models first adopt GC and purine contents as two important compositional elements and consider heterogeneous mutation and selection forces acting at all three codon positions. As testified across a wide variety of species, the models provided consistent compositions, quantitatively recapturing the empirical relationships with changing GC and purine contents. Our results, especially in the various changing trends (most of them are not linear) further validated that mutations (dominated by GC content variations) and selections (dominated by purine content variations) mainly act at the level of nucleotides rather than codons or amino acids in accordance with previous studies [12, 41, 52]. Although our models are designed to work on protein coding sequences, it might also be applicable to nucleotide frequencies in non-coding sequences as an alternative. Second, the deviations from the dominant trends for certain amino acids, to a lesser extent some of their codons (such as it is well-accepted that purine-rich sequences often serve as elements of exonic enhancers among animal genes that have multiple spliceosomal introns), reflect selection forces acting primarily on certain amino acids of the proteomes when their amino acid sequence changes interfere with protein level functions. Third, there are other balancing forces buried in the organization of the genetic code. One of the sets includes the six-fold codons for Leu, Arg (arginine), and Ser (serine). All of them provide diverse balances for purine content variations as they are all divided between the purine-sensitive and insensitive codons [44, 46]. Although four of the codons for Arg are in the GC-rich quarter of the genetic code, its counterpart, Lys (lysine) has all its codons in the AT-rich quarter in order to maintain enough basic amino acids in the proteomes [44].

Our models have several variants. Since they are built on the basis of GC and purine contents and thus symbolized as أو , their variants can also be represented by S and R: = , = , = . As assumed, S and R is an independent pair, which leads to S c and R, S and R c , S c and R c are also independent pairs (see Models). Therefore, the variants, , , , are in essence equivalent to our models.

Implications of composition deviations

The expected compositions predicted by our models, however, sometimes deviate in various degrees from the observed. Such deviations can be caused by complex evolutionary mechanisms (e.g., extreme dinucleotide abundance [53]) and deciphered in terms of mutation and selection [54, 55] mutation towards a particular nucleotide content (e.g., GC content) primarily determines codon and amino acid usage according to the genetic code structure [56] and selection essentially caters for a given amino acid usage [57]. Therefore, it is likely that these composition deviations provide implications for molecular evolution.

Considering nucleotide compositions at all three codons positions (Figure 2 and Additional file 2), four nucleotides at the first and third codon positions deviated evenly, suggesting stronger mutation effects. On the contrary, four nucleotides at the second codon position deviated remarkably, exhibiting a similar manner in all species. As compared to the expected compositions, A and C appear overestimated, whereas G and T are underestimated (Figure 2 and Additional file 2). This indicates the strong selection acting at the second position that is intrinsic to the organization of the genetic code amino acids that have A or C at their second codon positions are more diverged and less flexible toward nucleotide changes across codon positions than within codon positions. Conversely, the amino acids that have G or T at their second codon positions are relatively relaxed toward nucleotide changes across codon positions. Most noticeable are Leu and Arg, whose codons are partitioned within the same position but between the purine-sensitive and insensitive halves (Additional file 5) [44]. Our results are in agreement with previous observations [41, 44, 58].

Since selection forces largely act at the levels of amino acids and their codons, we are able to assess the degrees of selection in different organisms by calculating subtle differences among amino acid (codons) conversion matrices. For instance, Ala and Val (valine) are the two most departed amino acids in all the collected sequences. Namely, in comparison to expectations, there are a surplus of alanine and a deficit of valine. Since amino acids are exchanged at different frequencies due to their compositional relevance at nucleotide level, it is possible that deviations of these two amino acids are highly related to such exchangeability. Therefore, we constructed five amino acid exchange matrices that are based on five different datasets in الإشريكية القولونية, fruit fly, rice, yeast, and mammal (see Methods). When we take the top 10 highly-exchangeable pairs in all five matrices, the four among the top are (1) Ala ↔ Ser, (2) Ala↔ Thr (threonine), (3) Ala ↔ Val, and (4) Val ↔ Ile (isoleucine) (Additional file 6). As we know, amino acids with similar physicochemical properties tend to be more exchangeable [59–62]. It appears that Ala is the most active amino acid, primarily due to the fact that several of its neighboring amino acids have similar physicochemical properties (such as their size parameters). With regard to the exchange between Val and Ile, it is their similarity in hydrophobicity that plays a key role. These results are by and large consistent with findings in several previous studies [12, 63, 64]. Therefore, our models bear significance in establishing a theoretical framework for compositional analysis and providing clues for molecular evolution studies.


Additional file 1: Table S1

. List of species. الجدول S2. Phyla representation. الجدول S3. Genomic and environmental properties. Figure S1. Correlations of traits with ΔLFE are not present in its individual components. Figure S2. The ΔLFE profile is more conserved than other genomic traits. Figure S3. Local CUB vs. Local ΔLFE. Figure S4. Comparison between ΔLFE calculated using CDS-wide and position-specific (“vertical”) randomizations. Figure S5. ∆LFE is stronger in highly expressed genes and genes encoding for highly abundant proteins. Figure S6. Unsupervised discovery of profile regions. Figure S7. ΔLFE profiles for all species. Figure S8. Comparison between ΔLFE profiles in different domains. Figure S9. Autocorrelation between ΔLFE profile regions. Figure S10. Trait correlations in taxonomic subgroups. Figure S11. Correlation of ∆LFE with different genomic measures of CUB is consistent. Figure S12. ENc’ correlates with ΔLFE magnitude, not shape. Figure S13. Genomic-GC and genomic-ENc’ both predict ΔLFE. Figure S14. Endosymbionts have weaker ΔLFE. Figure S15. Range robustness for GLS regressions between ΔLFE and related traits. Figure S16. Additional controls for phenomenon related to translation initiation. Figure S17. Dependence of ΔLFE profiles on temperature.

Additional file 2.

Species ΔLFE profiles and additional data used for GLS regression analysis.

Additional file 3.

Processed ultrametric phylogenetic tree used for GLS regression analysis.


شاهد الفيديو: خصائص الحياة للمخلوقات الحية (كانون الثاني 2022).