معلومة

هل هناك تشبيه جيد يوضح الفرق بين تقنيات تسلسل الحمض النووي المبكر وتسلسل البنادق؟


تبدأ حصص علم الأحياء الجامعية الأولى لي في سبتمبر. أثناء التحضير ، ولكن بدافع الفضول بشكل متزايد ، كنت أدرس بعض علم الأحياء الأساسي. بقول ذلك ، فأنا أعرف الكثير عن تكرار الحمض النووي كما تعلمه مقاطع فيديو أكاديمية خان.

في الوقت الحاضر ، أقرأ عن جهدين لتسلسل الجينوم. مما قرأته ، استخدم مشروع كولينز "تحفيز البوليميراز ووسم النوكليوتيدات". في حين أن مشروع فينتر استخدم "تسلسل البندقية". لم أكن أعرف ما يكفي لفهم المقالة التي قرأتها عن "تسلسل البندقية" ولم أجد واحدة تصف التقنية الأخرى.

أظن أنه من أجل فهم وصف موجز للتقنيتين ، سأحتاج إلى تعلم أكثر مما يمكنني تعلمه من إجابة هذا السؤال. بعد قولي هذا ، سيكون من الجيد أن يكون لديك فكرة تقريبية للغاية عما تتضمنه كل عملية وكيف تختلف عن بعضها البعض. سيكون من الرائع إجراء تشبيه فج لشيء ملموس.


اعتمد الجهد العام ، بقيادة كولينز ، على خريطة مادية لكل كروموسوم. تم استنساخ قطع كبيرة جدًا من الحمض النووي الجينومي في نواقل الاستنساخ واستخدامها لإنشاء مكتبات جينومية في الكوسميدات و BACs و YACs. يتم ترتيب الحيوانات المستنسخة الفرعية باستخدام تحقيقات التهجين من الجينات المعروفة أو العلامات الجينية RFLP. وبهذه الطريقة ، تم بناء خريطة مادية لكل كروموسوم ، ومن ثم سينتقل المشروع إلى أسفل النسخ المرتبة ، متسلسلًا النسخ الفرعية. إذا كانت الخريطة المادية جيدة ، فلديك فكرة جيدة جدًا عن مصدر التسلسل.

في المقابل ، يتضمن تسلسل البندقية تفتيتًا عشوائيًا للجينوم بأكمله إلى أجزاء صغيرة (باستخدام صوتنة ، على سبيل المثال) ، واستنساخ تلك القطع وتسلسل كل شيء.

في الطريقة الأولى ، يتم تسلسل كل قاعدة بأدنى عدد من المرات ، بينما في الطريقة الثانية ، ينتهي الأمر بتسلسل كل قاعدة عدة مرات (في المتوسط).

بالنسبة للجينوم بأكمله ، يتطلب تسلسل البندقية خوارزمية حاسوبية ممتازة "لتجميع" البيانات الناتجة في contigs متداخلة.


PCR (تفاعل البلمرة المتسلسل) و تسلسل بندقية هما طريقتان مكملتان إلى حد ما للتسلسل. في الحالة الأولى ، يستخدم المرء تفاعلًا كيميائيًا لإنشاء نسخ متعددة من الجينوم المعني ، مما يسمح بتقليل الخطأ في تسلسل هذا الجينوم. يتم إجراء هذا الأخير عن طريق تسلسل البيانات مباشرة ، أي بدون أي مضاعفة للجينوم.

يكون تفاعل البوليميراز المتسلسل أكثر ملاءمة عندما ندرس جينومًا معينًا أو عددًا قليلاً من الجينومات ، على سبيل المثال ، عند ترتيب جينوم شخص معين أو نوع معين من الكائنات الحية. ومع ذلك ، عند وجود بعض الجينومات المختلفة جدًا ، قد يكون التضخيم غير متساوٍ للغاية ، وفي الواقع يؤدي إلى أخطاء إضافية. هذا هو السبب في أنه في بعض الحالات يفضل المرء تسلسل البندقية ، على سبيل المثال ، عند دراسة الميكروبيوم ، الذي يحتوي على العديد من الأنواع المختلفة من البكتيريا ، والعتائق ، والفيروسات ، وما إلى ذلك.

يشير كلا المصطلحين إلى ما يسمى التسلسل عالي الإنتاجية (HTS). يمكنك معرفة المزيد عن تقنيات التسلسل من هذه المقالة العلمية الشهيرة.


تعزيز دقة تسلسل الجيل التالي لاكتشاف الطفرات النادرة وتحت النسلية

تعد القدرة على تحديد المتغيرات الجينية منخفضة التردد بين المجموعات غير المتجانسة من الخلايا أو جزيئات الحمض النووي مهمة في العديد من مجالات العلوم الأساسية والطب السريري والتطبيقات الأخرى ، ومع ذلك فإن تقنيات تسلسل الحمض النووي عالية الإنتاجية الحالية لها معدل خطأ بين 1 لكل 100 و 1 لكل 1000 زوج أساسي متسلسل ، مما يحجب وجودهم تحت هذا المستوى.

مع تطور تقنيات التسلسل من الجيل التالي على مدار العقد ، تحسنت الإنتاجية بشكل ملحوظ ، لكن الدقة الأولية ظلت دون تغيير بشكل عام. الباحثون الذين يحتاجون إلى دقة عالية طوروا أساليب تصفية البيانات والتحسينات الكيميائية الحيوية الإضافية التي تحسن بشكل متواضع اكتشاف متغير التردد المنخفض ، لكن أخطاء الخلفية تظل محدودة في العديد من المجالات.

كانت أكثر الوسائل تأثيراً لتقليل الأخطاء ، والتي تم تطويرها لأول مرة منذ حوالي 7 سنوات ، هي مفهوم التسلسل الإجماعي أحادي الجزيء. يستلزم هذا التسلسل الزائد لنسخ متعددة من جزيء DNA معين وحذف المتغيرات غير الموجودة في جميع النسخ أو معظمها كأخطاء محتملة.

يمكن تحقيق تسلسل الإجماع عن طريق وسم كل جزيء برمز شريطي جزيئي فريد قبل إنشاء نسخ ، مما يسمح بإجراء مقارنة لاحقة لهذه النسخ أو المخططات حيث يتم ربط النسخ فعليًا وتسلسلها معًا. بسبب المفاضلات في التكلفة والوقت والدقة ، لا توجد طريقة واحدة مثالية لكل تطبيق ، ويجب النظر في كل طريقة على أساس كل حالة على حدة.

تشمل التطبيقات الرئيسية لتسلسل الحمض النووي عالي الدقة تشخيصات السرطان غير الغازية ، وفحص السرطان ، والكشف المبكر عن انتكاس السرطان أو المقاومة الوشيكة للأدوية ، وتطبيقات الأمراض المعدية ، والتشخيص قبل الولادة ، والطب الشرعي ، وتقييم الطفرات.

من المحتمل أن تكون التطورات المستقبلية في التسلسل فائق الدقة مدفوعة بجيل ناشئ من متواليات الجزيء الواحد ، لا سيما تلك التي تسمح بمقارنة التسلسل المستقل لكل من خيوط الدنا المزدوجة الأصلية.


مقدمة

يحتوي الجينوم على جميع المعلومات التي يحتاجها الكائن الحي للوجود والتكاثر والتطور. يحتوي الجينوم البشري ، على سبيل المثال ، على 3.2 مليار قاعدة. إذا استخدمنا تشبيه كتاب ، فسيحتوي على 3.2 مليار حرف (القواعد A ، C ، G ، T) بدون مسافات مقسمة إلى 46 فصلًا (عدد الكروموسومات) ، مما يجعله حوالي 70 مليون حرف (bp) ) لكل فصل. لوضع هذا في السياق ، تحتوي هذه المقالة على ما يقرب من 58000 حرف. عندما يموت كائن حي ، فإن الجمع بين الوقت والبيئة سوف يكسر أو يغير سلسلة الحروف ، مما يجعل من الصعب قراءتها وفهمها. حتى إدخال تسلسل الجيل التالي (NGS) ، كنا في كثير من الأحيان قادرين على قراءة عدد قليل من الجمل المتبقية الأكبر - وهذا بعد قدر كبير من الجهد والنفقات. ومع ذلك ، مع تقدم التكنولوجيا ، أصبحنا الآن أكثر قدرة على قراءة الجمل القصيرة جدًا ، ودمجها في فصول كاملة وأحيانًا الكتاب بأكمله. التقدم الذي تم إحرازه في العقد الماضي مذهل ، فقد انتقل المجال من استعادة مئات القواعد الأساسية إلى مئات الملايين من نقاط أساسى. لم يمكّننا هذا التقدم في التكنولوجيا من الإجابة على أسئلة أكثر تعقيدًا فحسب ، بل أدى أيضًا إلى زيادة في المعلومات ، ولم تكن كلها مفيدة.


2 - الجينوم والمتغيرات

أحد الإنجازات المحددة في أوائل القرن الحادي والعشرين هو التسلسل والمواءمة لأكثر من 90٪ من الجينوم البشري. بالطبع ، لا يوجد جينوم بشري واحد: يختلف الأفراد عن بعضهم البعض بحوالي 0.1٪ وعن الرئيسيات الأخرى بحوالي 1٪. يأتي التباين في العديد من الأشكال المختلفة ، بما في ذلك التغييرات الأساسية الفردية وتغييرات رقم النسخ في أجزاء كبيرة من الحمض النووي. الأمر الأكثر صعوبة من تحديد تسلسل الجينوم بأكمله هو توثيق وفهم الأهمية السريرية لتباين التسلسل البشري. ما زلنا في وقت مبكر جدًا في فهمنا للجينوم البشري.

بدءًا من منظور تاريخي ، تم وصف هيكل الجينوم البشري بالتفصيل متبوعًا بالمقارنة مع الأنواع الأخرى المثيرة للاهتمام. ثم يتم تغطية أنواع مختلفة من التنوعات الجينية ، بما في ذلك التغييرات الأساسية الفردية (الاستبدالات ، والحذف ، والإدراج) ، واختلافات رقم النسخ ، وعمليات النقل والاندماج ، والتكرارات الترادفية القصيرة ذات الحجم والعدد المختلفين ، والمقاطع المتكررة الأكبر ، والتي يمكن لبعضها التنقل حول الجينوم مثل الينقولات. يتم النظر في وظيفة العناصر الجينومية المختلفة جنبًا إلى جنب مع العديد من فئات مختلفة من الحمض النووي الريبي المنسوخة من الحمض النووي. إن كيفية تسمية جميع الجينات والمتغيرات والعناصر المختلفة مهمة شاقة ، ويتم تقديم التسميات المقبولة. تتوفر العديد من قواعد البيانات لتعدين المعلومات الجينومية المتراكمة. ننتهي مع وصف لأدوات المعلوماتية الأساسية التي توفر خط أنابيب من البيانات الأولية لتسلسل الحمض النووي المتوازي على نطاق واسع إلى التسلسل النهائي مع التعليقات التوضيحية على الاختلافات التي تمت ملاحظتها.


التقدم التكنولوجي: التسلسل العميق + عظام كثيفة = علم الأحياء القديمة

لقد أدرك منذ فترة طويلة أن إجراء بحث علم الآثار بشكل صحيح أمر صعب للغاية [38 ، 45 ، 46 ، 48 ، 49 ، 50]. ومع ذلك ، وعلى نفس المنوال ، خلال العقود الثلاثة الماضية ، حفزت الطبيعة الصعبة لأبحاث الحمض النووي الريبي الابتكارات التقنية الهامة والنشر السريع لأحدث علم الجينوم والتقنيات المساعدة [46 ، 50 ، 88 ، 89 ، 90 ، 91) ، 92،93]. مما لا شك فيه ، كان أهم تقدم علمي هو إدخال التسلسل عالي الإنتاجية (HTS) إلى علم الآثار [94،95،96،97]. أصبحت تقنيات التسلسل عالية الإنتاجية متاحة تجاريًا منذ عام 2005 [98] وبين عامي 2007 و 2019 ، كان هناك ما يقرب من 100000 ضعف في التكلفة الأولية لكل ميجا بايت لتسلسل الحمض النووي [99]. حاليًا ، تعتمد تقنية HTS التجارية السائدة على التسلسل المتوازي على نطاق واسع - عن طريق التوليف - لأجزاء قصيرة نسبيًا من الحمض النووي [100 ، 101] ، والتي تتناسب بشكل مثالي مع جزيئات الحمض النووي الريبي (aDNA) المجزأة المستخرجة من العينات الأثرية والمتاحف. بالإضافة إلى ذلك ، فإن الكميات الهائلة من بيانات التسلسل التي تم إنشاؤها - حرفيًا مئات الجيجا بايت (Gb) من أداة تشغيل واحدة - يمكن أن تسهل التحليلات الفعالة من حيث التكلفة للعينات الأثرية التي تحتوي على كميات متواضعة نسبيًا من الحمض النووي الداخلي (للحصول على المراجعات الفنية ، انظر [89،90 ، 91 ، 92 ، 93 ، 102]).

لقد مثل إدخال HTS والطرق المتخصصة الإضافية لمعالجة العينات ، واستخراج الحمض النووي الريبي ، والتنقية وإعداد المكتبة نقلة نوعية تحولية حقيقية في علم الآثار. لقد كانت إيذانا ببدء عصر علم الأحياء القديمة والقدرة على التركيب الجيني القوي وتحليل ودمج بيانات SNP من آلاف المواقع الجينية في الحمض النووي النقيلي المنقى من الأحافير الفرعية البشرية والحيوانية [103،104،105،106،107،108،109،110،111،112،113]. بطريقة مماثلة لعلم الوراثة البشرية [84] ، ركزت دراسات HTS القديمة للحيوانات الأليفة أو الأنواع ذات الصلة على عدد واحد أو صغير من "العينات الذهبية" [10 ، 69 ، 109 ، 114 ، 115].

واحدة من أولى دراسات HTS ذات الصلة المباشرة بالحيوانات الأليفة كانت جولة فنية قوية دفعت بالإطار الزمني لاستعادة الحمض النووي الريبي وإعادة بناء الباليوجينومات إلى ما بعد 500 kya إلى المراحل المبكرة من العصر البليستوسيني الأوسط [109]. في هذه الدراسة ، تمكن لودوفيك أورلاندو وزملاؤه من إنتاج جينوم تغطية 1.12 × من عظمة حصان محفورة من التربة الصقيعية في موقع ثيسل كريك في شمال غرب كندا ومؤرخة بحوالي 560-780 كيلو. استخدام جينوم حصان العصر البليستوسيني الأوسط هذا جنبًا إلى جنب مع جينوم قديم آخر من 43 kya حصان العصر البليستوسيني المتأخر ، وبيانات تسلسل الجينوم من حصان Przewalski (Equus ferus przewalskii)، الحمار (ايكوس اسينوس) ومجموعة من الخيول الحديثة ، أظهر هؤلاء المؤلفون أن جميع الخيول الباقية تشترك في سلف مشترك قبل أربعة ملايين سنة على الأقل (ميا) ، وهو ضعف العمر المقبول سابقًا للخيول. ايكوس جنس. أظهروا أيضًا أن التاريخ الديموغرافي للحصان قد تأثر بعمق بتاريخ المناخ ، خاصة خلال الفترات الأكثر دفئًا مثل الفاصل الزمني بعد LGM (الشكل 1) ، عندما تراجعت أعداد السكان بشكل كبير في 15 ألف سنة قبل التدجين 5.5 kya. أخيرًا ، من خلال التركيز على المناطق الجينومية التي تظهر أنماطًا غير عادية من الطفرات المشتقة في الخيول المحلية ، كان من الممكن تحديد الجينات التي ربما خضعت لانتقاء بوساطة بشرية أثناء وبعد التدجين [109].

أصول الكلب المنزلي (C. مألوفة) وانتشار الكلاب في جميع أنحاء العالم خلال فترتي البليستوسين المتأخر والهولوسين كانت مثيرة للجدل للغاية ، لا سيما وأن مجموعات البيانات الوراثية والأثرية والحيوانية قد تراكمت خلال العقدين الماضيين [8 ، 116 ، 117]. مرة أخرى ، مثل عظم حصان ثيسل كريك ، قدم عدد صغير من العينات الأحفورية الرئيسية أدلة قديمة حرجة تتعلق بالأصول التطورية للكلاب الأليفة وعلاقاتها الوراثية مع مجموعات الذئب الأوروآسيوي المتأخر من عصر البليستوسين [10 ، 11 ، 115]. تمكن بونتوس سكوجلوند وزملاؤه من تحقيق تغطية منخفضة (

1 ×) جينوم نووي من ذئب 35 kya (C. lupis) من شبه جزيرة التيمير شمال سيبيريا [115]. أظهر تحليل عينة Taimyr هذه باستخدام بيانات WGS من الكلاب الحديثة أن هذا الذئب القديم ينتمي إلى مجموعة كانت قريبة وراثيًا من سلف الذئاب الرمادية والكلاب الحديثة. دعمت النتائج سيناريو تباعد بموجبه أسلاف الكلاب الأليفة عن الذئاب بمقدار 27 كيا ، مع حدوث التدجين في مرحلة ما بعد هذا الحدث. بالإضافة إلى ذلك ، قدمت هذه الدراسة دليلاً دامغًا على أن سلالات الكلاب في خطوط العرض المرتفعة مثل الأسكيمو السيبيري تتبع بعض أسلافها إلى مجموعة الذئاب المنقرضة التي يمثلها حيوان التايمير [115].

دراسة أخرى هامة عن العصر القديم ، نُشرت بعد عام واحد من ورقة الذئب Taimyr ، وصفت التغطية العالية (

28 ×) جينوم نووي من عينة كلب منزلية متأخرة من العصر الحجري الحديث (4.8 kya) من Newgrange ، قبر ممر ضخم في أيرلندا الشرقية [10]. اقترحت تحليلات جينوم كلاب نيوجرانج القديمة ، وجينومات mtDNA الإضافية من الكلاب الأوروبية القديمة وبيانات SNP على نطاق الذئب والكلاب الحديثة ، أن الكلاب تم تدجينها بشكل مستقل في أواخر العصر الجليدي المتأخر من مجموعات ذئب متميزة في شرق وغرب أوراسيا وأن الكلاب شرق أوراسيا المهاجرة جنبًا إلى جنب مع البشر في وقت ما بين 6.4 و 14 كيا ، استبدلت جزئيًا الكلاب الأوروبية الأصلية [10]. في عام 2017 ، بعد نشر جينوم كلب Newgrange ، أنشأت Laura Botigué وزملاؤها اثنين

9 × تغطية الجينومات النووية للكلاب المحلية من وقت مبكر (Herxheim ،

7 كيا) والمتأخرة (كهف شجرة الكرز ،

4.7 kya) مواقع العصر الحجري الحديث في ألمانيا الحالية [11]. لم تدعم المقارنة بين هذين الجينومين القديمين للكلاب مع ما يقرب من 100 جينوم كلاب حديث ومجموعة كبيرة من بيانات SNP على نطاق الجينوم للكلاب والذئاب الحديثة فرضية التدجين المزدوج التي اقترحها Frantz et al. قبل عام واحد [10] ، أو الاستبدال الجزئي المقترح لشرق أوراسيا للكلاب الأوروبية المتأخرة من العصر الحجري القديم أو أوائل العصر الحجري الحديث.

كان أصل ومصير مجموعات الكلاب المحلية في الأمريكتين قبل الاتصال بالشعوب الأوروبية والأفريقية موضوعًا لدراسة حديثة عن علم الأحياء القديمة تتضمن مقارنات بين الكلاب القديمة والحديثة. قام Máire Ní Leathlobhair وزملاؤه بتسلسل 71 ميتوكوندريا وسبعة جينومات نووية من كلاب أمريكا الشمالية وسيبيريا القديمة [118]. أظهرت تحليلات الجينوميات السكانية المقارنة لهذه البيانات أن الكلاب المحلية الأمريكية الأولى لم تتبع أسلافها إلى الذئاب الأمريكية. وبدلاً من ذلك ، فإن هذه الكلاب الأمريكية قبل الاتصال (PCDs) تمثل سلالة مميزة هاجرت من شمال شرق آسيا عبر سهول بيرنجيان مع البشر أكثر من 10 kya [118]. أظهرت هذه التحليلات أيضًا أن مجموعات PCD تم استبدالها بالكامل تقريبًا بالكلاب الأوروبية بسبب الاستعمار الواسع النطاق لأمريكا الشمالية والجنوبية خلال الـ 500 عام الماضية. بطريقة مماثلة للتحول الديموغرافي البشري بعد الاتصال في الأمريكتين [119 ، 120] ، يفترض المؤلفون أن الأمراض المعدية لعبت على الأرجح دورًا رئيسيًا في استبدال PCD بالكلاب الأوروبية. أخيرًا ، أظهروا أيضًا أن جينوم السلالة السرطانية للورم التناسلي النابي (CTVT) ، والتي تطورت لتصبح طفيليًا لاجنسيًا محددًا ملزمًا [121] ، هو أقرب الأقارب الجينومي للكلاب الأمريكية الأولى.

كما لوحظ سابقًا ، فإن فهم أصول الكلاب والتاريخ المحلي المبكر للكلاب قد تم تعقيده بسبب الاختناقات السكانية والتوسع والانقراض المحلي وعمليات الاستبدال وتدفق الجينات الموضعية جغرافيًا بين الذئاب والكلاب ومجموعات الكلاب المتميزة وراثيًا [8]. لذلك ، سوف يتطلب الأمر استرجاعًا منهجيًا واسع النطاق وتحليل جينومات الذئب والكلاب القديمة عبر المكان والزمان لإعادة بناء التاريخ التطوري لأول حيوان أليف [122]. ومع ذلك ، فإن هذا المشروع ومهام مماثلة للأنواع المحلية الأخرى سيتم تسهيلها بشكل كبير من خلال اختراق تقني حديث آخر موصوف أدناه.

في عام 2014 ، أظهر فريق من علماء الوراثة وعلماء الآثار الأيرلنديين أن الجزء الصخري من العظم الصدغي - أكثر العظام كثافة في الهيكل العظمي للثدييات - أنتج أعلى إنتاجية من الحمض النووي الداخلي في بعض الحالات ، أعلى بما يصل إلى 183 ضعفًا من العناصر الهيكلية الأخرى [ 123]. كان تأثير هذا الاكتشاف كبيرًا لدرجة أن مجتمع الحمض النووي القديم يطلق الآن على الفترة السابقة لعام 2014 اسم "BP" ("قبل الصخر الصخري") [124]. خلال السنوات الخمس الماضية ، أدى استخراج الحمض النووي من العظام الصخرية ، إلى جانب التحسين المستمر لـ HTS والتقنيات الملحقة ، إلى زيادة هائلة في علم الآثار البشرية ، والتي أصبحت أحدثها الآن مجالًا صارمًا إحصائيًا لعلم الأحياء القديمة عالية الدقة للسكان. [82، 125،126،127،128،129]. ومن النتائج البارزة الأخرى زيادة كبيرة في نسبة مساحة سطح الأرض حيث يمكن للتنقيب الأثري الكشف عن مادة مناسبة لاستخراج الحمض النووي الناجح وتحليل الجينوميات القديمة. في السابق ، كان معظم أبحاث الحمض النووي الريبي في السابق محصورًا في مناطق من العالم حيث كان المناخ والتضاريس مواتيين للحفاظ على الدنا للهيكل العظمي (الشكل 3) [90 ، 130]. ومع ذلك ، في السنوات الأخيرة ، أجريت دراسات علم الأحياء القديمة البشرية بنجاح باستخدام عينات من المناطق القاحلة وشبه الاستوائية وحتى الاستوائية [131،132،133،134،135،136،137،138،139،140،141،142].

جغرافيا بقاء الحمض النووي الأثري قبل اكتشاف محتوى DNA الداخلي العالي في العظم الصخري للثدييات. أ البقاء على قيد الحياة المتوقع للحمض النووي بعد 10000 عام لشظايا 25 نقطة أساس وشظايا 150 نقطة أساس قريبة من سطح الأرض (معدلة بإذن من [90]). ب رسم توضيحي للخروف (أوفيس أريس) عظم صخري تم استرداده من موقع العصر الحجري الحديث الأوسط في لو بيويل ، فرنسا (تم تعديله بإذن من [269])


يصادف عام 2010 الذكرى السنوية العاشرة لإكمال تسلسل الجينوم الأول للنباتات (نبات الأرابيدوبسيس thaliana). نتيجة للتقدم في تقنيات التسلسل ، تم إنتاج العديد من سلاسل جينوم المحاصيل ، مع نشر ثمانية منها منذ عام 2008. ومع ذلك ، حتى الآن ، الأرز فقط (أرز أسيوي) تم الانتهاء من تسلسل الجينوم إلى مستوى جودة مماثل لمستوى أرابيدوبسيس تسلسل. يمكن أن يؤثر هذا الاتجاه لإنتاج مسودة الجينوم على قدرة الباحثين على معالجة الأسئلة البيولوجية الخاصة بالانتواع والتطور الأخير أو ربط اختلاف التسلسل بدقة بالأنماط الظاهرية. هنا ، نستعرض أنشطة تسلسل الجينوم الحالي للمحاصيل ، ونناقش كيفية تأثير التباين في جودة التسلسل على دراسات مختلفة ونقدم منظورًا لتحول نموذجي في اختيار المحاصيل للتسلسل في المستقبل.

نحن نستخدم ملفات تعريف الارتباط للمساعدة في تقديم وتحسين خدماتنا وتخصيص المحتوى والإعلانات. من خلال الاستمرار فإنك توافق على استخدام ملفات تعريف الارتباط .


استنتاج

في هذا التقرير ، وصفنا كيف يتم جمع وتحليل بيانات NGS. لقد أظهرنا أن آلية NGS ليست خروجًا أساسيًا عن سابقتها ، بل هي نسخة محسّنة ومحددة من تسلسل Sanger الذي يسمح بزيادة مذهلة في جودة البيانات والإنتاجية. نجادل بأن الحد الأدنى للعمق هو انعكاس أفضل لثقة المكالمة المتغيرة للاختبار من متوسط ​​العمق ، ونثبت أنه يمكن تحديد تعدد أشكال تعدد الأشكال و indels و del / dups بثقة باستخدام تقنيات التحليل البديهية. أملنا الأساسي هو أن نتمكن من جعل الاختبارات الجينية المستندة إلى NGS أكثر سهولة للمرضى من خلال جعل الأعمال الداخلية للتكنولوجيا نفسها في متناول ممارسي الطب الجيني.


خلفية

تم تقديم Hi-C ، وهي طريقة لقياس التفاعلات الفيزيائية طويلة المدى في الجينوم ، بواسطة ليبرمان أيدن وآخرون. [1] ، وتمت مراجعته في Dekker et al. [2]. ينتج اختبار Hi-C ما يسمى بمصفوفة تلامس الجينوم ، والتي - بدقة معينة يتم تحديدها من خلال عمق التسلسل - تقيس درجة التفاعل بين موقعين في الجينوم. في السنوات الخمس الماضية ، بُذلت جهود كبيرة للحصول على خرائط Hi-C بدقة متزايدة [3-8]. حاليًا ، خرائط أعلى دقة هي 1 كيلو بايت [7]. تم إجراء تجارب Hi-C الحالية إلى حد كبير في خطوط الخلايا أو للعينات التي تتوفر فيها مواد إدخال غير محدودة.

في ليبرمان آيدن وآخرون. [1] ، ثبت أنه على مقياس قاعدة الميجا ، ينقسم الجينوم إلى جزأين ، تسمى مقصورات A / B. التفاعلات بين المواقع مقيدة إلى حد كبير لتحدث بين المواقع التي تنتمي إلى نفس الحيز. تم العثور على حجرة A مرتبطة بالكروماتين المفتوح والمقصورة B مع الكروماتين المغلق. ليبرمان - ايدن وآخرون. [1] أظهر أيضًا أن هذه المقصورات خاصة بنوع الخلية ، لكنها لم تصف بشكل شامل الاختلافات بين أنواع الخلايا عبر الجينوم. في معظم الأعمال اللاحقة باستخدام اختبار Hi-C ، لم تحظ مقصورات A / B باهتمام كبير حيث كان التركيز إلى حد كبير على وصف هياكل النطاق الأصغر باستخدام بيانات عالية الدقة. في الآونة الأخيرة ، تبين أن 36٪ من حجرة تغييرات الجينوم أثناء نمو الثدييات [8] وأن هذه التغييرات في المقصورة مرتبطة بالتعبير الجيني ، استنتجوا أن "المقصورتين A و B لهما دور مساهم ولكن ليس حتميًا في تحديد نوع الخلية - أنماط محددة من التعبير الجيني ".

يتم تقدير حجرات A / B من خلال تحليل eigenvector لمصفوفة التلامس الجينومي بعد التطبيع بالطريقة المرصودة المتوقعة [1]. على وجه التحديد ، تحدث تغييرات الحدود بين الجزأين حيث تحدث إدخالات أول علامة تغيير eigenvector. الطريقة المتوقعة - التي تمت ملاحظتها - تعمل على تطبيع نطاقات مصفوفة تماس الجينوم عن طريق القسمة على متوسطها. يعمل هذا بشكل فعال على توحيد التفاعلات بين موقعين مفصولين بمسافة معينة بواسطة متوسط ​​التفاعل بين جميع المواقع المفصولة بنفس المقدار. من الأهمية بمكان أن يتم تطبيع مصفوفة ملامسة الجينوم بهذه الطريقة ، لأول ناقل eigenvector ينتج مقصورات A / B.

يمكن تعريف الكروماتين المفتوح والمغلق بطرق مختلفة باستخدام مقايسات مختلفة مثل فرط الحساسية DNase أو تسلسل الكروماتين المناعي (ChIP) لتعديلات الهيستون المختلفة. في حين أن ليبرمان-أيدن وآخرون. [1] ثبت أن الحجرة A مرتبطة بملفات تعريف الكروماتين المفتوحة من فحوصات مختلفة ، بما في ذلك فرط حساسية DNase ، ولم يتم تحديد إلى أي درجة تقيس أنواع البيانات المختلفة هذه الظواهر الأساسية نفسها ، بما في ذلك ما إذا كانت حدود المجال المقدرة باستخدام فحوصات مختلفة تتطابق مع الجينوم -واسع.

في هذه المخطوطة ، نوضح أنه يمكننا تقدير حجرات A / B بشكل موثوق على النحو المحدد باستخدام بيانات Hi-C باستخدام بيانات مصفوفة ميكروأري مثيلة الحمض النووي Illumina 450 كيلو بايت [9] بالإضافة إلى تسلسل فرط حساسية DNase [10 ، 11] ، خلية واحدة كاملة تسلسل الجينوم بيسلفيت (scWGBS) [12] والمقايسة أحادية الخلية لتسلسل الكروماتين الذي يمكن الوصول إليه بواسطة transposase (scATAC) [13]. تتوفر البيانات من أول فحصين على نطاق واسع لعدد كبير من أنواع الخلايا. على وجه الخصوص ، تم استخدام مصفوفة 450 ك لتشكيل عدد كبير من العينات الأولية ، بما في ذلك العديد من السرطانات البشرية ، تتوفر أكثر من 20000 عينة بسهولة من خلال Gene Expression Omnibus (GEO) و The Cancer Genome Atlas (TCGA) [14]. نظهر أن أساليبنا يمكنها استعادة الاختلافات بين نوع الخلية. يجعل هذا العمل من الممكن دراسة مقصورات A / B بشكل شامل عبر العديد من أنواع الخلايا ، بما في ذلك العينات الأولية ، وللتحقق بشكل أكبر في العلاقة بين تجزئة الجينوم ونشاط النسخ أو القراءات الوظيفية الأخرى.

كتطبيق ، نوضح كيف يختلف معدل الطفرة الجسدية في سرطان البروستاتا الغدي (PRAD) بين المقصورات ونبين كيف تتغير حجرات A / B بين العديد من السرطانات البشرية حاليًا لا تتضمن TCGA فحوصات قياس إمكانية الوصول إلى الكروماتين. علاوة على ذلك ، يكشف عملنا عن جوانب غير محل تقدير لبنية الارتباطات طويلة المدى في مثيلة الحمض النووي وبيانات فرط الحساسية لـ DNase. على وجه التحديد ، نلاحظ أن كلاً من مثيلة الحمض النووي وإشارة DNase مرتبطان ارتباطًا وثيقًا بين المواقع البعيدة ، بشرط أن يكون كلا الموقعين في المقصورة المغلقة.


قبل التحقيق في الاختلافات بين الجهازين ، أردنا استبعاد احتمال أن تكون النسبة المتزايدة من التكرارات التي اكتشفها HiSeq 4000 نتيجة لتسلسل المزيد من العلامات الثنائية - أي كلما زاد تسلسل العينة ، زاد احتمال أن أي قراءة معينة كانت مكررة. للتحقق من ذلك ، تم تقليص حجم ملف HiSeq 4000 FASTQ عشوائيًا إلى نفس عدد القراءات الموجود في الملف الذي تم إنشاؤه بواسطة HiSeq 2500. أثناء معالجة HiCUP ، تم الآن تجاهل 25٪ من علامات di-tags أثناء خطوة إزالة النسخ ، لا يزال أكثر بكثير من 2٪ التي تم تجاهلها مقارنة بمعالجة بيانات HiSeq 2500.
للتحقيق في السبب المحتمل للازدواجية ، قمنا بتحليل التوزيع المكاني للعلامات المزدوجة المكررة على خلايا التدفق. في كلا الجهازين ، كانت النسخ المكررة مبعثرة بطريقة موحدة ولم تظهر "نقاط ساخنة" ازدواجية كبيرة. على الرغم من عدم ترجمة التكرارات إلى مناطق معينة من خلية التدفق ، إلا أنه لا يزال من الممكن ، بشكل عام ، أن تكون العلامات المزدوجة المكررة قد تمت ترجمتها مع نسخها الدقيقة. لاختبار هذه الفرضية ، حددنا علامات ثنائية موجودة في نسختين وسجلنا ما إذا كانت قد تم تعيينها على قطعة واحدة أو قطعتين (تتكون كل خلية تدفق من Illumina من عدة بلاطات). بشكل ملحوظ ، 1٪ من HiSeq 2500 مكررة تتكون من علامات ثنائية نشأت من نفس المربع. في المقابل ، تم وضع 92٪ من الأزواج المكررة على بلاطة واحدة لجهاز HiSeq 4000. يشير هذا القرب الوثيق إلى أن التكرارات التي تمت ملاحظتها على جهاز HiSeq 4000 كانت إلى حد كبير مصنوعات يدوية خاصة بالآلة.

لتوصيف هذا الفصل ثنائي الأبعاد بشكل أكبر ، استخرجنا التكرارات المترجمة إلى بلاطة واحدة فقط ثم سجلنا الموضع النسبي للعلامة di إلى نسختها الدقيقة (هذا ممكن لأن ملفات FASTQ تسجل إحداثيات كل مجموعة). توضح الأشكال أدناه هذه النتائج على أنها مخططات كثافة (لكل علامة di-tag ، تم تحديد قراءة واحدة على أنها الأصل ، ويظهر الرسم البياني الموضع النسبي "للأطراف الأخرى" للأصل).

بالنسبة لـ HiSeq 2500 ، يوجد بشكل عام توزيع موحد عبر قطعة الأرض ، باستثناء منطقة عالية الكثافة بالقرب من الأصل. تكون هذه الكثافة المرتفعة حول الأصل أكثر وضوحًا عند تحليل بيانات HiSeq 4000 ، حيث يتم توطين جميع الأطراف الأخرى تقريبًا في هذه المنطقة. نحن نفترض أن الأطراف الأخرى الموضوعة بعيدًا عن الأصل هي تكرارات بيولوجية حقيقية أو نسخ تجريبية PCR. في المقابل ، من المرجح أن يتم إنشاء تلك الأطراف الأخرى القريبة من الأصل بواسطة الجهاز نفسه. مرة أخرى ، هذا يدل على أن HiSeq 4000 يولد المزيد من المصنوعات المكررة.
قمنا بعد ذلك بالتحقيق فيما إذا كانت هذه النسخ المكررة على HiSeq 4000 محصورة في الخلايا النانوية المجاورة ، أو عدة خلايا نانوية في نفس المنطقة المحلية لخلية التدفق. على الرغم من أننا لم نتمكن من الحصول على معلومات مباشرة تتعلق بنظام إحداثيات FASTQ للأحجار النانوية الفردية ، فقد كان من الممكن ، من خلال إنشاء مخطط كثافة للمنطقة المحيطة بالأصل مباشرة ، لتصور المصفوفة المرتبة لخلية تدفق HiSeq 4000. يُظهر الرسم البياني بوضوح أن التكرارات توجد في عدة آبار حول الأصل ، وينخفض ​​هذا الاتجاه كلما تحرك المرء من الأصل. كما هو موضح أدناه هو نفس المؤامرة ، ولكن لبيانات HiSeq 2500. كما هو متوقع ، لا يوجد نمط نانوي مرئي.


الحاجة إلى الباركود

تم إنشاء تصنيف الكائنات الحية بواسطة Carl von Linn & eacute ، الذي جعله رسميًا باستخدام نظام تصنيف ذي الحدين لتمييز الكائنات الحية. تم استخدام التسمية ذات الحدين لوصف جنس واسم نوع لكل كائن حي لتوفير هوية. في هذه الأيام ، أصبح تصنيف الكائنات الحية ذا أهمية متزايدة كمقياس للتنوع في مواجهة تدمير الموائل وتغير المناخ العالمي. لا يوجد إجماع على عدد أشكال الحياة الموجودة على هذا الكوكب ، ولكن تقدير معدلات الانقراض هو حوالي نوع واحد لكل 100-1000 مليون نوع. تم التصنيف في الغالب في Linn & eacute & rsquos day بالاختلافات المورفولوجية. تم إجراء هذا في الحفريات. ومع ذلك ، فإن التشكل له العديد من العيوب ، لا سيما في الأنواع ثنائية الشكل أو الأنواع ذات الأشكال التنموية المتعددة.

يرقة (أعلى) من لاكوينغ الخضراء والبالغ (أسفل).

أحدثت تقنيات البيولوجيا الجزيئية والحمض النووي ثورة في نظام تصنيف الكائنات الحية خاصة في توفير القدرة على مطابقة الارتباط بين هذه الأنواع. تشفير الحمض النووي الشريطي ، كما يوحي الاسم ، يسعى إلى استخدام علامات الحمض النووي لتحديد الكائنات الحية بشكل مختلف. ولكن ما هي علامات الحمض النووي التي يجب استخدامها؟ ما هي المعايير التي نستخدمها لتطوير الباركود؟ التمييز والعالمية والمتانة هي المعايير المستخدمة لتحديد فائدة الباركود.

نظرًا لأن الهدف من التشفير الشريطي هو تحديد كائنات معينة ، فإن التمييز هو الهدف الأساسي. التمييز يشير إلى اختلاف التسلسلات التي تحدث بين الأنواع. ومع ذلك ، يكون العلم أسهل عندما يكون هناك بعض الشمولية في المكان المستخدم للتمييز. كما يبدو ، عالمية هي محاولة لاستخدام نفس المكان في جينومات متباينة. في حين أن التمييز يتعلق بتفرد التسلسلات ، تسعى العالمية إلى استخدام مجموعة واحدة من بادئات PCR التي ستكون قادرة على تضخيم تلك المنطقة المتميزة نفسها مع تشابه التسلسل المتغير. إذا كانت بعض مناطق الحمض النووي لا تحتوي على الإطلاق على أي انحراف تسلسلي بين الأنواع ، فإن هذا له شمولية كبيرة ولكنه تمييز ضعيف. ولكن إذا كان للتسلسل تشابه منخفض جدًا في التسلسل ، فهذا أمر رائع للتمييز ولكنه ليس له أي شمولية على الإطلاق ولا يمكن تضخيمه باستخدام نفس مجموعة البادئات. المتانة يشير إلى موثوقية تضخيم PCR للمنطقة. بعض مناطق الحمض النووي لا تتضخم بشكل جيد أو من الصعب جدًا تصميم بادئات مناسبة وفريدة من نوعها لهذا الموقع.

حالة يوجد فيها عالمية لتصميم البادئات ، ولكن ليس منطقة يمكن أن يحدث فيها التمييز. بينما يمكن أن يحدث التمييز بين الكائنات الحية المختلفة في هذه الحالة ، فإن عدم وجود تشابه في التسلسل يجعل من الصعب تصميم بادئات. وهذا يعني أن الافتقار إلى العالمية في التسلسل سيجعل هذا تفاعل البوليميراز المتسلسل غير قوي. يمنحنا التباين الكافي في هذه التسلسلات القدرة على التمييز بين الأنواع. يوفر لنا التشابه العالي الشمولية المطلوبة لتصميم بادئات قد تكون قوية بما يكفي لتضخيمها بواسطة تفاعل البوليميراز المتسلسل.

في بعض الأحيان ، تكون الأنواع متشابهة جدًا لتسلسل واحد مما يتطلب علامة ثانية. مثلما يحتوي الرمز الشريطي القياسي لـ UPC على سلسلة من الخطوط الرأسية ذات التباعد والعرض المختلفين ، يضيف الرمز الشريطي ثنائي الأبعاد هذا البعد الثاني من المعلومات إلى مربع من النقاط كما هو الحال في رمز الاستجابة السريعة (رمز الاستجابة السريعة). We can also utilize a second or a third or a fourth set of loci that will aid in increased discrimination just as CoDIS utilizes multiple STR sites to define individual people. In animals, the most commonly used barcode is the mitochondrial gene, Cytochrome Oxidase I ( COI ). Since all animals have mitochondria and have this mitochondrial gene, it offers high universality. It is a robust locus that is easy to amplify and has high copy number with enough sequence deviation between species to discriminate between them.

Animal mitochondrial genomes vary from 16kb-22kb. However, plants, fungi and protists have wildly different and larger mitochondrial genomes. For plants, we use a chloroplast gene, ribulose-bisphosphate carboxylase large subunit ( rbcL ) or maturase K ( matK ) (Hollingsworth et al. 2011). Prokaryotes are often discriminated by their 16s rRNA gene while eukaryotes can be identified by 18 ثانية rRNA. COI (a maternally transmitted gene) will not create a clear picture of species identity in the case of hybrid animals (mules, ligers, coydogs, etc.). Sometimes, closely related species are also indistinguishable by a single barcode, so the inclusion of 18s with COI may be necessary to define the identity of the species. Since it is so difficult to meet the three criteria (robustness, universality and discrimination) for all species, having these multiple barcodes is important. Fungi prove to be difficult in identification by COI, so another marker called the internal transcribed spacer ( إنه ) is used to aid in their identification. We must also remember that not everything with chloroplasts are plants and therefore additional markers are used to identify protists.

Mixtures of organisms

Lichens are composite organisms composed of cyanobacteria or other algae with fungi. In this case, a single barcode would incorrectly identify the species. Kefir granules represent colonies of mixed microbes that are used to generate kefir. Credit: A. Kniesel (CC-BY-SA 3.0) A symbiotic colony of bacteria and yeast is used to ferment kombucha. As the name implies, this is a complex composite colony of multiple species that contribute to the qualities of the kombucha. Credit: Lukas Chin (CC-BY-SA 4.0)

Metabarcoding and Microbiomes


شاهد الفيديو: طريقة سانجر لمعرفة تتابعات الـ DNA الجزء الثانى (ديسمبر 2021).