معلومة

تطبيع مكتبة RNA-Seq والإعداد التجريبي


أنا أعمل في مشروع RNA-Seq وأحاول معرفة تطبيع المكتبة. أنا على علم باستخدام الوسائل الهندسية (مثل cuffdiff) لـ fpkm للتطبيع.

ومع ذلك ، كنت أتساءل لماذا لا يضيف الناس بعض تسلسل الحمض النووي الريبي الفريد والمعروف بتركيز معروف إلى عينتهم قبل التضخيم. ثم بعد التسلسل ، سيكون لديك بعض التدابير المعروفة التي يمكنك من خلالها تطبيع fpkm الخاص بك. أعتقد أن هذا سيكون أيضًا وسيلة لتقليل تأثيرات الدُفعات.

هل هناك سبب تقني لعدم القيام بذلك؟


تطبيع بيانات تسلسل الحمض النووي الريبي أحادية الخلية: التحديات والفرص

أصبحت النسخ أحادية الخلية مكونًا مهمًا في مجموعة أدوات عالم الأحياء الجزيئية. يعد التطبيع خطوة حاسمة عند تحليل البيانات التي تم إنشاؤها باستخدام هذه التقنية. ومع ذلك ، يتم إجراء التطبيع عادةً باستخدام طرق تم تطويرها لتسلسل كميات كبيرة من الحمض النووي الريبي أو حتى بيانات المصفوفات الدقيقة ، ولم يتم تقييم مدى ملاءمة هذه الطرق لنسخة الخلية المفردة. نناقش هنا مناهج التطبيع الشائعة الاستخدام ونوضح كيف يمكن أن تؤدي إلى نتائج مضللة. أخيرًا ، نقدم طرقًا بديلة ونقدم توصيات لمستخدمي تسلسل الحمض النووي الريبي أحادي الخلية.


خلفية

في السنوات القليلة الماضية ، كانت فحوصات التسلسل عالية الإنتاجية تحل محل المصفوفات الدقيقة كمقايسات مفضلة لقياس مستويات النسخ على مستوى الجينوم ، فيما يسمى RNA- تسلسل [1،2] ، وكذلك رقم نسخة الحمض النووي (تسلسل الحمض النووي) ، تفاعلات البروتين والحمض النووي (رقاقة- تسلسل) ومثيلة الحمض النووي (ميثيل تسلسل و RRBS). أظهرت العديد من الدراسات التي تقيم الجوانب التقنية لـ RNA-Seq قابلية استنساخ جيدة وتحسينات كبيرة على المصفوفات الدقيقة من حيث النطاق الديناميكي ودقة تقدير تغيير أضعاف التعبير [3-5]. ومع ذلك ، كما هو الحال مع المصفوفات الدقيقة ، تؤثر التحيزات والتحيزات المرتبطة بالتكنولوجيا الرئيسية على مقاييس التعبير [3،6-20] ويظل التطبيع مشكلة مهمة ، على الرغم من الادعاءات المتفائلة الأولية مثل: "إحدى الميزات القوية بشكل خاص لـ RNA-Seq هي أنه يمكن التقاط ديناميات النسخ عبر الأنسجة أو الظروف المختلفة دون التطبيع المعقد لمجموعات البيانات "[2].

هنا ، نركز على التحيزات المتعلقة بمحتوى GC في سياق بيانات RNA-Seq التي تم إنشاؤها باستخدام منصة Illumina Genome Analyzer. باختصار ، يتم تحويل mRNA إلى شظايا cDNA والتي يتم تسلسلها بعد ذلك لإنتاج الملايين من الأجزاء القصيرة يقرأ (عادة 25-100 قاعدة). يتم بعد ذلك تعيين هذه القراءات مرة أخرى إلى جينوم مرجعي ويعكس عدد القراءات التي تم تعيينها لجين معين وفرة النص في العينة محل الاهتمام. ومع ذلك ، فإن التهم الأولية لا يمكن مقارنتها مباشرة بين الجينات داخل حارة ، ولا بين الممرات المكررة (أي ، ممرات فحص نفس المكتبة) لجين معين ، وتطبيع التهم مطلوب للسماح باستنتاج دقيق للاختلافات في مستويات النسخ. في الواقع ، بحكم الفحص ، يتوقع المرء أن يكون عدد القراءة لجين معين متناسبًا تقريبًا مع طول الجين ووفرة نسخه. سيختلف عدد القراءة أيضًا بين الممرات المكررة نتيجة للاختلافات في عمق التسلسل، أي العدد الإجمالي للقراءات التي تم إنتاجها في حارة معينة.

علاوة على ذلك ، كما هو مفصل في مراجعة الأدبيات أدناه ، أبلغت الدراسات السابقة عن تحيزات الاختيار المتعلقة بكفاءة تسلسل المناطق الجينومية ، حيث تعتمد أعداد القراءة ليس فقط على الطول ولكن أيضًا على ميزات التسلسل مثل محتوى GC وقابلية التعيين (أي تفرد تسلسل معين مقارنة ببقية الجينوم) [3،6-20]. على سبيل المثال ، تميل الأجزاء الغنية بالـ GC والفقيرة من GC إلى أن تكون ممثلة تمثيلًا ناقصًا في RNA-Seq ، بحيث لا يمكن مقارنة أعداد القراءة بين الجينات بشكل مباشر داخل الممر. بالإضافة إلى ذلك ، تميل تأثيرات محتوى GC إلى أن تكون خاصة بالحارة ، بحيث لا يمكن مقارنة عدد القراءة لجين معين بشكل مباشر بين الممرات. التحيزات المتعلقة بالطول ومحتوى GC نتائج التعبير التفاضلي المربكة (DE) وكذلك التحليلات النهائية ، مثل تلك التي تنطوي على علم الوجود الجيني (GO). نظرًا لأن محتوى GC يختلف في جميع أنحاء الجينوم وغالبًا ما يرتبط بالوظيفة ، فقد يكون من الصعب استنتاج مستويات التعبير الحقيقي من مقاييس عدد القراءة المتحيزة. لذلك ، يعد التطبيع المناسب لعدد القراءة أمرًا بالغ الأهمية للسماح بالاستدلال الدقيق للاختلافات في مستويات التعبير.

هنا ، نميز بين نوعين رئيسيين من التأثيرات على أعداد القراءة: (1) التأثيرات الخاصة بالجينات داخل المسار (وربما الخاصة بالحارة) ، على سبيل المثال ، المتعلقة بطول الجين أو محتوى GC ، و (2) التأثيرات المتعلقة بـ الاختلافات التوزيعية بين الممرات ، مثل عمق التسلسل. وفقا لذلك، داخل الممر و التطبيع بين الممرات لضبط النوعين الأول والثاني من التأثيرات ، على التوالي.

التطبيع داخل المسار

يرجع السبب في تحيز الاختيار الأكثر وضوحًا والأكثر شهرة في تسلسل الحمض النووي الريبي طول الجين. بولارد وآخرون. [3] و Oshlack & # x00026 Wakefield [14] يوضحان أن القياس حسب طول الجين لا يكفي لإزالة هذا التحيز وأن قوة الاختبارات الشائعة للتعبير التفاضلي ترتبط ارتباطًا إيجابيًا بكل من طول الجين ومستوى التعبير. في الواقع ، كلما زاد طول الجين ، زاد عدد القراءة لمستوى تعبير معين ، وبالتالي فإن أي طريقة ترتبط الدقة بها بعدد القراءة ستميل إلى الإبلاغ عن إحصائيات أكثر أهمية للجينات الأطول ، حتى عند التفكير في عدد القراءة لكل قاعدة. هانسن وآخرون. [12] قم بتضمين تأثيرات الطول على متوسط ​​نموذج بواسون لأعداد القراءة باستخدام شرائح مكعبة طبيعية وضبط هذا التأثير باستخدام الانحدار الكمي القوي. صغيرة وآخرون. [19] اقترح طريقة تراعي انحياز طول الجين في تحليل علم الوجود الجيني بعد إجراء اختبارات DE.

مصدر آخر موثق للانحياز لتقنية تسلسل Illumina هو محتوى GC، أي نسبة النيوكليوتيدات G و C في منطقة الاهتمام. أبلغ العديد من المؤلفين عن تحيزات قوية في محتوى GC في DNA-Seq [7،10] و ChIP-Seq [17]. يون وآخرون. [18] اقترح طريقة تطبيع محتوى GC لدراسات رقم نسخ الحمض النووي ، والتي تتضمن قراءة binning في نوافذ 100 نقطة أساس وقياس عدد مرات القراءة على مستوى الحاوية من خلال النسبة بين الوسيط الإجمالي والوسيط للصناديق التي تحتوي على نفس محتوى GC . في الآونة الأخيرة ، Boeva وآخرون. [8] اقترح نهج الانحدار متعدد الحدود ، استنادًا إلى القراءات المتراكبة في النوافذ غير المتداخلة وتراجع أعداد مستوى الحاوية على محتوى GC (بدرجة متعددة الحدود الافتراضية من ثلاثة). لا يزال في سياق تقرير DNA-Seq ، تقرير Benjamini & # x00026 Speed ​​[6] أن أعداد القراءة تتأثر أكثر من غيرها بمحتوى GC لأجزاء الحمض النووي الفعلية من مكتبة التسلسل (مقابل تلك الموجودة في التسلسل تقرأ نفسها) وذلك تأثير محتوى GC هو خاص بالعينة وأحادي النمط ، أي أن كلا من الأجزاء الغنية بالـ GC والفقيرة فيها ممثلة تمثيلاً ناقصًا. إنهم يطورون طريقة لتقدير وتصحيح انحياز محتوى GC والتي تعمل على مستوى الزوج الأساسي وتستوعب معلومات المكتبة والحبال وطول الجزء ، بالإضافة إلى أحجام الحاوية المتنوعة في جميع أنحاء الجينوم.

كما لوحظت تحيزات تكوين التسلسل في RNA-Seq. هانسن وآخرون. [11] أبلغ عن تحيزات قراءة خاصة بالقاعدة كبيرة وقابلة للتكرار مرتبطة بتهيئة سداسية عشوائية في بروتوكول إعداد مكتبة Illumina القياسي. يأخذ التحيز شكل أنماط في ترددات النيوكليوتيدات لأول عشرة قواعد أو نحو ذلك من قواعد القراءة. إنها توفر مخططًا لإعادة الترجيح ، حيث يتم تخصيص وزن لكل قراءة بناءً على تركيبة النيوكليوتيدات ، للتخفيف من تأثير التحيز وتحسين توحيد القراءات على طول النصوص المعبر عنها.

روبرتس وآخرون. [16] ضع في اعتبارك أيضًا مشكلة التوزيع غير المنتظم لشظايا (كدنا) في تسلسل الحمض النووي الريبي واستخدم نهجًا قائمًا على الاحتمالية لتصحيح هذا التحيز الجزئي.

عند تحليل بيانات RNA-Seq من هجين خميرة ثنائي الصبغة للتعبير الخاص بالأليل (ASE) ، فإن Bullard وآخرون. [9] لاحظ أن عدد القراءة من زوج متعامد من الجينات قد يبالغ في تقدير مستوى التعبير لدى أخصائي تقويم العظام الأكثر ثراءً بالـ GC. لتصحيح هذا التأثير المربك ، قاموا بتطوير طريقة قائمة على إعادة التشكيل حيث يتم تقييم أهمية الاختلافات في أعداد القراءة بالرجوع إلى التوزيع الفارغ الذي يفسر الاختلافات بين الأنواع في تكوين النيوكليوتيدات.

بينما كان هناك اتفاق عام حول الحاجة إلى تعديل تأثيرات محتوى GC عند مقارنة أعداد القراءة بين المناطق الجينومية لعينة معينة (كما هو الحال في DNA-Seq و ChIP-Seq) أو بين أخصائيي تقويم العظام (كما هو الحال في ASE مع RNA-Seq في كائن هجين F1 [9]) ، لم يتم التعرف على الحاجة إلى القيام بذلك على الفور لدراسات RNA-Seq DE القياسية ، حيث يقارن المرء قراءة التهم بين العينات لجين معين. كان الاعتقاد الشائع أنه ، بالنسبة لجين معين ، كان تأثير محتوى GC هو نفسه عبر العينات ، وبالتالي سيلغي عند النظر في إحصائيات DE مثل نسب العد. بيكريل وآخرون. [15] يبدو أنه أول من لاحظ خصوصية العينة لتأثير محتوى GC في سياق RNA-Seq والارتباك الناتج لتقديرات تغيير أضعاف التعبير. لمعالجة هذه المشكلة ، طوروا إجراء تصحيح خاص بالحارة يتضمن ربط exons وفقًا لمحتوى GC ، وتحديد عامل إثراء قراءة نسبي لكل حاوية GC وكل حارة كنسبة القراءات في تلك الحاوية التي تنشأ من ذلك الممر المقسم من خلال النسبة الإجمالية للقراءات في هذا الممر ، وقياس التهم على مستوى exon بواسطة عوامل التخصيب السلس. كما لاحظ هانسن وآخرون. [12] ، فإن هذا النهج يعاني من عيبين رئيسيين. أولاً ، نظرًا لأنه يتم حساب عوامل الإثراء لكل حارة بالنسبة إلى جميع الحارات الأخرى ، فإن الإجراء يساوي تأثير محتوى GC عبر الممرات بدلاً من إزالته. ثانيًا ، من خلال إضافة التهم عبر exons والممرات ، لا تأخذ الطريقة في الحسبان حقيقة أن المناطق ذات التعداد الأعلى تميل أيضًا إلى الحصول على تباينات أعلى.

تشنغ وآخرون. [20] لاحظ أن أعداد القراءة على مستوى القاعدة من RNA-Seq قد لا يتم توزيعها عشوائيًا على طول الترنسكربيتوم ويمكن أن تتأثر بتركيب النوكليوتيدات المحلي. يقترحون نهجًا يعتمد على نماذج مضافة عامة لتصحيح مصادر التحيز المختلفة في وقت واحد ، مثل طول الجين ومحتوى GC وترددات ثنائي النوكليوتيد.

في مخطوطتهم الأخيرة ، هانسن وآخرون. [12] أظهر أن محتوى GC له تأثير قوي على تقدير تغيير أضعاف التعبير وأن الفشل في التكيف مع هذا التأثير يمكن أن يضلل تحليل التعبير التفاضلي. إنهم يطورون إجراء تطبيع الكمي المشروط (CQN) ، والذي يجمع بين كل من التطبيع داخل وبين الممرات ويستند إلى نموذج بواسون لأعداد القراءة. يتم دمج التحيزات المنهجية الخاصة بالمسار ، مثل محتوى GC وتأثيرات الطول ، كوظائف سلسة باستخدام شرائح مكعبة طبيعية ويتم تقديرها باستخدام الانحدار الكمي القوي. من أجل حساب الاختلافات التوزيعية بين الممرات ، تم اعتماد إجراء تطبيع كمي كامل ، بروح ما تم النظر فيه في بولارد وآخرون. [3]. الميزة الرئيسية لهذا النهج هي أنه خاص بالحارة ، أي أنه يعمل بشكل مستقل في كل حارة ، ويهدف إلى إزالة التحيز بدلاً من معادلته عبر الممرات. تؤدي نمذجة محتوى GC وطولها في وقت واحد (ومن حيث المبدأ مصادر التحيز الأخرى) إلى طريقة تطبيع مرنة. من ناحية أخرى ، بالنسبة لبعض مجموعات البيانات مثل مجموعة بيانات الخميرة التي تم تحليلها في هذه المقالة ، قد يكون نهج الانحدار ضعيفًا جدًا لإزالة تأثير محتوى GC تمامًا وقد تكون هناك حاجة إلى استراتيجيات تطبيع أخرى أكثر عدوانية.

التطبيع بين الممرات

يتم ضبط أبسط إجراء تطبيع بين الممرات لعمق تسلسل الحارة عن طريق قسمة أعداد القراءة على مستوى الجين على العدد الإجمالي للقراءات لكل حارة (كما في نموذج Poisson المضاعف لـ Marioni وآخرون. [4] ويقرأ لكل كيلو قاعدة لنموذج exon لكل مليون قراءة مخططة (RPKM) لمرتضوي وآخرون. [5]). ومع ذلك ، فقد ثبت أن هذا النهج الذي لا يزال مستخدمًا على نطاق واسع غير فعال وقد تم اقتراح إجراءات أكثر فائدة [3،12،21،22].

على وجه الخصوص ، بولارد وآخرون. [3] ضع في الاعتبار ثلاثة أنواع رئيسية من إجراءات التطبيع بين المسارات: (1) التحجيم العالمي الإجراءات ، حيث يتم قياس التعداد بواسطة عامل واحد لكل حارة (على سبيل المثال ، العدد الإجمالي كما هو الحال في RPKM ، أو حساب الجين التدبير المنزلي ، أو مقدار واحد لتوزيع العد) (2) كامل الكمية (FQ) إجراءات التطبيع ، حيث تتم مطابقة جميع كميات توزيعات العد بين الممرات و (3) إجراءات تستند إلى النماذج الخطية المعممة (GLM). لقد أظهروا التأثير الكبير للتطبيع على نتائج التعبير التفاضلي في بعض السياقات ، وتختلف الحساسية بين إجراءات التطبيع أكثر من طرق DE. يميل تطبيع العدد الإجمالي القياسي (راجع RPKM) إلى التأثر بشدة بنسبة صغيرة نسبيًا من الجينات المعبر عنها بدرجة عالية ويمكن أن يؤدي إلى نتائج متحيزة لـ DE ، في حين أن الربع الأعلى (UQ) أو إجراءات التطبيع الكمي الكامل المقترحة في [ 3] تميل إلى أن تكون أكثر قوة وتحسن الحساسية دون فقدان الخصوصية.

في هذه المقالة ، نقترح ثلاث استراتيجيات مختلفة لتطبيع بيانات RNA-Seq لمحتوى GC بعد أ داخل الممر (على سبيل المثال ، عينة محددة) نهج مستوى الجينات. نقوم بفحص أدائهم على نوعين مختلفين من البيانات: مجموعة بيانات RNA-Seq جديدة للخميرة المزروعة في ثلاث وسائط مختلفة ومجموعة بيانات RNA-Seq المعيارية المعروفة لنوعين من العينات المرجعية البشرية من مشروع MicroArray Quality Control (MAQC) [ 23]. بالنسبة لمجموعات البيانات الأخيرة ، تعمل مقاييس التعبير الجيني من رقائق qRT-PCR و Affymetrix كمعايير مفيدة لتقييم أداء RNA-Seq. نقارن مناهجنا بإجراءات CQN الحديثة في Hansen وآخرون. [12] (والذي تبين أنه يتفوق في الأداء على الأساليب المنافسة مثل طريقة بيكريل وآخرون. [15]) ، من حيث التحيز ومتوسط ​​الخطأ التربيعي لتقدير تغيير أضعاف التعبير ومن حيث الخطأ من النوع الأول و ص- توزيعات القيمة لاختبارات التعبير التفاضلي. نوضح كيف يؤدي التصحيح الصحيح لتحيز محتوى GC ، وكذلك للاختلافات بين الممرات في توزيعات العد ، إلى تقدير أكثر دقة لمستويات التعبير الجيني وتغييرات الطيات ، مما يجعل الاستدلال الإحصائي للتعبير التفاضلي أقل عرضة للاكتشافات الخاطئة. يتم تنفيذ تحليل البيانات الاستكشافية وطرق التطبيع المقترحة في هذه المقالة في حزمة Bioconductor R مفتوحة المصدر EDASeq.


7.3 التطبيع عن طريق deconvolution

كما ذكرنا سابقًا ، ستكون التحيزات التركيبية موجودة عند وجود أي تعبير تفاضلي غير متوازن بين العينات. ضع في اعتبارك مثال بسيط لخليتين حيث يتم تنظيم جين واحد (X ) في خلية واحدة (A ) مقارنة بالخلية الأخرى (B ). يعني هذا التنظيم إما (1) تخصيص المزيد من موارد التسلسل لـ (X ) في (A ) ، وبالتالي تقليل تغطية جميع الجينات الأخرى غير DE عندما يكون الحجم الإجمالي للمكتبة لكل خلية ثابتًا تجريبيًا (على سبيل المثال ، بسبب القياس الكمي للمكتبة) أو (2) يزداد حجم مكتبة (A ) عندما يتم تعيين (X ) المزيد من القراءات أو UMIs ، مما يزيد من عامل حجم المكتبة وينتج عن قيم تعبير طبيعية أصغر لجميع الجينات التي لا تنتمي إلى DE. في كلتا الحالتين ، يتمثل التأثير الصافي في أن الجينات التي لا تنتمي إلى DE في (A ) ستظهر بشكل غير صحيح وكأنها خاضعة للتنظيم مقارنة بـ (B ).

تعد إزالة التحيزات التركيبية مشكلة مدروسة جيدًا لتحليل بيانات تسلسل الحمض النووي الريبي. يمكن إجراء التطبيع باستخدام وظيفة EstimSizeFactorsFromMatrix () في ملف تصميم 2 الحزمة (Anders and Huber 2010 Love و Huber و Anders 2014) أو مع وظيفة calcNormFactors () (Robinson and Oshlack 2010) في حافة صفقة. يفترض هؤلاء أن معظم الجينات ليست DE بين الخلايا. يُفترض أن أي اختلاف منهجي في حجم العد عبر الأغلبية غير الجينية بين خليتين يمثل التحيز المستخدم لحساب عامل الحجم المناسب لإزالته.

ومع ذلك ، يمكن أن تكون البيانات أحادية الخلية مشكلة بالنسبة لطرق التطبيع بالجملة هذه بسبب هيمنة التعداد المنخفض والصفر. للتغلب على هذا ، نقوم بتجميع الأعداد من العديد من الخلايا لزيادة حجم التهم لتقدير عامل الحجم الدقيق (Lun و Bach و Marioni 2016). يتم بعد ذلك "تفكيك" عوامل الحجم المستندة إلى التجمع في العوامل المستندة إلى الخلية لتطبيع ملف تعريف التعبير لكل خلية. يتم تنفيذ ذلك باستخدام دالة calculateSumFactors () من صوت أجش، كما هو مبين أدناه.

نستخدم خطوة التجميع المسبق مع QuickCluster () حيث يتم تطبيع الخلايا في كل مجموعة بشكل منفصل ويتم إعادة قياس عوامل الحجم لتكون قابلة للمقارنة عبر المجموعات. هذا يتجنب الافتراض القائل بأن معظم الجينات ليست DE عبر جميع السكان - مطلوب فقط أغلبية غير DE بين أزواج من المجموعات ، وهو افتراض أضعف للمجموعات غير المتجانسة للغاية. بشكل افتراضي ، ستستخدم QuickCluster () خوارزمية تقريبية لـ PCA استنادًا إلى طرق من إرلب صفقة. يعتمد التقريب على التهيئة العشوائية لذلك نحتاج إلى تعيين البذور العشوائية (عبر set.seed ()) من أجل التكاثر.

نرى أن عوامل حجم deconvolution تظهر انحرافات خاصة بنوع الخلية عن عوامل حجم المكتبة في الشكل 7.2. يتوافق هذا مع وجود تحيزات في التركيب يتم تقديمها من خلال التعبير التفاضلي القوي بين أنواع الخلايا. يضبط استخدام عوامل حجم deconvolution لهذه التحيزات لتحسين دقة التطبيع لتطبيقات المصب.

الشكل 7.2: عامل حجم Deconvolution لكل خلية في مجموعة بيانات الدماغ Zeisel ، مقارنة بعامل الحجم المكافئ المشتق من حجم المكتبة. يتوافق الخط الأحمر مع الهوية بين عاملي الحجم.

التطبيع الدقيق هو الأكثر أهمية للإجراءات التي تنطوي على تقدير وتفسير الإحصائيات لكل جين. على سبيل المثال ، يمكن أن تؤثر التحيزات التركيبية على تحليلات DE من خلال التغيير المنهجي لتغييرات طي السجل في اتجاه أو آخر. ومع ذلك ، فإنه يميل إلى توفير فائدة أقل مقارنة بالتطبيع البسيط لحجم المكتبة للتحليلات المستندة إلى الخلية مثل التجميع. يشير وجود تحيزات التركيبة بالفعل إلى اختلافات قوية في ملفات تعريف التعبير ، لذلك من غير المرجح أن يؤثر تغيير استراتيجية التطبيع على نتيجة إجراء التجميع.


الملخص

في تخصصات omics عالية الإنتاجية مثل transcriptomics ، يواجه الباحثون حاجة لتقييم جودة التجربة قبل إجراء تحليل إحصائي متعمق. لتحليل مثل هذه المجموعات الضخمة من البيانات بكفاءة ، يحتاج الباحثون إلى طرق فرز سريعة وسهلة الاستخدام. تم تقديم طريقة التطبيع هذه للتقدير النسبي ، CONSTANd ، مؤخرًا لأطياف الكتلة المسمى متساوي الضغط في البروتينات. يقوم بتحويل مصفوفة بيانات الوفرة من خلال عملية تكرارية متقاربة تفرض ثلاثة قيود: (I) مجاميع أعمدة متطابقة (II) يتم إصلاح كل صف (عبر المصفوفات) و (III) مطابق لجميع مجموعات الصفوف الأخرى. في هذه الدراسة ، نتحرى ما إذا كان CONSTANd مناسبًا لبيانات العد من التسلسل المتوازي بشكل كبير ، من خلال المقارنة النوعية لنتائجها بنتائج DESeq2. علاوة على ذلك ، نقترح تعديل الطريقة بحيث يمكن تطبيقها على تجارب متوازنة بشكل متماثل ولكن مختلفة الحجم لتحليل المفصل. نجد أن CONSTANd يمكنه معالجة مجموعات البيانات الكبيرة بأكثر من مليون سجل تعداد في الثانية مع التخفيف من التحيز المنهجي غير المرغوب فيه وبالتالي الكشف بسرعة عن البنية البيولوجية الأساسية عند دمجها مع مخطط PCA أو التجميع الهرمي. علاوة على ذلك ، فإنه يسمح بالتحليل المشترك لمجموعات البيانات التي تم الحصول عليها من دفعات مختلفة ، وبروتوكولات مختلفة ومن مختبرات مختلفة ولكن دون استغلال المعلومات من الإعداد التجريبي بخلاف تحديد العينات في مجموعات معالجة متطابقة (IPSs). إن بساطة CONSTANd وإمكانية تطبيقه على البروتينات وكذلك بيانات النسخ تجعله مرشحًا مثيرًا للاهتمام للتكامل في مهام سير العمل متعددة omics.


تطبيع مكتبة RNA-Seq والإعداد التجريبي - علم الأحياء

يعد تحديد الجينات ذات الصلة (أو السمات الجينية الأخرى مثل النصوص ، و miRNAs ، و lncRNAs ، وما إلى ذلك) عبر الظروف (مثل عينات الأنسجة الورمية وغير الورمية) من الاهتمامات البحثية الشائعة في دراسات التعبير الجيني. في اختيار الجينات هذا ، غالبًا ما يهتم الباحثون باكتشاف مجموعة صغيرة من الجينات لغرض التشخيص في الطب الذي يتضمن تحديد الحد الأدنى من مجموعة فرعية من الجينات التي تحقق أقصى أداء تنبؤي. مشكلة اكتشاف العلامات الحيوية وتصنيفها.

VoomDDA هي أداة لدعم القرار تم تطويرها لمجموعات بيانات تسلسل الحمض النووي الريبي لمساعدة الباحثين في قراراتهم المتعلقة بمشكلة اكتشاف العلامات الحيوية التشخيصية وتصنيفها. يتكون VoomDDA من مصنفات تعليمية إحصائية متفرقة وغير متفرقة تم تكييفها مع طريقة voom. Voom هي طريقة حديثة تقدر متوسط ​​وعلاقة التباين لأعداد سجلات بيانات RNA-Seq (تعداد السجل لكل مليون ، log-cpm) على مستوى المراقبة. كما يوفر أوزانًا دقيقة لكل ملاحظة يمكن دمجها مع قيم log-cpm لمزيد من التحليل. تتضمن الخوارزميات في أداتنا قيم log-cpm وأوزان الدقة المقابلة في مشكلة اكتشاف العلامات الحيوية وتصنيفها. لهذا الغرض ، تستخدم هذه الخوارزميات الإحصائيات الموزونة في تقدير الوظائف التمييزية لخوارزميات التعلم الإحصائي المستخدمة.

VoomNSC عبارة عن مصنف متناثر تم تطويره للجمع بين طريقتين قويتين لتصنيف RNA-Seq:

1. لتوسيع طريقة voom لدراسات تصنيف RNA-Seq ،
2. لإتاحة خوارزمية النقط الوسطى (NSC) الأقرب لتقنية RNA-Seq.

يوفر كل من VoomNSC نتائج تصنيف سريعة ودقيقة ومتناثرة لبيانات RNA-Seq. يمكن العثور على مزيد من التفاصيل في ورقة البحث. تتضمن هذه الأداة أيضًا امتدادات RNA-Seq للمصنفات التربيعية الخطية والقطرية: (i) voomDLDA و (ii) voomDQDA.

مراجع

[1] زارارسيز ، ج. ، جوكسولوك ، ج. ، كوركماز ، س ، وآخرون. (2015). VoomDDA: اكتشاف المؤشرات الحيوية التشخيصية وتصنيف بيانات RNA-Seq.

[4] دودويت ، إس ، فريدلياند ، جيه آند سبيد ، ت. (2002). مقارنة طرق التمييز لتصنيف الأورام باستخدام بيانات التعبير الجيني. مجلة الجمعية الأمريكية للإحصاء 97 (457): 77-87.

الحصول على نتائج النموذج. هذا قد يستغرق بعض الوقت.

إنشاء خريطة التمثيل اللوني. هذا قد يستغرق بعض الوقت.

إنشاء مخطط الشبكة. هذا قد يستغرق بعض الوقت.

نتائج علم الجينات

الحصول على نتائج علم الوجود. هذا قد يستغرق بعض الوقت.

الدورة التعليمية

يتوفر مثالان من مجموعات البيانات في تطبيق الويب voomDDA. سرطان عنق الرحم هو ميرنا ، وسرطان الرئة هو مجموعة بيانات التعبير الجيني. لتحليل GO ، يجب على المستخدمين تحديد الخيار الضروري (ميرنا أو الجين) للحصول على نتائج التحليل ذات الصلة.

يتطلب تطبيق VoomDDA ثلاثة مدخلات من المستخدم. يجب أن تكون مجموعات التدريب والاختبار عبارة عن ملفات نصية (.txt) تحتوي على أعداد القراءة الأولية المعينة في شكل مصفوفة ، حيث تتوافق الصفوف مع السمات الجينية (لتبسيط اللغة ، دعنا نقول الجينات) وتتوافق الأعمدة مع الملاحظات (أو العينات) . يمكن الحصول على هذا النوع من بيانات العد من برامج عد الميزات مثل HTSeq [1] أو featureCounts [2]. لاحظ أن هذا النوع من بيانات العد يجب أن يحتوي على العدد الأولي للقراءات المعينة ، ولا يجب تطبيعها أو احتوائها على قيم RPKM. يجب أن تكون ملصقات الفصل في ملف نصي (.txt) ويجب أن تحتوي على كل حالة نموذجية. لاحظ أن كل صف يجب أن يحتوي على تسمية واحدة فقط لعينة. مثال على مجموعات البيانات لـ Witten et al. يتم تقديم مجموعة بيانات عنق الرحم على النحو التالي:

إذا كان الغرض هو توقع تسميات الفصل لملاحظات الاختبار الجديدة ، فيجب على المستخدمين تحميل الملفات الثلاثة الضرورية. ومع ذلك ، فإن مجموعة الاختبار ليست مطلوبة ، عندما يكون الغرض هو مجرد تحديد المؤشرات الحيوية التشخيصية.

بعد تحميل البيانات ، تأكد من عرض البيانات على الشاشة.

2. المعالجة المسبقة للبيانات

مصنفات VoomDDA (VoomNSC و VoomDLDA و VoomDQDA) التي تم تقديمها في هذا التطبيق لها نفس الافتراضات مع خط أنابيب voom + limma [3] ، أي تصفية الصفوف التي تحتوي على صفر أو عدد قليل جدًا. في بيانات RNA-Seq ، نلتقي غالبًا ببيانات العد التي تحتوي على صفوف ذات قيم فريدة واحدة (غالبًا صفر). قد يؤدي هذا النوع من البيانات إلى تقدير غير موثوق به لمتوسط ​​وعلاقة التباين في البيانات ونموذج غير مستقر يناسب المصنفات المقدمة. تتوفر ثلاثة معايير تصفية ممكنة: (1) تصفية DESeq2 الخارجة والمستقلة ، (2) تصفية التباين القريبة من الصفر ، (3) تصفية التباين.

تحتوي حزمة DESeq2 [4] على معايير ترشيح تعتمد على الكشف الخارجى والتصفية المستقلة. يتم الكشف عن القيم المتطرفة بناءً على مسافة الطباخ ويتم تطبيق التصفية المستقلة بناءً على متوسط ​​التعداد الطبيعي من حيث الجينات. يمكن الحصول على مزيد من التفاصيل في المقالة القصيرة لحزمة DESeq2 [5].

يتم وصف ترشيح التباين القريب من الصفر في حزمة علامة الإقحام لـ R [6]. تطبق هذه الحزمة التصفية بناءً على معيارين: (1) تكرار القيمة الأكثر شيوعًا للقيمة الثانية الأكثر تكرارًا أعلى من 19 (95/5) ، (2) عدد القيم الفريدة مقسومًا على حجم العينة أقل من 10٪.

ترشيح التباين هو خيار آخر لتصفية الجينات غير المفيدة. يمكن أيضًا تحديد هذا الخيار لتقليل التكلفة الحسابية لعملية بناء النموذج لمجموعات البيانات الكبيرة جدًا. بعد تحديد هذا الخيار ، يمكن للمستخدمين إدخال عدد الجينات المطلوب تضمينها في نماذج التصنيف.

بعد تحديد معيار تصفية واحد أو أكثر ، يتم عرض إحصائيات التصفية في الشاشة.

تعتمد أحجام المكتبة لكل ملاحظة على التصميم التجريبي وقد تؤدي إلى وجود تحيزات تقنية. يمكن أن يكون لهذه التحيزات تأثير كبير على نتائج التصنيف ويجب تصحيحها قبل البدء في بناء نموذج التصنيف. في تجاربنا ، وجدنا أن التطبيع له تأثير كبير على نتائج التصنيف لمجموعات البيانات التي لها اختلافات كبيرة جدًا في حجم المكتبة عبر العينات. يتوفر طريقتان للتطبيع في التطبيق: (1) نسبة وسيطة DESeq [7] ، (2) المتوسط ​​المقطوع لقيم M (TMM) [8]. يمكن العثور على مزيد من التفاصيل حول هذه الأساليب في الأوراق المرجعية.

3. بناء نموذجي للتصنيف

بعد معالجة البيانات ، يمكن للمستخدمين بناء نماذج تصنيف بثلاث خوارزميات مقدمة: (1) voomNSC ، (2) voomDLDA ، (iii) voomDQDA. VoomNSC عبارة عن مُصنف متناثر يجمع بين طريقتين قويتين ، طريقة voom [3] وأقرب خوارزمية centroids متقلصة [9] ، لتصنيف بيانات RNA-Seq. VoomDLDA و voomDQDA عبارة عن مصنفات غير متفرقة وهي امتداد لمصنفات التمايز القطري [10]. ترد تفاصيل هذه المصنفات في الورقة المرجعية [11].

بعد اختيار أي من المصنفات الثلاثة ، يتم عرض ملخص لعملية التركيب على الشاشة. يتم إعطاء مصفوفة الارتباك والعديد من مقاييس التشخيص الإحصائي لفحص مدى نجاح المصنف في ملاءمة البيانات المعطاة. علاوة على ذلك ، يتم إنشاء مخطط خريطة الحرارة لعرض مستويات التعبير عن الجينات والعلاقات الجينية والعينة. يتم عرض Heatmap للجينات غير المفلترة بالكامل للمصنفات غير المتفرقة ، بينما يتم عرضها لمجموعة الجينات الفرعية المحددة لمصنف voomNSC المتناثر.

4. تحديد المؤشرات الحيوية التشخيصية

إذا كان VoomNSC هو المصنف المحدد ، يتم تحديد المجموعة الفرعية من الجينات ، الأكثر صلة بحالة الفئة ، ويتم عرض أسماء الجينات على الشاشة. كما تم إعطاء العديد من المؤامرات. يوضح الرسم الأول اختيار معلمة العتبة. يتم تحديد المعلمة التي تناسب النموذج الأكثر دقة وتناثرًا على أنها الأمثل. يعرض الرسم الثاني توزيع الجينات المختارة في كل فئة. تعرض الحبكة الثالثة الاختلافات المنكمشة للجينات المختارة. الحبكة النهائية هي مخطط خريطة الحرارة التي تمت مناقشتها في القسم السابق.

بناءً على المصنف المحدد ، تظهر التنبؤات على الشاشة لكل ملاحظة اختبار. لاحظ أنه يجب معالجة ملاحظات الاختبار مثل ملاحظات التدريب. يجب تطبيق نفس الإجراءات التجريبية والحسابية قبل الحصول على بيانات العد الخام. يجب أن تكون البيانات بنفس تنسيق بيانات التدريب للحصول على التنبؤات. يجب أن تحتوي على أعداد القراءة الأولية المعينة ، ويجب أن تتطابق أسماء الجينات مع بيانات التدريب.

يقوم تطبيق VoomDDA بتصفية وتطبيع بيانات الاختبار بناءً على المعلومات التي تم الحصول عليها من بيانات التدريب. وبالتالي ، يتم استخدام المعلمات المقدرة من بيانات التدريب لبيانات الاختبار. هذا يضمن أن كلا المجموعتين على نفس المقياس والمثلية بعضها البعض.

6. تحليل المصب

بعد اكتشاف المؤشرات الحيوية التشخيصية عبر خوارزمية voomNSC ، قد يكون من المفيد تصور النتائج لرؤية التفاعلات أو إجراء مزيد من التحليل ، مثل تحليل GO. لهذا الغرض ، تتوفر أيضًا العديد من أدوات التحليل النهائية في تطبيق الويب هذا. تتضمن هذه الأدوات خرائط الحرارة وتحليل الشبكة وتحليل الأنطولوجيا الجينية. يمكن العثور على معلومات مفصلة حول تحليل علم الوجود الجيني في حزمة topGO BIOCONDUCTOR.

[1] Anders، S.، Pyl، P.T.، and Huber، W. (2015) HTSeq - إطار عمل Python للعمل مع بيانات التسلسل عالية الإنتاجية. المعلوماتية الحيوية 31 (2): 166-9.

[2] Liao، Y.، Smyth، G.K.، and Shi، W. (2013). featureCounts: برنامج فعال للأغراض العامة لتعيين تسلسل يقرأ للسمات الجينية. المعلوماتية الحيوية. دوى: 10.1093 / المعلوماتية الحيوية / btt656.

[3] لو ، سي دبليو ، تشين ، واي ، شي ، دبليو وسميث ، جي. (2014). voom: تفتح الأوزان الدقيقة أدوات تحليل النموذج الخطي لتعداد قراءة RNA-Seq. بيولوجيا الجينوم 15: R29.

[4] Love، M.I.، Huber، W. and Anders، S. (2015). تقدير معتدل لتغيير الطية والتشتت لبيانات RNA-seq باستخدام DESeq2. بيولوجيا الجينوم 15 (550). دوى: 10.1186 / s13059-014-0550-8.

[5] Love، M.I.، Huber، W. and Anders، S. (2015). التحليل التفاضلي لبيانات العد - حزمة DESeq2. http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.pdf (19.06.2015).

[6] كوهن ، م. (2008). بناء نماذج تنبؤية في R باستخدام مجموعة الإقحام. مجلة البرامج الإحصائية 28 (5).

[7] أندرس ، س. وهوبر ، و. (2010). تحليل التعبير التفاضلي لبيانات عد التسلسل. بيولوجيا الجينوم 11 (R106): دوى: 10.1186 / gb-2010-11-10-r106.

[8] روبنسون ، دكتور في الطب ، وأوشلاك ، أ. (2010). طريقة تطبيع القياس لتحليل التعبير التفاضلي لبيانات RNA-seq. بيولوجيا الجينوم 11 (R25).

[9] تيبشيراني ، ر. ، هاستي ، ت. ، ناراسيمهان ، ب. وتشو ، ج. (2002). تشخيص أنواع السرطان المتعددة عن طريق النقط الوسطى المتقلصة للتعبير الجيني. PNAS 99 (10): 6567-72.

[10] دودويت ، إس ، فريدلياند ، جيه آند سبيد ، ت. (2002). مقارنة طرق التمييز لتصنيف الأورام باستخدام بيانات التعبير الجيني. مجلة الجمعية الأمريكية للإحصاء 97 (457): 77-87.

[11] زارارسيس ، جي ، جوكسولوك ، دي ، كوركماز ، إس ، وآخرون. (2015). VoomDDA: اكتشاف المؤشرات الحيوية التشخيصية وتصنيف بيانات RNA-Seq.


مقدمة

أصبح تسلسل الحمض النووي الريبي (RNA-seq) هو التقنية الأساسية المستخدمة في تحديد ملامح التعبير الجيني ، مع الكشف على نطاق الجينوم عن الجينات المعبر عنها تفاضليًا بين حالتين أو أكثر من الحالات المثيرة للاهتمام ، وهو أحد الأسئلة الأكثر شيوعًا التي يطرحها الباحثون. ال حافة (روبنسون ، مكارثي ، وسميث 2010) و ليما packages (Ritchie et al. 2015) available from the Bioconductor project (Huber et al. 2015) offer a well-developed suite of statistical methods for dealing with this question for RNA-seq data.

In this article, we describe an حافة - limma workflow for analysing RNA-seq data that takes gene-level counts as its input, and moves through pre-processing and exploratory data analysis before obtaining lists of differentially expressed (DE) genes and gene signatures. This analysis is enhanced through the use of interactive graphics from the Glimma package (Su et al. 2017) , that allows for a more detailed exploration of the data at both the sample and gene-level than is possible using static ص المؤامرات.

The experiment analysed in this workflow is from Sheridan وآخرون. (2015) (Sheridan et al. 2015) and consists of three cell populations (basal, luminal progenitor (LP) and mature luminal (ML)) sorted from the mammary glands of female virgin mice, each profiled in triplicate. RNA samples were sequenced across three batches on an Illumina HiSeq 2000 to obtain 100 base-pair single-end reads. The analysis outlined in this article assumes that reads obtained from an RNA-seq experiment have been aligned to an appropriate reference genome and summarised into counts associated with gene-specific regions. In this instance, reads were aligned to the mouse reference genome (mm10) using the ص based pipeline available in the Rsubread package (specifically the align function (Liao, Smyth, and Shi 2013) followed by featureCounts (Liao, Smyth, and Shi 2014) for gene-level summarisation based on the in-built مم 10 RefSeq-based annotation).


Cuffdiff options:

Prints the help message and exits

-o/–output-dir <string>

Sets the name of the directory in which Cuffdiff will write all of its output. The default is “./”.

-L/–labels <label1,label2,…,labelN>

Specify a label for each sample, which will be included in various output files produced by Cuffdiff.

Use this many threads to align reads. The default is 1.

-T/–time-series

Instructs Cuffdiff to analyze the provided samples as a time series, rather than testing for differences between all pairs of samples. Samples should be provided in increasing time order at the command line (e.g first time point SAM, second timepoint SAM, etc.)

–total-hits-norm

With this option, Cufflinks counts all fragments, including those not compatible with any reference transcript, towards the number of mapped fragments used in the FPKM denominator. It is inactive by default.

–compatible-hits-norm

With this option, Cufflinks counts only those fragments compatible with some reference transcript towards the number of mapped fragments used in the FPKM denominator. Using this mode is generally recommended in Cuffdiff to reduce certain types of bias caused by differential amounts of ribosomal reads which can create the impression of falsely differentially expressed genes. It is active by default.

-b/–frag-bias-correct <genome.fa>

Providing Cufflinks with the multifasta file your reads were mapped to via this option instructs it to run our bias detection and correction algorithm which can significantly improve accuracy of transcript abundance estimates. See How Cufflinks Workshow_it_works/index.html#) for more details.

-u/–multi-read-correct

Tells Cufflinks to do an initial estimation procedure to more accurately weight reads mapping to multiple locations in the genome. See How Cufflinks Works for more details.

-c/–min-alignment-count <int>

The minimum number of alignments in a locus for needed to conduct significance testing on changes in that locus observed between samples. If no testing is performed, changes in the locus are deemed not signficant, and the locus’ observed changes don’t contribute to correction for multiple testing. The default is 10 fragment alignments.

-M/–mask-file <mask.(gtf/gff)>

Tells Cuffdiff to ignore all reads that could have come from transcripts in this GTF file. We recommend including any annotated rRNA, mitochondrial transcripts other abundant transcripts you wish to ignore in your analysis in this file. Due to variable efficiency of mRNA enrichment methods and rRNA depletion kits, masking these transcripts often improves the overall robustness of transcript abundance estimates.

The allowed false discovery rate. The default is 0.05.

–library-type

–library-norm-method

–dispersion-method

Cuffdiff advanced options:

This is the expected (mean) fragment length. The default is 200bp.

Note: Cuffdiff now learns the fragment length mean for each SAM file, so using this option is no longer recommended with paired-end reads.

-s/–frag-len-std-dev <int>

The standard deviation for the distribution on fragment lengths. The default is 80bp.

Note: Cuffdiff now learns the fragment length standard deviation for each SAM file, so using this option is no longer recommended with paired-end reads.

–max-mle-iterations <int>

Sets the number of iterations allowed during maximum likelihood estimation of abundances. Default: 5000

Print lots of status updates and other diagnostic information.

Suppress messages other than serious warnings and errors.

–no-update-check

Turns off the automatic routine that contacts the Cufflinks server to check for a more recent version.

–poisson-dispersion

Use the Poisson fragment dispersion model instead of learning one in each condition.

–emit-count-tables

Cuffdiff will output a file for each condition (called <sample>_counts.txt) containing the fragment counts, fragment count variances, and fitted variance model. For internal debugging only. This option will be removed in a future version of Cuffdiff.

-F/–min-isoform-fraction <0.0-1.0>

Cuffdiff will round down to zero the abundance of alternative isoforms quantified at below the specified fraction of the major isoforms. This is done after MLE estimation but before MAP estimation to improve robustness of confidence interval generation and differential expression analysis. The default is 1e-5, and we recommend you not alter this parameter.

–max-bundle-frags <int>

Sets the maximum number of fragments a locus may have before being skipped. Skipped loci are marked with status HIDATA. Default: 1000000

–max-frag-count-draws <int>

Cuffdiff will make this many draws from each transcript’s predicted negative binomial random numbder generator. Each draw is a number of fragments that will be probabilistically assigned to the transcripts in the transcriptome. Used to estimate the variance-covariance matrix on assigned fragment counts. Default: 100.

–max-frag-assign-draws <int>

For each fragment drawn from a transcript, Cuffdiff will assign it this many times (probabilistically), thus estimating the assignment uncertainty for each transcript. Used to estimate the variance-covariance matrix on assigned fragment counts. Default: 50.

–min-reps-for-js-test <int>

Cuffdiff won’t test genes for differential regulation unless the conditions in question have at least this many replicates. Default: 3.

Cuffdiff will not employ its “effective” length normalization to transcript FPKM.

–no-length-correction

Cuffdiff will not normalize fragment counts by transcript length at all. Use this option when fragment count is independent of the size of the features being quantified (e.g. for small RNA libraries, where no fragmentation takes place, or 3 prime end sequencing, where sampled RNA fragments are all essentially the same length). Experimental option, use with caution.

Cuffdiff takes a GTF2/GFF3 file of transcripts as input, along with two or more SAM files containing the fragment alignments for two or more samples. It produces a number of output files that contain test results for changes in expression at the level of transcripts, primary transcripts, and genes. It also tracks changes in the relative abundance of transcripts sharing a common transcription start site, and in the relative abundances of the primary transcripts of each gene. Tracking the former allows one to see changes in splicing, and the latter lets one see changes in relative promoter use within a gene.

If you have more than one استنساخ for a sample, supply the SAM files for the sample as a single comma-separated قائمة. It is not necessary to have the same number of replicates for each sample.

Note that Cuffdiff can also accepted BAM files (which are binary, compressed SAM files). It can also accept CXB files produced by Cuffquant. Note that mixing SAM and BAM files is supported, but you cannot currently mix CXB and SAM/BAM. If one of the samples is supplied as a CXB file, all of the samples must be supplied as CXB files.

Cuffdiff requires that transcripts in the input GTF be annotated with certain attributes in order to look for changes in primary transcript expression, splicing, coding output, and promoter use. These attributes are:

The ID of this transcript’s inferred start site. Determines which primary transcript this processed transcript is believed to come from. Cuffcompare appends this attribute to every transcript reported in the .combined.gtf file.

The ID of the coding sequence this transcript contains. This attribute is attached by Cuffcompare to the .combined.gtf records only when it is run with a reference annotation that include CDS records. Further, differential CDS analysis is only performed when all isoforms of a gene have p_id attributes, because neither Cufflinks nor Cuffcompare attempt to assign an open reading frame to transcripts.

Note: If an arbitrary GTF/GFF3 file is used as input (instead of the .combined.gtf file produced by Cuffcompare), these attributes will not be present, but Cuffcompare can still be used to obtain these attributes with a command like this:

The resulting cuffcmp.combined.gtf file created by this command will have the tss_id و p_id attributes added to each record and this file can be used as input for cuffdiff.

FPKM tracking files

Cuffdiff calculates the FPKM of each transcript, primary transcript, and gene in each sample. Primary transcript and gene FPKMs are computed by summing the FPKMs of transcripts in each primary transcript group or gene group. The results are output in FPKM tracking files in the format described here. There are four FPKM tracking files:

isoforms.fpkm_tracking Transcript FPKMs
genes.fpkm_tracking Gene FPKMs. Tracks the summed FPKM of transcripts sharing each gene_id
cds.fpkm_tracking Coding sequence FPKMs. Tracks the summed FPKM of transcripts sharing each p_id, independent of tss_id
tss_groups.fpkm_tracking Primary transcript FPKMs. Tracks the summed FPKM of transcripts sharing each tss_id

Count tracking files

Cuffdiff estimates the number of fragments that originated from each transcript, primary transcript, and gene in each sample. Primary transcript and gene counts are computed by summing the counts of transcripts in each primary transcript group or gene group. The results are output in count tracking files in the format described here. There are four Count tracking files:

isoforms.count_tracking Transcript counts
genes.count_tracking Gene counts. Tracks the summed counts of transcripts sharing each gene_id
cds.count_tracking Coding sequence counts. Tracks the summed counts of transcripts sharing each p_id, independent of tss_id
tss_groups.count_tracking Primary transcript counts. Tracks the summed counts of transcripts sharing each tss_id

Read group tracking files

Cuffdiff calculates the expression and fragment count for each transcript, primary transcript, and gene in each replicate. The results are output in per-replicate tracking files in the format described here. There are four read group tracking files:

isoforms.read_group_tracking Transcript read group tracking
genes.read_group_tracking Gene read group tracking. Tracks the summed expression and counts of transcripts sharing each gene_id in each replicate
cds.read_group_tracking Coding sequence FPKMs. Tracks the summed expression and counts of transcripts sharing each p_id, independent of tss_id in each replicate
tss_groups.read_group_tracking Primary transcript FPKMs. Tracks the summed expression and counts of transcripts sharing each tss_id in each replicate

Differential expression tests

This tab delimited file lists the results of differential expression testing between samples for spliced transcripts, primary transcripts, genes, and coding sequences. Four files are created:

isoform_exp.diff Transcript-level differential expression.
gene_exp.diff Gene-level differential expression. Tests differences in the summed FPKM of transcripts sharing each gene_id
tss_group_exp.diff Primary transcript differential expression. Tests differences in the summed FPKM of transcripts sharing each tss_id
cds_exp.diff Coding sequence differential expression. Tests differences in the summed FPKM of transcripts sharing each p_id independent of tss_id

Each of the above files has the following format:

Column number Column name مثال وصف
1 Tested id XLOC_000001 A unique identifier describing the transcipt, gene, primary transcript, or CDS being tested
2 الجين Lypla1 The gene_name(s) or gene_id(s) being tested
3 locus chr1:4797771-4835363 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 كبد Label (or number if no labels provided) of the first sample being tested
5 sample 2 مخ Label (or number if no labels provided) of the second sample being tested
6 Test status NOTEST Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 FPKMx 8.01089 FPKM of the gene in sample x
8 FPKMy 8.551545 FPKM of the gene in sample y
9 log2(FPKMy/FPKMx) 0.06531 The (base 2) log of the fold change y/x
10 test stat 0.860902 The value of the test statistic used to compute significance of the observed change in FPKM
11 ص value 0.389292 The uncorrected p-value of the test statistic
12 ف value 0.985216 The FDR-adjusted p-value of the test statistic
13 significant لا Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Differential splicing tests - splicing.diff

This tab delimited file lists, for each primary transcript, the amount of isoform switching detected among its isoforms, i.e. how much differential splicing exists between isoforms processed from a single primary transcript. Only primary transcripts from which two or more isoforms are spliced are listed in this file.

Column number Column name مثال وصف
1 Tested id TSS10015 A unique identifier describing the primary transcript being tested.
2 gene name Rtkn The gene_name or gene_id that the primary transcript being tested belongs to
3 locus chr6:83087311-83102572 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 كبد Label (or number if no labels provided) of the first sample being tested
5 sample 2 مخ Label (or number if no labels provided) of the second sample being tested
6 Test status نعم Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 محجوز 0
8 محجوز 0
9 √JS(x,y) 0.22115 The amount of isoform switching between the isoforms originating from this TSS, as measured by the square root of the Jensen-Shannon divergence computed on the relative abundances of the splice variants
10 test stat 0.22115 The value of the test statistic used to compute significance of the observed overloading, equal to √JS(x,y)
11 p value 0.000174982 The uncorrected p-value of the test statistic.
12 q value 0.985216 The FDR-adjusted p-value of the test statistic
13 significant لا Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Differential coding output - cds.diff

This tab delimited file lists, for each gene, the amount of overloading detected among its coding sequences, i.e. how much differential CDS output exists between samples. Only genes producing two or more distinct CDS (i.e. multi-protein genes) are listed here.

Column number Column name مثال وصف
1 Tested id XLOC_000002 A unique identifier describing the gene being tested.
2 gene name Atp6v1h The gene_name or gene_id
3 locus chr1:5073200-5152501 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 كبد Label (or number if no labels provided) of the first sample being tested
5 sample 2 مخ Label (or number if no labels provided) of the second sample being tested
6 Test status نعم Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 محجوز 0
8 محجوز 0
9 √JS(x,y) 0.0686517 The CDS overloading of the gene, as measured by the square root of the Jensen-Shannon divergence computed on the relative abundances of the coding sequences
10 test stat 0.0686517 The value of the test statistic used to compute significance of the observed overloading, equal to √JS(x,y)
11 p value 0.00546783 The uncorrected p-value of the test statistic
12 q value 0.985216 The FDR-adjusted p-value of the test statistic
13 significant لا Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Differential promoter use - promoters.diff

This tab delimited file lists, for each gene, the amount of overloading detected among its primary transcripts, i.e. how much differential promoter use exists between samples. Only genes producing two or more distinct primary transcripts (i.e. multi-promoter genes) are listed here.

Column number Column name مثال وصف
1 Tested id XLOC_000019 A unique identifier describing the gene being tested.
2 gene name Tmem70 The gene_name or gene_id
3 locus chr1:16651657-16668357 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 كبد Label (or number if no labels provided) of the first sample being tested
5 sample 2 مخ Label (or number if no labels provided) of the second sample being tested
6 Test status نعم Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 محجوز 0
8 محجوز 0
9 √JS(x,y) 0.0124768 The promoter overloading of the gene, as measured by the square root of the Jensen-Shannon divergence computed on the relative abundances of the primary transcripts
10 test stat 0.0124768 The value of the test statistic used to compute significance of the observed overloading, equal to √JS(x,y)
11 p value 0.394327 The uncorrected p-value of the test statistic
12 q value 0.985216 The FDR-adjusted p-value of the test statistic
13 significant لا Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Read group info - read_groups.info

This tab delimited file lists, for each replicate, key properties used by Cuffdiff during quantification, such as library normalization factors. The read_groups.info file has the following format:

Column number Column name مثال وصف
1 ملف mCherry_rep_A/accepted_hits.bam BAM or SAM file containing the data for the read group
2 condition mCherry Condition to which the read group belongs
3 replicate_num 0 Replicate number of the read group
4 total_mass 4.72517e+06 Total number of fragments for the read group
5 norm_mass 4.72517e+06 Fragment normalization constant used during calculation of FPKMs.
6 internal_scale 1.23916 Scaling factor used to normalize for library size
7 external_scale 1.0 Currently unused, and always equal to 1.0.


This project was funded by NIH/NLM training grant T15 LM011270, NIH/NCI Cancer Center Support Grant P30 CA016058, and NIH/NLM Individual Fellowship 1F31LM013056. Publication costs are funded by Philip R.O. Payne’s startup fund.

الانتماءات

Department Biomedical Informatics, Ohio State University, 250 Lincoln Tower, 1800 Cannon Dr. Columbus, Columbus, OH, 43210, USA

Zachary B. Abrams, Travis S. Johnson & Kevin Coombes

Department of Medicine, Indiana University School of Medicine, 545 Barnhill Drive, Indianapolis, IN, 46202, USA

Travis S. Johnson & Kun Huang

Regenstrief Institute, Indiana University, 1101 West 10th Street, Indianapolis, IN, 46262, USA

Department of Biomedical Informatics, Washington University, 4444 Forest Park Ave, Suite 6318 Campus Box 8102, St. Louis, MO, 63108-2212, USA


الانتماءات

Institute for Genomic Biology, University of Illinois at Urbana-Champaign, Urbana, IL, 61801, USA

Key Laboratory for Applied Statistics of MOE and School of Mathematics and Statistics, Northeast Normal University, Changchun, 130024, Jilin Province, P.R. China

Department of Mathematics, Washington University in Saint Louis, 63130, Saint Louis, Missouri, USA

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

المؤلف المراسل