معلومة

ماذا تفعل إذا أظهر اختبار microarray t و ANOVA و SAM و LImma جينات مهمة مختلفة مختارة؟


تحتاج إلى مشورة: كيفية التعامل مع التناقض في نتائج اختبار التعبير الجيني للمصفوفة الدقيقة التفاضلية: ماذا تفعل إذا أظهرت إجراءات ANOVA و ttest و SAM و Limma نتائج مختلفة وخاصة أكثر تباينًا عند استخدام تحويلات السجل وعمليات التطبيع؟


لا أتوقع طرقًا مختلفة لإعطاء نفس النتائج. علاوة على ذلك ، لماذا تقوم حتى باختبار مجموعات البيانات غير المعيارية ، فإن نتائج ذلك غير مجدية تمامًا وبشكل مطلق لأي غرض آخر غير إظهار أهمية التطبيع. بالإضافة إلى ذلك ، فإن اختبار T هو حالة خاصة من ANOVA (وبالطبع فإن limma نفسها تستخدم اختبار T معتدل ، على الرغم من أنه سيكون له قوة أكبر بكثير من الآخرين) ، لذلك يجب أن أسأل نفسي بالضبط أي نوع من التصميم الذي تستخدمه أنه من المناسب استبدال أحدهما بالآخر مع استمرار الحصول على نتائج مختلفة تمامًا على ما يبدو.

بشكل عام ، أود أن أشجعك بشدة على العمل مع خبير معلومات حيوي محلي أو خبير إحصائي لما يُفترض أنه أول تحليل ميكروأري لك ، خاصة إذا لم يكن لديك خلفية إحصائية قوية.


تيسا أ.موريس تحليل بيانات ميكروأري العام

كان الغرض من معمل اليوم هو تطبيع البيانات الداخلية وفيما بينها ثم إجراء تحليل إحصائي لكل نقطة زمنية لتحديد ما إذا كان هناك أي شيء مهم في البيانات.

روابط مفيدة من دالكويست

أساليب

إعداد ويكي

صفحة المستخدم الخاصة بك: قم بإعداد صفحة المستخدم الفردية الخاصة بك على هذا الويكي (يمكن الوصول إليها عبر اسم المستخدم الخاص بك في أعلى الصفحة). يجب أن تأخذ صفحة المستخدم الخاصة بك شكل سيرة ذاتية أو ، في الدوائر الأكاديمية ، أ السيرة الذاتية. لدى الدكتور دالكويست مثل هذه الصفحات ، داخل هذا الويكي (صفحة المستخدم) وعلى الإنترنت بشكل عام. يمكنك استخدام هذه كنقاط انطلاق. كطلاب ، قد تختلف معلوماتك عن معلوماتنا. يملأ OpenWetware صفحة المستخدم الخاصة بك تلقائيًا بمحتوى مؤتمت قد لا ينطبق عليك. ستحتاج إلى حذف أي معلومات غير ضرورية من المحتوى الآلي وإضافة ما يلي:

  1. اسم
  2. معلومات الاتصال (عنوان البريد الإلكتروني وعنوان بريد LMU)
  3. المعلومات الشخصية: التعليم ، التخصص ، سنة التخرج المتوقعة ، المقررات الدراسية في الدرجة العليا ، الاهتمامات والأهداف المهنية
  4. مشاريع بحثية مستقلة: عنوان المشروع ، اسم المرشد ، العرض ، المطبوعات
  5. خبرة العمل: المنصب / المسمى الوظيفي ، صاحب العمل ، التواريخ ، المسؤوليات
  6. الاهتمامات / الهوايات الشخصية: ما هو الجانب المفضل لديك في علم الأحياء ولماذا؟ ما هو الجانب المفضل لديك في الرياضيات ولماذا؟
مارس مهارات Wiki الخاصة بك

أدرجت الأقسام السابقة المحتوى الذي تحتاج إلى توفيره في الويكي. في تنسيق صفحاتك ، وضح الكل من المهارات التالية. اعثر على طريقة لدمجها بشكل طبيعي في المحتوى (على سبيل المثال ، لا تقل "هذه صورة" ، ثم ضع أي صورة على الصفحة).

  1. في كل مرة تقوم فيها بتحرير صفحة (سواء كانت صفحة محتوى أو صفحة مناقشة) ، أدخل وصفًا ذا مغزى للتغيير الذي أجريته في ملف ملخص حقل في الجزء السفلي من المحرر. يتيح ذلك للمستخدمين الآخرين أن يروا بسهولة (قل عبر Special: RecentChanges أو صفحات المحفوظات) ما حدث للصفحة منذ آخر زيارة لهم لها.
  2. قم بإنشاء صفحة Wiki جديدة: [[عنوان صفحة جديدة]] & # 8212 عندما تقوم بتضمين ارتباط غير موجود في صفحة (على سبيل المثال ، صفحة المستخدم الخاصة بك) ، يمكن للبرنامج معرفة أن هذه الصفحة غير موجودة ويلونها باللون الأحمر بدلاً من الأزرق / الأرجواني. عند النقر فوق الارتباط الأحمر ، يتم منحك خيار تحرير (وبالتالي إنشاء) الصفحة.
    • نقترح عليك التدرب على ذلك من خلال إنشاء صفحة إدخال دفتر اليومية في الأسبوع الثاني. يجب أن يكون اسم الصفحة بالتنسيق "اسم االمستخدم الأسبوع 2 "(أي ، النص الذي تضعه بين قوسين مربعين عند الارتباط بهذه الصفحة).
  3. رابط لصفحة داخل الويكي الخاص بنا: [[عنوان الصفحة | تسمية مرئية اختيارية]]
    • انتقل إلى الأشخاص واربط اسمك بصفحة المستخدم الخاصة بك.
  4. ارتباط بصفحة ويب خارجية: http: // العنوان أو [http: // العنوان المرئي التسمية]
    • يُفضل النموذج الثاني من الارتباط لأنه يبدو أكثر إتقانًا على الصفحة.
  5. استخدم العناوين: === العنوان === (يشير عدد علامات التساوي إلى مستوى العنوان)
    • حسب الاصطلاح ، ابدأ أكبر عنوان لك بعلامتي يساوي. علامة يساوي المفردة مخصصة لعنوان الصفحة ويتم إنشاؤها تلقائيًا عند إنشاء الصفحة.
  6. قم بإنشاء قائمة ذات تعداد نقطي: *
    • لاحظ أنه يمكنك إنشاء رموز نقطية فرعية تحتها باستخدام عدة علامات نجمية ، على سبيل المثال ، **, ***، إلخ.
  7. قم بإنشاء قائمة ذات تعداد رقمي: #
    1. لاحظ أنه يمكنك إنشاء قوائم فرعية مرقمة باستخدام علامات الأرقام المتعددة ، على سبيل المثال ، ##, ###، إلخ.
    2. يمكنك أيضًا مزج الرموز النقطية والأرقام ، على سبيل المثال ، *#, #*، او حتى #*#، إلخ.
    3. لا تتخطى الأسطر بين قوائمك النقطية أو المرقمة ، وإلا فلن يفسر الويكي بناء الجملة بشكل صحيح.
    • استخدم الصورة على صفحتك: [[صورة: ملف الاسم الدقيق للصورة]]
    • تذكر: لا تقدم عملًا محميًا بحقوق الطبع والنشر دون إذن! نقترح عليك تضمين صورة لنفسك تكون مناسبة لسيرة ذاتية احترافية.
    • رابط إلى الملف الذي قمت بتحميله على صفحة Wiki الخاصة بك: [[الوسائط: الاسم الدقيق للملف الذي تم تحميله | التسمية المرئية]]
    • تذكر: لا تقدم عملًا محميًا بحقوق الطبع والنشر دون إذن! نقترح عليك تضمين شيء احترافي ، مثل إصدار Word أو PDF من سيرتك الذاتية الورقية ، وورقة علمية كتبتها ، وما إلى ذلك.
    • خلال الدورة ، سوف تستخدم الفئة [[التصنيف: BIOL98-04 / S15]] لجميع الصفحات التي تقوم بإنشائها.
    • يمكنك تحقيق ذلك من خلال نشر تعليقك على صفحة نقاش المستخدم الخاصة بالدكتور دالكويست.
    • قم بإنشاء صفحة القالب الخاصة بك كما لو كنت ستنشئ أي صفحة wiki جديدة أخرى ، ولكن باستخدام البادئة نموذج: كجزء من اسم الصفحة. على سبيل المثال ، يجب تسمية النموذج الخاص بك [[القالب: اسم المستخدم]].
    • انقر فوق الارتباط وقم بوضع المحتوى على هذه الصفحة الذي تريد استخدامه مرارًا وتكرارًا. على الأقل ، يجب عليك استخدامه لإنشاء مجموعة من روابط التنقل التي ستستخدمها في إدخال دفتر اليومية لكل أسبوع. كل أسبوع كجزء من مهمة دفتر اليومية الخاصة بك ، سيُطلب منك إنشاء ارتباط إلى صفحة المستخدم الخاصة بك ، وصفحة المهمة ، وصفحة إدخال دفتر اليومية ، وصفحة اليومية المشتركة ، بالإضافة إلى إضافة الفئة "BIOL368 / F14" إلى صفحة. إذا قمت بوضع هذه الروابط على القالب الخاص بك ثم قمت باستدعاء القالب على صفحة دفتر اليومية الخاصة بك ، فسيتم الاهتمام بذلك تلقائيًا نيابة عنك. قد ترغب أيضًا في تضمين أي روابط أخرى قد تجدها مفيدة.
    • بمجرد إضافة المحتوى وحفظه في صفحة النموذج ، ستحتاج إلى ذلك استعمال قالبك على صفحة المستخدم الخاصة بك. للقيام بذلك ، قم باستدعاء القالب باستخدام بناء الجملة التالي: <> في المكان الذي تريد أن يظهر فيه محتوى صفحة النموذج. سيؤدي هذا إلى "توسيع" النموذج إلى محتوياته الكاملة على الصفحة الفعلية.
    معمل الكتروني

    بالنسبة لجميع أعمال الكمبيوتر التي تقوم بها للبحث ، ستحتفظ بملحق دفتر المختبر الإلكتروني يسجل جميع التلاعبات التي تجريها على البيانات والنتائج التي تحصل عليها وتفسيرات البيانات. يجب عليك تسمية هذه الصفحة مع الخاص بك اسم االمستخدم والعبارة دفتر المعمل الإلكتروني. يمكنك الاحتفاظ بصفحة واحدة طويلة ، مرتبة حسب تاريخ قيامك بالعمل. يفضل نسخ البروتوكولات ولصقها في هذه الصفحة ، ثم تعديلها بتفاصيل ما فعلته. الفكرة وراء أي مفكرة معملية هي أنه يمكنك أنت أو أي شخص آخر إعادة إنتاج ما فعلته باستخدام المعلومات الواردة في دفتر ملاحظاتك فقط.

    ملاحظة ملحقات الملف

    من المهم جعل نوع امتداد الملف مرئيًا قبل بدء العمل مع أنواع ملفات مختلفة. قبل بدء العمل على الكمبيوتر:

    قم بتعيين Google Chrome على المطالبة بالموقع لحفظ الملفات التي تم تنزيلها
    • افتح نافذة الإعدادات.
      • انقر فوق الارتباط الموجود في أسفل الصفحة المسمى "إعدادات متقدمة".
      • حدد المربع الذي يقول "اسأل عن مكان حفظ كل ملف قبل التنزيل".
      • يمكنك أيضًا تغيير موقع التنزيل الافتراضي إلى سطح المكتب الخاص بك ، بحيث يكون هذا هو الخيار الأول عندما يطالبك بمكان حفظ الملف.
      • يتم حفظ إعداداتك تلقائيًا.
      الخطوات 1-3: إنشاء نسب Log2 باستخدام GenePix Pro
      • تم العثور على بروتوكول إنشاء الشبكات وتوليد بيانات الكثافة (نسبة السجل 2) باستخدام GenePix Pro 6.1 في هذه الصفحة.
      • سيقوم هذا البروتوكول بإنشاء ملف * .gpr لكل شريحة يتم إدخالها بعد ذلك في بروتوكول التطبيع أدناه.
      الخطوات 4-5: التطبيع داخل الشريحة وفيما بينها

      يمكن العثور على بروتوكول أكثر تفصيلاً في هذه الصفحة.

      تثبيت R 3.1.0 وحزمة limma

      تم تطوير البروتوكول التالي لتطبيع بيانات رقاقة ميكروأري GCAT و Ontario DNA من مختبر Dahlquist باستخدام برنامج R الإحصائي وحزمة limma (جزء من مشروع Bioconductor Project).

      • تم التحقق من إجراء التطبيع للعمل مع الإصدار 3.1.0 من R الذي تم إصداره في أبريل 2014 (رابط إلى موقع التنزيل) والإصدار 3.20.1 من حزمة limma (رابط مباشر لتنزيل ملف مضغوط) على نظام التشغيل Windows 7.
        • لاحظ أن استخدام إصدارات أخرى من R أو حزمة limma قد يعطي نتائج مختلفة.
        • لاحظ أيضًا أن استخدام الإصدارين 32 بت مقابل 64 بت من R 3.1.0 سيعطي نتائج مختلفة للتطبيع في الخانة العشرية 10-13 أو 10-14. يقوم مختبر Dahlquist بتوحيد استخدام الإصدار 64 بت من R.

        تشغيل نصوص التطبيع

        • أنشئ مجلدًا على سطح المكتب لتخزين ملفاتك لإجراء تحليل ميكروأري.
        • قم بتنزيل الملف المضغوط الذي يحتوي على ملفات .gpr واحفظه في هذا المجلد (أو انقله إذا تم حفظه في مجلد مختلف).
          • قم بفك ضغط هذا الملف باستخدام 7-zip. انقر بزر الماوس الأيمن على الملف وحدد عنصر القائمة ، "7-zip & gt Extract Here".

          ضمن تسوية الصفيف لرقائق أونتاريو

          • قم بتشغيل R x64 3.1.0 (تأكد من أنك تستخدم الإصدار 64 بت).
          • قم بتغيير الدليل إلى المجلد الذي يحتوي على ملف الأهداف وملفات GPR الخاصة بشرائح أونتاريو عن طريق تحديد عنصر القائمة File & gt Change dir. والنقر على الدليل المناسب. ستحتاج إلى النقر فوق علامة + للانتقال إلى الدليل الصحيح. بمجرد تحديده ، انقر فوق "موافق".
          • في R ، حدد عنصر القائمة File & gt Source R code. وحدد السيناريو Ontario_Chip_Within-Array_Normalization_modified_20150514.R.
            • سيُطلب منك مربع حوار فتح لملف أهداف أونتاريو. حدد الملف Ontario_Targets_wt-dCIN5-dGLN3-dHAP4-dHMO1-dSWI4-dZAP1-Spar_20150514.csv وانقر فوق فتح.
            • انتظر بينما يعالج R ملفاتك.

            ضمن تسوية الصفيف لرقائق GCAT وبين تسوية الصفيف لجميع الرقائق

            • تفترض هذه التعليمات أنك قد أكملت للتو تسوية المصفوفة الداخلية لرقائق أونتاريو في القسم أعلاه.
            • في R ، حدد عنصر القائمة File & gt Source R code. وحدد النص ضمن-Array_Normalization_GCAT_and_Merged_Ontario-GCAT_Between-Chip_Normalization_modified_20150514.R.
              • سيُطلب منك مربع حوار مفتوح لملف أهداف GCAT. حدد الملف GCAT_Targets.csv وانقر فوق فتح.
              • انتظر بينما يعالج R ملفاتك.
              • احفظ هذه الملفات في LionShare و / أو محرك أقراص فلاش.

              تصور البيانات الطبيعية

              قم بإنشاء مخططات MA و Box Plots لرقائق GCAT

              أدخل الكود التالي ، سطراً بسطر ، في نافذة R الرئيسية. اضغط على مفتاح الإدخال بعد كل كتلة من الكود.

              • إذا تلقيت رسالة تقول "تم إنتاج NaNs" ، فلا بأس بذلك ، فانتقل إلى الخطوة التالية.
              • إذا تلقيت رسائل التحذير هذه ، فلا بأس:
              • تكبير النافذة التي ظهرت فيها الرسوم البيانية. احفظ الرسوم البيانية بتنسيق JPEG (ملف & gtSave As & gtJPEG & gt100٪ quality.). بمجرد حفظ الرسوم البيانية ، أغلق النافذة. لمتابعة بقية الرمز ، اكتب الحرف "c" واضغط على Enter
              • تكبير النافذة التي ظهرت فيها الرسوم البيانية. احفظ الرسوم البيانية بتنسيق JPEG (ملف & gtSave As & gtJPEG & gt100٪ quality.). بمجرد حفظ الرسوم البيانية ، أغلق النافذة. لمتابعة بقية الرمز ، اكتب الحرف "c" واضغط على Enter.
              • تكبير النافذة التي ظهرت فيها المؤامرات. قد لا ترغب في تكبيرها فعليًا لأنك قد تفقد التسميات الموجودة على المحور س ، ولكن اجعلها كبيرة بقدر ما تستطيع. احفظ المؤامرات بتنسيق JPEG (ملف & gtSave As & gtJPEG & gt100٪ quality.). بمجرد حفظ الرسوم البيانية ، أغلق النافذة.

              إنشاء مخططات MA و Box Plots لرقائق أونتاريو

              أدخل الكود التالي ، سطراً بسطر ، في نافذة R الرئيسية. اضغط على مفتاح الإدخال بعد كل كتلة من الكود.

              • رسالة تحذير: "تم إنتاج NaNs" على ما يرام.
              • رسائل التحذير على ما يرام:
              • بعد الدخول إلى متصفح المكالمات () أدناه ، قم بتكبير النافذة التي ظهرت فيها الرسوم البيانية. احفظ الرسوم البيانية بتنسيق JPEG (ملف & gtSave As & gtJPEG & gt100٪ quality.). بمجرد حفظ الرسوم البيانية ، أغلق النافذة واضغط على Enter لتظهر المجموعة التالية من الرسوم البيانية.
              • لمتابعة إنشاء المؤامرات ، اكتب الحرف c واضغط على Enter.
              • تذكر أنه بعد إدخال قراءة المكالمة ("اضغط على Enter للمتابعة") ، قم بتكبير النافذة التي ظهرت فيها الرسوم البيانية. احفظ الرسوم البيانية بتنسيق JPEG (ملف & gtSave As & gtJPEG & gt100٪ quality.). بمجرد حفظ الرسوم البيانية ، أغلق النافذة واضغط على Enter لتظهر المجموعة التالية من الرسوم البيانية.
              • لمتابعة إنشاء المؤامرات ، اكتب الحرف c واضغط على Enter.
              • لمتابعة إنشاء المؤامرات ، اكتب الحرف c واضغط على Enter.
              • التحذيرات على ما يرام.
              • قم بضغط ملفات المؤامرات معًا وتحميلها إلى LionShare باسم الملف 20150518_Microarray_Analysis_TM.zip
                • قم أيضًا بتضمين ملفات الإخراج GCAT_and_Ontario_Final_Normalized_Data و GCAT_and_Ontario_Within_Array_Normalization
                الخطوة السادسة: التحليل الإحصائي
                • بالنسبة للتحليل الإحصائي ، سنبدأ بالملف "GCAT_and_Ontario_Final_Normalized_Data.csv" الذي أنشأته في الخطوة السابقة.
                • افتح هذا الملف في Excel واحفظه باسم Excel Workbook * .xlsx. إنها لفكرة جيدة أن تضيف الأحرف الأولى من اسمك والتاريخ (yyyymmdd) إلى اسم الملف أيضًا.
                • أعد تسمية ورقة العمل بالبيانات "Compiled_Normalized_Data".
                  • اكتب العنوان "ID" في الخلية A1.
                  • أدخل عمودًا جديدًا بعد العمود A وقم بتسميته "الاسم القياسي". سيحتوي العمود B على الأسماء الشائعة للجينات على المصفوفة الدقيقة.
                    • انسخ عمود المعرفات بالكامل من العمود A.
                    • الصق الأسماء في حقل "القيمة" لقائمة ORF & lt- & gt أداة قائمة الجينات في YEASTRACT. ثم انقر فوق الزر "تحويل".
                    • حدد جميع الأسماء في عمود "اسم الجين" من الجدول الناتج.
                    • انسخ هذه الأسماء والصقها في العمود B من ملف * .xlsx. احفظ عملك.
                    • اكتب "1" في الخلية A2 و "2" في الخلية A3.
                    • حدد كلا الخليتين. قم بتمرير الماوس فوق الزاوية اليمنى السفلية من التحديد حتى يتم إنشاء علامة + سوداء رفيعة. انقر نقرًا مزدوجًا فوق علامة + لملء العمود بأكمله بسلسلة من الأرقام من 1 إلى 6189 (عدد الجينات في المصفوفة الدقيقة).
                    • انسخ الأعمدة الثلاثة الأولى من ورقة "Compiled_Normalized_Data" والصقها في الأعمدة الثلاثة الأولى من ورقة "Rounded_Normalized_Data".
                    • انسخ الصف الأول من ورقة "Compiled_Normalized_Data" والصقه في الصف الأول من ورقة "Rounded_Normalized_Data".
                    • في الخلية D2 ، اكتب المعادلة = ROUND (Compiled_Normalized_Data! D2،4).
                    • انسخ هذه المعادلة والصقها في باقي خلايا الصف 2.
                    • حدد جميع خلايا الصف 2 وقم بتمرير الماوس فوق الزاوية اليمنى السفلية من التحديد. عندما يتغير المؤشر إلى علامة "زائد" سوداء رفيعة ، انقر نقرًا مزدوجًا فوقه للصق المعادلة في جميع الصفوف في ورقة العمل. احفظ عملك.
                    • ارجع إلى ورقة "Rounded_Normalized_Data" وحدد الكل ونسخ.
                    • انقر فوق الخلية A1 من ورقة العمل "Master_Sheet". حدد Paste special & gt Paste القيم للصق القيم ، ولكن ليس الصيغ من الورقة السابقة. احفظ عملك.
                    • سيكون هناك بعض #VALUE! أخطاء في الخلايا حيث كانت هناك بيانات مفقودة للجينات التي كانت موجودة على رقائق أونتاريو ، ولكن ليس رقائق GCAT.
                      • حدد عنصر القائمة بحث / استبدال وابحث عن جميع الخلايا بـ "#VALUE!" واستبدالها بحرف مسافة واحد. سجل عدد الاستبدالات التي تم إجراؤها على دفتر المعمل الإلكتروني الخاص بك. احفظ عملك.

                      ANOVA داخل الانفعال

                      • الغرض من اختبار أنوفا witin-stain هو تحديد ما إذا كان هناك تغيير في التعبير الجيني لأي جينات يختلف اختلافًا كبيرًا عن الصفر عند أي نقطة زمنية.
                      • سيتم تعيين سلالة واحدة لكل طالب في المجموعة المعملية لتحليلها من هذه النقطة فصاعدًا.
                        • آنو وأمبير ناتالي (بالوزن)
                        • تيسا & amp Trixie (dcin5)
                        • ماكجي وأمبير نيكول (dgln3)
                        • مونيكا وأمبير جريس (dhap4)
                        • ويلي والدكتور د (dswi4)
                        1. قم بإنشاء ورقة عمل جديدة ، وأطلق عليها اسم "dCIN5_ANOVA"
                        2. انسخ جميع البيانات من ورقة العمل "Master_Sheet" من أجل إجهادك والصقها في ورقة العمل الجديدة.
                        3. في أعلى العمود الأول على يمين البيانات ، أنشئ خمسة رؤوس أعمدة من النموذج dCIN5_AvgLogFC_ (TIME) حيث (TIME) تساوي 15 و 30 و 60 و 90 وأخيراً 120.
                        4. في الخلية أسفل رأس dCIN5_AvgLogFC_t15 ، اكتب = AVERAGE (
                        5. ثم قم بتمييز جميع البيانات الموجودة في الصف 2 المرتبطة بـ dCIN5 و t15 ، واضغط على مفتاح قوس الإغلاق (التحول 0) ، واضغط على مفتاح "الإدخال".
                        6. تحتوي هذه الخلية الآن على متوسط ​​بيانات تغيير أضعاف السجل من الجين الأول عند t = 15 دقيقة.
                        7. انقر فوق هذه الخلية وضع المؤشر في الزاوية اليمنى السفلية. يجب أن ترى المؤشر يتغير إلى علامة زائد سوداء رفيعة (وليست بيضاء ممتلئة). عندما يحدث ذلك ، انقر نقرًا مزدوجًا ، وسيتم نسخ الصيغة بطريقة سحرية إلى عمود 6188 جينات أخرى بالكامل.
                        8. كرر الخطوات من (4) إلى (8) باستخدام بيانات t30 و t60 و t90 و t120.
                        9. الآن في العمود الفارغ الأول على يمين حساب dCIN5_AvgLogFC_t120 ، قم بإنشاء رأس العمود dCIN5_ss_HO.
                        10. في الخلية الأولى أسفل هذا الرأس ، اكتب = SUMSQ (
                        11. قم بتمييز جميع بيانات LogFC في الصف 2 لـ dCIN5 (ولكن ليس AvgLogFC) ، واضغط على مفتاح قوس الإغلاق (shift 0) ، واضغط على مفتاح "Enter".
                        12. في العمود الفارغ التالي على يمين dCIN5_ss_HO ، قم بإنشاء رؤوس العمود dCIN5_ss_ (TIME) كما في (3).
                        13. قم بتدوين عدد نقاط البيانات لديك في كل نقطة زمنية لإجهادك. بالنسبة لـ dHAP4 ، سيكون "3" ، أما بالنسبة للنوع البري فسيكون "4" أو "5". عد بعناية. قم أيضًا بتدوين العدد الإجمالي لنقاط البيانات. بالنسبة لـ dHAP4 ، سيكون هذا الرقم 15 ، لكن بالنسبة للوزن يجب أن يكون 23 (تحقق مرة أخرى).
                        14. في الخلية الأولى أسفل الرأس dCIN5_ss_t15 ، اكتب = SUMSQ (& ltrange of cells for logFC_t15 & gt) - & ltnumber of data Points & gt * & ltAvgLogFC_t15 & gt ^ 2 واضغط على Enter.
                          • يجب استبدال العبارة & ltrange of cells for logFC_t15 & gt بنطاق البيانات المرتبط بـ t15.
                          • يجب استبدال العبارة & ltnumber of data points & gt بعدد نقاط البيانات لتلك النقطة الزمنية (4).
                          • يجب استبدال العبارة & ltAvgLogFC_t15 & gt برقم الخلية الذي حسبت فيه AvgLogFC لـ t15 ، ومربعات "^ 2" تلك القيمة.
                          • عند الانتهاء من هذا الحساب الفردي ، استخدم خدعة الخطوة (7) لنسخ الصيغة في جميع أنحاء العمود.
                        15. كرر هذا الحساب لـ t30 إلى t120 من نقاط البيانات. مرة أخرى ، تأكد من الحصول على البيانات لكل نقطة زمنية ، واكتب العدد الصحيح لنقاط البيانات ، واحصل على المتوسط ​​من الخلية المناسبة لكل نقطة زمنية ، وانسخ الصيغة إلى العمود بأكمله لكل حساب.
                        16. في العمود الأول على يمين dCIN5_ss_t120 ، قم بإنشاء رأس العمود dCIN5_SS_full.
                        17. في الصف الأول أسفل هذا العنوان ، اكتب = sum (& ltrange من الخلايا التي تحتوي على "ss" لكل نقطة زمنية & gt) واضغط على Enter.
                        18. في العمودين التاليين إلى اليمين ، أنشئ الرأسي dCIN5_Fstat و dCIN5_p-value.
                        19. استدعاء عدد نقاط البيانات من (13): استدعاء هذا المجموع n.
                        20. في الخلية الأولى من العمود dCIN5_Fstat ، اكتب = ((20-5) / 5) * (& ltdCIN5_ss_HO & gt- & ltdCIN5_SS_full & gt) / & ltdICN5_SS_full & gt واضغط على Enter.
                          • استبدل العبارة dCIN5_ss_HO بتسمية الخلية.
                          • استبدل العبارة & ltdCIN5_SS_full & gt بتسمية الخلية.
                          • انسخ إلى العمود بأكمله.
                        21. في الخلية الأولى أسفل رأس قيمة dCIN5_p ، اكتب = FDIST (& ltdCIN5_Fstat & gt، 5، n-5) مع استبدال العبارة & ltdCIN5_Fstat & gt بتعيين الخلية و "n" كما في (13) بإجمالي عدد نقاط البيانات. انسخ إلى العمود بأكمله.
                        22. قبل أن ننتقل إلى الخطوة التالية ، سنجري فحصًا سريعًا للعقل لمعرفة ما إذا كنا قد أجرينا كل هذه الحسابات بشكل صحيح.
                          • انقر فوق الخلية A1 وانقر فوق علامة التبويب البيانات. حدد رمز الفلتر (يشبه قمعًا). يجب أن تظهر أسهم قائمة منسدلة صغيرة في أعلى كل عمود. سيمكننا ذلك من تصفية البيانات وفقًا للمعايير التي حددناها.
                          • انقر فوق سهم القائمة المنسدلة في عمود قيمة dCIN5_p. حدد "مرشحات الأرقام". في النافذة التي تظهر ، حدد معيارًا يقوم بتصفية بياناتك بحيث تكون قيمة p أقل من 0.05.
                          • سيعرض Excel الآن فقط الصفوف التي تتوافق مع البيانات التي تلبي معيار التصفية هذا. سيظهر رقم في الزاوية اليسرى السفلية من النافذة يعطيك عدد الصفوف التي تلبي هذا المعيار. سوف نتحقق من نتائجنا مع بعضنا البعض للتأكد من إجراء الحسابات بشكل صحيح.

                        احسب تصحيح قيمة Bonferroni و p

                        1. سنقوم الآن بإجراء تعديلات على القيمة p لتصحيح مشكلة الاختبار المتعددة. قم بتسمية العمودين التاليين إلى اليمين بنفس التسمية ، dCIN5_Bonferroni_p-value.
                        2. اكتب المعادلة = & ltdCIN5_p-value & gt * 6189 ، عند الانتهاء من هذا الحساب الفردي ، استخدم خدعة الخطوة (10) لنسخ الصيغة في جميع أنحاء العمود.
                        3. استبدل أي قيمة p مصححة أكبر من 1 بالرقم 1 بكتابة الصيغة التالية في الخلية الأولى أسفل رأس قيمة dCIN5_Bonferroni_p الثاني: = IF (AL2 & gt1،1، AL2). استخدم خدعة الخطوة (10) لنسخ الصيغة في العمود بأكمله.

                        احسب تصحيح القيمة p Benjamini & amp Hochberg

                        1. أدخل ورقة عمل جديدة باسم "dCIN5_B & ampH".
                        2. انسخ والصق عمودي "MasterIndex" و "ID" من ورقة العمل السابقة في أول عمودين من ورقة العمل الجديدة.
                        3. بالنسبة لما يلي ، استخدم قيم Paste special & gt Paste. انسخ قيم p غير المعدلة من ورقة عمل ANOVA والصقها في العمود C.
                        4. حدد جميع الأعمدة A و B و C. قم بالفرز حسب القيم الصاعدة في العمود C. انقر فوق زر الفرز من A إلى Z على شريط الأدوات ، في النافذة التي تظهر ، قم بالفرز حسب العمود C ، من الأصغر إلى الأكبر.
                        5. اكتب العنوان "رتبة" في الخلية D1. سننشئ سلسلة من الأرقام بترتيب تصاعدي من 1 إلى 6189 في هذا العمود. هذه هي رتبة القيمة p ، من الأصغر إلى الأكبر. اكتب "1" في الخلية D2 و "2" في الخلية D3. حدد كلا الخليتين A2 و A3. انقر نقرًا مزدوجًا فوق علامة الجمع الموجودة في الركن الأيمن السفلي من اختيارك لملء العمود بسلسلة من الأرقام من 1 إلى 6189.
                        6. الآن يمكنك حساب تصحيح قيمة Benjamini و Hochberg p. اكتب قيمة dCIN5_B-H_p في الخلية E1. اكتب الصيغة التالية في الخلية E2: = (C2 * 6189) / D2 واضغط على Enter. انسخ هذه المعادلة إلى العمود بأكمله.
                        7. اكتب "dCIN5_B-H_p-value" في الخلية F1.
                        8. اكتب الصيغة التالية في الخلية F2: = IF (E2 & gt1،1، E2) واضغط على Enter. انسخ هذه المعادلة إلى العمود بأكمله.
                        9. حدد الأعمدة من A إلى F. والآن قم بفرزها حسب MasterIndex في العمود A بترتيب تصاعدي.
                        10. انسخ العمود F واستخدم قيم Paste special & gt Paste للصقها في العمود التالي على يمين ورقة ANOVA.
                        • قم بتحميل ملف .xlsx الذي قمت بإنشائه للتو إلى LionShare. إرسال بريد إلكتروني للدكتور دالكويست مع رابط الملف. اسم الملف GCAT_and_Ontario_Final_Normalized_Data_20150518_TM.xlsx

                        التحقق من الصحة: ​​تغير عدد الجينات بشكل كبير

                        • انتقل إلى ورقة عمل dCIN5_ANOVA الخاصة بك.
                        • حدد الصف 1 (الصف الذي يحتوي على رؤوس الأعمدة) وحدد عنصر القائمة Data & gt Filter & gt Autofilter (رمز مسار التحويل في علامة التبويب البيانات). يجب أن تظهر أسهم قائمة منسدلة صغيرة في أعلى كل عمود. سيمكننا ذلك من تصفية البيانات وفقًا للمعايير التي حددناها.
                        • انقر فوق سهم القائمة المنسدلة لقيمة p غير المعدلة. قم بتعيين معيار يقوم بتصفية بياناتك بحيث تكون قيمة p أقل من 0.05.
                          • كم عدد الجينات التي تحتوي على p & lt 0.05؟ وما هي النسبة (من 6189)؟
                          • كم عدد الجينات التي تحتوي على p & lt 0.01؟ وما هي النسبة (من 6189)؟
                          • كم عدد الجينات التي تحتوي على p & lt 0.001؟ وما هي النسبة (من 6189)؟
                          • كم عدد الجينات التي تحتوي على p & lt 0.0001؟ وما هي النسبة (من 6189)؟
                          • كم عدد الجينات p & lt 0.05 لقيمة p المصححة Bonferroni؟ وما هي النسبة (من 6189)؟
                          • كم عدد الجينات p & lt 0.05 لقيمة p المصححة من Benjamini و Hochberg؟ وما هي النسبة (من 6189)؟

                          البيانات & أمبير ؛ ملاحظات

                          • 1995 / 6189 32.23%
                          • 1157 / 6189 18.69%
                          • 566 / 6189 9.15%
                          • 280 / 6189 4.52%
                          • 109 / 6189 1.76%
                          • 1117 / 6189 18.05%
                          • القيمة الاحتمالية غير المعدلة: 7.49666059264864E-08
                          • قيمة p المصححة من Bonferroni: 0.000463968324079024
                          • قيمة p المصححة: 0.0000386640270065854
                          • dCIN5_AvgLogFC_15: 4.046975
                          • dCIN5_AvgLogFC_30: 3.39825
                          • dCIN5_AvgLogFC_60: 4.2347
                          • dCIN5_AvgLogFC_90: -2.8035
                          • dCIN5_AvgLogFC_120: -0.948275

                          الملفات المرفوعة أو المحدثة

                          Initial_Statistical_Analysis_Slide_TM.pptx التحليل الإحصائي للنقاط الزمنية بشكل عام
                          GCAT_and_Ontario_Final_Normalized_Data_20150518_TM.xlsx (Lionshare) يحتوي على ANOVA ضمن الإجهاد ، و Bonferroni و p تصحيح القيمة ، وتصحيح قيمة Benjamini & amp Hochberg p


                          1. الخلفية

                          تقنية Microarray هي طريقة جينومية قوية تمكن الباحثين من تحديد مستويات التعبير لأعداد كبيرة من الجينات في وقت واحد في تجربة واحدة. يمكن أن تكون المصفوفات أحادية القناة (أحادية اللون ، راجع تقنية Affymetrix) ، والتي تحدد التعبير المطلق للجينات في ظروف تجريبية محددة ، أو قناتين (ثنائي اللون ، cf. cdNA technology). الغرض الرئيسي من تجربة ميكروأري ثنائية اللون هو تحديد الجينات التي يتم التعبير عنها تفاضليًا في عينتين. على الرغم من أن هذه التكنولوجيا قد أعطت إمكانات علمية هائلة في فهم عمليات تنظيم الجينات ، إلا أن العديد من مصادر التباين المنهجي يمكن أن تؤثر على مستويات التعبير الجيني المقاسة. الغرض من تطبيع البيانات هو تقليل تأثيرات الاختلافات التجريبية و / أو التقنية ، بحيث يمكن إجراء مقارنات بيولوجية ذات مغزى ويمكن العثور على تغييرات بيولوجية حقيقية في تجربة واحدة وبين تجارب متعددة. تم اقتراح العديد من الأساليب وتبين أنها فعالة ومفيدة في تقليل الأخطاء المنهجية داخل المصفوفات وفيما بينها ، سواء بالنسبة للتكنولوجيا أحادية القناة أو ثنائية القناة [1-3]. اقترح بعض المؤلفين تطبيع شدة التهجين ، بينما فضل آخرون تطبيع نسب الشدة. استخدم البعض طرقًا خطية عالمية ، بينما استخدم البعض الآخر طرقًا محلية غير خطية. اقترح البعض استخدام ضوابط spike-in ، أو جينات التدبير المنزلي ، أو الجينات الثابتة ، بينما فضل البعض الآخر جميع الجينات الموجودة في المصفوفة.

                          بشكل عام ، يمكن تقسيم تطبيع المصفوفات الدقيقة إلى التطبيع داخل المصفوفات ، لتصحيح تأثيرات الصبغة ، وعبر المصفوفات ، لموازنة اختلافات التوزيع بين التجارب. العديد من تقنيات المعالجة المسبقة المقترحة مؤخرًا للتكنولوجيا ثنائية القناة تسمح بالتطبيع المشترك داخل التجارب وعبرها ، كما ورد في الأوراق الأصلية ([4] لـ vsn / glog و [5] لـ q-splines). في الواقع ، يتم إجراء تحويلات Glog و q-spline على مصفوفة التعبير الجيني حيث يتم النظر في القناتين بشكل منفصل ، مما يسمح بتقليل التحيز المنهجي داخل المصفوفات وعبرها. على الرغم من أنه تم اقتراح العديد من إجراءات التطبيع ، إلا أنه لا يزال من غير الواضح أي طريقة تتفوق بشكل موحد على الآخرين في ظل ظروف تجريبية مختلفة. تقارن الأعمال الحديثة [6-8] ، من خلال البيانات المحاكاة ، طرق التطبيع من حيث التحيز أو التباين أو متوسط ​​الخطأ التربيعي أو خطأ في التصنيف المتقاطع للتحقق من الصحة. إذا أخذنا في الاعتبار تقنية القناة ثنائية القناة ، فإن Park et al. [7] أظهر أنه ، في بعض الحالات ، يؤدي التطبيع المعتمد على الكثافة أداءً أفضل من التطبيع العالمي البسيط ، بينما أثار [3،9] القلق من أن إزالة التأثيرات المكانية قد تضيف ضوضاء إضافية إلى البيانات العادية ، مما يشير إلى أن البديل الآمن هو قم بإزالة تأثير الشدة على المستوى المحلي فقط. وبالتالي ، فإن تقييم تأثيرات التطبيع في تحليل بيانات المصفوفة الدقيقة لا يزال يمثل قضية مهمة ، لأن التحليلات اللاحقة ، مثل اختبارات التعبير التفاضلي ، يمكن أن تعتمد بشكل كبير على اختيار إجراء التطبيع. على سبيل المثال ، Durbin et al. [10] أظهر أن نسبة التعبير المحولة بالسجل لها تباين كبير جدًا لقيم التعبير القريبة من 0. هذا التأثير يعاقب التعبير التفاضلي ، خاصة بالنسبة لمستويات التعبير العالية. قد يتم في الواقع إجراء اختبارات الفرضية للتعبير التفاضلي بشكل أكثر فعالية على البيانات التي تم تحويلها بحيث يكون لها تباين ثابت. يقارن هوفمان وزملاؤه [11] تأثير عمليات التطبيع المختلفة على تحديد الجينات المعبر عنها تفاضليًا ضمن تقنية Affymetrix واستخدام مجموعة بيانات حقيقية. يلاحظون ، من خلال مقارنة قوائم الجينات ، أن التطبيع له تأثير عميق على اكتشاف الجينات المعبر عنها تفاضليًا.

                          علاوة على ذلك ، فإن مشروع مراقبة الجودة MicroArray (MAQC) [12] ، المصمم خصيصًا لمعالجة إمكانية استنساخ تقنية المصفوفة الدقيقة من خلال مقارنة النتائج التي تم الحصول عليها عبر منصات المصفوفات المختلفة ، يختار التحليل الإحصائي على أساس تقنية التطبيع واختيار الجينات باعتباره العامل الحاسم. خطوات لتحسين التكاثر [13].

                          عندما يتم اعتماد تجارب ميكروأري لأغراض التشخيص ، يبدو أن هذه النتيجة أساسية لأن العلماء يبحثون عن قائمة ببعض جينات علامات علم الأمراض. يمكن تعريف جينات العلامة على أنها جينات تميز ملفات تعريف التعبير الخاصة بها بين عينات الحالة وعينات التحكم. من المحتمل أن نفترض أن القائمة الكاملة لواسمات الحالة تتكون من مئات الجينات ، شديدة الترابط ومتورطة في الغالب في عدد قليل من سلاسل الإشارات. القليل منهم فقط يكمن في المنبع في سلسلة الإشارات هذه ويكونون مسؤولين عن التعبير التفاضلي لجميع الجينات الأخرى. ومن ثم ، إذا كان للمعالجة المسبقة المختلفة تأثير على تحديد الجينات المعبر عنها تفاضليًا ، فقد تؤدي إلى قوائم مختلفة من الواسمات. الهدف من هذا العمل هو مقارنة وتقييم تأثير إجراءات التطبيع المختلفة المقترحة لتكنولوجيا المصفوفة ثنائية القناة على تحديد جينات الواسمات. سنستخدم كل من البيانات المحاكاة والحقيقية المشتقة من cDNA و oligo microarray (تقنية ثنائية اللون).

                          يتيح لنا استخدام نهج المحاكاة دراسة حساسية وخصوصية الاختبارات بعد التطبيع ومقارنة أداء الأساليب المختلفة. ومع ذلك ، يمكن التشكيك في محاكاة بيانات المصفوفة الدقيقة للحمض النووي ، ويرجع ذلك أساسًا إلى (1) العلاقة بين التعبير والعوامل التجريبية المعنية غير مثبتة نظريًا ، و (2) التوزيع الإحصائي للتعبير التفاضلي المعطى بواسطة أسباب مختلفة عبر الجينات لا يزال مثيرًا للجدل. من أجل معالجة مثل هذه القضايا ، نعتمد فئتين مختلفتين من نماذج المحاكاة.

                          على الرغم من أننا وجدنا اختلافًا محدودًا في الحساسيات والخصوصيات للاختبارات بعد كل تطبيع ، فإن الدراسة تسلط الضوء على تأثير قوي من حيث ترتيب الجينات ، مما أدى إلى مستويات مختلفة من الاتفاق بين التطبيع المتنافس. أخيرًا ، نظهر أن الجمع بين اثنين من التطبيع ، مثل glog و lowess ، اللذين يتعاملان مع جوانب مختلفة من بيانات المصفوفات الدقيقة ، قادر على التفوق في الأداء على التقنيات الفردية الأخرى.


                          أساليب

                          هنا امتداد نموذج EB-LNN بافتراض تباينات خاصة بالجينات [8 ، 30] من خلال β-التباعد ، والذي أطلقنا عليه اسم βتمت مناقشة نهج -EB لتحديد جينات DE. تم أيضًا وصف مجموعات بيانات التعبير الجيني المحاكية والحقيقية التي قمنا بتحليلها لاستقصاء أداء الطريقة المقترحة.

                          نموذج هرمي بايز التجريبي

                          إذا كانت المعلمة الخاصة بالنص θ t = (μ t ، θ t ∗) ، أين ميكرومتر ر و θ t ∗ هي معلمات الموقع والمقياس على التوالي ، ثم الاحتمال الشرطي لـ ر قياس تعبير النص ذ ر= (ذر 1,ذر 2,…,ذ تينيسي) بالصيغة ∏ i = 1 n f obs y ti | θ ر (ر=1,2,…,تي). معلمة الموقع ميكرومتر ر يتبع التوزيع السابق ، Π(ميكرومتر ر|θ)، أين θ هي المعلمة الفائقة التي تحدد التوزيع السابق. الاحتمالية التنبؤية لـ ذ ر (غير مشروط بمعلمة الموقع ميكرومتر ر) من خلال الدمج عبر معلمة الموقع ، ميكرومتر ر، على النحو التالي:

                          عندما تتم مقارنة قياسات التعبير بين مجموعتين (على سبيل المثال ، أنواع خلايا مختلفة) للنص ر، يتم تقسيم القياسات إلى مجموعتين يحددهما المستخدم جي1 و جي2 من الأحجام ن1 و ن2 على التوالي ، أين ن1 + ن2 =ن. إذا لم يكن هناك فرق كبير بين وسائل المجموعتين ، فيُفترض أن يتم التعبير عن الجين بالتساوي (EE) وإلا ، يُفترض أنه جين DE. إذا كان ر النسخة هي DE ، سيكون للمجموعتين مستويات تعبير مختلفة ، μ t (j) ، j = 1 ، 2. بالنظر إلى قيم μ t (j) و j = 1 و 2 و θ t ∗ ، فإن الاحتمال الشرطي لـ y t = y t (1): y t (2) مكتوب على النحو التالي:

                          لأن مكونات ذ رمستقلة عن بعضها البعض. بافتراض أن المجموعة تعني μ t (j) ، j = 1 ، 2 (مثل أن μ t (1) ≠ μ t (2)) تنشأ بشكل مستقل من Π(ميكرومتر ر|θ) ، ثم الاحتمالية التنبؤية لـ ذ ر (غير المشروط على معلمات الموقع μ t (j) ، j = 1 ، 2) يتم الحصول عليها كوسيلة لاحتمالية مشروطة ذ ر(2) فوق التوزيع السابق لـ μ t (1) و μ t (2) على النحو التالي:

                          لأنه من غير المعروف ما إذا كان ملف ر الجين هو EE أو DE بين المجموعتين ، الاحتمال النهائي لـ ذ ر(غير مشروط بمعلمات الموقع) يصبح مزيجًا من توزيعين (1) و (3) على النحو التالي:

                          هنا، ص0 و ص1 هي نسب الخلط لنصوص EE و DE في المجموعتين المحددتين من قبل المستخدم على التوالي ، بحيث ص0 + ص1 = 1. يتم حساب الاحتمال اللاحق للتعبير التفاضلي (PPDE) بواسطة قاعدة بايز باستخدام تقديرات ص0, F0 و F1 على النحو التالي:

                          وتجدر الإشارة هنا إلى أن θ و θ t ∗ في المعادلات (1) - (5) يفترض أنها متطابقة تمامًا.

                          أقصى β- تقدير احتمالية توزيع الخليط باستخدام خوارزمية تشبه EM لحسابها β- الاحتمالات اللاحقة للتعبيرات التفاضلية

                          اقترح بوكس ​​وكوكس [38] مجموعة من تحويلات القوة للمتغير التابع في تحليل الانحدار لتقوية افتراض الحالة الطبيعية. باختيار قيمة مناسبة لـ λ في التحول ،

                          يتناسب نموذج الانحدار الخطي القياسي مع افتراض الحالة الطبيعية جيدًا مع مجموعة واسعة من البيانات. مستوحاة من هذه الفكرة يا باسو وآخرون[36] واقترح مينامي وإيجوتشي [37] طريقة قوية وفعالة لتقدير معامل النموذج θ من خلال تقليل تباعد القدرة الكثافة في إطار عام للنمذجة والاستدلال الإحصائي. لقد أظهروا أيضًا [36 ، 37] أن مقلل تباعد قدرة الكثافة إلى الحد الأقصى يعادل βوظيفة احتمالية. وفقًا للمشكلة الحالية في هذه الورقة ، فإن β- وظيفة الاحتمال ل θ بالنظر إلى قيم معامل الخلط ص0 = 1 − ص1 ومعلمة مقياس الجين المحدد θ t ∗ للجميع ر يمكن كتابتها كـ

                          أين F(.) هو خليط التوزيعات على النحو المحدد في (4) و l β (θ) = 1 1 + β ∫ f β + 1 (y | θ، θ t ∗، p 0) dy - β - 1 وهو مستقلة عن الملاحظات. لأن التدرج اللوني (6) يمكن تحويله على النحو التالي ،

                          الحد الأقصى β-مقدر الاحتمالية (β-MLE) من θ يمكن اعتباره مقدر احتمالية مرجح (شبه). ثم وزن الجين ر يوصف كدالة قوة لاحتمالية ، f β (y t | θ ، θ t ∗ ، p 0) ، حيث F(.) يعرف بالمعادلة (4). وبالتالي ، فإن الجينات ذات الاحتمالية المنخفضة لها أنماط تعبير غير متوقعة ولها أوزان منخفضة لأن دالة الكثافة الطبيعية تنتج مخرجات أصغر لمدخلات أكبر. من خلال تعيين أوزان منخفضة للقيم المتطرفة ، يصبح الاستدلال قوياً. يتضح من ذلك (7) β-MLE يقلل من MLE الكلاسيكي ل β = 0. نظرًا لأن نمط التعبير (EE أو DE) لكل جين غير معروف ، فمن الصعب تحسين كل من وظيفة احتمالية السجل الكلاسيكية والوظيفة المقترحة β- وظيفة الاحتمال للتقدير المباشر θ. للتغلب على هذه المشكلة ، نعتبر الحصول على خوارزمية تشبه EM β-MLE من θ معاملة توزيع الخليط (4) على أنه كثافة بيانات غير كاملة. المعلمات المفرطة θ ونسبة الخلط ص0 يتم تقديرها بواسطة خوارزمية EM على النحو التالي:

                          المعلمات الفائقة ، θ,ص0 يتم تقديرها بواسطة خوارزمية EM في خطوتين. الخطوة الإلكترونية: احسب دالة Q التي يتم تحديدها من خلال التوقع الشرطي للبيانات الكاملة β- الاحتمال فيما يتعلق بالتوزيع المشروط للبيانات المفقودة (ض) بالنظر إلى البيانات المرصودة (ص) وقيمة المعلمة المقدرة الحالية θ β (ي) على النحو التالي:

                          أين ك = 0 من أجل ذ ر ينتمي إلى نمط EE و ك = 1 من أجل ذ ر ينتمي إلى نمط DE. هنا

                          التي لا تعتمد على الملاحظات ،

                          هو الاحتمال اللاحق ك النمط عشر للجين ر وقيمة ص1 = 1 − ص0 بواسطة صيغة EM منفصلة على النحو التالي:

                          بالنسبة إلى β → 0 ، تقلل وظيفة Q المقترحة Q β (θ | θ (j)) إلى وظيفة Q القياسية س(θ|θ (ي)) من مناهج بايز التجريبية القياسية [8 ، 30].

                          خطوة م: تجد θ (ي + 1) عن طريق تعظيم وظيفة Q المقترحة كما هو محدد في (8). استمر في تكرارات EM حتى تقارب التقديرات المتتالية لـ θ. تقدير θ بعد التقارب يعتبر β-MLE من θ وفقًا لخصائص EM.

                          معلمة الضبط ، β، يتحكم في التوازن بين متانة وكفاءة المقدرين. من خلال تحديد قيمة مبدئية لـ β0، يتم تقدير القيمة المثلى من خلال تعظيم القيمة التنبؤية β0- احتمالية عبر التحقق من صحة خمسة أضعاف. يتم تقسيم مجموعة البيانات إلى خمس مجموعات فرعية حسب النصوص. لكل قيمة β، التنبؤية β0- يتم احتساب احتمالية كل مجموعة فرعية على أساس الحد الأقصى β- تقديرات احتمالية للمعلمات بناءً على باقي البيانات. وأخيرا، فإن β القيمة التي تزيد من متوسط ​​التنبؤ β0- يتم تحديد الاحتمالية على أنها القيمة المثلى لـ β. لمزيد من المعلومات حول β- الاختيار ، يرجى مراجعة [39 ، 40].

                          بعد ذلك ، بناءً على القيم التقديرية لمعلمات النموذج ، يمكننا حساب PPDE بين مجموعتين من ذ ر باستخدام المعادلة (5) للجميع ر. ومع ذلك ، قد ينتج عن PPDE للجين الملوث باستخدام المعادلة (5) نتيجة مضللة ، نظرًا لأن PPDE لـ ذ ر يعتمد على القيم التقديرية للمعلمات وقياسات ذ ر. للتغلب على هذه المشكلة ، اكتشفنا استخدام الجينات الملوثة β- وظيفة الوزن واستبدال القياسات الملوثة في ذ رمن خلال وسائل مجموعتها. ثم نحسب PPDE للملوثات ذ ر باستخدام المعادلة (5) أيضًا. يعتمد PPDE على β-MLE ، ندعو β-PPDE في هذه الورقة. مناقشة التفاصيل لحساب βتتم مناقشة -PPDE تحت نموذج LNN أدناه في نموذج LNN.

                          نموذج LNN

                          في هذا البحث ، نستخدم نموذج LNN الهرمي لحساب الاحتمال اللاحق للتعبيرات التفاضلية. في نموذج LNN ، يُفترض أن قياسات التعبير الجيني المحولة بالسجل تتبع التوزيع الطبيعي لكل جين مع المعلمة الخاصة بالنسخة θ t = (μ t ، θ t ∗) ، حيث ميكرومتر ر هو المتوسط ​​الخاص بالنص و θ t ∗ = σ t 2 هو التباين الخاص بالنسخة للجين ر[8 ، 30]. مترافق سابق لـ ميكرومتر ر يُفترض أنه يتبع الطبيعي مع بعض المتوسط ​​الأساسي ميكرومتر0والتباين τ 0 2 أي Π μ t | θ ∼ N (μ 0، τ 0 2) حيث θ = (μ 0، τ 0 2). بالتكامل كما في (1) ، الكثافة F0(·) لملف ن- إدخال الأبعاد يصبح غاوسيًا بمتجه متوسط ميكرومتر0 = (μ 0، μ 0، ...، μ 0) t ومصفوفة تغاير قابلة للتبديل على النحو التالي:

                          أين أنا ن هو ن × ن مصفوفة الهوية و م نهي مصفوفة الآحاد.

                          يتم حساب التباين النوعي للجين σ t 2 بشكل منفصل بافتراض التوزيع المسبق لـ σ t 2 كمقياس معكوس χ 2 (ν ∗ ، σ ∗ 2) ، حيث ν هي درجات الحرية و σ ∗ 2 هي المعلمة المقاسة. يانغ وآخرون [30] اقترح أنه يمكن تقدير σ t 2 بواسطة مقدر Bayes المحدد على أنه ،


                          2 طرق

                          2.1 تعريف النموذج

                          في المشكلة التي ندرسها ، عادة ما يكون هناك متغيرين أو أكثر من المتغيرات ذات الأهمية. عادةً ما يكون أحدها هو الوقت ، وهو متغير كمي (في نوع التجارب التي تم أخذها في الاعتبار لهذا النهج ، يكون الوقت عادةً هو المتغير المستقل ، ومع ذلك ستقبل المنهجية أيضًا المتغيرات التجريبية المستمرة الأخرى ، مثل المعلمة الفسيولوجية الكمية) . المتغيرات الأخرى عادة ما تكون متغيرات نوعية (مثل العلاجات المختلفة ، والسلالات ، والأنسجة ، وما إلى ذلك) وتمثل المجموعات التجريبية التي يتم البحث عن اختلافات التعبير الجيني الزمني من أجلها. من أجل الوضوح في العرض ، سيتم اعتبار متغير أو عامل نوعي واحد فقط هنا.

                          يجب ألا يكون هناك أنا المجموعات التجريبية الموصوفة بواسطة المتغير النوعي الذي تم تقييمه في ي النقاط الزمنية لكل حالة معينة اي جاي (أنا = 1, … , أنا و ي = 1, … , ي). افترض أنه تم قياس التعبير الجيني ن الجينات في راي جاي تهجين متكرر.

                          نحدد أنا - 1 متغيرات وهمية (متغيرات ثنائية) للتمييز بين كل مجموعة ومجموعة مرجعية (الجدول 1).

                          تعريف المجموعات التجريبية ذات المتغيرات الوهمية

                          تعريف المجموعات التجريبية ذات المتغيرات الوهمية

                          يحدد هذا النموذج ضمنيًا العديد من النماذج مثل المجموعات التجريبية. على سبيل المثال ، نموذج المجموعة الأولى هو y 1 jr = β 0 + δ 0 T 1 jr + γ 0 T 1 jr 2 + ⋯ + λ 0 T 1 jr J - 1 + ɛ 1 jr ⁠ ، منذ ذلك الحين في هذه المجموعة جميع الدمى 0 وللمجموعة الثانية y 2 jr = (β 0 + β 1) + (δ 0 + δ 1) T 2 jr + (γ 0 + γ 1) T 2 jr 2 + ⋯ + (λ 0 + λ 1) T 2 jr J - 1 + 2 jr ⁠. في هذا المثال β1، δ1، γ1،…، λ1 قياس الفروق بين المجموعتين (المرجع) الثانية والأولى المتعلقة بالمجموعات الخطية والتربيعية وما إلى ذلك و (ي - 1) تأثيرات الترتيب الزمني على التوالي.

                          2.2 نموذج الانحدار الأول: اختيار الجينات

                          يولد هذا التحليل الأول ن جداول ANOVA كما هو موضح في الجدول 2 ، واحد لكل جين. سيظهر الجين ذو السمات المختلفة بين المجموعة المرجعية وأي مجموعة تجريبية أخرى بعض المعامل ذي الدلالة الإحصائية ، وسيكون نموذج الانحدار المقابل له ذو دلالة إحصائية. ال ص-القيمة المرتبطة بـ F- يستخدم الإحصاء في نموذج الانحدار العام لاختيار الجينات المهمة. هذه ص- يتم تصحيح القيمة لمقارنات متعددة من خلال تطبيق إجراء معدل الاكتشاف الخاطئ (BH) الخطي (Reiner) وآخرون. ، 2002). لذلك ، سيتم اختيار الجينات ذات FDR أقل من عتبة محددة مسبقًا.

                          طاولة ANOVA. y ^ هي قيمة التعبير المتوقعة ، y ¯ هي متوسط ​​قيمة التعبير و ص هو عدد المتغيرات في النموذج (ترتيب متعدد الحدود +1) أنا − 1 = JI − 1

                          مصدر . مجموع المربعات (SC). درجات الحرية . متوسط ​​مربع الخطأ . F-إحصائية.
                          تراجع SCR = ∑ i j r (y ^ i j r - y ¯) 2 صSCR/ ص (SCR / p) SCE / [∑ i، j R i، j - (p + 1)]
                          خطأ SCE = ∑ i j r (y i j r - y ^ i j r) 2 ∑ i، j R i j - (p + 1) SCE ∑ i، j R i j - (p + 1)
                          المجموع S C T = ∑ i j r (y i j r - y ¯) 2 ∑ i، j R i j - 1
                          مصدر . مجموع المربعات (SC). درجات الحرية . متوسط ​​مربع الخطأ . F-إحصائية.
                          تراجع SCR = ∑ i j r (y ^ i j r - y ¯) 2 صSCR/ ص (SCR / p) SCE / [∑ i، j R i، j - (p + 1)]
                          خطأ SCE = ∑ i j r (y i j r - y ^ i j r) 2 ∑ i، j R i j - (p + 1) SCE ∑ i، j R i j - (p + 1)
                          المجموع S C T = ∑ i j r (y i j r - y ¯) 2 ∑ i، j R i j - 1

                          طاولة ANOVA. y ^ هي قيمة التعبير المتوقعة ، y ¯ هي متوسط ​​قيمة التعبير و ص هو عدد المتغيرات في النموذج (ترتيب متعدد الحدود +1) أنا − 1 = JI − 1

                          مصدر . مجموع المربعات (SC). درجات الحرية . متوسط ​​مربع الخطأ . F-إحصائية.
                          تراجع SCR = ∑ i j r (y ^ i j r - y ¯) 2 صSCR/ ص (SCR / p) SCE / [∑ i، j R i، j - (p + 1)]
                          خطأ SCE = ∑ i j r (y i j r - y ^ i j r) 2 ∑ i، j R i j - (p + 1) SCE ∑ i، j R i j - (p + 1)
                          المجموع S C T = ∑ i j r (y i j r - y ¯) 2 ∑ i، j R i j - 1
                          مصدر . مجموع المربعات (SC). درجات الحرية . متوسط ​​مربع الخطأ . F-إحصائية.
                          تراجع SCR = ∑ i j r (y ^ i j r - y ¯) 2 صSCR/ ص (SCR / p) SCE / [∑ i، j R i، j - (p + 1)]
                          خطأ SCE = ∑ i j r (y i j r - y ^ i j r) 2 ∑ i، j R i j - (p + 1) SCE ∑ i، j R i j - (p + 1)
                          المجموع S C T = ∑ i j r (y i j r - y ¯) 2 ∑ i، j R i j - 1

                          2.3 خطوة الانحدار الثانية: اختيار متغير

                          بمجرد العثور على نماذج جينية ذات دلالة إحصائية ، يمكن استخدام معاملات الانحدار للنماذج لتحديد الظروف التي تُظهر فيها الجينات تغييرات ملحوظة إحصائيًا في المظهر الجانبي. للقيام بذلك ، يتم الحصول على نموذج جديد فقط للجينات المختارة ، وتطبيق استراتيجية اختيار متغيرة (الانحدار التدريجي ، درابر وسميث ، 1998). الانحدار التدريجي هو نهج الانحدار التكراري الذي يختار من بين مجموعة من المتغيرات المحتملة "الأفضل" (وفقًا لمعيار محدد) لملاءمة البيانات المتاحة. في هذه العملية ، يتم حساب الدلالة الإحصائية لمعاملات الانحدار للمتغيرات الموجودة في النموذج في كل تكرار ويتم حساب تلك المتغيرات فقط مع ص- يتم الحفاظ على القيمة تحت عتبة معينة (النوع الأول من المخاطر). في هذه الحالة ، فإن تطبيق FDR لإجراء مقارنات متعددة ليس بالأمر السهل نظرًا لحقيقة ذلك ص- تختلف القيم المرتبطة بكل معامل مع تطور النموذج. لذلك ، نطبق حدًا يجب أن يحدده الباحث. نوصي بتصحيح مستوى الأهمية المطلوب لإجمالي العدد المحتمل للمتغيرات في النموذج. ستكون المتغيرات المدرجة في هذه النماذج الجديدة هي تلك التي تشير إلى الاختلافات في الملفات الشخصية. توفر حزمة maSigPro أنواعًا مختلفة من الانحدار التدريجي: للخلف وللأمام وللخلف خطوة بخطوة وللأمام خطوة بخطوة. نهج الاختيار المتغير هذا له تأثير مزدوج: من ناحية ، فإنه يوفر اختلافات كبيرة بين المجموعات التجريبية ، ومن ناحية أخرى ، فإنه يولد نموذج انحدار مناسب للبيانات. هذا يعني أنه بالنسبة لكل جين ومجموعة تجريبية ، يمكن الحصول على انحدارات متعددة الحدود من درجة مختلفة (حتى الحد الأقصى المعطى في البداية في صياغة النموذج). ستولد الطريقة بالتالي مصفوفة بها العديد من الصفوف مثل الجينات المهمة والعديد من الأعمدة كمعلمات في نموذج الانحدار الكامل [المعادلة (1)]. تحتوي مصفوفة النتائج هذه على معلومات (المعامل المقدر و ص-value) لتلك المتغيرات التي بقيت في نموذج كل جين. الجدول 3 هو مثال توضيحي لمصفوفة النتائج هذه.

                          مصفوفة النتائج لمعاملات الانحدار لملاءمة اختيار المتغير. يتم إعطاء الجينات في صفوف ومعلمات النموذج في الأعمدة. تتم تسمية معاملات الانحدار المرتبطة بنفس المتغيرات الوهمية بنفس الرقم. تشير قيمة NA لمعاملات الانحدار إلى أن المتغير لم يكن ذا دلالة إحصائية لهذا الجين (تحت عتبة معينة ، النوع الأول من المخاطر)

                          مصفوفة النتائج لمعاملات الانحدار لملاءمة اختيار المتغير. يتم إعطاء الجينات في صفوف ومعلمات النموذج في الأعمدة. تتم تسمية معاملات الانحدار المرتبطة بنفس المتغيرات الوهمية بنفس الرقم. تشير قيمة NA لمعاملات الانحدار إلى أن المتغير لم يكن ذا دلالة إحصائية لهذا الجين (تحت عتبة معينة ، النوع الأول من المخاطر)

                          توفر هذه المصفوفة إطارًا لاختيار الجينات المهمة لكل متغير من النموذج الكامل ولكل مجموعة تجريبية. على سبيل المثال ، للعثور على الجينات التي لها اختلافات كبيرة في المجموعة 2 فيما يتعلق بالمجموعة المرجعية ، تلك الجينات التي لها معاملات ذات دلالة إحصائية للمتغيرات المرتبطة بالدمية 1 (د1، الوقت × د1، … ، زمن ي −1 × د1) ، أي الجينات التي لها قيمة β كبيرة1، δ1،…، λ1 المعاملات (الأعمدة المسمى 2 في الجدول 3). بالإضافة إلى ذلك ، تسمح دراسة متغيرات النماذج الفردية بالتركيز على تقييم اختلافات الأنماط المحددة. على سبيل المثال ، تحليل معاملات الانحدار للمتغير الوقت × د1 يسمح بتصنيف الجينات لسلوكها المختلف في مكون النموذج الخطي (أي الاستقراء أو القمع) للمجموعة 2 فيما يتعلق بالمجموعة المرجعية. تتضمن حزمة maSigPro وظائف لأداء أنواع مختلفة من اختيار الجينات بسهولة في هذه المرحلة.

                          حتى الآن خير الملاءمة (ر-squared) من النماذج الجديدة. هذا يعني أن جميع الجينات المهمة هي جينات مختارة. ومع ذلك ، قد يكون الباحث مهتمًا فقط بالجينات ذات الاتجاهات الواضحة لأن هذا قد يعكس سلوكيات ذات مغزى بيولوجيًا. في مثل هذه الحالة ، يسمح maSigPro بخطوة إضافية لاختيار الجينات بناءً على ر- القيمة المربعة لنموذج الانحدار الثاني.

                          2.4 التصور

                          توفر حزمة maSigPro عددًا من الوظائف للتحليل المرئي للنتائج. يمكن بسهولة إنشاء قطع فردية من ملفات تعريف التعبير بواسطة المجموعة التجريبية لكل جين مهم. يمكن أيضًا تركيب منحنيات الانحدار المحسوبة لتصور النمذجة التي تم الحصول عليها للبيانات. عندما يكون عدد الجينات المحددة كبيرًا ، يمكن استخدام خوارزميات الكتلة لتقسيم البيانات إلى مجموعات من أنماط التعبير المتشابهة. يدمج maSigPro عددًا من خوارزميات التجميع التقليدية للقيام بذلك. تستخدم هذه الخوارزميات عادةً بيانات التعبير الجيني لحساب المجموعات. بالإضافة إلى ذلك ، يوفر maSigPro بديلًا للتجميع يستخدم معاملات الانحدار المقدرة بدلاً من البيانات الأصلية. سيعمل هذا الخيار على تجميع الجينات على أساس التغييرات المهمة إحصائيًا في ملف التعريف ، مع تجاهل ضجيج البيانات التي تمت إزالتها بواسطة النموذج المقدر. بمجرد الحصول على المجموعات ، يعرض maSigPro كلاً من ملف تعريف التعبير المستمر على طول جميع الظروف التجريبية وملف تعريف التعبير المتوسط ​​بواسطة مجموعة تجريبية لكل مجموعة. يساعد التمثيل الأول في تحليل تجانس المجموعات بينما يوفر الثاني تصورًا مفيدًا للاختلافات بين المجموعات لجينات كل مجموعة.


                          مناقشة

                          يعد تطوير تواقيع التعبير الجيني النذير تحديًا رئيسيًا في أبحاث السرطان السريرية. كنا نهدف إلى تحليل ومقارنة طرق الجين المفرد ومجموعة الجينات المستخدمة بشكل شائع للتصنيف النذير جنبًا إلى جنب مع الأساليب الحديثة القائمة على الشبكة والتي تتضمن تكامل شبكات PPI مع معلومات التعبير الجيني [8 ، 11]. لتركيز بحثنا على القيمة المحتملة لهذه الأساليب الجديدة المستندة إلى شبكة PPI ، استبعدنا الطرق التي تتطلب معلومات إضافية بعد ذلك بداهة المعرفة PPI. للسبب نفسه ، قمنا أيضًا بتقييد مقارنتنا بنهج مجموعة الجينات (التعبير الوسيط ، [30 ، 39]) والذي يعتبر تناظريًا مباشرًا لطريقة إحصاء t ذات الجين المفرد [30] التي تم النظر فيها أيضًا هنا. علاوة على ذلك ، وللمرة الأولى ، أجرينا تحليلًا على مستوى المرضى الأفراد وكذلك فيما يتعلق بالفئات التي تتم مقارنتها (جيد مقابل التشخيص السيئ). أجرينا تحليلاتنا باستخدام معلومات ميكروأري للتعبير الجيني من دراستين تم الإبلاغ عنهما سابقًا في سرطانات منفصلة (الورم الميلاني [13] والمبيض [15]) واستخدمنا معلومات PPI من شبكتين مختلفتين (MetaCore ™ و iRefWeb [50]). تضمنت كل طريقة من الطرق التي تم تحليلها خوارزمية لاختيار الميزة والتي تبعها التصنيف في R [53] باستخدام كل من المصنفات الثلاثة المختلفة: RF و SVM و DLDA. تم تقدير جميع معدلات أخطاء التصنيف باستخدام 100 جولة من 5 أضعاف السيرة الذاتية [54].

                          حققت الأساليب أحادية الجين ومجموعة الجينات والشبكة معدلات خطأ مماثلة ، مما يؤكد الملاحظات السابقة ويؤكد الأسئلة حول قيمتها

                          اكتشافنا الأول - أن الطرق المختلفة حققت معدلات خطأ متشابهة فيما يتعلق ببعضها البعض - تؤكد صحة الملاحظات السابقة بحلول [19–21]. على وجه التحديد ، لم يتفوق أي من المصنفات التي تستخدم ميزات مركبة مشتقة من مصادر بيانات PPI الثانوية (الأساليب القائمة على الشبكة) على نهج الجين الفردي / مجموعة الجينات الكلاسيكية. لاحظنا أيضًا أن أدائهم من حيث معدلات الخطأ يختلف باختلاف مجموعة بيانات السرطان التي يجري تحليلها. على سبيل المثال، NetRank حقق أقل معدلات خطأ بشكل عام في مجموعة سرطان الجلد ، وهي نتيجة لم تصمد باستخدام مجموعة بيانات سرطان المبيض ولكنها كانت متوافقة مع نتائج [55] الذين لاحظوا أنه من بين 25 مجموعة بيانات قاموا بتحليلها ، NetRank تفوقت على عدد من الطرق الكلاسيكية أحادية الجين في 23 منها.

                          أشارت التحليلات على مستوى المريض إلى وجود قيمة يمكن اكتسابها من الأساليب القائمة على الشبكة

                          لقد وصفت التقارير السابقة ذات الصلة وناقشت النهج أحادي الجين ومجموعة الجينات والشبكة لنمذجة توقيع التعبير الجيني بدرجات متفاوتة [6 ، 56]. ومع ذلك ، فإن هذه الأعمال لم تحلل بشكل مباشر ولم تنظر بالتفصيل في طرق ترجمة طرق اختيار الميزات هذه إلى إطار تصنيف عام. من بين الدراسات السابقة التي أجريت تقييمات رسمية ، كان التركيز على المصنفات القائمة على الشبكة والمسارات للتنبؤ بالنتائج في سرطانات الثدي [19-21] أو على مقارنة تأثير استخدام أنواع مختلفة من المعلومات البيولوجية الخارجية في عملية التعلم مثل التعليقات التوضيحية الوظيفية ، ومثبطات مضخة البروتون ، وارتباط التعبير بين الجينات [57]. علاوة على ذلك ، استخلصت هذه الدراسات السابقة استنتاجاتها بناءً على معدلات خطأ التصنيف بشكل أساسي ، في حين أن الجدة المعينة لهذه الدراسة هي أننا نظرنا (لأول مرة) في نتائجنا على مستوى أكثر تعمقًا للمرضى الأفراد. في هذا الإطار ، لاحظنا أن طرقًا مختلفة كانت تلتقط مجموعات فرعية مختلفة من مساحة العينة أي. ، كانت الأساليب المختلفة لتصنيف العينات المختلفة بشكل صحيح. تشير هذه النتائج إلى أن هناك حاجة إلى طرق تصنيف مركبة جديدة لالتقاط القيمة التكميلية للنهج القائمة على الشبكة ومجموعة الجينات والنهج الكلاسيكي للجين الفردي.

                          تسلط تحليلات معدلات الخطأ ضمن فئتي البقاء الجيد والفقير الضوء على الحاجة إلى نهج مركب لنمذجة توقيع التعبير الجيني

                          اكتشافنا أن العينات المأخوذة من فئة GP كان من الأسهل تصنيفها في الورم الميلانيني ، ولكن كان من الأسهل تصنيف عينات من فئة PP في سرطان المبيض ، مما يسلط الضوء على الاعتماد الأساسي لمجموعة البيانات على نهج مجموعة الجينات والشبكة هذه. نلاحظ أيضًا بعض الاختلافات العامة بين مجموعات البيانات. أداء معتدل ر-تحليل التعبير التفاضلي الإحصائي على كل مجموعة بيانات (ملف إضافي 9 - النتائج التكميلية: مقارنة بين مجموعة بيانات سرطان المبيض ومجموعة بيانات سرطان الجلد) ، وجدنا أن مجموعة بيانات سرطان الجلد تحتوي على 96 جينًا من الجينات (ص-value & lt 0.1) بينما تحتوي مجموعة بيانات سرطان المبيض على 13 جينًا فقط من DE. يمكن أن تقدم هذه الملاحظة تفسيراً لسبب تركيز الأساليب على تحديد الجينات المعلوماتية الفردية (الجين المفرد الخاضع للإشراف ر- الأسلوب الإحصائي و NetRank طريقة الشبكة) أداء أفضل على مجموعة بيانات سرطان الجلد مقارنة ببيانات سرطان المبيض. علاوة على ذلك ، لم يكن هناك تداخل بين أكثر 100 جينة من DE من كل مجموعة بيانات. باستخدام مقياس تايلور للارتباط التفاضلي ، وعتبة تعسفية قدرها 0.5 ، وجدنا أن مجموعة بيانات الورم الميلانيني تحتوي على 23 شبكة فرعية لمحاور الارتباط التفاضلي ومجموعة بيانات سرطان المبيض احتوت فقط على 7. وبالتالي بشكل عام يبدو كما لو أن مجموعة بيانات سرطان الجلد تحتوي على المزيد من الميزات التفاضلية بين فئتي PP و GP مقارنة بمجموعة بيانات المبيض ، مما قد يفسر معدلات الخطأ المنخفضة التي تم الحصول عليها للورم الميلانيني.

                          NetRank هو النهج الأكثر استقرارًا ، حيث يدعم القيمة المحتملة للنهج المستندة إلى الشبكة للتنبؤ

                          تم إبراز تقييمنا لاستقرار الميزات المحددة في كل طريقة NetRank [11] باعتباره النهج الأكثر استقرارًا في كلا النوعين من السرطان. تتوافق هذه النتيجة مع الملاحظات التي تم إجراؤها بواسطة [55] الذين وجدوا أن التوقيعات المرتبطة بالسرطان تم تحديدها بواسطة NetRank كان لها تداخل كبير بين مجموعات البيانات التي اعتبروها. أظهرت الدراسة أيضًا أن إجراء التصنيف على مجموعات البيانات بهدف التصنيف إلى فئات تنبؤية (كما كان الهدف هنا) كان أقل دقة بشكل ملحوظ مما كان عليه عندما كان الهدف هو معالجة مشاكل التصنيف أو التصنيف الفرعي. تؤكد هذه النتيجة مرة أخرى أن دمج معلومات الشبكة قد يؤدي إلى تحديد توقيعات التعبير الجيني الأكثر استقرارًا.

                          تم التحقق من صحة النتائج في شبكة PPI مستقلة ، مما يشير إلى ثبات الشبكة في أساليب الشبكة

                          يوضح إعادة إنتاج النتائج التي تم الحصول عليها باستخدام شبكة iRefWeb PPI ولكن بدلاً من ذلك استخدام شبكة MetaCore ™ PPI أن أساليب الشبكة لا تعتمد بشكل كبير على شبكة PPI المستخدمة. لتعزيز هذا الادعاء ، نلاحظ أيضًا أنه على الرغم من احتواء الشبكتين على العديد من نفس البروتينات ، إلا أنهما مختلفتان نوعًا ما عن بعضهما البعض من حيث البنية العامة (الملف الإضافي 9 - النتائج التكميلية: مقارنة بين شبكات MetaCore ™ و iRefWeb PPI).

                          مشاكل الشبكة المستمرة

                          لا تزال المناهج المستندة إلى الشبكة لها قيود مهمة على نتيجة أهميتها للترجمة. في شبكة PPI ، تتوافق العقد مع جينات ترميز البروتين ، ووجود حافة بين اثنين من هذه الجينات يعني أن البروتينات المشفرة بواسطة تلك الجينات تتفاعل في بيئة بيولوجية. إحدى أهم المشكلات في تحليل شبكة PPI هي عدم دقة الشبكات المتاحة وعدم موثوقيتها. وقد لوحظ أنه من بين العدد الهائل من الشبكات المتاحة حاليًا ، هناك القليل جدًا من التداخل والاتساق بينها [58-61]. حاليًا ، النهجان الرئيسيان لتحديد تفاعلات البروتين البروتين هما الخميرة ثنائية الهجين (Y2H) وتنقية تقارب المجمعات متبوعًا بقياس الطيف الكتلي (AP-MS). يمكن العثور على تفاصيل حول هذه الأساليب في [62]. علاوة على ذلك ، على الرغم من العدد الهائل لقواعد بيانات PPI المتاحة للجمهور والخاصة ، لا توجد قاعدة بيانات تفاعلية تغطي الجينوم البشري بأكمله. ومع ذلك ، هناك مشاريع جارية ، مثل مشروع التفاعل البشري [63] ، بهدف تطوير خريطة كاملة لمؤشر أسعار المنتجين البشرية. على الرغم من أن دراستنا أظهرت أن أساليب الشبكة لا تعتمد بشكل كبير على شبكة PPI المستخدمة ، إلا أن التوضيح الكامل لمدى وصول بداهة المعلومات التي تؤثر على النتائج تظل سؤالًا مفتوحًا.


                          نتائج

                          العد لكل مليون: مقياس بسيط قابل للتفسير لتقييم التعبير التفاضلي

                          نفترض أن ملفات تعريف RNA-seq (أو المكتبات) متوفرة لمجموعة من ن عينات الحمض النووي الريبي يسجل كل ملف تعريف عدد القراءات التسلسلية من تلك العينة التي تم تعيينها لكل ملف جي السمات الجينومية. يمكن أن تكون السمة الجينومية أي مجموعة فرعية محددة مسبقًا من النسخ ، على سبيل المثال نسخة ، أو إكسون أو جين. من أجل التبسيط ، سنفترض طوال هذه المقالة أن القراءات تم تلخيصها بواسطة الجين ، بحيث تعطي ملفات تعريف RNA-seq عدد القراءات من كل عينة تم تعيينها لكل جين. عادة جي كبير ، بعشرات الآلاف أو أكثر ، بينما ن يمكن أن تصل إلى ثلاثة. العدد الإجمالي للقراءات المعينة (حجم المكتبة) لكل عينة قد تختلف من بضع مئات الآلاف إلى مئات الملايين. هذا هو نفس السياق الذي افترضه عدد من المواد السابقة [13 ، 18 ، 20 ، 21 ، 34].

                          عدد القراءات التي لوحظت لجين معين يتناسب ليس فقط مع مستوى التعبير للجين ولكن أيضًا مع طول نسخة الجين وعمق تسلسل المكتبة. قسمة كل عدد قراءة على حجم المكتبة المقابل (بالملايين) ينتج عنه تعداد لكل مليون (cpm) ، وهو مقياس بسيط لوفرة القراءة التي يمكن مقارنتها عبر المكتبات ذات الأحجام المختلفة. يؤدي التوحيد القياسي لطول النص (بالكيلوباس) إلى ظهور قراءات لكل كيلو قاعدة لكل مليون (rpkm) ، وهو مقياس مقبول جيدًا للتعبير الجيني [35]. في هذه المقالة ، سنعمل باستخدام cpm أبسط بدلاً من rpkm ، لأننا مهتمون بالتغييرات النسبية في التعبير بين الشروط بدلاً من التعبير المطلق.

                          تتعامل هذه المقالة مع log-cpm على أنها مماثلة لقيم كثافة السجل من تجربة ميكروأري ، مع اختلاف أنه لا يمكن معاملة قيم log-cpm على أنها تحتوي على تباينات ثابتة. يمكن تفسير الاختلافات في log-cpm بين العينات على أنها تغييرات لوغاريتمية للتعبير. يتم زيادة الأعداد بقيمة موجبة صغيرة (نصف قراءة واحدة) لتجنب أخذ لوغاريتم الصفر. هذا يضمن عدم وجود قيم مفقودة من سجل التكلفة لكل ألف ظهور ويقلل من التباين عند قيم العد المنخفض.

                          استقرت اللوغاريتمات في الدقيقة في التباينات عند التهم العالية

                          التوزيعات الاحتمالية للتعداد هي بشكل طبيعي غير متجانسة ، مع تباينات أكبر للتهم الأكبر. لقد قيل سابقًا أن علاقة التباين المتوسط ​​لتعداد RNA-seq يجب أن تكون تربيعية تقريبًا [34]. يؤدي هذا إلى استنتاج مفاده أن معامل الاختلاف (CV) لتعداد RNA-seq يجب أن يكون دالة متناقصة لحجم العد بالنسبة للتهم الصغيرة إلى المتوسطة ، ولكن بالنسبة للتهم الأكبر يجب أن يكون مقاربًا لقيمة تعتمد على التباين البيولوجي. على وجه التحديد ، يجب أن تكون السيرة الذاتية المربعة للتهم تقريبًا

                          أين λ هو الحجم المتوقع للعدد و ϕ هو مقياس للتنوع البيولوجي [34]. ينشأ المصطلح الأول من التباين التقني المرتبط بالتسلسل ، ويتناقص تدريجياً مع حجم العد المتوقع ، بينما يظل التباين البيولوجي ثابتًا تقريبًا. بالنسبة للتهم الكبيرة ، يتم تحديد السيرة الذاتية بشكل أساسي من خلال الاختلاف البيولوجي.

                          يشير حساب خطي بسيط إلى أن الانحراف المعياري لـ log-cpm يجب أن يكون مساويًا تقريبًا للسيرة الذاتية للتهم (انظر المواد والطرق). يؤكد فحص مجموعة واسعة من مجموعات البيانات الحقيقية هذه التوقعات. بالنسبة للدراسات التي تكون فيها التكرارات تقنية بطبيعتها ، ينخفض ​​الانحراف المعياري لـ log-cpm بشكل مطرد كدالة للمتوسط ​​(الشكل 1 أ). بالنسبة للدراسات التي تكون فيها التكرارات عبارة عن فئران متطابقة وراثيًا ، فإن الخطوط المقاربة للانحراف المعياري عند مستوى معتدل تقابل سيرة ذاتية بيولوجية تبلغ حوالي 10 ٪ (الشكل 1 ب). تظهر الدراسات التي تكون فيها التكرارات أفرادًا بشريين غير مرتبطين تباينًا بيولوجيًا أكبر. بالنسبة لهذه الدراسات ، يقارب الانحراف المعياري مبكرًا وعلى مستوى مرتفع نسبيًا (الشكل 1 د).

                          علاقات متوسط ​​التباين. يتم تمثيل الوسائل والتباينات الجينية لبيانات RNA-seq بنقاط سوداء ذات اتجاه منخفض. يتم ترتيب المؤامرات عن طريق زيادة مستويات التباين البيولوجي في مجموعات البيانات. (أ) اتجاه voom لجينات HBRR و UHRR للعينات A و B و C و D من التباين الفني لمشروع SEQC فقط. (ب) تجربة ماوس C57BL / 6J و DBA تباين بيولوجي منخفض المستوى. (ج) دراسة المحاكاة في وجود 100 جين منظم و 100 جين منظم للتنوع البيولوجي متوسط ​​المستوى. (د) خطوط الخلايا الليمفاوية النيجيرية عالية المستوى الاختلاف البيولوجي. (هـ) ذبابة الفاكهة سوداء البطن مراحل التطور الجنيني عالية جدا الاختلاف البيولوجي بسبب الاختلافات المنهجية بين العينات. (F) اتجاهات أقل في voom لمجموعات البيانات (أ) - (هـ). HBRR ، Ambion's Human Brain Reference RNA LOWESS ، الانحدار المرجح محليًا UHRR ، الحمض النووي الريبي المرجعي البشري العالمي من Stratagene.

                          نستنتج أن قيم log-cpm تُظهر عمومًا اتجاهًا متناقصًا لمتوسط ​​التباين بسلاسة مع حجم العد ، وأن تحويل log-cpm تقريبًا يزيل اتجاهات تباين RNA-seq كدالة لحجم العد للجينات ذات التهم الأكبر .

                          استخدام log-cpm في خط أنابيب limma

                          تتمثل الطريقة البسيطة لتحليل بيانات تسلسل الحمض النووي الريبي في إدخال قيم سجل cpm في خط أنابيب تحليل ميكروأري راسخ مثل ذلك الذي توفره حزمة برامج limma [3 ، 9]. من المتوقع أن يتصرف هذا بشكل جيد إذا كانت جميع الأعداد كبيرة بشكل معقول ، لكنه يتجاهل اتجاه متوسط ​​التباين للأعداد الأقل. يجب أن يتصرف خط أنابيب ميكروأري بشكل أفضل إذا تم تعديله ليشمل اتجاه متوسط ​​التباين كجزء من نمذجة التباين. لذلك قمنا بتعديل إجراء Bayes التجريبي لحزمة Limma بحيث يتم ضغط التباينات الجينية نحو منحنى اتجاه متوسط ​​التباين العالمي بدلاً من اتجاه تباين مجمع ثابت. هذا مشابه من حيث المبدأ للإجراء الذي اقترحه سارتور وآخرون. [36] لبيانات المصفوفات الدقيقة ، باستثناء أننا نمذجة الاتجاه باستخدام خط الانحدار ويسمح تطبيقنا باحتمال فقدان القيم أو اختلاف درجات الحرية المتبقية بين الجينات. نسمي هذه الاستراتيجية ليما تريند، حيث يتم تحليل قيم log-cpm بالنسبة لبيانات microarray ولكن مع تباين سابق مائل. للمقارنة ، سيتم استدعاء النهج الأكثر سذاجة بدون اتجاه متوسط ​​التباين limma-notrend.

                          Voom: نمذجة التباين على مستوى المراقبة

                          يمثل خط أنابيب Limma-Trend التباين على مستوى الجينات. ومع ذلك ، في تطبيقات RNA-seq ، قد تختلف أحجام العد بشكل كبير من عينة إلى أخرى لنفس الجين. قد يتم ترتيب عينات مختلفة إلى أعماق مختلفة ، لذلك قد تختلف أحجام العد المختلفة تمامًا حتى لو كانت قيم cpm هي نفسها. لهذا السبب ، نرغب في وضع نموذج لاتجاه التباين المتوسط ​​لقيم log-cpm على مستوى الملاحظة الفردية ، بدلاً من تطبيق تقدير التباين على مستوى الجين على جميع الملاحظات من نفس الجين.

                          تتمثل استراتيجيتنا في تقدير اتجاه التباين المتوسط ​​لأعداد القراءة المسجلة واستخدام علاقة التباين المتوسط ​​هذه للتنبؤ بالتباين في كل قيمة سجل لكل دقيقة. ثم يتم تغليف التباين المتوقع كوزن معكوس لقيمة log-cpm. عندما يتم دمج الأوزان في إجراء النمذجة الخطية ، يتم التخلص بشكل فعال من علاقة التباين المتوسط ​​في قيم log-cpm.

                          تتمثل الصعوبة الفنية في أننا نريد توقع تباينات الملاحظات الفردية على الرغم من أنه لا يوجد ، بحكم التعريف ، أي تكرار على مستوى المراقبة يمكن من خلاله تقدير الفروق. نحن نعمل على حل هذا الإزعاج من خلال تقدير اتجاه التباين المتوسط ​​على مستوى الجينات ، ثم استيفاء هذا الاتجاه للتنبؤ بتباينات الملاحظات الفردية (الشكل 2).

                          النمذجة متوسط ​​التباين voom. (أ) يتم رسم الانحرافات المعيارية المتبقية الجينية للجذر التربيعي مقابل متوسط ​​عدد السجلات. (ب) يتم إعطاء علاقة وظيفية بين الوسائل الجينية والتباينات من خلال ملائمة منخفضة للنقاط. (ج) يمكّن اتجاه متوسط ​​التباين كل ملاحظة من التعيين إلى قيمة الانحراف المعياري للجذر التربيعي باستخدام قيمته المجهزة لحساب السجل. أقل ، انحدار مرجح محليًا.

                          الخوارزميه تؤدي كما تتبع. أولاً ، يتم تركيب النماذج الخطية الجينية لقيم log-cpm الطبيعية ، مع مراعاة التصميم التجريبي وظروف المعالجة والتكرار وما إلى ذلك. هذا يولد انحرافًا معياريًا متبقيًا لكل جين (الشكل 2 أ). ثم يتم ضبط اتجاه قوي للانحرافات المعيارية المتبقية كدالة لمتوسط ​​عدد السجلات لكل جين (الشكل 2 ب).

                          تتوفر أيضًا من النماذج الخطية قيمة مناسبة لكل ملاحظة log-cpm. مع أخذ أحجام المكتبة في الاعتبار ، يتم تحويل سجل cpm المجهز لكل ملاحظة إلى عدد متوقع. ثم يتم استيفاء اتجاه الانحراف المعياري للتنبؤ بالانحراف المعياري لكل ملاحظة فردية بناءً على حجم التعداد المتوقع (الشكل 2 ج). أخيرًا ، يصبح الانحراف المعياري المتنبأ بالعكس التربيعي لكل ملاحظة هو الوزن لهذه الملاحظة.

                          ثم يتم إدخال قيم log-cpm والأوزان المرتبطة بها في خط أنابيب التعبير التفاضلي القياسي لـ limma. تم تصميم معظم وظائف limma لقبول الأوزان الكمية ، مما يوفر القدرة على إجراء تحليلات تشبه المصفوفات الدقيقة مع مراعاة علاقة التباين المتوسط ​​لقيم log-cpm على مستوى المراقبة.

                          يتحكم voom و limma-trend في معدل الخطأ من النوع الأول بشكل صحيح

                          لقد وجدنا أن اتجاه voom و limma ، وخاصة voom ، يعملان بشكل جيد وينتجان ص القيم التي تتحكم في معدلات الخطأ بشكل صحيح عبر مجموعة واسعة من سيناريوهات المحاكاة. للتوضيح ، نقدم نتائج من عمليات المحاكاة التي تم فيها إنشاء أعداد قراءة تحت نفس نموذج NB كما هو مفترض من قبل عدد من طرق تحليل RNA-seq الحالية. يجب أن تمثل هذه المحاكاة الطريقة المثالية للطرق القائمة على NB. إذا كان من الممكن أن تقدم الطرق العادية أداءً مشابهًا للطرق القائمة على العد أو أفضل منها في هذه المحاكاة ، فهذا دليل قوي على أنها ستكون قادرة على المنافسة عبر مجموعة واسعة من أنواع البيانات.

                          تمت محاكاة ستة مكتبات تعداد RNA-seq مع تعداد 10000 جين. تم التعامل مع المكتبات الثلاث الأولى كمجموعة 1 والأخرى كمجموعة 2. تمت محاكاة توزيع قيم cpm لكل مكتبة لمطابقة التوزيع الذي لاحظناه لمجموعة بيانات RNA-seq حقيقية من ممارستنا الخاصة. تشتت ملحوظة ϕ تم ضبطه على التناقص في المتوسط ​​مع حجم العد المتوقع ، مع الاقتراب من 0.2 تربيع للتهم الكبيرة. تمثل هذه الدرجة من التباين البيولوجي ما نلاحظه لبيانات RNA-seq الحقيقية ، كونها أكبر مما نلاحظه عادةً بين فئران المختبر المتطابقة وراثيًا ولكن أقل مما نراه عادةً بين الأشخاص غير المرتبطين بالبشر (الشكل 1). تشتت فردي ϕ تم إنشاؤه لكل جين حول الاتجاه وفقًا لتوزيع مربع كاي العكسي مع 40 درجة من الحرية. يظهر اتجاه التباين المتوسط ​​voom لإحدى مجموعات البيانات المحاكاة في الشكل 1 ج. يمكن أن نرى من الشكل 1 أن مجموعة البيانات المحاكاة هي وسيطة بين بيانات الماوس (الشكل 1 ب) والبيانات البشرية (الشكل 1 د) من حيث الحجم المطلق للتشتت ومن حيث عدم تجانس التشتت بين الجينات.

                          وجدنا أن الاختلاف في عمق التسلسل بين المكتبات كان له تأثير ملحوظ على بعض طرق تحليل RNA-seq. ومن ثم تم تكرار جميع عمليات المحاكاة في إطار سيناريوهين لحجم المكتبة ، أحدهما بنفس عمق التسلسل لجميع المكتبات الست والآخر مع تباين كبير في عمق التسلسل. في سيناريو الحجم المتساوي ، تمت محاكاة جميع المكتبات لتحتوي على 11 مليون قراءة. في سيناريو الحجم غير المتكافئ ، تمت محاكاة المكتبات ذات الأرقام الفردية للحصول على عمق تسلسل يبلغ 20 مليون قراءة بينما كان للمكتبات ذات الأرقام الزوجية عمق تسلسل يبلغ مليوني قراءة. ومن ثم تمت محاكاة نفس العدد الإجمالي للقراءات في هذا السيناريو ولكن تم توزيعها بشكل غير متساو بين المكتبات.

                          في المجموعة الأولى من عمليات المحاكاة ، قمنا بفحص قدرة voom و limma-trend على التحكم في معدل الخطأ من النوع الأول بشكل صحيح في غياب أي تعبير تفاضلي حقيقي بين المجموعتين. عندما لا توجد جينات معبر عنها تفاضليًا حقًا ، يكون الجين حكيمًا ص يجب أن تتبع القيم توزيعًا موحدًا تقريبيًا. إذا تم التحكم في معدل الخطأ من النوع الأول بشكل صحيح ، فإن النسبة المتوقعة من ص يجب أن تكون القيم الموجودة أسفل أي حد أقل من قيمة القطع أو مساوية لها. تم تضمين عدد من طرق تحليل RNA-seq الشائعة بناءً على توزيعات NB أو Poisson للمقارنة. يوضح الشكل 3 نتائج أ ص قطع القيمة 0.01. نتائج عمليات القطع الأخرى متشابهة نوعيا. لم يتم العثور على أي من الطرق المستندة إلى NB أو Poisson للتحكم في معدل الخطأ من النوع الأول بدقة شديدة. عندما تكون أحجام المكتبات متساوية ، كانت أساليب NB و Poisson ليبرالية بشكل مفرط ، باستثناء DESeq الذي يعتبر متحفظًا للغاية. عندما تكون أحجام المكتبات غير متكافئة ، أصبح DSS و DESeq متحفظين للغاية. على النقيض من ذلك ، كانت جميع الطرق العادية متحفظة بعض الشيء. ينتج voom نتائج قريبة جدًا من معدل الخطأ الاسمي من النوع الأول لكل من سيناريوهات حجم المكتبة. يشبه limma-trend voom عندما تكون أحجام المكتبة متساوية ولكنها متحفظة إلى حد ما عندما تكون أحجام المكتبة غير متساوية.

                          معدلات الخطأ من النوع الأول في حالة عدم وجود تعبير تفاضلي حقيقي. تُظهر مخططات الشريط نسبة الجينات بـ ص& lt0.01 لكل طريقة (أ) عندما تكون أحجام المكتبة متساوية و (ب) عندما تكون أحجام المكتبة غير متساوية. يُظهر الخط الأحمر معدل الخطأ الاسمي من النوع الأول البالغ 0.01. تم حساب النتائج في المتوسط ​​على أكثر من 100 محاكاة. يجب أن تكون الطرق التي تتحكم في خطأ النوع الأول عند المستوى الاسمي أو أقل منه أسفل الخط الأحمر.

                          لم يتم تضمين baySeq في مقارنة معدل الخطأ من النوع الأول لأنه لا يعود ص القيم. ومع ذلك ، تظهر النتائج المعروضة في القسم التالي أنها متحفظة نسبيًا من حيث معدل الاكتشاف الخاطئ (FDR) (الشكل 4).

                          القدرة على اكتشاف التعبير التفاضلي الحقيقي. تُظهر الأشرطة العدد الإجمالي للجينات التي تم اكتشافها باعتبارها ذات دلالة إحصائية (FDR & lt 0.1) (أ) بأحجام مكتبة متساوية و (ب) مع أحجام مكتبة غير متساوية. تُظهر المقاطع الزرقاء عدد الإيجابيات الحقيقية بينما تُظهر المقاطع الحمراء إيجابيات خاطئة. يتم التعبير عن 200 جين بشكل تفاضلي حقًا. تم حساب النتائج في المتوسط ​​على أكثر من 100 محاكاة. يظهر ارتفاع الأشرطة الزرقاء قوة تجريبية. تُظهر نسبة المقاطع الحمراء إلى الزرقاء FDR التجريبي. FDR ، معدل الاكتشاف الخاطئ.

                          للتحقق من تحفظ voom على البيانات الحقيقية ، استخدمنا مجموعة من أربع مكتبات مكررة من مشروع SEQC [37].كانت جميع المكتبات الأربع عبارة عن ملفات تعريف Illumina HiSeq 2000 RNA-seq لعينات من Ambion's Human Brain Reference RNA (HBRR) [38]. قمنا بتقسيم المكتبات الأربع إلى مجموعتين بكل الطرق الممكنة ، واختبرنا التعبير التفاضلي بين المجموعتين لكل قسم. لم يُرجع voom أي جينات معبر عنها تفاضليًا عند 5 ٪ FDR لستة من الأقسام السبعة المحتملة ، مما يشير إلى تحكم جيد في معدل الخطأ. يظهر في الشكل 1 أ اتجاه تباين متوسط ​​voom لبيانات SEQC ، باستخدام جميع المكتبات بدلاً من عينات HBRR فقط.

                          يتمتع voom بأفضل الطرق التي تتحكم في معدل الخطأ من النوع الأول

                          بعد ذلك قمنا بفحص القدرة على اكتشاف التعبير التفاضلي الحقيقي. بالنسبة لعمليات المحاكاة التالية ، تم تنظيم 100 جين تم اختياره عشوائيًا مرتين في المجموعة الأولى وتم تنظيم 100 جين آخر مرتين في المجموعة الثانية. يمثل هذا سيناريو نموذجيًا لتجربة الجينوميات الوظيفية حيث تكون تأثيرات التعبير التفاضلي كبيرة بما يكفي لتكون مهمة من الناحية البيولوجية ولكنها مع ذلك دقيقة بما يكفي لتحدي العديد من طرق التحليل. يوضح الشكل 4 عدد الاكتشافات الحقيقية والكاذبة التي تم إجراؤها بواسطة طرق التحليل المختلفة عند قطع الأهمية FDR & lt0.1. عندما تكون أحجام المكتبة متساوية ، فإن اتجاه voom و limma لهما أفضل قوة تالية بعد edgeR و PoissonSeq. ومع ذلك ، فإن كلا من edgeR و PoissonSeq يعطيان FDRs تجريبيًا أكبر من 0.1 ، مما يؤكد نتائج القسم السابق على أن هذه الأساليب متحررة إلى حد ما. يعطي اتجاه limma-FDR تجريبيًا أكبر قليلاً من voom ولكنه لا يزال أقل من 0.1. مع أحجام المكتبات غير المتكافئة ، يتمتع voom بأفضل قوة باستثناء edgeR مع الحفاظ على FDR منخفض. تعلن TSPM إلى حد بعيد عن معظم جينات DE ، لكنها في الغالب اكتشافات خاطئة. يعطي DSS أيضًا معدلًا مرتفعًا مثيرًا للقلق من الاكتشافات الخاطئة عندما تكون أحجام المكتبة غير متساوية. يوضح الشكلان 3 و 4 معًا أن voom لديه أفضل قوة لتلك الطرق التي تتحكم بشكل صحيح في معدلات الخطأ من النوع الأول و FDR.

                          Voom لديه أدنى معدل اكتشاف خاطئ

                          بعد ذلك ، قمنا بمقارنة الطرق من وجهة نظر تصنيف الجينات ، ومقارنة الطرق من حيث عدد الاكتشافات الخاطئة لأي عدد معين من الجينات المحددة على أنها DE. الطرق التي تؤدي أداءً جيدًا ستصنف جينات DE الحقيقية في المحاكاة قبل الجينات غير DE. تم تصنيف الجينات حسب الاحتمالية اللاحقة لـ baySeq وحسب ص قيمة الطرق الأخرى. تظهر النتائج أن voom لديه أدنى مستوى FDR في أي قطع (الشكل 5). عندما تكون أحجام المكتبة متساوية ، فإن اتجاه limma و PoissonSeq متنافسان قريبان جدًا (الشكل 5 أ). عندما تكون أحجام المكتبة غير متساوية ، فإن اتجاه limma و edgeR هما أقرب المنافسين (الشكل 5 ب).

                          معدلات الاكتشاف الخاطئ. يتم رسم عدد الاكتشافات الخاطئة لكل طريقة مقابل عدد الجينات المختارة حسب التعبير التفاضلي. تم حساب النتائج في المتوسط ​​على أكثر من 100 محاكاة (أ) بأحجام مكتبة متساوية و (ب) مع أحجام مكتبة غير متساوية. voom لديه أدنى مستوى FDR في أي قطع في أي من السيناريوهين. FDR ، معدل الاكتشاف الخاطئ.

                          بعد ذلك ، قمنا بمقارنة ملفات FDR باستخدام نصوص تحكم متصاعدة من مشروع SEQC [39]. تتكون البيانات من ثماني مكتبات RNA-seq ، في مجموعتين من أربعة. تم رفع ما مجموعه 92 نصًا مصطنعًا للتحكم بتركيزات مختلفة بطريقة أن ثلاثة أرباع النصوص كانت حقًا DE والربع المتبقي لم يكن كذلك. لجعل الارتفاعات الإضافية أشبه بمجموعة بيانات واقعية ، قمنا بتكرار التهم لكل من 23 نسخة غير متعلقة بالدينية ثلاث مرات. أي ، تعاملنا مع كل نص بخلاف DE على أنه ثلاثة نصوص مختلفة. نتج عن ذلك مجموعة بيانات من 138 نسخة بنصف DE ونصف غير DE. الشكل 6 يماثل الشكل 5 ولكن باستخدام البيانات المتصاعدة بدلاً من البيانات المحاكاة. حققت voom مرة أخرى أدنى مستوى لـ FDR ، حيث كانت edgeR وطرق limma الأخرى أقرب المنافسين (الشكل 6).

                          تم تقييم معدلات الاكتشاف الكاذب من بيانات ارتفاع SEQC. يتم رسم عدد الاكتشافات الخاطئة لكل طريقة مقابل عدد الجينات المختارة حسب التعبير التفاضلي. voom لديه أدنى معدل اكتشاف خاطئ بشكل عام.

                          تعتبر voom و limma-trend أسرع من أساليب RNA-seq المتخصصة

                          تباينت الطرق الإحصائية المختلفة التي تمت مقارنتها بشكل كبير في الوقت الحسابي المطلوب ، حيث كانت DESeq و TSPM و baySeq بطيئة بدرجة كافية للحد من عدد عمليات المحاكاة التي تم إجراؤها. يعد voom أسرع الطرق مقارنة بسهولة ، مع ميزة edgeR-classic التالية الأسرع (الشكل 7).

                          أوقات الحوسبة لأساليب RNA-seq. تُظهر الأشرطة الوقت المطلوب بالثواني لتحليل مجموعة بيانات تمت محاكاتها على كمبيوتر محمول MacBook. يتم ترتيب الطرق من الأسرع إلى الأغلى.

                          ملفات تعريف RNA-seq للأفراد النيجيريين من الذكور والإناث

                          لقد أظهرنا حتى الآن أداء voom على مجموعات بيانات RNA-seq بأعداد صغيرة من المكتبات المكررة. لإثبات أداء voom على مجموعة بيانات غير متجانسة مع عدد كبير نسبيًا من التكرارات ومستوى عالٍ من التباين البيولوجي ، قمنا بمقارنة الذكور بالإناث باستخدام ملفات تعريف RNA-seq لخطوط الخلايا اللمفاوية من 29 ذكرًا و 40 أنثى من الأفراد النيجيريين غير المرتبطين [40 ]. يتم توفير عدد القراءة الملخص والتعليق التوضيحي الجيني بواسطة حزمة tweeDEseqCountData من Bioconductor [41]. يوضح الشكل 1 د اتجاه voom يعني التباين لمجموعة البيانات هذه.

                          أنتج voom 16 جينًا تم تنظيمها في الذكور و 43 جينًا تم تنظيمها عند الإناث بنسبة 5 ٪ FDR. كما هو متوقع ، تنتمي معظم الجينات المعبر عنها تفاضليًا إلى الكروموسومات الجنسية X أو Y (الجدول 1). الجين الأعلى هو XIST ، وهو لاعب رئيسي في تعطيل X ومن المعروف أنه يتم التعبير عنه بمستويات ذات مغزى فقط في الإناث.

                          قمنا بفحص 12 جينًا معينًا معروف أنها تنتمي إلى منطقة الكروموسوم Y الخاصة بالذكور [42 ، 43]. أكد اختبار مجموعة الجينات ROAST أن هذه الجينات مجتمعة يتم تنظيمها بشكل كبير في الذكور (ص= 0.0001). كان اختبار مجموعة الجينات CAMERA أكثر إقناعًا ، حيث أكد أن هذه الجينات منظمة بشكل أكبر في الذكور أكثر من الجينات الأخرى في الجينوم (ص=2×10 -28 ).

                          قمنا أيضًا بفحص 46 جينًا لكروموسوم X تم الإبلاغ عن هروبها من تعطيل X [43 ، 44]. تم تنظيم هذه الجينات بشكل كبير في الإناث (ROAST ص= 0.0001، كاميرا ص= 10-10). يتم تسليط الضوء على تغييرات طية السجل لجينات الكروموسوم X و Y المشاركة في اختبارات مجموعة الجينات على مؤامرة MA (الشكل 8).

                          تم إبراز مؤامرة MA لمقارنة الذكور مقابل الإناث مع الجينات الخاصة بالذكور والإناث. تم إنتاج مؤامرة MA بواسطة دالة limma plotMA ، وهي عبارة عن مخطط مبعثر لتغيير طي السجل مقابل متوسط ​​سجل cpm لكل جين. يتم تمييز الجينات الموجودة في المنطقة الخاصة بالذكور في جينات الكروموسوم Y باللون الأزرق ويتم تنظيمها باستمرار في الذكور ، بينما يتم تمييز الجينات الموجودة على الكروموسوم X التي تم الإبلاغ عنها بأنها تفلت من تعطيل X باللون الأحمر وتكون بشكل عام منخفضة عند الذكور. log-cpm ، تسجيل الدخول لكل مليون.

                          لاحظ أن أساليب اختبار مجموعة الجينات هذه غير متاحة لأي من الأساليب القائمة على العد للتعبير التفاضلي. إذا تم استخدام طريقة قائمة على العد لتقييم التعبير التفاضلي ، فلا يزال بإمكاننا فحص ما إذا كانت الجينات المرتبطة بالجنس تحتل مرتبة عالية بين الجينات المعبر عنها تفاضليًا ، لكننا لم نتمكن من إجراء أي اختبار إحصائي رسمي لإثراء هذا التوقيع أثناء المحاسبة للارتباط بين الجينات. من ناحية أخرى ، فإن قيم وأوزان تعبير voom مناسبة للإدخال في إجراءات ROAST و CAMERA دون أي معالجة إضافية.

                          مراحل تطور ذبابة الفاكهة سوداء البطن

                          مثل edgeR-glm ، ولكن على عكس معظم أدوات التحليل الأخرى ، تقدم voom و limma-trend نمذجة خطية كاملة الميزات لبيانات RNA-seq ، مما يعني أنه يمكنهم تحليل التجارب المعقدة التعسفية. إمكانيات النمذجة الخطية غنية جدًا لدرجة أنه من المستحيل تحديد مثال تمثيلي. يمكن استخدام voom و limma لتحليل أي تجربة تعبير تفاضلي RNA-seq على مستوى الجينات ، بما في ذلك تلك التي تحتوي على عوامل تجريبية متعددة [34]. نقدم هنا تحليلًا جديدًا يوضح استخدام الانحدار التربيعي لتحليل دراسة دورة زمنية.

                          تم استخدام RNA-seq لاستكشاف النسخة التنموية لـ ذبابة الفاكهة سوداء البطن[45]. تم تشكيل مكتبات RNA-seq من عينات حيوانات كاملة لتمثيل عدد كبير من مراحل النمو المتميزة. على وجه الخصوص ، تم جمع العينات من الحيوانات الجنينية في مراحل تطور متساوية المسافات من ساعتين إلى 24 ساعة على فترات ساعتين. نقوم هنا بتحليل 12 مكتبة RNA-seq من هذه المراحل الجنينية. سعينا إلى تحديد تلك الجينات التي تميز كل مرحلة جنينية. على وجه الخصوص ، أردنا تحديد ، لكل مرحلة جنينية ، تلك الجينات التي تصل إلى مستوى التعبير الذروة خلال تلك المرحلة.

                          نظرًا لأن جميع العينات من مراحل متميزة ، فلا توجد مكتبات مكررة في هذه الدراسة. لتقدير الفروق ، استخدمنا حقيقة أن التعبير الجيني يجب أن يتغير بسلاسة لمعظم الجينات بمرور الوقت. تُظهر مؤامرة القياس متعددة الأبعاد لقيم log-cpm التغيير التدريجي في التعبير الجيني أثناء التطور الجنيني ، مع كل مرحلة وسيطة في ملف تعريف التعبير بين المراحل قبل وبعد (الشكل 9). استخدمنا النماذج الخطية الجينية لتلائم اتجاه تربيعي مع الوقت لقيم log-cpm لكل جين. لن تتطابق هذه الاتجاهات التربيعية مع جميع تعقيدات تغييرات التعبير الجيني بمرور الوقت ولكنها كافية لنمذجة الاتجاهات الرئيسية. يظهر اتجاه التباين المتوسط ​​voom لهذه البيانات في الشكل 1e.

                          مؤامرة التحجيم متعددة الأبعاد ذبابة الفاكهة سوداء البطن المراحل الجنينية. يتم حساب المسافات من قيم log-cpm. يتم تصنيف مراحل النمو الجنينية الـ 12 المتتالية من 1 إلى 12 ، من الأقدم إلى الأحدث.

                          من بين 14869 جينًا تم التعبير عنها أثناء التطور الجنيني ، أظهر 8366 اتجاهًا ذا دلالة إحصائية عند 5 ٪ FDR باستخدام بايز التجريبية F- الاختبارات. لكل جين معبر عنه تفاضليًا ، حددنا المرحلة الجنينية التي حقق فيها الاتجاه التربيعي المناسب قيمته القصوى. سمح لنا ذلك بربط كل جين مهم بمرحلة تطور معينة (الشكل 10). بلغت معظم الجينات ذروتها في المرحلة الأولى أو الأخيرة (الشكل 10) ، مما يشير إلى تناقص أو زيادة الاتجاهات بسلاسة بمرور الوقت (الشكل 11 ، اللوحات 1 و 12). تميل الجينات التي بلغت ذروتها في المرحلة الجنينية الأولى إلى الارتباط بدورة الخلية. تميل الجينات التي بلغت ذروتها في المرحلة الأخيرة إلى الارتباط بالمستقلبات الأولية والطاقة ، وعملية تقليل الأكسدة والمسارات الأيضية.

                          عدد الجينات المرتبطة بكل منها ذبابة الفاكهة سوداء البطن المرحلة الجنينية. يتم تسجيل عدد الجينات التي يحدث ذروة التعبير التقديري لها في كل مرحلة من المراحل.

                          اتجاهات التعبير للجينات التي تبلغ ذروتها عند كل منها ذبابة الفاكهة سوداء البطن المرحلة الجنينية. اللوحات (1) إلى (12) تتوافق مع 12 مرحلة نمو متتالية. تعرض كل لوحة اتجاهات التعبير المجهزة للجينات العشرة الأولى التي تحقق ذروة التعبير خلال تلك المرحلة. على وجه الخصوص ، لوحة (1) يُظهر الجينات التي يتم التعبير عنها بشكل كبير في المرحلة الأولى واللوحة (12) يظهر الجينات الأكثر تعبيرًا في المرحلة الأخيرة. اللوحات (7) و (8) ملحوظة لأنها تظهر جينات ذات قمم ملحوظة في 12-14 ساعة و 14-16 ساعة على التوالي.

                          الجينات التي تبلغ ذروتها في المراحل المتوسطة لها اتجاهات تعبير مع شكل معكوس على شكل حرف U (الشكل 11 ، اللوحات 2-11). كانت هناك مجموعة كبيرة من الجينات ذات النشاط الذروة بين 12-16 ساعة من التطور الجنيني (الشكل 10) ، مما يشير إلى حدوث بعض التغييرات التنموية الهامة التي حدثت خلال هذه الفترة والتي تتطلب عمل الجينات ذات الأغراض الخاصة. في الواقع ، أظهر تحليل الأنطولوجيا الجينية للجينات المرتبطة بهذه الفترة أن تشكل البنية التشريحية كانت العملية البيولوجية الأكثر إثراءً. كانت المصطلحات الرئيسية الأخرى هي تشكل الأعضاء وتمايز الخلايا العصبية.

                          يوضح هذا التحليل وسيلة بسيطة ولكنها فعالة لتحديد الجينات التي لها دور معين في كل مرحلة من مراحل النمو.


                          خلفية

                          يعد اكتشاف الجينات المعبر عنها تفاضليًا (DEGs) من مجموعات بيانات DNA microarray مهمة روتينية شائعة يتم إجراؤها في البحوث الطبية الحيوية [1-3]. للكشف عن DEGs ، يتم اقتراح العديد من الطرق [4-7]. من خلال هذه الطرق التقليدية ، بشكل عام ، يتم اكتشاف DEGs من مجموعة بيانات واحدة تتكون من مجموعة التحكم والمعالجة. ومع ذلك ، يمكن بسهولة اكتشاف بعض DEGs في ظروف تجريبية واسعة جدًا أو شائعة. على سبيل المثال ، جينات "pyoverdin" (pvdD و PVJ) [8] من الزائفة الزنجارية، وهي بروتينات ناقلة للحديد وتشارك في انقسام الخلايا ، يتم اكتشافها عمومًا على أنها DEGs في الظروف التجريبية التي يتم إجراؤها لمراقبة انقسام الخلايا (مثل GSE24784 في قاعدة بيانات GEO) (الشكل 1). بالإضافة إلى ذلك ، في تحليلات بعض مجموعات بيانات التعبير لقاعدة البيانات العامة بالطرق الإحصائية الشائعة الاستخدام ، تم اكتشاف جينات pyoverdin أيضًا على أنها DEGs في العديد من الحالات التجريبية الأخرى التي لم يتم إجراؤها لمراقبة انقسام الخلايا. اقترحت الأدبيات أن هذا قد يكون بسبب مشاركة البيروفدين في العديد من العمليات البيولوجية الأخرى مثل الإشارات من خلية إلى خلية (Quorum Sensing، QS) [9] وإنتاج عامل الضراوة [10]. بهذه الطريقة تكون جينات pyoverdin عرضة لاكتشافها على أنها DEGs في أي حالة تجربة ، ومع ذلك ، قد يرغب العديد من الباحثين في اكتشاف هذه الجينات في التجارب الخاصة (أي حالة انقسام الخلية). لهذا الغرض ، يجب مقارنة كل قيمة قياس لمستويات التعبير الجيني بطريقتين ، أو كليهما مع الجينات الأخرى ومجموعات البيانات الأخرى في وقت واحد.

                          تغيير التعبير عن جينات pyoverdin. نقوم بتحليل بعض بيانات التعبير عن جينات pyoverdin (pvdD و PVJ) من قاعدة البيانات العامة (GEO و Array- Express) بالطرق الإحصائية الشائعة الاستخدام (log-FC ، RankProducts ، ر-الترتيب و SAM). يتم تعيين القيمة الحدية لـ log-FC على 2 (4 أضعاف) وقيمة RankProducts ، رتم ضبط -rank و SAM على جين 300 العلوي. تتم تسوية جميع مجموعات البيانات بطريقة RMA بشكل منفصل. إذا تم التعبير عن كلا الجينين بشكل مشترك ، فسيتم ملء المربع المقابل باللون الأبيض ، أو الرمادي. يوضح الشكل أن جينات pyoverdin عرضة لاكتشافها في أي حالة تجربة وأن طريقتنا تركز على الكثير من DEGs الخاصة بحالة التجربة (GSE7704).

                          لاكتشاف مثل DEGs ، نقوم باسترداد بيانات التعبير الجيني من قاعدة البيانات العامة قدر الإمكان وإنشاء "مجموعة بيانات وصفية" تلخص تغيير التعبير لجميع الجينات في ظروف التجربة المختلفة (الشكل 2). على الرغم من عدم وجود تعريف قياسي "واقعي" لمجموعات البيانات الوصفية ، يمكن تقديم قيمة نسبة السجل التي تُستخدم على نطاق واسع لتحليل بيانات المصفوفة الدقيقة للحمض النووي لإنشاء مجموعات بيانات وصفية عندما تتكون كل مجموعة بيانات من بيانات تجربة التحكم والمعالجة.

                          مجموعة البيانات الوصفية ومصفوفة log-FC. مجموعة البيانات الوصفية هي مجموعة من مجموعات البيانات المتعددة. تتكون كل مجموعة بيانات من مجموعة تحكم ومجموعة معالجة ، كل منها يحتوي على واحد أو أكثر من بيانات المصفوفة الدقيقة للحمض النووي. المسبار المقاس (الجين) شائع لجميع مجموعات البيانات. عنصر F اي جاي في مصفوفة log-FC هي الجزء المحول من السجل (الأساسي 2) من القيم الحسابية المتوسطة للعلاج ومجموعة التحكم في أناالجين من ي- مجموعة البيانات.

                          في مجموعات البيانات الوصفية هذه ، لا يكون التطبيق المباشر للطرق الإحصائية التقليدية المستخدمة على نطاق واسع مناسبًا لاكتشاف DEGs ثنائية الأبعاد لأن هذه الأساليب تهدف إلى العثور على جينات خاصة بين جميع التجارب المراد تحليلها.

                          على سبيل المثال ، يتم تطبيق ANOVA [11–14] على نطاق واسع جدًا لطريقة التحليل متعدد المجموعات ، ولكنها تستنتج فقط أن الاختلافات بين المجموعات (الجينات) مهمة أم لا. لذلك لا يمكن لـ ANOVA اكتشاف جينات محددة في وقت واحد في تجارب محددة مثل DEGs ثنائية الأبعاد.

                          تُستخدم طرق الكشف الخارجة أيضًا على نطاق واسع لاكتشاف DEGs ، مثل إنتروبيا شانون [15] أو طريقة سبرينت غير المعلمية [16]. بخلاف ANOVA ، يمكن لهذه الطرق أيضًا اكتشاف كل من الجينات الخاصة أو الظروف التجريبية الخاصة ، ولكنها ليست في وقت واحد. إنه أحادي البعد ويشبه ANOVA.

                          الاختبارات المتعددة [17] (المقارنات المتعددة ، مثل تصحيح Bonferroni ، وطريقة Tukey-Kramer ، وطريقة Games-Howell) تؤدي أيضًا إلى نتائج محدودة مثل الاكتشافات الخارجية. للحصول على مثال لمجموعة بيانات تتكون من ن الجينات و ه التجارب ، فهذا لا يعني أبدًا أن أنا-th من الجين ي-التجربة هي DEG عندما يظهر الاختبار المتعدد أن أناالجين (الحجم ه ناقل) يختلف اختلافًا كبيرًا عن الجينات الأخرى و ي- التجربة الثالثة (الحجم ن vector) بشكل كبير عن التجارب الأخرى بشكل مستقل. وذلك لأن معظم طرق الاختبار المتعددة يتم إجراؤها للتأكد من الاختلافات بين القيم المتوسطة للمجموعات.

                          هنا ، نقترح طريقة "ثنائية الاتجاه AIC" (معايير معلومات Akaike) للكشف المتزامن عن الجينات والتجارب المهمة على مجموعات البيانات الوصفية. تكتشف هذه الطريقة جينات معينة يتم التعبير عنها تفاضليًا في ظروف تجريبية محددة. هنا ، نقدم مقارنة بين أداء طريقتنا والطرق الإحصائية الأخرى المستخدمة على نطاق واسع ونبين أن طريقة AIC ثنائية الاتجاه لها خصوصية عالية للكشف عن بيانات الاختبار التي تميل إلى التعبير عنها في حالة تجربة محددة.


                          مناقشة

                          إن بناء معرفة جديدة حول الأنظمة البيولوجية هو الهدف النهائي لتجارب المصفوفات الدقيقة ، ولكن كل هذه الأفكار يجب أن تُبنى على أساس متين لتكون دقيقة ومفيدة. يعد التطبيع الصحيح للبيانات والكشف الدقيق عن الجينات المنظمة أمرًا حيويًا لنجاح استكشاف بيانات المصفوفة الدقيقة. حتى بالنسبة لتحليلات المجموعات الاستكشافية ، يجب اختيار الجينات التي يتم تنظيمها بشكل كبير مسبقًا. هذه المهمة المتمثلة في اكتشاف هذه الجينات هي مشكلة إحصائية صعبة ، حيث تم وضع فرضية إحصائية لكل من عشرات الآلاف من الجينات المختبرة ، ولكن لا يتوفر سوى عدد قليل من المصفوفات المكررة لاختبار هذه الفرضيات. تحاول الأساليب الإحصائية المقدمة في هذه الدراسة استخلاص أكبر قدر ممكن من المعلومات من عدد صغير من مكررات الصفيف لتحديد الجينات التي من المحتمل أن يتم تنظيمها.

                          من الواضح أن النظر إلى قياسات كل جين في عزلة يمكن أن ينتج عنه اختبار بقوة إحصائية منخفضة (على سبيل المثال باستخدام اختبار t القياسي ، الشكل 1). لتحسين القدرة الإحصائية ، يمكننا استخدام المعرفة حول العلاقات بين عدة آلاف من النقاط في المصفوفات. على وجه التحديد ، نقوم بتجميع النقاط ذات الانحرافات المعيارية المتشابهة معًا ثم نقوم بتجميع العديد من التقديرات الأقل دقة للانحراف المعياري في تقدير واحد أكثر دقة. تُظهر بياناتنا أيضًا أن إحصائيات Z أكثر دقة من إحصاءات t القياسية أو المعاقبة للكشف عن التعبير الجيني التفاضلي في بيانات المصفوفة الدقيقة. نوضح كذلك أن تجميع الانحرافات المعيارية باستخدام مقياس الحد الأدنى من الكثافة ينتج عنه إحصائيات Z أكثر دقة من اختبار t القياسي ، واختبارات t المعاقبة ، ومتوسط ​​إحصاء Z القائم على الكثافة.

                          متوسط ​​الكثافة المسجلة مجتمعة (Iمتوسط) مقابل الحد الأدنى من الشدة المسجلة (Iدقيقة) مقياس التجميع

                          قمنا بتقييم مقياسين مختلفين يعتمدان على الكثافة لتجميع الانحرافات المعيارية. هناك العديد من التقارير التي تفيد بأن التباين هو دالة للكثافة ، ولكن الشكل الدقيق لهذه العلاقة يمكن أن يعتمد على العديد من العوامل الخارجية للتجربة البيولوجية ، مثل تقنية الصفيف المستخدمة ، ونسبة الإشارة إلى الضوضاء للبيانات ، التشابه بين الشرطين [30] ، تقنية التطبيع أو تقنية الطرح الخلفية. لهذا السبب ، نحن نفضل تقدير الانحراف المعياري باستخدام تقنية ملائمة للمنحنى بدلاً من نموذج ثابت يعتمد على البيانات السابقة. علاوة على ذلك ، عند التعامل مع المصفوفات ثنائية القناة ، هناك قيمتان مختلفتان من الشدة مرتبطة بكل بقعة مكررة. من الممكن أن يكون أفضل وصف للتباين هو أنه دالة لمتوسط ​​شدة كلتا القناتين. ومع ذلك ، فإن تجربتنا الخاصة والعديد من التقارير الأخرى تشير إلى أن أعلى الفروق يمكن رؤيتها غالبًا في المناطق منخفضة الكثافة. إذا كان الأمر كذلك ، يمكن وصف التباين بشكل أفضل على أنه دالة للحد الأدنى من الشدة على جميع النقاط.

                          توضح البيانات المقدمة هنا أن متوسط ​​الأخطاء المتبقية إما متساوي أو أقل عند استخدام Iدقيقة بالمقارنة مع أنامتوسط مقياس التجميع ، لكل مجموعة بيانات باستخدام تقنية معالجة الصور Agilent Feature Extraction. تحتوي المجموعة الفرعية من مجموعة البيانات 4 التي يكون هذا الاختلاف فيها أكثر لفتًا للانتباه ، رقم 3 في الجدول 1 ، أيضًا على مجموعة من المواقع ذات التباين العالي بشكل خاص (انظر الشكل 4). أنامتوسط تجمع المترية هذه البقع جنبًا إلى جنب مع مناطق أخرى ذات تباين أقل بكثير. في المقابل ، فإن Iدقيقة يقوم النظام المتري بتحريك هذه النقاط إلى الطرف السفلي للمحور السيني ، ويتتبع المنحنى الملائم الانحراف المعياري للبقع بشكل أفضل. غالبًا ما تكون النقاط الأكثر ضوضاءً على المصفوفات الدقيقة هي تلك التي تكون فيها قناة واحدة على الأقل "فارغة" ، أي مستوى إشارة منخفض صاخب يُفترض أنه لا يمثل أي تعبير. أنادقيقة المقياس أفضل في تجميع هذه البقع معًا. بالنسبة لمجموعات البيانات ذات مستويات الخلفية المنخفضة ، يوجد فرق أقل في أداء مقياسي التجميع.

                          تتفق الاتجاهات في متوسط ​​الأخطاء المتبقية من تحليل العينة المرجعية غير المزاوجة مع نتائج تحليلات المقارنة المباشرة. هذا التشابه متوقع ، لأن معالجة كل حالة عينة مرجعية على حدة تعادل إجراء مقارنة مباشرة بين كل حالة وعينات الحمض النووي الريبي المرجعية. ينتج عن كلا مقياسي التجميع قيم خطأ متبقية متشابهة عند التجميع σميكرومتر، ولكن مجموعة بيانات واحدة لا تكفي لإجراء أي تعميمات حول مقياس التجميع الذي سيكون أفضل أداء لجميع مجموعات البيانات المرجعية للعينات المزدوجة. تحسين أداء Iدقيقة يتم فقدان مقياس التجميع عند استخدام معالجة SPOT أو معالجة صورة Agilent الأمامية وخلفية SPOT المدمجة ، مما يشير إلى أن تقنيات معالجة الصور هذه قد تكون أكثر فاعلية في إزالة الضوضاء عند الشدة المنخفضة.

                          أنامتوسط و انادقيقة يمكن استنساخ تقنيات التجميع بنفس الدرجة ، نظرًا لأن معاملاتها R 2 بين إحصائيات Z من مجموعات البيانات المقترنة (انظر الجدول 1) متشابهة مع بعضها البعض. أنادقيقة تولد تقنية التجميع نتائج أكثر دقة قليلاً ، كما يتضح من معاملات R 2 الأكبر بين Z (Iدقيقة) و تذهب مقارنة بتلك الموجودة بين Z (Iمتوسط) و تذهب (انظر الجدول 2). ينطبق هذا الاتجاه على جميع المجموعات الفرعية الستة لمجموعة البيانات 4.

                          الدقة الأعلى لـ Z (Iدقيقة)

                          تم حساب إحصاء Z باستخدام Iدقيقة يوفر مقياس التجميع تحسينًا في الدقة مقارنة بالتقنيات الأخرى. تم استخدام إحصاء t المشتق من مجموعات البيانات التي تحتوي على 20 نسخة مكررة كمعيار بديل "معيار ذهبي" حيث يمكن اعتبار 8 مكررات أو أكثر كافية لإعطاء القوة لإحصاء t [17]. تم اختيار إحصاء t باعتباره "المعيار الذهبي" بدلاً من متوسط ​​النسبة المسجلة نظرًا لأن الأخير لا يأخذ التباين في الاعتبار. لكل مجموعة فرعية من المجموعات الفرعية الست لمجموعات البيانات 4 ، إحصاء t المئوي التسعين المعاقب ، وإحصاء SAM المعاقب لـ t ، و Z (Iمتوسط) كانت قيم R 2 مماثلة عند ارتباطها بإحصاء t "المعيار الذهبي" ، على الرغم من أن أداء إحصاء SAM كان ضعيفًا بالنسبة لمجموعة فرعية من مجموعة البيانات 4 الأكثر ضوضاءً (رقم 3 في الجدول 2) بقيمة R 2 تبلغ 0.70 فقط. Z (أنادقيقة) ، مع ذلك ، أنتجت باستمرار أعلى قيمة R 2 لكل مجموعة من مجموعات البيانات الست. نظرًا لأن النسب المستخدمة في كل من هذه الإحصائيات متطابقة ، فإن هذه النتيجة تشير إلى أن الخطأ القياسي تم إنشاؤه باستخدام Iدقيقة تنتج التقنية أفضل ارتباط مع إحصاء t القياسي الذهبي استنادًا إلى 20 مكررًا. على الرغم من أن استبعاد النقاط ذات الكثافة المنخفضة جدًا يمكن أن يقضي على الاختلاف في الأداء بين Iدقيقة و انامتوسط تجميع المقاييس ، سيجعل هذا النهج من المستحيل اكتشاف الجينات المنظمة منخفضة التعبير ، والتي قد تكون مهمة من الناحية البيولوجية.

                          إحصائيات Z من Iدقيقة ومع ذلك ، لا تتوافق التقنية تمامًا مع إحصاء t "المعيار الذهبي". يمكن توقع بعض الخلاف لأن Z (Iدقيقة) استندت البيانات إلى ثلاث مصفوفات مكررة فقط ، والتي تحتوي على معلومات أقل بكثير من 20 مكررات مستخدمة لحساب إحصاء t "المعيار الذهبي". كما أن تقديرات الأهمية المحسوبة باستخدام إحصاء t "المعيار الذهبي" قد لا تزال تحتوي على بعض عدم الدقة ، حتى مع وجود 20 مكررًا. كير وآخرون. وجد أن هذا صحيح مع 12 مكررًا ، حيث يتم تقليل الدقة إذا تم نمذجة توزيع الخطأ لكل جين بشكل منفصل بدلاً من استخدام التقدير المجمع [15]. قد يكون تحليل مجموعة البيانات المكررة الكبيرة (N = 20) باستخدام مقدرات قوية للنسبة والانحراف المعياري قادرًا على إنشاء "معيار ذهبي" أكثر دقة لاستخدامه في مزيد من الاختبار للإحصاء Z أو إحصاءات أخرى. لاحظ أننا لا نستخدم نهجًا صريحًا قائمًا على التقليب لتقدير معدلات الكشف الخاطئ للإحصاءات التي تم التحقيق فيها في هذه الدراسة ، كما في المرجع. [16]. بدلاً من تبديل تسميات الجينات من مجموعة صغيرة من المصفوفات لتقدير توزيع إحصائيات الاختبار المتوقعة ، مع توفر مجموعة البيانات المكررة الكبيرة (N = 23) الموصوفة هنا ، فضلنا استخدام هذا المصدر الغني لإحصائيات الاختبار الفعلي مباشرةً.

                          زيادة استنساخ إحصائيات z

                          إحصاء Z - محسوب مع تجميع Iدقيقة أو أنامتوسط مقياس التجميع - يوفر تحسينًا ملموسًا في قابلية التكاثر على متوسط ​​النسبة المسجلة وحدها ، واختبار t القياسي و 90 المئوية وإحصاءات t التي تعاقب عليها SAM. كانت كل من معاملات الارتباط الخطية (R 2) وغير المعلمية أعلى بالنسبة للإحصاء Z عند مقارنة البقع المقابلة بين ثلاثة أزواج مستقلة من مجموعات البيانات المكررة. أيضًا ، تولد إحصاء t القياسي وإحصاء t المعاقب لـ SAM معاملات انحدار خطية تختلف اختلافًا كبيرًا من زوج إلى زوج ، مما يشير إلى أن حجمها المطلق لا يمكن استنساخه مثل إحصائيات Z ، التي تكون معاملات الانحدار الخطي الخاصة بها أقرب بكثير إلى 1.

                          تدعم قيم الارتباط العالية ومعاملات الانحدار القريبة من الوحدة للإحصاء Z الفرضية القائلة بأن تجميع الانحرافات المعيارية للبقع ذات الكثافة المماثلة يوفر تقديرًا ثابتًا ودقيقًا للانحراف المعياري. يدعم هذا الافتراض للانحراف المعياري المقدر جيدًا استخدام التوزيع الغوسي لتعيين إحصاء Z إلى قيمة p. باستخدام الانحراف المعياري المقاس فقط ، يضطر المرء إلى استخدام توزيع t مع درجتين فقط من الحرية لتوليد قيمة p. لا يمتلك هذا الاختبار قوة كافية لتوليد أي نقاط منظمة بشكل كبير بسبب العدد الصغير جدًا من درجات الحرية ، ولم يتم العثور على بقعة واحدة في الشكل 1 أ لتكون مهمة بعد تصحيح الاختبار المتعدد. في المقابل ، حتى بعد تصحيح الاختبار المتعدد المحافظ الذي يجعل قطع الدلالة الإحصائية أكثر صرامة ، تم العثور على العديد من النقاط المهمة باستخدام إحصاء Z. لا تنتج إحصائيات t المعاقبة تقديرًا ثابتًا للانحراف المعياري مع هذه البيانات ، ربما لأن الثابت المضاف إلى مقام إحصاء الاختبار أظهر تباينًا كبيرًا بين مجموعات البيانات المكررة. لذلك لا يمكن ربطها بقيمة p بطريقة قابلة للتكرار.

                          الكشف الناشز

                          يتمثل أحد قيود استخدام الانحراف المعياري المجمع في أنه بالنسبة إلى البقعة ذات النسب المكررة التي تتضمن واحدًا أو أكثر من القيم المتطرفة ، سيتم استبدال الانحراف المعياري المرتفع بشكل مناسب بانحراف معياري مجمع منخفض بشكل غير مناسب. قد ينتج عن هذا الاستبدال نتيجة إيجابية خاطئة. لقد سعينا لتقليل هذا القيد من خلال تطبيق خوارزمية الكشف الخارجية. (للتطبيقات الأخرى للكشف عن الحالات الخارجية ، راجع المرجع [26 ، 30]). تستخدم الخوارزمية في هذه الدراسة الانحراف المعياري المقاس بدلاً من الانحراف المعياري المجمع للنقاط التي قد لا يصمد فيها نموذج التجميع. يتم تحديد هذه النقاط على أنها تلك التي يكون فيها الخطأ المتبقي – σ 'موجبًا وأكبر من ضعف الانحراف المعياري للأخطاء الإيجابية المتبقية.

                          تعد الانحرافات المعيارية المقاسة لهذه النقاط الخارجية قياسات عينة صالحة لعملية التباين ويجب استخدامها لحساب الانحرافات المعيارية المجمعة للبقع ذات الكثافة المماثلة. ومع ذلك ، فإن قياسات النسبة هذه متفاوتة على نطاق واسع للغاية بحيث لا يتمتع المرء بنفس الثقة في متوسط ​​النسبة كما هو الحال بالنسبة للبقع الأخرى ، وبالتالي ، من المناسب استبدال الانحراف المعياري المقاس للانحراف المعياري المجمع في هذه الحالات. الشكل 7 ج ، 7 د ، والتي تبرز البقع النائية على قطعة من Z (Iدقيقة) مقابل إحصاء t "المعيار الذهبي" لمجموعة البيانات 4 ب ، أظهر أن تقنية الكشف الخارجية هذه تكتشف بشكل صحيح العديد من النقاط الإيجابية الخاطئة التي يُفترض أنها تحتوي على إحصائية Z عالية ومنخفضةذهب القيمة. تُظهر المؤامرات أيضًا بعض النقاط الإيجابية الخاطئة التي لم يتم اكتشافها من خلال هذه الخوارزمية ، بالإضافة إلى بعض النقاط التي تصبح سلبيات كاذبة بعد الكشف الشاذ. قد يكون أداء خوارزميات الكشف الخارجية الأخرى الأكثر تعقيدًا أفضل ، ويجب استكشافها. قد يؤدي تعديل بسيط للخوارزمية الحالية ، باستخدام التقديرات المحلية بدلاً من التقديرات العالمية للانحراف المعياري للخطأ المتبقي ، إلى تحسين الاكتشاف الخارجي. تشمل التطبيقات البديلة تعديل شكل نافذة التجميع لإعطاء وزن أكبر للانحراف المعياري المقاس للبقعة أو الانحراف المعياري لأقرب جيرانها حسب الشدة. بالمعنى الدقيق للكلمة ، يجب حساب قيم p للبقع الخارجية باستخدام توزيع t بدلاً من توزيع Gaussian نظرًا لاستخدام الانحراف المعياري المقاس. ومع ذلك ، فقد أظهرنا أنه مع 3 مكررات ، لا يمكن العثور على أي نقاط في مجموعات البيانات لدينا ذات دلالة إحصائية باستخدام اختبار t والتصحيح الدقيق للاختبار المتعدد. من أجل الحفاظ على اكتشاف البقع ، نواصل استخدام التوزيع الغوسي لتحويل إحصائيات Z الخارجية إلى قيم p ، مما قد يزيد قليلاً من المعدل الإيجابي الخاطئ للبقع التي تم اكتشافها على أنها قيم متطرفة. لكن في الممارسة العملية ، نادرًا ما يتم العثور على مثل هذه البقع التي يتم تنظيمها بشكل كبير.

                          تحليل غير مزدوج مقابل تحليل مزدوج لتجارب العينة المرجعية

                          أخيرًا ، قمنا بتوسيع الخوارزميات الخاصة بنا لتطبيقها على البيانات من تصميم تجريبي لعينة مرجعية. يمنح هذا التصميم المرء المرونة لمقارنة العديد من الشروط المختلفة مع بعضها البعض ، لكن المقايضة هي خسارة في الدقة. من الناحية النظرية ، يجب أن يؤدي استخدام تصميم عينة مرجعية بدلاً من تصميم مقارنة مباشرة إلى زيادة التباين بمعامل قدره 2. وقد لوحظت هذه الزيادة في الواقع عمليًا [33].

                          يمكن لطريقة التحليل المزدوجة أن تقلل من التباين المقاس في تصميم عينة مرجعية. تشير معاملات انحدار الانحدار الخطي في الجدول 1 إلى أن القيم الإحصائية Z باستخدام التحليل المزدوج أعلى من القيم الإحصائية Z غير المزاوجة. وبالتالي ، فإن الاختلاف المزدوج للنسب المسجلة ، μ ، يكون أقل تغيرًا من النسب المسجلة المستقلة ، MX و مص. تشير هذه الملاحظة إلى أن تأثيرات الاختلاف البيولوجي أو التحليلي من التكرار إلى التكرار يمكن تقليلها إذا تم إجراء مقارنات بين العينات المزدوجة. ما إذا كان هذا التخفيض بسبب استخدام عينات بيولوجية مقترنة أو تواريخ معالجة مصفوفة مقترنة [34] لا يزال سؤالًا مفتوحًا ، وربما يعتمد على السياق. على الرغم من أنه قد لا يكون عمليًا دائمًا ، إلا أنه سيكون من المفيد للمحققين تصميم تجارب عينة مرجعية يتم إجراؤها بالتوازي كلما أمكن ذلك للاستفادة من الانحرافات المعيارية المنخفضة الناتجة عن التحليل المزدوج.

                          إيجاد الاختبار الإحصائي الأمثل

                          لا تزال هناك العديد من المجالات لمزيد من التنقيح لتنفيذنا للتحليل الإحصائي القائم على التجميع لبيانات ميكروأري. حاليًا ، يتم تجميع الانحراف المعياري باستخدام نافذة مستطيلة متحركة بسيطة تتكون من 501 نقطة ، ولكن قد تؤدي أحجام النوافذ والأشكال الأخرى إلى تحسين الأداء قليلاً. بشكل أكثر عمومية ، لم نقم بمقارنة مقدر المتوسط ​​المتحرك بشكل صريح بتقنيات تناسب الشريحة أو تقنيات اللوس لتقدير الانحراف المعياري المستخدم في دراسات أخرى (انظر الخلفية). بينما نتوقع أن يكون الأداء مشابهًا ، قد تكشف الاختبارات الإضافية عن ميزة.

                          بعد المرجع. [35] ، نحن لا نحاول تقدير التحيز الخاص بالصبغة للبقع الفردية أو الجينات (أي تفاعل الصبغ الجيني) من أجل الحفاظ على درجات الحرية اللازمة لتقدير التباين. لاحظنا بشكل غير رسمي أن تحيز الصبغة في بعض البقع أنتج تباينات عالية المقاسة تسببت في اعتبار تلك البقع قيمًا شاذة غير مهمة. قد يكون الاختبار اللاحق للتحذير من تحيز الصبغة المحتمل للبقع الفردية مناسبًا لأعداد صغيرة من مكررات المصفوفة (على سبيل المثال N = 3) ، خاصةً إذا كان التصميم التجريبي غير متوازن (على سبيل المثال ، عدد المصفوفات التي تم تبديل الصبغة وغير المعاد تدويرها هو غير متساوي).

                          لاحظ أن هذه الدراسة نظرت فقط في إحصاءات النموذج العام (النسبة) / (الانحراف المعياري). نماذج ANOVA التي تعتبر التباين على أنه يعتمد على الكثافة ، كما هو موضح في المرجع. [15 ، 25] ، يمكن اعتباره امتدادًا لهذا المفهوم. ومع ذلك ، فإن إطار عمل ANOVA يسمح أيضًا بنموذج تجريبي أكثر تعقيدًا يمكن أن يتضمن التطبيع والظروف البيولوجية المتعددة. قد يفيد تجميع الانحرافات المعيارية كدالة للحد الأدنى من الشدة بدلاً من متوسط ​​الشدة هذه النماذج. يمكن أيضًا استخدام اختبارات التقليب للكشف عن الجينات المنظمة ، ومن المعروف أنها قوية بالنسبة للقيم المتطرفة ولكن يمكن أن يكون لها طاقة منخفضة لـ N. Xu et al. وجد أن اختبار التقليب متساوٍ أو أقل دقة من الطرق البارامترية في ترتيب الجينات [36]. يمكن أيضًا تطبيق تحليل بايزي على بيانات المصفوفات الدقيقة [13 ، 20 ، 21] ، وقد يكون مفيدًا في هذا السياق لاستخلاص المزيد من المعلومات من توزيع الشدة والنسب في البيانات.

                          في هذه الدراسة ، يتم تطبيع البيانات أولاً ، ثم يتم إجراء الكشف عن الجينات المنظمة في خطوة منفصلة. في المقابل ، تدمج المناهج الأخرى التطبيع والاستدلال الإحصائي في نموذج موحد [29 ، 35]. علاوة على ذلك ، فإن الخيارات لتطبيع البيانات عديدة ، بما في ذلك الخوارزميات القائمة على الانحدار المحلي (اللوس) [7] ، أو الشرائح [37] ، أو التحول المستمر [15] ، أو التحويلات الأكثر غرابة التي تميل إلى إزالة اعتماد شدة التباين [38]. قد يؤدي الاهتمام المتزايد بالتفاصيل ذات المستوى المنخفض للمسح الضوئي ومعالجة الصور إلى تحسين الدقة أيضًا [22 ، 33 ، 39] ، بينما في نفس الوقت يحتمل تغيير اعتماد كثافة التباين. يبقى أن نرى كيف ستؤثر التقنيات المستخدمة للتطبيع أو تحويلات تثبيت التباين على دقة ودقة الكشف عن الجينات المنظم. بالإضافة إلى ذلك ، نحن قلقون من أن بعض هذه التحولات قد تخلق تحيزًا منهجيًا مع أو ضد الجينات منخفضة الكثافة (على سبيل المثال ، [40]).

                          يمكن أن يعتمد أداء الاختبار على خصائص البيانات

                          على الرغم من أن العديد من مجموعات البيانات لها تباين يعتمد على الشدة [12 ، 15 ، 21-26] ، فقد قامت بعض الدراسات بتحليل مجموعات البيانات التي لا تعتمد خصائص تباينها بشدة على الكثافة (على سبيل المثال ، [35]). بشكل عام ، لقد جربنا أن مجموعات بيانات ميكرواري ذات خلفية منخفضة بالنسبة للإشارة ، والتطبيع القائم على اللوس ، وطرح الخلفية المحافظ (مثل معالجة الصور الموضعية) تنتج انحرافات معيارية لا تعتمد بشدة على الكثافة. في هذا السياق ، فإن الاختلافات بين Iدقيقة و انامتوسط المقاييس تختفي. في الواقع ، بالنسبة للبيانات ذات الضوضاء المنخفضة بشكل غير عادي ، تكون الانحرافات المعيارية ثابتة تقريبًا عبر جميع النقاط وجميع الاختبارات الإحصائية التي تم النظر فيها في هذه الورقة ، حتى مجرد متوسط ​​النسبة المسجلة ، تميل إلى التقارب. هذه الملاحظة ليست غير متوقعة لأن الانحرافات المعيارية تتقارب مع نفس القيمة ، سيصبح مقام إحصائيات الاختبار ثابتًا ، مما يجعل إحصائيات الاختبار متناسبة ببساطة مع النسبة. نوصي بإيجاد تسوية [7 ، 29 ، 33 ، 37] وتقنية طرح الخلفية [22 ، 32 ، 39] التي تنتج انحرافات معيارية منخفضة ومستقلة عن الشدة. قد يؤدي تطبيق تحويلات استقرار التباين إلى القضاء على اعتماد شدة الانحراف المعياري [38] ، ولكنه قد يقلل أيضًا من القوة الإحصائية أو انحياز الاختبار نحو نقاط ذات شدة معينة. لا يمكن التنبؤ مسبقًا بما إذا كانت ستتم إزالة كل الاعتماد على شدة التباين ، لذلك نواصل استخدام الإحصاء الأكثر قوة Z (Iدقيقة) لجميع مجموعات البيانات الخاصة بنا. علاوة على ذلك ، في الحالات التي يكون فيها تغيير أسلوب الطرح أو التطبيع في الخلفية غير ممكن لأن البيانات الأصلية غير متوفرة ، باستخدام إحصائية أكثر قوة مثل Z (Iدقيقة) ستكون مفيدة.

                          في حين أن تقنيات التجميع الموصوفة هنا يمكن أن تعوض التباين المعتمد على الكثافة ، يمكن تقليل اعتماد الشدة هذا أو تضخيمه بواسطة تقنيات التطبيع المختلفة وتقنيات الطرح الخلفية. قد يكون لهذه التقنيات تأثيرات خفية على القدرة على اكتشاف الجينات المنظمة بكثافة مختلفة ، مما قد يؤدي إلى تحيز أو ضد اكتشاف الجينات منخفضة التعبير. لهذا السبب ، حتى يتم تحسين طرق التطبيع والطرح الخلفية الأكثر حساسية وغير متحيزة لكل نظام ميكروأري ، فإننا نشجع منشئي أرشيف بيانات ميكروأري للحفاظ على كثافة غير طبيعية وبيانات الخلفية ، وبيانات الصورة الأصلية عندما يكون ذلك ممكنًا.

                          من بين العديد من الاختبارات المفيدة المستخدمة لاكتشاف الجينات المنظمة من عدد صغير من مكررات المصفوفة الدقيقة ، نرى أن تقدير التباين المستند إلى الكثافة والإحصاء Z الموصوف في هذه الدراسة عبارة عن مزيج جيد من البساطة والمتانة والدقة والدقة. تسمح هذه التقنية بإضافة قيم p ذات مغزى إلى قائمة الجينات المنظمة. من خلال هذا التقييم للأهمية الإحصائية ، يمكن للمحقق المضي قدمًا في التركيز على الجينات التي من المرجح أن يتم تنظيمها.


                          تطبيق

                          BATS هو برنامج رسومية سهل الاستخدام مكتوب بلغة MATLAB. البرنامج القابل للتنفيذ لأنظمة Windows و Linux و Mac Osx ، يمكن تنزيل الكود المصدري ودليل المستخدم مجانًا من http://www.na.iac.cnr.it/bats.

                          يُمنح إذن استخدام BATS ونسخها وتعديلها وتوزيعها لأي غرض دون رسوم من خلال ترخيص BATS المسموح به (المشتق من ترخيص MIT). يحتاج البرنامج المترجم إلى تشغيل مكون MATLAB Runtime (MCR) ، المتاح أيضًا على موقع الويب لغرض وحيد هو تشغيل BATS.

                          تم تصميم التنفيذ الحالي لـ BATS لمعالج واحد ، وهو سريع بما يكفي لأي غرض عملي. يتكون الإصدار 1.0 من BATS من تطبيقين رئيسيين: A NALYSIS و S IMULATIONS وهو مزود بخيار ثالث ، U TILITY ، والذي يوفر وظائف إضافية. يمكن تنشيط كل تطبيق من النافذة الرئيسية (انظر الشكل 1).

                          القائمة الرئيسية لـ BATS.

                          يوجد زر H ELP خاص بالسياق في جميع النوافذ ، مما يوفر جميع المعلومات الضرورية بالإضافة إلى وصف موجز لجميع المعلمات المطلوبة بواسطة الإجراء. يشير زر A BOUT إلى شروط الترخيص. يمكن العثور على وصف أكثر تفصيلاً في U SER R EFERENCE M ANUAL. يمكن استخدام دليل T UTORIAL المتاح على موقع الويب للحصول على مقدمة سريعة للبرنامج. فيما يلي ، نصف بإيجاز كل تطبيق.

                          التحليلات

                          يسمح تطبيق NALYSIS بتطبيق المنهجية التي تم تطويرها في [12] إما على مجموعات البيانات التركيبية أو الحقيقية. تنقسم قائمة تطبيق NALYSIS إلى نوافذ فرعية (انظر الشكل 2) والتي تسمح للمستخدم بتحديد معلمات التحليل. من الواضح أن NALYSIS يشكل الجزء الأكثر أهمية في BATS من وجهة نظر علماء الأحياء.

                          نافذة تحليل BATS.

                          يمكن تحميل البيانات في النظام وتحليلها على أساس أي من نماذج الخطأ الثلاثة الموضحة في قسم "المنهجية" والمشار إليها في البرنامج باسم M ODEL 1 و M ODEL 2 و M ODEL 3 ، على التوالي. يجب أن تكون بيانات الإدخال في جدول بيانات EXCEL أو بتنسيق ملف نصي محدد بعلامات جدولة معدة على النحو التالي. يجب أن يحتوي الصف الأول على سلسلة نصية (على سبيل المثال ، G ENE N AME) في العمود الأول ، وفي الأعمدة المتبقية ، القيم الرقمية لقياسات الوقت ر (ي) بترتيب تصاعدي ويتم تمثيلها في نفس وحدات الوقت (الثواني والساعات والأيام وما إلى ذلك). من الصف الثاني فصاعدًا ، يجب أن يحتوي العمود الأول على معرف الجين أو سلسلة فريدة من الأحرف أو مجموعة من الأحرف والأرقام (الأرقام فقط غير مسموح بها). يجب أن تحتوي الأعمدة المتبقية على البيانات ، zi = (zi 1، 1… zi 1، k (1)، ⋯، zin، 1،… zin، k (n)) MathType @ MTEF @ 5 @ 5 @ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaexfaxBh8 = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaeCOEaO3aaSbaaSqaaiabdMgaPbqabaGccqGH9aqpcqGGOaakcqWG6bGEdaqhaaWcbaGaemyAaKgabaGaeGymaeJaeiilaWIaeGymaedaaOGaeSOjGSKaemOEaO3aa0baaSqaaiabdMgaPbqaaiabigdaXiabcYcaSiabdUgaRnaaCaaameqabaGaeiikaGIaeGymaeJaeiykaKcaaaaakiabcYcaSiabl + UimjabcYcaSiabdQha6naaDaaaleaacqWGPbqAaeaacqWGUbGBcqGGSaalcqaIXaqmaaGccqGGSaalcqWIMaYscqWG6bGEdaqhaaWcbaGaemyAaKgabaGaemOBa4MaeiilaWIaem4AaS2aaWbaaWqabeaacqGGOaakcqWGUbGBcqGGPaqkaaaaaOGaeiykaKcaaa @ 578A @)، في شكل سجل2- نسب الإشارة إلى المرجع. يمكن إدخال القيم المفقودة كخلايا فارغة أو NaN. قبل تحليل بيانات المصفوفة الدقيقة باستخدام BATS ، يجب معالجة البيانات مسبقًا لإزالة مصادر التباين النظامية. للحصول على مناقشة مفصلة لإجراءات التطبيع لبيانات المصفوفات الدقيقة ، نحيل القارئ إلى ، على سبيل المثال ، [17-19] أو [20]. نتذكر (انظر أيضًا الملاحظة 1) أن BATS مناسبة بشكل خاص لتلك التجارب حيث تتوفر على الأقل 5-6 نقاط زمنية مختلفة. علاوة على ذلك ، على الرغم من أن BATS تحسب تلقائيًا البيانات المفقودة ، لإجراء تحليل موثوق به ، نقترح أن تظل نسبة البيانات المفقودة صغيرة نسبيًا (لكل جين على الأقل 50-60 ٪ من الملاحظات يجب أن تكون متاحة). ملاحظة ، إذا كانت مجموعة البيانات المراد تحليلها لا تفي بهذه المتطلبات العامة ، فسيتم عرض رسالة تحذير. من نافذة NALYSIS ، يمكن للمستخدم الخبير اختيار المعلمات السابقة (انظر الخطوة 1 من الخوارزمية). نناقش بإيجاز هذه الخيارات أدناه. يمكن العثور على وصف تفصيلي في دليل المستخدم.

                          يمكن أن يكون نوع الوظائف الأساسية إما Legendre أو Fourier ، مع الاختيار الافتراضي Legendre. الانتظام العالمي ν من ملفات تعريف التعبير الجيني هو رقم حقيقي في [0 ، 1] ، (القيمة الافتراضية 0). الدرجة القصوى إلالأعلى المسموح به في التوسع هو قيمة عددية ، قيمة افتراضية [ن/ 2] كحل وسط بين الملاءمة والتباين في التقدير. المعلمة λ من توزيع Poisson تم اقتطاعه عند إلالأعلى يجب أن يتم اختياره من أجل مطابقة الدرجة المتوقعة السابقة لكثير الحدود.

                          عادة ما يتطلب اختيار المعلمات المناسبة لتحليل مجموعة بيانات معينة باستخدام BATS بعض المعرفة الأولية بالإحصاءات ومستوى معين من الخبرة. ومع ذلك ، لا ينبغي إحباط المستخدم الذي ليس خبيرًا في الإحصائيات ، نظرًا لأن BATS يوفر لجميع المعلمات قيمًا افتراضية يمكن استخدامها في معظم الحالات ، ويتم إخفاء النوافذ الفرعية للمعلمات افتراضيًا. إذا لزم الأمر ، يمكن فتح النوافذ المخفية لتغيير القيم الافتراضية.

                          بعد ذلك ، يمكن للمستخدم إما تحديد طريقة معينة لتقدير المعلمات العامة π0 و σ0، أو أدخل قيمها يدويًا عن طريق تحديد خيار CUSTOM (راجع الخطوة 2 من الخوارزمية). في الإصدار الحالي من BATS ، يعتمد تقدير المعلمات العالمية فقط على ن جالجينات التي لها مجموعة كاملة من م الملاحظات متاحة. إذا ظل الخيار الافتراضي S TANDARD محددًا ، لكل مجموعة من الملاحظات في نقطة زمنية ر (ي) , σ (يويقدر) من قبل الانحراف المعياري عينة σ ^ (ي) MathType @ MTEF @ 5 @ 5 @ + = = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaahaaWcbeqaaiabcIcaOiabdQgaQjabcMcaPaaaaaa @ 30E4 @. من ناحية أخرى ، إذا كان من الممكن تبرير التوزيع الطبيعي للبيانات ، عن طريق تحديد الخيار المقابل MAD ، يمكن استبدال تباين العينة بمقدر أكثر قوة مثل الانحراف المطلق المتوسط ​​، والذي يُقترح عادةً عندما تكون غالبية مكونات المصفوفة الأصفار [21]. في كلتا الحالتين، فإن مقدر σ ^ 2 MathType @ MTEF @ 5 @ 5 @ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaahaaWcbeqaaiabikdaYaaaaaa @ 2EC7 @ تم الحصول عليها من المتوسط ​​من (σ ^ (ي) MathType @ MTEF @ 5 @ 5 @ + = = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaahaaWcbeqaaiabcIcaOiabdQgaQjabcMcaPaaaaaa @ 30E4 @) 2، ي = 1. م.

                          نظرا σ ^ MathType @ MTEF @ 5 @ 5 @ + = = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaaaaa @ 2DA8 @، مع خيار U NIVERSAL بعد [21]، المعلمة العالمية π0 ويقدر من المتوسط ​​على مدى صفائف نسبة من نقاط البيانات التي تندرج تحت العالمي العتبة σ ^ 2 سجل N ج MathType @ MTEF @ 5 @ 5 @ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaGcaaqaaiabikdaYiGbcYgaSjabc + gaVjabcEgaNjabd6eaonaaBaaaleaacqWGJbWyaeqaaaqabaaaaa @ 3568 @. لاحظ أن هذه الطريقة تميل إلى المبالغة في تقديرها π0 عندما يتم توزيع الخطأ بشكل طبيعي ، ولكن ليس عندما يكون لتوزيع الخطأ ذيول أثقل ، وهو أمر شائع جدًا في بيانات المصفوفات الدقيقة.

                          بمجرد تحديد أحد نماذج الخطأ الثلاثة في المربع C HOICE OF THE P RIOR M ODEL ، يتم تقدير المعلمات المعتمدة على النموذج تلقائيًا لـ M ODELS 1 أو 3. إذا تم تحديد M ODEL 2 ، يمكن للمستخدم اختيار طريقة لتقدير المعلمات الفائقة ب و γ. على وجه التحديد ، مع C HOICE 2 ، γ و ب وتقدر باستخدام إمكانية قصوى مقدر (MLE) على مجموعة من القيم σ ^ (ي) MathType @ MTEF @ 5 @ 5 @ + = = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaahaaWcbeqaaiabcIcaOiabdQgaQjabcMcaPaaaaaa @ 30E4 @، ي = 1. م، والتي يتم التعامل معها كعينة من توزيع σ (لاحظ أنه إذا (σ ^ (ي) MathType @ MTEF @ 5 @ 5 @ + = = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaahaaWcbeqaaiabcIcaOiabdQgaQjabcMcaPaaaaaa @ 30E4 @) 2

                          IG(γ, ب)، ثم (σ ^ (ي) MathType @ MTEF @ 5 @ 5 @ + = = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaahaaWcbeqaaiabcIcaOiabdQgaQjabcMcaPaaaaaa @ 30E4 @) -2

                          جاما (γ, ب)). إذا حدد المستخدم الخيار البديل C HOICE 1 ، فعليه / عليها الإصلاح γ ثم المعلمة ب سيتم تقييمها تلقائيًا عن طريق مطابقة متوسط IG(γ, ب) مع σ ^ 2 MathType @ MTEF @ 5 @ 5 @ + = = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = = rqGqVepae9pg0db9vqaiVgFr0xfr XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGafq4WdmNbaKaadaahaaWcbeqaaiabikdaYaaaaaa @ 2EC7 @. نلاحظ أنه مع اختيار C HOICE 2 ، لا يتعين على المستخدم تحديد أي معلمات. مع C HOICE 1 ، يجب على المستخدم تحديد المعلمة الإيجابية γ (القيمة الافتراضية 15). ينتج الخياران قوائم مختلفة قليلاً للجينات ويسمحان بفحص متانة التحديدات.

                          يمكن للمستخدم أيضًا اختيار ما إذا كان يريد تقدير درجة كثير الحدود إل أنابالمتوسط ​​اللاحق (الخيار M EAN) أو الوضع الخلفي (الخيار MAP) (الخطوة 5 من الخوارزمية) من المربع E STIMATION OF THE POLYNOMIAL DEGREE ، وما الإجراء الذي يجب استخدامه لاختبار أي من الجينات يتم التعبير عنها تفاضليًا (الخطوة 6 من الخوارزمية) من المربع T EST PROCEDURE. في الأخير ، يشير الخيار الافتراضي B INOMIAL إلى الفرضية ذات الحدين التي تم استنباطها مسبقًا على عدد الفرضيات البديلة ، الخيار TRUNCATED P OISSON (مع مزيد من الخيارات أي من الأساليب التدريجية لاستخدامها من أجل تحديد الفرضية التي يجب قبولها وأيها ترفض ، راجع [15] للحصول على التفاصيل) على أساس Poisson السابق المقطوع. الخيارات S TANDARD ODDS و S TANDARD BF لا تنفذ أي تحكم في التعددية والخيار F ULL R ANK لا يقوم إلا بترتيب الجينات دون تقديم أي قطع تلقائي.

                          لدى المستخدم خيار لطباعة الملفات الشخصية المقدرة (متراكبة على البيانات الأولية) لأعلى الجينات "nfirst" وفقًا للترتيب ، إما في "المقياس العالمي" (يتم عرض جميع ملفات تعريف الجينات على نفس المقياس لجعل الأرقام قابلة للمقارنة ) أو في "مقياس تلقائي" (يتم عرض كل ملف تعريف جيني باستخدام المقياس الأنسب لتحسين التصور). نلاحظ أن الفحص البصري للملفات الشخصية يمكن أن يكون مفيدًا جدًا لإجراء تقييم سريع للملاءمة.

                          بدلاً من ذلك ، يمكن إنشاء ملفات تعريف التعبير للجينات الفردية لاحقًا باستخدام الأداة المساعدة - P LOT P ROFILES.

                          بمجرد تحديد المعلمات الضرورية ، يتعين على المستخدم اختيار اسم المشروع وبدء التحليل. بشكل افتراضي ، لكل عملية تشغيل للتحليل ، يتم إنشاء ثلاثة ملفات في مجلد المشاريع: ملخص للتحليل _SR.txt (الإبلاغ عن جميع المعلمات المستخدمة) ، القائمة المرتبة للجينات المعبر عنها تفاضليًا _GL.xls لأنظمة Windows أو _GL .txt لنظام التشغيل Linux أو Mac Osx ، وملفات تعريف الجينات المقدرة _SH.xls لأنظمة windows أو _SH.txt لنظام التشغيل Linux أو Mac Osx. تعرض نافذة الحوار النتائج الوسيطة ومراحل الخوارزمية أثناء تنفيذ التحليل.

                          المحاكاة

                          يتيح تطبيق S IMULATIONS للمستخدم الخبير إنشاء وتحليل وحفظ البيانات التركيبية. يمكن أن تكون هذه الميزة مفيدة لتخطيط التصميم التجريبي (على سبيل المثال ، لإيجاد توازن مقبول بين التكلفة وفوائد زيادة عدد المصفوفات ، لتقرير ما إذا كان سيتم استخدام المصفوفات الجديدة كمضاعفات إضافية في نقاط زمنية موجودة أو في نقاط زمنية إضافية) ، للتحقق الأولي مما إذا كانت BATS هي أداة مناسبة لنوع معين من التجارب ، أو لتوليد البيانات التركيبية التي يمكن استخدامها لمقارنة الأدوات الإحصائية الأخرى. يمكن أيضًا استخدام هذا التطبيق لتعزيز فهم بعض ميزات البرنامج المقترح. المحاكاة هي بالفعل أداة نموذجية للتحقق من صحة ومقارنة الإجراءات الإحصائية. كما أنها تستخدم على نطاق واسع في تحليل المصفوفات الدقيقة ، انظر ، على سبيل المثال ، [9 ، 10] و [13]. يتطلب إجراء دراسة محاكاة مناسبة بعض المعرفة الأساسية بالإحصاءات وبعض الخبرة في الحوسبة.

                          يتكون تطبيق S IMULATIONS من نافذتين. في النافذة الأولى (انظر الشكل 3) ، يوفر المستخدم المعلمات المطلوبة لإنشاء بيانات تركيبية. في النافذة الثانية ، يمكن للمستخدم اختيار كيفية تحليل مجموعة البيانات التي تم إنشاؤها (النافذة الثانية تشبه نافذة NALYSIS).


                          شاهد الفيديو: Замена отопления в новостройке. Подключение. Опрессовка. #17 (كانون الثاني 2022).