معلومة

قيم التمهيد

قيم التمهيد



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ماذا تشير قيم التمهيد حول العلاقة بين الأنواع؟ أنا أعمل على برنامج Mega لكني لا أفهم ما تعنيه قيمة bootstrap بعبارات بسيطة وأيضًا ما الذي تشير إليه حول العلاقة بين الأنواع


تنتمي قيم التمهيد إلى فئة واسعة من القيم تسمى دعم القيم. تُستخدم قيم الدعم بشكل عام لإعطاء بعض المؤشرات عن الدرجة التي يمكن للمرء أن يثق بها من أن الفرع يمثل بعض "الإشارات" الموجودة في البيانات.

على وجه الخصوص ، تشير قيم التمهيد إلى كيفية القيام بذلك قوي الفروع في الشجرة ، أي مدى مقاومتها للاضطراب في البيانات. يتم الحصول عليها من خلال إعادة أخذ العينات من الأعمدة في مصفوفة البيانات ، وبناء الأشجار من مثل هذه المصفوفات المعاد أخذ عينات منها ، والنظر في نسبة الأشجار التي تم الحصول عليها والتي تحتوي على فرع معين.

في حالة التمهيد ، تتم خطوة إعادة أخذ العينات بالطريقة التالية: لنفترض أن مصفوفة البيانات الأصلية بها أعمدة N (أي أحرف N مشفرة ، والتي يمكن أن تكون نيوكليوتيدات أو أحماض أمينية في محاذاة تسلسلية ، أحرف مورفولوجية ، وجود- غياب السمات الجينومية ، وما إلى ذلك). سيتم الحصول على مصفوفة جديدة عن طريق الرسم العشوائي لأحد هذه الأعمدة ، N مرة. وبالتالي ، سيكون للمصفوفة الجديدة نفس عدد الأحرف ، لكن بعضها من المصفوفة الأصلية سيكون موجودًا عدة مرات والبعض الآخر سيكون غائبًا. سيؤثر هذا على طوبولوجيا الشجرة. على سبيل المثال ، إذا كان الفرع مدعومًا بأحرف غائبة الآن ، فقد لا يظهر هذا الفرع بعد الآن مع عملية إعادة أخذ العينات هذه. عادة ما يتم إعادة أخذ العينات حوالي 100 أو 1000 مرة.

تعني قيمة التمهيد المنخفضة أنه إذا تم إنشاء الشجرة باستخدام مجموعة فرعية من البيانات ، فمن المحتمل ألا يظهر هذا الفرع.

تعني قيمة التمهيد العالية أن الفرع سيظهر على الأرجح على شجرة مبنية من مصفوفة معاد أخذ عيناتها. هذا لا يعني بالضرورة أن الفرع من المرجح أن يمثل العلاقات التاريخية الحقيقية ، على الرغم من ذلك: في بعض الأحيان ، يمكن أن تكون أدوات إعادة البناء قوية. على سبيل المثال ، مع بعض طرق إعادة بناء السلالات الجزيئية ، قد ينتهي الأمر بتجميع الأصناف بناءً على أوجه التشابه في تكوين الجينوم. تشير قيم التمهيد العالية إلى وجود إشارة قوية في البيانات التي تدعم الفرع ، سواء كانت إشارة تاريخية أو غير ذلك.


قيم التمهيد - الرجاء المساعدة - (20 ديسمبر 2007)

أحتاج إلى فهم قيم التمهيد لشجرة النشوء والتطور.
إذا كانت قيم التمهيد هي 1000 ، 786 ، 502 وما إلى ذلك عند النقاط الفرعية لشجرة النشوء والتطور ، فماذا تعني تلك التي لا ، أي 1000 ، 786 ، 502؟

أنا أعلم حتى الآن أن تحليل bootstap هو طريقة لاختبار مدى ملاءمة مجموعة بيانات معينة للنموذج. من ماذا تعني هذه القيم ، أي 1000 ، 786 وما إلى ذلك؟

لقد جمعت كتابًا واحدًا عن المعلوماتية الحيوية. تحليل التسلسل والجينوم بواسطة David W. Mount. ولكن ليس الكثير يقول عن قيم التمهيد. هل هناك أي مصدر مناسب على الإنترنت لفهم ذلك؟

سيكون موضع تقدير أي توصية أخرى.
شكرا لكم مقدما.

Bootstrapping هي طريقة تأخذ فيها عينة فرعية من المواقع في محاذاة وتقوم بإنشاء أشجار بناءً على تلك العينات الفرعية - تتم مقارنة الشجرة الأصلية بالشجرة الجديدة. لكل كليد في الشجرة الأصلية ، يتم تعيين درجة 1 إذا كان هذا الكليد موجودًا في الشجرة الجديدة ، يتم تعيين درجة 0 إذا لم يكن الكليد موجودًا في الشجرة الجديدة. تشكل هذه العملية عينة تمهيدية واحدة. يتم تسجيل درجة كل كليد ويمكن بدء دورة التمهيد التالية. كلما زادت الدرجة ، كان التفرع أكثر موثوقية في تلك المرحلة. عادةً ما يتم استخدام 100 إلى 1000 تكرار للتمهيد لتقدير موثوقية الشجرة.

يعد Bootstrapping طريقة بسيطة لاختبار مدى موثوقية محاذاة التسلسل المتعدد (MSA). الفرضية الأساسية لـ MSA هي أن البقايا المتجانسة تتماشى في كل عمود من MSA. ولكن هذا فقط في أكثر الحالات مثالية ، وحتى أفضل برامج MSA لا يمكنها ضمان ذلك. لذلك في معظم MSAs يحدث أن أجزاء معينة من المحاذاة محاذاة بشكل جيد للغاية بينما البعض الآخر ليس كذلك. لذا فإن إحدى طرق اختبار مدى جودة الأجزاء المختلفة من المحاذاة هي إدخال القليل من الضوضاء في MSA. يتم ذلك عن طريق شيء يسمى & quotSampling مع الاستبدال & quot ، حيث يتم الاحتفاظ بطول ثابت MSA ، ويتم أخذ عينات من الأعمدة واستبدالها بشكل عشوائي. يقدم هذا القليل من الضوضاء في MSA ويتم حساب شجرة هذا MSA الجديد. وبالمثل ، يتم إدخال الضوضاء في أجزاء مختلفة من MSA ويتم حساب العديد من الأشجار. عادةً ما يعتمد عدد عمليات التمهيد التي يتم إجراؤها على MSA على طول MSA. يعتبر أخذ عينات 2/3 من MSA عن طريق التمهيد كافيًا بشكل عام. (1000 عينة من عينات التمهيد مع استبدال أكثر من 2/3 من MSA في جميع الحالات تقريبًا).

الآن بعد أن تم حساب الأشجار المختلفة لـ MSAs المختلفة ، يجب إنشاء توافق في الآراء بشأن الأشجار (مع خيار فوز الأغلبية عادةً). يمكن اعتبار قيم التمهيد الآن على أنها تشير إلى مقدار النسبة المئوية من MSA التي تم تمهيد تشغيلها والتي تدعم كليدًا معينًا على الرغم من كل مقدمة الضوضاء. لا تتأثر ارتباطات التنادد القوية على الرغم من حدوث تشويش بينما تظهر الارتباطات الأضعف بقيم التمهيد الضعيفة ويمكن أن تطفو في الشجرة في أي مكان بدون ارتباط محدد أو ثابت على الإطلاق.

أود أن أوصي أي شخص يقوم ببناء أشجار النشوء والتطور لقراءة هذا البرنامج التعليمي الرائع. إنه سهل القراءة ويمكن لأي شخص البدء بسرعة كبيرة في بناء الأشجار.

اسمحوا لي أن أعرف إذا كان لديك أي استفسارات

Thx Bunsen Honeydew and String لتزويدي بالمعلومات الضرورية.
تحياتي الحارة

يعد Bootstrapping طريقة بسيطة لاختبار مدى موثوقية محاذاة التسلسل المتعدد (MSA). الفرضية الأساسية لـ MSA هي أن البقايا المتجانسة تتماشى في كل عمود من MSA. ولكن هذا فقط في أكثر الحالات مثالية ، وحتى أفضل برامج MSA لا يمكنها ضمان ذلك. لذلك في معظم MSAs يحدث أن أجزاء معينة من المحاذاة محاذاة بشكل جيد للغاية بينما البعض الآخر ليس كذلك. لذا فإن إحدى طرق اختبار مدى جودة الأجزاء المختلفة من المحاذاة هي إدخال القليل من الضوضاء في MSA. يتم ذلك عن طريق شيء يسمى & quotSampling مع الاستبدال & quot ، حيث يتم الاحتفاظ بطول ثابت MSA ، ويتم أخذ عينات من الأعمدة واستبدالها بشكل عشوائي. يقدم هذا القليل من الضوضاء في MSA ويتم حساب شجرة هذا MSA الجديد. وبالمثل ، يتم إدخال الضوضاء في أجزاء مختلفة من MSA ويتم حساب العديد من الأشجار. عادةً ما يعتمد عدد عمليات التمهيد التي يتم إجراؤها على MSA على طول MSA. يعتبر أخذ عينات 2/3 من MSA عن طريق التمهيد كافيًا بشكل عام. (1000 عينة من عينات التمهيد مع استبدال أكثر من 2/3 من MSA في جميع الحالات تقريبًا).

الآن بعد أن تم حساب الأشجار المختلفة لـ MSAs المختلفة ، يجب إنشاء توافق في الآراء بشأن الأشجار (مع خيار فوز الأغلبية عادةً). يمكن اعتبار قيم التمهيد الآن على أنها تشير إلى مقدار النسبة المئوية من MSA التي تم تمهيد تشغيلها والتي تدعم كليدًا معينًا على الرغم من كل مقدمة الضوضاء. لا تتأثر ارتباطات التنادد القوية على الرغم من حدوث تشويش بينما تظهر الارتباطات الأضعف بقيم التمهيد الضعيفة ويمكن أن تطفو في الشجرة في أي مكان بدون ارتباط محدد أو ثابت على الإطلاق.

أود أن أوصي أي شخص يقوم ببناء أشجار النشوء والتطور لقراءة هذا البرنامج التعليمي الرائع. إنه سهل القراءة ويمكن لأي شخص البدء بسرعة كبيرة في بناء الأشجار.


كيفية أداء Bootstrapping في R (مع أمثلة)

التمهيد هي طريقة يمكن استخدامها لتقدير الخطأ المعياري لأي إحصائية وإنتاج فاصل ثقة للإحصاء.

العملية الأساسية للتمهيد هي كما يلي:

  • يأخذ ك عينات متكررة مع استبدال من مجموعة بيانات معينة.
  • لكل عينة ، احسب الإحصائية التي تهمك & # 8217re.
  • وينتج عنه ك تقديرات مختلفة لإحصائية معينة ، والتي يمكنك استخدامها بعد ذلك لحساب الخطأ القياسي للإحصاء وإنشاء فاصل ثقة للإحصاء.

يمكننا تنفيذ التمهيد في R باستخدام الوظائف التالية من مكتبة التمهيد:

1. توليد عينات التمهيد.

التمهيد (البيانات ، الإحصاء ، R ، & # 8230)

  • البيانات: متجه أو مصفوفة أو إطار بيانات
  • الإحصاء: دالة تنتج الإحصائيات المطلوب تمهيدها
  • R: عدد مكررات التمهيد

2. قم بإنشاء فاصل ثقة تم تمهيده.

boot.ci (bootobject، conf، type)

  • bootobject: كائن تم إرجاعه بواسطة دالة boot ()
  • أسيوط: فاصل الثقة المطلوب حسابه. الافتراضي هو 0.95
  • نوع: نوع فترة الثقة المراد حسابها. تتضمن الخيارات & # 8220norm & # 8221، & # 8220basic & # 8221، & # 8220stud & # 8221، & # 8220perc & # 8221، & # 8220bca & # 8221 و & # 8220all & # 8221 & # 8211 الافتراضي هو & # 8220all & # 8221

توضح الأمثلة التالية كيفية استخدام هذه الوظائف في الممارسة العملية.

مثال 1: Bootstrap إحصائية واحدة

يوضح الكود التالي كيفية حساب الخطأ القياسي للمربع R لنموذج الانحدار الخطي البسيط:

من النتائج التي يمكننا رؤيتها:

  • مربع R المقدر لنموذج الانحدار هذا هو 0.7183433.
  • الخطأ المعياري لهذا التقدير هو 0.06513426.

يمكننا أيضًا عرض توزيع عينات التمهيد بسرعة:

يمكننا أيضًا استخدام الكود التالي لحساب فاصل الثقة 95٪ لمربع R المقدّر للنموذج:

من الناتج يمكننا أن نرى أن فاصل الثقة 95٪ لقيم R التربيع الحقيقية هو (.5350 ، .8188).

المثال 2: Bootstrap Multiple Statistics

يوضح الكود التالي كيفية حساب الخطأ القياسي لكل معامل في نموذج انحدار خطي متعدد:

من النتائج التي يمكننا رؤيتها:

  • المعامل المقدر لاعتراض النموذج هو 29.59985476 والخطأ المعياري لهذا التقدير هو 1.49354577.
  • المعامل المقدر لمتغير التوقع ديس في النموذج -0.04121512 والخطأ المعياري لهذا التقدير هو 0.00527082.

يمكننا أيضًا عرض توزيع عينات التمهيد بسرعة:

يمكننا أيضًا استخدام الكود التالي لحساب فترات الثقة 95٪ لكل معامل:

من الناتج يمكننا أن نرى أن فترات الثقة 95٪ لمعاملات النموذج هي كما يلي:


البناء والمحتوى

ملخص

الهدف من STBase هو توفير أداة تقبل قائمة استعلام المستخدم & # x02019s لأسماء الأصناف وإرجاع قائمة مرتبة & # x0201chits & # x0201d إلى قاعدة بيانات لأشجار النشوء والتطور. & # x0201chit، & # x0201d يُقصد به أن يكون مماثلاً لعمليات بحث بلاست [38] ، ويحدث عندما يعثر محرك البحث على مجموعة بيانات تحتوي على الحد الأدنى لعدد تصنيفات الاستعلام. لا يتلاءم STBase مع عمليات البحث غير الواضحة في هذا الوقت ، يجب كتابة أسماء الأصناف كما هو الحال في تصنيف GenBank. يحتوي كل & # x0201chit & # x0201d على مجموعة مرتبطة من 1000 شجرة تم إنشاؤها بواسطة تحليل التمهيد. يتم إنشاء الأشجار الفرعية ، مع تقديرات الثقة ، عن طريق تقليم كل شجرة تمهيد إلى الأصناف ذات الأهمية ، ثم يتم إرجاع إجماع قاعدة الأغلبية لهذه الأشجار الفرعية إلى المستخدم. لتحديد ما تعنيه & # x0201cgood hit & # x0201d ، نقوم بإنشاء دالة تسجيل تزيد مع جودة الشجرة ومقدار التداخل التصنيفي بين الشجرة والاستعلام. نفترض أن جودة الشجرة يمكن تمييزها من خلال تضمين مجموعة ثقة من الأشجار في قاعدة البيانات ، محسوبة ، على سبيل المثال ، عن طريق التمهيد (كما هو الحال هنا) أو عن طريق أخذ عينات من التوزيع اللاحق [1]. لنفترض أن A تكون قائمة الاستعلام ، و ح أن يكون تفضيلًا يوفره المستخدم يشير إلى الأهمية النسبية لجودة الشجرة مقابل تداخل الأصناف. بالنسبة لأي شجرة ، T ، دع L (T) هو التصنيف في الشجرة ، T | تكون الشجرة الفرعية مقصورة على تصنيف الاستعلام فقط ، و L (T | A) هي الفئة المشتركة بين الاستعلام والشجرة. ثم حدد ث (L (T | A)) لتكون دالة متزايدة لهذا التداخل. لنفترض أن q (T | A) تكون بعض الوظائف المتزايدة لجودة الشجرة الفرعية. بعد ذلك تكون درجة a & # x0201chit & # x0201d على الشجرة T (المحسوبة مسبقًا) لقائمة الاستعلام A

يسمح تحديد النتيجة بهذه الطريقة للمستخدم بالبحث عن الأشجار التي تتداخل على نطاق أوسع مع قائمة استعلام الأصناف الخاصة بهم (مثل العدد القياسي ح تقترب من 0) أو تفضل الأشجار الفرعية ذات الجودة العالية كما هو موضح بواسطة قيم التمهيد الخاصة بها (مثل ح يزيد). في المتوسط ​​، نتوقع أن تكون الأشجار الأكبر حجمًا أقل دعمًا [39] والقيم الوسيطة لـ ح سيعيد الأشجار التي قد تقدم حلاً وسطًا بين طرفي الأشجار الكبيرة مقابل الأشجار الأفضل. يتم حساب درجة الجودة ، q (T | A) ، بضرب متوسط ​​دعم التمهيد (للعقد التي تزيد عن 50٪) في نسبة العقد التي تم حلها في شجرة إجماع قاعدة الأغلبية. وظيفة التداخل ، ث (L (T | A)) ، هو عدد الأصناف المتداخلة مقسومًا على عدد أصناف الاستعلام الموجودة في قاعدة البيانات (بدلاً من المجموعة الأكبر من تصنيفات الاستعلام التي قد تتضمن تصنيفات غير موجودة في GenBank على الإطلاق). للتأكد من أن النتيجة قابلة للمقارنة وبالتالي مفيدة في ترتيب النتائج ، نقوم بتطبيع الدرجة لتتراوح من 0 إلى 100 عن طريق ضرب وظيفة التداخل في 100 وقسمة النتيجة على 1+ ح (ح هو رقم موجب تحتوي واجهة المستخدم على شريط تمرير يسمح بالاختيار بين 0.01 و 10.0 بقيمة افتراضية 1.0). ضع في اعتبارك ، على سبيل المثال ، قائمة المدخلات التي قدمها المستخدم والتي تضم 200 اسمًا أصنفيًا ، وكلها موجودة في GenBank (لاحظ أن أسماء الأصناف المفقودة من GenBank لا تؤثر على ترتيب النتائج). لنفترض أن قاعدة البيانات تحتوي على شجرة كبيرة من 1200 فئة تشترك في 80 من الأسماء الموجودة في قائمة الاستعلام ، وأن شجرة إجماع قاعدة الأغلبية (MRT) المكونة من 1000 شجرة تم تمهيدها ، تم تقليمها إلى تلك الأصناف الثمانين (انظر أدناه للحصول على تفاصيل حول التقليم) ، تم حله بالكامل وبمتوسط ​​قيمة تمهيد تشغيل تبلغ 70٪ ، وقد اختار المستخدم ملف ح قيمة 0.5. النتيجة الطبيعية لهذه الشجرة: S = ((80/200) & # x000d7 100 + 0.5 & # x000d7 70) / (1 + 0.5) = 50. على الرغم من إمكانية إرجاع آلاف الأشجار من أي استعلام معين ، إلا أن درجاتها يتم حسابها على الفور ، بحيث يتغير المستخدم ح، يتم تعديل ترتيب الأشجار على الفور.

بناء شجرة

مجموعات البيانات أحادية الموقع. يوضح الشكل 1 خط أنابيب بناء الأشجار لدينا. تم تجميع مجموعات بيانات النوكليوتيدات أحادية الموقع (الجدول 1) من GenBank rel. 184 وفقًا لخط أنابيب PhyLoTA الموصوف في مكان آخر [27]. باختصار ، تم إنشاء مجموعات البيانات من تسلسلات ضمن مجموعات تصنيفية حقيقية النواة محدودة الحجم (& # x0201 مجموعات chub & # x0201d). تم اختيار كل مجموعة مركزية بحيث لا يتجاوز العدد الإجمالي للتسلسلات من جميع أعضائها 35000 (باستثناء الكائنات الحية النموذجية راجع [27] للحصول على التفاصيل). تم تحديد العضوية في المجموعة من خلال تصنيف NCBI. نتج عن هذا النهج مجموعة من 517 مجموعة تصنيفية تتوافق في الممارسة تقريبًا مع رتبة أوامر لينيان. داخل كل مجموعة مركزية ، تم تحديد مجموعات من التسلسلات المتجانسة من خلال عمليات البحث الشاملة ضد الكل وتجميع الرابط الفردي باستخدام الحد الأدنى من متطلبات التداخل بنسبة 50 ٪. تم تكرار هذه العملية بعد ذلك لكل مجموعة سليلة من المجموعة المحورية في التسلسل الهرمي لـ NCBI ، مما أدى إلى مجموعة من العلاقات بين الوالدين والطفل بين المجموعات. من مجموعة أصلية من 5،798،234 تسلسل بين 413،628 تصنيفًا متميزًا ، تم الاحتفاظ بمجموعة من 343،888 تصنيفًا في 160،801 عناقيد معلوماتية نسبيًا (أي ، مجموعات بها أربعة أو أكثر من الأصناف). يحتوي أكبر كتلة على 20125 تسلسلًا ، ومتوسط ​​حجم الكتلة هو 69.8 ، وهناك 133 مجموعة مع & # x02265 5000 تسلسل.

يتم تجميع العناقيد أحادية الموقع من بيانات النوكليوتيدات GenBank باتباع الإجراءات في Phylota [27]. يتم إعادة بناء ألف شجرة تمهيد سريعة البخل السريع وتخزينها في قاعدة البيانات. يتم إعادة بناء أشجار الاحتمالية القصوى واستخدامها لتوجيه اختيار التسلسل للأشجار ذات العلامات الفردية (انظر النص للحصول على الوصف الكامل). يتم تجميع المجموعات المختزلة في مجموعات بيانات متعددة المواقع ، كل منها ينتج عنه ألف شجرة تمهيد ، مودعة في قاعدة البيانات.

الجدول 1

عدد مجموعات البياناتLoci (متوسط ​​ونطاق)التصنيف 1 (المتوسط ​​والمدى)حجم مجموعة البيانات 2 (المتوسط ​​والنطاق)يعني الدعم (جزء من العقد التي تم حلها على MRT)
مجموعات أحادية الموقع160,801 3 1 (1 & # x020131)63.1 (4 & # x020138767)63.1 (4 & # x020138767)0.51
بيكليكس762,5299.8 (2 & # x0201391)15.6 (4 & # x02013510)142.3 (8 & # x020131526)0.84
شبه bicliques حاسمة67,10312.4 (2 & # x02013386)27.8 (5 & # x020131406) 4 234.7 (10 & # x020139516)0.68
إجمالي قاعدة البيانات990,4338.5 (1 & # x02013386)24.1 (4 & # x020138767)135.7 (4 & # x020139516)0.79

1 نطلب ما لا يقل عن أربعة أصناف في مجموعة البيانات ، وهي مطلوبة للعلاقات المفيدة في شجرة غير متجذرة.

2 منتج عدد المواقع وعدد الأصناف.

3 من هؤلاء ، كان 111433 عدة أجزاء. كان لدى حوالي 11358 مجموعة بيانات أقل من 4 تصنيفات بعد التخفيض المتعدد ، لذلك تم استخدام 149443 فقط لبناء مجموعات بيانات متعددة المواقع.

4 نظرًا لأننا نحتاج إلى أربعة أصناف للحصول على الحد الأدنى من معلوماتية النشوء والتطور المحتملة ، يجب أن تحتوي مجموعة البيانات شبه ثنائية البيكليك الحاسمة ، التي تحتوي على بعض الإدخالات ، على خمسة تصنيفات على الأقل (وإلا ستكون ثنائية ، مناسبة).

اشتملت العديد من هذه المجموعات (69٪) على معرف تصنيف واحد على الأقل عدة مرات مثل هذه التسلسلات الزائدة التصنيفي قد تكون ناتجة عن أخذ عينات من أفراد متعددين ، أو يمكن أن تمثل أليلات متعددة أو حتى مواضع شبيهة. يمكن الإشارة إلى أسماء الأصناف التي تحدث أكثر من مرة في مجموعة بيانات بـ & # x0201cmultaxa & # x0201d ، والأشجار من مجموعات البيانات هذه & # x0201cmultrees & # x0201d [40]. لقد استغلنا خوارزمية اختزال متعددة الأشجار تم وصفها مؤخرًا [37] لاستخراج من كل من هذه الأشجار المتعددة شجرة تحمل العلامة & # x0201creduced & # x0201d مضمونة للاحتفاظ بأقصى قدر من المعلومات على مستوى الأنواع الخالية من النزاعات (الشكل 2). باختصار ، تقوم الخوارزمية بتقييم الرباعيات (حافة ، أو فرع ، تفصل بين زوجين من الأصناف) ، وتجد تلك التي لا تتعارض مع الرباعيات الأخرى في نفس مجموعة الأصناف. يتمثل تأثير الخوارزمية في إزالة الحواف المتعارضة وأي تصنيفات تشارك في رباعيات غير خالية من التعارض (الأشكال. هو إجراء تحفظي يحد من عدد العلاقات الإيجابية الخاطئة بين الأنواع. والأهم من ذلك ، أنه قوي للأسباب البيولوجية لوجود تسلسلات متعددة.قد تنشأ من خلال ازدواج الجينات (الشكل 3 ج) ، وأخذ العينات السكانية (الشكل ثلاثي الأبعاد) ، أو حتى خطأ في تحديد الهوية (انظر أيضًا [35] للحصول على خوارزمية قابلة للمقارنة تستهدف على وجه التحديد الأشجار ذات الازدواج الجيني فقط). تم تضمين الخوارزمية في واجهة المستخدم. بالنسبة لجميع الأشجار أحادية الموقع ذات المحطات الطرفية المتعددة لأصنف واحد على الأقل ، فإن المستخدم يمكن استرداد إما multree الأصلي لمزيد من التحليل ، على سبيل المثال ، للتمييز بين المتواليات المتعامدة من المتواليات المتعامدة ، أو الشجرة ذات العلامات المفردة ، للحصول على أقصى قدر من المعلومات على مستوى الأنواع الواردة في تلك الشجرة المعينة.

الشجرة العلوية هي شجرة متعددة ، أي تحتوي على ملصق واحد على الأقل موجود في أكثر من محطة واحدة. علاوة على ذلك ، فإنه يعرض الرباعيات (الأشجار الفرعية على أربعة أصناف) المتضاربة: BD|EC يتعارض مع قبل الميلاد|DE. الشكل المصغر للشجرة ، أدناه ، هو شجرة ذات تسمية فردية. هذا بيان متحفظ حول علاقات الأنواع بمعنى أنه يزيل الصراع (مع عدم تقديم معلومات جديدة).

أ. شجرة ذات مرتبة عالية للاستعلام & # x0201cبراسيكا& # x0201d مستنتج من مجموعة بيانات أحادية الموقع تمت محاذاتها على مستوى الكرنب الصغير (مجموعة البيانات # 56065 فينيل ألانين أمونيا-لياز). ب. اختزال الشجرة في العلاقات على مستوى الأنواع دون تعارض. لاحظ فقدان أحد الأصناف ، napus براسيكا كان هذا الصنف موجودًا في العديد من الرباعيات في الشجرة الأصلية ، لكن كل واحدة كانت تتناقض مع رباعي آخر على الأقل. لذلك لم تكن هناك معلومات خالية من التعارض لهذا التصنيف ، وتمت إزالته بواسطة الخوارزمية. C. شجرة ذات تصنيف منخفض من الاستعلام & # x0201cذبابة الفاكهة& # x0201d (مجموعة البيانات # 130188 SMOX gene) التي لا توجد فيها حواف إعلامية لذا ينتج عن التخفيض المتعدد نتيجة فارغة (بدون حواف ، لا توجد تصنيفات غير معروضة). د. الشجرة ذات التصنيف المتوسط ​​حيث يوجد تصنيف واحد فقط له تسلسلات متعددة وتحتوي الشجرة المصنفة منفردة المصغرة على جميع الأصناف (مجموعة البيانات رقم 91190 & # x02018yolk protein 1 & # x02019 الشجرة المختصرة غير معروضة ، ولكن يمكن الحصول عليها عن طريق حذف جميع الأصناف باستثناء واحدة الأوراق المسمى ذبابة الفاكهة جريمشاوي).

مجموعات بيانات متعددة المواضع. يعد تجميع مجموعات البيانات المتسلسلة متعددة المواضع (& # x0201csupermatrices & # x0201d) مشكلة عندما تحتوي واحدة أو أكثر من مجموعات البيانات على multaxa [35]. لذلك استخدمنا المجموعة المخفضة من الأصناف التي تم الحصول عليها من الاختزال متعدد الطبقات كمصدر لبيانات التسلسل لتجميع المراتب الفائقة. ينتج عن هذا فقدان بعض الأصناف في المتوسط ​​(الشكل 3) ، ولكنه يقلل أيضًا من التعارض داخل شجرة الجينات الناشئة عن العمليات البيولوجية مثل تكرار الجينات وفقدانها أو فرز النسب غير المكتمل. على الرغم من أننا لم نبني أشجار الأنواع باستخدام أي طرق بخلاف التسلسل ، يمكن استخدام مجموعتنا من المواقع / الأشجار المختصرة كمدخلات لطرق استدلال شجرة الأنواع باستخدام الإجماع [41] ، أو التوفيق (على سبيل المثال ، [42 ، 43]) أو الاحتمال الواضح أو طرق بايزي لاستغلال بيانات التسلسل المناسبة (على سبيل المثال ، [21]).

تم استخدام بروتوكولين لتوجيه اختيار مجموعات فرعية من الأصناف والمواقع لتجميع المصفوفات الفائقة متعددة المواضع من مجموعات البيانات المختصرة أحادية الموقع في كل مجموعة محور NCBI وجميع المجموعات التابعة لها. يقوم كلاهما بإنشاء مجموعات بيانات متعددة المواضع بخاصية مرغوبة & # x0201cdecisiveness & # x0201d ، والتي يمكن أن تساعد في الحد من تأثير الإدخالات المفقودة في المصفوفة الفائقة ([23 ، 24 ، 44 & # x0201347]. م، أمر حاسم بالنسبة للشجرة ، تي (تحتوي على جميع الأصناف بتنسيق م) ، إذا وفقط إذا كانت الأشجار الفرعية ، tأنا، لكل موضع i ، تم الحصول عليها عن طريق التقييد تي فقط لتلك الأصناف التي تحتوي على بيانات تسلسلية في الموضع الأول ، حدد بشكل فريد تي. إذا كانت الأشجار الفرعية ، بدلاً من ذلك ، متسقة مع أكثر من شجرة واحدة ، فلن يتم تعريفها تي، وقد تكون المصفوفة الفائقة غير قادرة على التمييز بين تلك الأشجار لبعض طرق إعادة البناء (على سبيل المثال ، البخل أو تحليل الاحتمالية المقسمة: [24]). هذا هو شكل قوي من أشكال الحسم ، والذي ينطبق على بعض أنماط البيانات المفقودة م قد تكون حاسمة لجميع الأشجار الممكنة.

يجمع بروتوكولنا الأول الحد الأقصى مكتمل المصفوفات الفائقة من خلال إيجاد كل ما يسمى bicliques القصوى في بنية بيانات الرسم البياني المرتبطة. باختصار ، يشير biclique هنا إلى مجموعة من الأصناف والمواقع التي تحتوي جميع الأصناف على بيانات لجميع البيكلييكات المحلية القصوى من خلال استغلال النتائج النظرية للرسم البياني المذكورة في [48 ، 49]. نظرًا لأن أي مصفوفة فائقة يشتمل فيها موضع واحد على تسلسل من جميع الأصناف يعد أمرًا حاسمًا ، فهذه تعتبر حاسمة لجميع الأشجار. يضمن بروتوكولنا الثاني أيضًا الحسم ولكنه يسمح ببعض الإدخالات المفقودة في المصفوفة الفائقة. يبني مصفوفة فائقة باستخدام موضع واحد كموقع مرجعي. يتم بعد ذلك تقييد قائمة الأصناف على أولئك الموجودين في الموقع المرجعي ، ولكن يتم تضمين جميع المواقع المتاحة لكل من هذه الأصناف (الشكل 4). بسبب الموضع المرجعي ، تعتبر هذه المصفوفة الفائقة حاسمة أيضًا لجميع الأشجار ، على الرغم من احتوائها على بيانات مفقودة ، ونشير إليها على أنها شبه biclique حاسم (dqbc). لمجموعة معينة من المواقع ، واحد دقبك يمكن بناؤها باستخدام كل موضع كمرجع بدوره. يوضح الشكل 4 هذه الأنواع من مجموعات البيانات ، بما في ذلك الحالة التافهة الحاسمة لمجموعات البيانات أحادية الموقع. في تطبيقنا ، قمنا بتقييد إنشاء dqbc ليشمل فقط تلك المواقع التي تحتوي على 33.3٪ على الأقل من التصنيف في الموضع المرجعي.

تشير الأشرطة المملوءة إلى وجود بيانات لموقع معين وتصنيف معين. يتم إنشاء مجموعات البيانات متعددة التركيز بطريقتين: (1) مثل bicliques (داخل الخط الصلب) ، حيث لا يوجد أي تصنيفات تفتقد إلى أي موقع ، ولا يمكن إضافة أي منها دون إدخال البيانات المفقودة (لذا فهي & # x0201cmaximal & # x0201d) ، و (2) باعتبارها شبه bicliques حاسمة (داخل الخط المتقطع) ، حيث يعمل موضع مرجعي على تقييد قائمة الأصناف ، ولكن يتم تضمين جميع المواقع المتاحة لتلك الأصناف. هنا يعمل الموضع 1 كموقع مرجعي لشبه biclique الحاسم الموضح ، ولكن يمكن إنشاء موقعين آخرين باستخدام الموقعين الآخرين كموقعين مرجعيين. وبالمثل ، توجد bicliques القصوى الأخرى ، كل منها يحتوي على موقعين فقط (على سبيل المثال ، الموقع 2 و 3 للأصناف C ، J ، K ، L).

يمكن أن تتداخل مجموعات البيانات متعددة المواقع (bicliques القصوى وشبه bicliques الحاسمة) التي تم بناؤها في بعض العقدة في التسلسل الهرمي NCBI ، ومن المتوقع أن تتداخل مع بعضها البعض (الشكل 4). للتأكد من أن مجموعات البيانات ليست زائدة عن الحاجة تمامًا مع مجموعات أخرى تم إنشاؤها في نفس عقدة NCBI ، تم إجراء فحوصات وفلاتر متنوعة على النتائج. لقد تحققنا مما إذا كانت هناك مجموعات بيانات مكررة داخل أو بين العقد في التسلسل الهرمي لـ NCBI وما إذا كانت أي شبه ثنائية حاسمة كانت في الواقع ثنائية (وهو ما يحدث نادرًا عندما يكون نمط تغطية الأصناف ملائمًا). بالإضافة إلى ذلك ، استخدمنا بروتوكول BLAST للتحقق من أن جميع المواقع في مجموعة بيانات مستقلة عن بعضها البعض ، ولا تشارك أي تناظرات محلية (يمكن أن تنشأ هذه في بعض الأحيان لمجموعة متنوعة من الأسباب المنبع في خط الأنابيب) ، مما قد يؤدي إلى التضمين الزائد في نفس المصفوفة الفائقة (على سبيل المثال ، [12] ، التصويب). يمكن أن تكون مجموعة مجموعات البيانات متعددة المواقع كبيرة ، وفي بعض الحالات مع تغطية تصنيفية كثيفة نسبيًا ، بسبب التوليفات الأساسية. لقد وجدنا ، على سبيل المثال ، أنه يوجد داخل الثدييات مئات الآلاف من bicliques الرئيسيات وآكلة اللحوم (أكثر من كل عدد bicliques لجميع الأصناف الأخرى مجتمعة ، في الواقع) لذلك أخذنا عينات فقط من biqliques عشوائيًا من هذه المجموعات: 2٪ و 20٪ على التوالي.

يبلغ ناتج خط الأنابيب هذا ما يقرب من مليون & # x0201cphylogenetically بالمعلومات & # x0201d مجموعات بيانات (على سبيل المثال ، تحتوي على أربعة تصنيفات على الأقل) ، من بينها 351،212 تصنيفًا مميزًا معترفًا به من قبل NCBI يتم توزيعها. لكل مجموعة بيانات ، تم الحصول على محاذاة تسلسل متعددة باستخدام MUSCLE [50] ، وأشجار ML الأمثل باستخدام الخيارات الافتراضية في RAxML [51] ، و 1،000 & # x0201cfast & # x0201d شجرة تمهيد البخل باستخدام PAUP * [52]. وقت الحوسبة المطلوب هو حوالي 6 أسابيع على 300 مجموعة لينكس أساسية للتحليلات الموصوفة. نحن نقدر أن تكرار هذا مع تحليلات تمهيدية كاملة الاحتمالية القصوى مع الخيارات الافتراضية في RAxML (على عكس عمليات التمهيد السريعة المستخدمة هنا) سيتطلب 5 & # x0201350 سنوات على نفس الجهاز.

قاعدة البيانات

المخطط والبحث والاسترجاع. تحتوي قاعدة بيانات STBase على مخطط بسيط للغاية يهدف إلى تعظيم كفاءة البحث والاسترجاع. يتكون بشكل أساسي من خمسة كيانات: الأصناف والتسلسلات والعناقيد ومجموعات البيانات ومجموعات الثقة من الأشجار. يتكون التصنيف من نوع أو اسم نوع فرعي ومعرف تصنيف NCBI الخاص به (كلاهما يتبع تصنيف NCBI & # x02019s). يمكن أن يكون للصنف أسماء مترادفة متعددة تم تعيينها لنفس معرف التصنيف. يتم تمثيل كل تسلسل & # x02014 بواسطة رقم NCBI GI باعتباره معرفه & # x02014 مرتبطًا بأحد الأصناف ، ويمكن أن يكون هناك تسلسلات متعددة مرتبطة بنفس التصنيف. الكتلة عبارة عن مجموعة من المتواليات المتماثلة ، يشار إليها بشكل فضفاض باسم & # x0201clocus & # x0201d. مجموعة البيانات هي مجموعة من واحدة أو أكثر من المجموعات / المواقع المتوافقة ، متسلسلة في مصفوفة فائقة (إذا كانت أكثر من واحدة) ، والتي تم إنشاء الأشجار منها. يتم تعيين كل مجموعة بيانات لمجموعة من ألف شجرة تم تشغيلها. لرسم خريطة فعالة بين هذه الكيانات ، تستخدم STBase وظائف التجزئة [53 ، 54] (سلسلة محددة: [55]) ، والتي تكون قادرة على إدخال وحذف عنصر عشوائي في وقت ثابت بغض النظر عن حجم المجموعة.

يقوم المستخدم بإدخال قائمة بأسماء الأصناف و / أو أسماء الأنواع. يتم استبدال أسماء الأجناس بقائمة بجميع أسماء الأصناف في ذلك الجنس. يتبع ذلك خمس خطوات: (1) استرجاع معرفات الأصناف المقابلة ، (2) إيجاد مجموعات البيانات التي لها التداخل المطلوب مع مجموعة تصنيفات الاستعلام وقراءتها من القرص ، (3) معالجة كل مجموعة بيانات لتقييد كل من تضم آلاف الأشجار إلى التصنيف الذي يتداخل مع الاستعلام ، (4) يلخص الأشجار المقيدة لكل مجموعة على أنها شجرة إجماع على قاعدة الأغلبية ، مع قيم الدعم ، وإرجاع MRTs إلى المستخدم. يتم استخدام نهج مماثل على موقع birdtree.org [14] ، والذي يسمح للمستخدمين بالاستعلام عن مجموعات من الأشجار المرسومة من التوزيع الخلفي الزائف لأشجار الطيور الكاملة التي تم إنشاؤها باستخدام مجموعة من البيانات والمحاكاة. أخيرًا ، (5) في حالة الأشجار المتعددة ، يتم حساب الشجرة المختصرة ذات التسمية المفردة عند الطلب (ينطبق هذا فقط على مجموعات البيانات أحادية الموقع & # x02014 لمجموعات البيانات متعددة المواضع ، تتم معالجة التسلسلات الزائدة عن الحاجة قبل التسلسل).

نظرًا لمتطلبات التخزين الجماعية للأشجار (أكثر من 200 جيجابايت) ، لا يمكن الاحتفاظ بالأشجار من جميع مجموعات البيانات في ذاكرة الوصول العشوائي ، مما يشكل العديد من التحديات لتحقيق معالجة سريعة للاستعلام. بالنظر إلى مجموعة من معرفات الأصناف ، فإن تحديد المجموعات المتداخلة وقراءتها من ذاكرة القرص هو الجزء الأكثر استهلاكا للوقت في عملية الاستعلام ، حيث يوجد ما يقرب من مليون مجموعة بيانات ، مع ما يقرب من 4 إلى 10000 تصنيف لكل منها ، تغطي أكثر من 340.000 تصنيف ( الجدول 1 ). ومع ذلك ، يحدد STBase مجموعات متداخلة في الوقت مستقلة عن حجم قاعدة البيانات باستخدام الفهرسة المعكوسة [56 ، 57]. يتيح الفهرس المقلوب البحث عن مجموعة فرعية من & # x0201cdocuments & # x0201d (مجموعات البيانات هنا) واستردادها تحتوي على كلمة واحدة أو أكثر من مجموعة الاستعلام. يقوم بذلك عن طريق الحفاظ على تعيين من مجموعة محددة مسبقًا من الكلمات الأساسية إلى المستندات الموجودة في المجموعة التي تحتوي عليها. في STBase ، الهدف هو العثور على مجموعات البيانات التي تحتوي على الأصناف التي تعين قائمة الأصناف التي قدمها المستخدم. لذلك يتم تخزين STBase & # x02019s الفهرس المقلوب تمامًا أي تحتوي مجموعات البيانات (& # x0201cdocuments & # x0201d) على أسماء الأصناف (& # x0201ckeywords & # x0201d) و أين توجد مجموعات البيانات هذه على القرص الصلب.

جيل شجرة حكم الأغلبية. عادةً ما يجد الاستعلام 100 & # x02013200 مجموعات بيانات بها تداخل كافٍ مع أسماء الأصناف المقدمة كمدخلات. كل منها مرتبط بألف شجرة تمهيد محسوبة مسبقًا والتي يقتصر كل منها على تداخل الاستعلام. يتم بعد ذلك تلخيص 1000 شجرة مشذبة على أنها MRT. لإنشاء MRT في وقت الاستعلام (& # x0201con-the-fly & # x0201d) ، استخدمنا Amenta et al. & # x02019s [58] خوارزمية MRT للوقت الخطي العشوائي ، والتي تستخدم رموز التجزئة & # x02014a كائن حجم ثابت & # x02014 لتمثيل قسمين وطريقة ذكية لإنشاء MRT باستخدام هذه الأقسام الثنائية المجزأة فقط. ينتج عن هذا خوارزمية الوقت الخطي المتوقعة (أي الأمثل).


قيم التمهيد - علم الأحياء

z g ^ u 8X 6 ساعات أو V 1q # | kb Φ ϊU @ 2 w 嬻 e * q ! د Fak | endstream endobj 70 0 obj> endobj 71 0 obj> endobj 72 0 obj> endobj 73 0 obj> stream

dvitpsk 5.78 حقوق الطبع والنشر لعام 1998 لبرنامج Radical Eye Software (www.radicaleye.com)

> endstream endobj 85 0 obj 636 endobj 86 0 obj> stream 8Z] "٪ eL8 # Xib6 $ Z_gBG1H * !؟ nj، nl * T & ls # DT '#! gi) Qf_1 / GCV7l01p0] g] D i2uZO * 68aelHaOW [uQ" i1 + T!، JqoM71SpFNL "lI> AI) QkFsSU $ 1 @ Ao> V" ^، = RYuI MEdDWqmj (58 $ / m / NXL: tk] & + 49 / YQ> 'ea٪ 4A +: PYgHkD Q8P1> b٪ ]! ACbKIbLV! 8 LN4-t3C! # cJ + sE: i + b # u01WVi؟ a (7dQQ # - [: $ 3 ^ L.9! uWC # 3J٪ a5c6iN، '،) CR']] f؟ 0> EfhQ # OUBfN5impG q "U3NQp" * F. '= 1L &' s "u & oFfF7 * aMO! + ^ t # nLT9thcGe` @ Xkt]٪ $ VtEeb`qK، WWK؟ 7٪ ptl # Hp> tL * s9" O) 4GBRde = ز! r0 '

> endstream endobj 89 0 obj 705 endobj 90 0 obj> stream 8Z 7 $ # YDM٪ * `9kjMJf @ 2٪ O" 6 -KjYdDAdhECicted`.3J0o#BdMJ#@pNc4mGci*aG 2JrYOEUPCBL + WnqjFQ68 ^?///Ng':PT4/[email protected] oduOie%,a!T9 Ng,O(J>'YS`^Y#0FrMp!0Qq)7])L%(KRFk dL!L8! [email protected])[email protected]/=B1`G9?TgLnG *Bq]>`Gkf?Mn1KI?=B4dNi]'m>tI?Lm9]0K=q4!5. =1PZO,,bLK^L+lU"WZd U_OiX^=5P)-qdL-o)l=?,FlmRXL0O6%M=KZlD?cTLPep8.6CVeM83AO:,UmAY#D 9Bn:Q"iYl$#YmZ!cp$ i211_"NOh2q9lG8U+SBc2T6"'[email protected])[email protected]@'MmQeC_>/+S +]IPo. %5*Kle8FKni:DCQ=(OXs[rh&`1*D,O5+U][email protected][ 2KliaeF_gFIhK(" Hjp)O77[^

> endstream endobj 97 0 obj 568 endobj 98 0 obj > stream 8Z7=,t3Q#j)%%j>s>5>UU-

> endstream endobj 99 0 obj 735 endobj 100 0 obj > stream 8Z]!CCUFi#_]nk"[email protected],lN7d\%9?:[email protected]_3pG :kNL8S-Wsn(2s:UC/ZY k^$Q,m&[WP K ?*e(&2^[email protected]>> 1G#K#d1bm3rE/cYkOz. #WFZom-*MI,&

> endstream endobj 101 0 obj 317 endobj xref 0 102 0000000000 65535 f 0000000016 00000 n 0000000118 00000 n 0000005733 00000 n 0000005898 00000 n 0000006676 00000 n 0000007522 00000 n 0000008012 00000 n 0000008229 00000 n 0000008431 00000 n 0000008523 00000 n 0000008669 00000 n 0000008774 00000 n 0000058687 00000 n 0000058866 00000 n 0000059510 00000 n 0000059602 00000 n 0000059707 00000 n 0000064179 00000 n 0000064356 00000 n 0000064684 00000 n 0000064789 00000 n 0000115487 00000 n 0000115643 00000 n 0000115748 00000 n 0000124064 00000 n 0000124207 00000 n 0000124779 00000 n 0000124884 00000 n 0000177007 00000 n 0000177160 00000 n 0000177265 00000 n 0000185429 00000 n 0000185561 00000 n 0000185666 00000 n 0000193508 00000 n 0000193629 00000 n 0000193734 00000 n 0000241648 00000 n 0000241801 00000 n 0000241906 00000 n 0000249088 00000 n 0000249266 00000 n 0000273006 00000 n 0000273111 00000 n 0000286439 00000 n 0000286571 00000 n 0000286672 00000 n 0000286761 00000 n 0000286867 00000 n 0000292152 00000 n 0000292273 00000 n 0000292578 00000 n 0000293812 00000 n 0000294104 00000 n 0000295243 00000 n 0000295473 00000 n 0000295821 00000 n 0000296131 00000 n 0000297746 00000 n 0000298386 00000 n 0000306295 00000 n 0000306722 00000 n 0000313401 00000 n 0000313776 00000 n 0000317040 00000 n 0000317239 00000 n 0000317381 00000 n 0000317727 00000 n 0000317806 00000 n 0000318107 00000 n 0000318147 00000 n 0000318191 00000 n 0000318439 00000 n 0000319548 00000 n 0000319641 00000 n 0000319694 00000 n 0000320270 00000 n 0000320291 00000 n 0000320931 00000 n 0000320952 00000 n 0000321845 00000 n 0000321866 00000 n 0000322394 00000 n 0000322415 00000 n 0000323209 00000 n 0000323230 00000 n 0000323862 00000 n 0000323883 00000 n 0000324746 00000 n 0000324767 00000 n 0000325464 00000 n 0000325485 00000 n 0000326174 00000 n 0000326195 00000 n 0000326943 00000 n 0000326964 00000 n 0000327690 00000 n 0000327711 00000 n 0000328604 00000 n 0000328625 00000 n 0000329102 00000 n trailer ] >> startxref 329124 %%EOF


نتائج

Correlation Among Support Values from Bayesian MCMC and Nonparametric Bootstrap Methods

We excluded three scenarios (lse, hse, and hslb) from our calculations of correlations between Bayesian and bootstrap methods, because all or nearly all of the support values were 100%. For 12 of the 15 remaining scenarios, BMCMC-PP and ML-BP values were strongly correlated (r 2 > 0.8, ص ≤ 0.05) (correlations for topological scenarios lpe, lssb, and hssb were only weakly correlated [r 2 < 0.8]). ML-BP support values showed strong correlation with MP-BP for only seven scenarios (lncl, lplb, lplm, lpsb, lpsm, lslb, and lssb), whereas BMCMC-PP and MP-BP correlated strongly in only a single scenario (lplb). For the 12 scenarios in which BMCMC-PP and ML-BP were strongly correlated, half were low-rate trees and half were high-rate trees. In contrast, ML-BP and MP-BP were strongly correlated only on low-rate trees.

Comparison of Bootstrap and Bayesian Methods in Assigning Confidence to Specific Internodes

Across all 18 scenarios, some general patterns of support were evident. All three methods tended to assign lower support to regions at the base of the tree and where relative branch length was short ( figs. 1 and 2). Median BMCMC internodal support was almost always equal to or higher than ML and MP bootstrap support. In problematic regions of the tree, MP-BP was usually lower than ML-BP and was sometimes much lower. Except for the nonclocklike symmetric trees (lncl and hncl), the pectinate topologies generally contained more problematic regions than the symmetric topologies. Median nodal support was usually higher on high-rate trees than on low-rate trees for BMCMC-PP and ML-BP. In contrast, median support from MP-BP decreased on many internodes when compared with their low-rate counterpart trees, especially in scenarios where internodes at or near the base of the tree were relatively short (see hpsb, hpsm, hssb, and hncl scenarios, figs. 1 and 2). For symmetric topologies, BMCMC and ML bootstrap support values were improved when using data sets generated with high-rate trees compared with data derived from low-rate trees. As expected, the opposite behavior was observed for MP bootstrap. For the most basal internodes of pectinate topologies, all methods performed more poorly with high-rate tree data sets than with low-rate tree data sets. However, the reverse was true for the most apical internodes of pectinate topologies.

Variance in support value was usually greater for MP-BP than for ML-BP and BMCMC-PP. For the latter, variance in nodal support was generally smaller than variance for ML-BP when internode length was relatively long. Median support for internodes in these situations was also generally very high. When internode length was short, BMCMC-PP variance sometimes exceeded that of ML-BP (e.g., lpsb internode 3 and lplm internode 2, fig. 1). Median support for the shortest internodes was generally lower, although it was sometimes still quite high (e.g., lplb internode 13, fig. 1). Internodes that showed extreme fluctuation in support values were generally very short. In most cases, these internodes were so short that maximum likelihood was unable to reconstruct the internode in all 100 replicates of a particular scenario (results not shown). For any given cut-off value, BMCMC-PP always assigned support to an equal or greater average number of correct internodes than either MP-BP or ML-BP, and ML-BP always performed as well as, or better than, MP-BP ( figs. 1 and 2). Thus, for arbitrarily chosen decision rules of 70% and 95%, rates of type I error (the rate of rejecting true internodes) were lower for BMCMC-PP than for either bootstrapping method. Differences in performance among support methods were most apparent at the highest confidence levels (≥95%) and were quite striking in some instances. For example, on the low-rate pectinate topology with equal length internodes (lpe) approximately nine correct internodes received a PP of 95% compared with approximately six and four that were supported by ML-BP and MP-BP, respectively. Symmetric topologies appeared to pose less of a challenge to the reconstruction algorithms than did the pectinate topologies. In three scenarios (lse, hse, and hslb), all methods assigned 100% support to all internodes. Furthermore, differences among the three methods were generally higher on the high-rate trees than on the low-rate trees.

None of the methods assigned support to a large number of incorrect internodes, which was not surprising given the relatively favorable evolutionary conditions under which we simulated these data sets ( table 1). Parsimony assigned moderate (>70%) support to the largest number of incorrect internodes (∼2.3 internodes/scenario for MP-BP versus ∼0.7 internodes/scenario for ML-BP and ∼1.9 internodes/scenario for BMCMC-PP, averaged over all 18 scenarios). BMCMC-PP assigned high (>95%) support to more incorrect internodes than either bootstrapping method (∼0.14 internodes/scenario for BMCMC-PP, ∼0.03 internodes/scenario for ML-BP, and ∼0.06 internodes/scenario for MP-BP, averaged over all 18 scenarios), although the overall rate of assigning high support to incorrect internodes was extremely low. However, as a result of this tendency of wrong topological bipartitions to have higher posterior probabilities than bootstrap proportions, the 95% threshold value (the support value that was greater than or equal to 95% of the support values that خاطئ internodes received) was highest for BMCMC-PP ( fig. 3أ). Using a decision rule constructed to minimize the rate of accepting incorrect bipartitions would generally allow one to recover most correct monophyletic relationships regardless of the support method ( fig. 3ب). However, ML-BP recovered slightly more correct internodes than BMCMC-PP (13.8 versus 13.6) and both model-based methods recovered more internodes than MP-BP (13.1). MP-BP also showed the greatest variance in performance across scenarios, occasionally recovering fewer than 12 correct internodes/tree.

Although all three methods assigned high support to few incorrect internodes, we identified some scenario replicates in which BMCMC-PP assigned a 95% or greater posterior probability to an incorrect internode, whereas ML-BP and MP-BP assigned much lower support ( table 1). These internodes were all found in regions of low-rate trees with the shortest internodes, and maximum likelihood trees for these replicates also contained the wrongly supported internodes. Thus, sampling error associated with evolving data at a slow rate on regions of the model topology with the shortest internodes could occasionally produce data sets with signal that was incongruent with the model topology.

Comparison of Bayesian and Bootstrap Methods in Estimating Phylogenetic Accuracy

We were unable to plot accuracy versus increasing support for four symmetric scenarios (lse, hse, lslb, and hslb) because all or nearly all of the internodes received 100% support. In the remaining 14 scenarios ( fig. 4), all three methods generally underestimated the true accuracy at levels of support greater than 50%. This bias was often less pronounced for BMCMC-PP. However, the latter overestimated accuracy at moderately high support levels in one scenario (lplm). BMCMC-PP appeared to lie closest to the line of perfect correspondence between accuracy and support for most scenarios.

For any particular topology, posterior probabilities and bootstrap proportions showed the greatest disparity on the shortest internodes. When we examined the effects of branch length on support across all scenarios, we found that posterior probabilities exceeded 95% for many very short internodes (as short as 1.3 expected changes). In contrast, maximum parsimony and likelihood bootstrap proportions did not reach 95% on branches shorter than three expected changes. BMCMC-PP assigned 100% confidence to some internodes with as few as 1.3 expected changes in contrast to ML-BP, which required at least 5 expected changes and MP-BP, which required 6.7 expected changes. ML and MP bootstrap proportions of 70% or more were obtained for branch lengths as short as 1.7 expected changes.

Sensitivity to the Amount of Phylogenetic Signal

Simulation on lse and lncl topologies to investigate the effects of increasing number of characters on support values revealed that the BMCMC-PP assigned 95% support to all internodes with a smaller number of characters relative to both bootstrapping methods. On the symmetric clocklike topology lse ( fig. 5أ), tip internodes (7 to 14) received a median support of 95% with 100 to 150 characters for BMCMC-PP, compare with 200 to 300 characters for ML-BP and MP-BP. All internodes received 95% support at 200 characters with BMCMC-PP, compared with 300 characters for ML-BP and 350 for MP-BP. We observed a similar pattern on the nonclocklike topology lncl ( fig. 5ب), with all internodes reaching a 95% posterior probability at 1,600 characters and a 95% likelihood bootstrap proportion at 2,000 characters. Parsimony bootstrap values decreased with increasing data set size for internodes 1, 3, and 7 on this tree. This is most likely due to maximum parsimony being inconsistent under such conditions (see مناقشة). Even when these three internodes are excluded from this comparison, MP-BP constantly required the largest number of characters when discrepancies among methods were detected ( fig. 5ب). In several cases (e.g., lse topology, internodes 11, 12, and 13) BMCMC-PP reached support values of 95% or higher with fewer characters than MP-BP required to reach support values of 70% or higher. In the most extreme example, on internode 8 of the lncl topology, BMCMC-PP reached 95% support with 300 characters while BP-MP required 700 characters to reach a 70% support value.


Bootstraping values is low , anyone familiar with DNAman program? - the bootstrap value is low, any way to increase it? (Oct/15/2006 )

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

There is no precise rule to say how high a bootstrap percentage has to be before you are sure that the group of species in question forms a "true" clade. However, values greater than 70% are often thought to be reasonably strong evidence. Bootstrap numbers need to be treated with caution. They are often a very useful indication of the reliability of different parts of a phylogenetic tree, but they DO NOT PROVE ANYTHING CONCLUSIVELY.

You could try optimisation criterions (neighbour joining, UPGMA or even maximum likelihood) for making judgements about trees but remember these are only predictions.

I think you should just explain the above statement to your professor.

Forgot to add this website. it's a phylogenetic tree drawing system called phylodraw.

It provides two clustering methods:

UPGMA (I wouldn't use this as the algorithm assumes a molecular clock)

NJ (neighbor joining - would recommend this)

thanks for the suggestions , i will try that link and see too

i am using a program called DNAman, it uses NJ method for making the trees. and ya it calculates the bootstrap value by doing the sampling the no: of times one wants it to , in my case i done it 10000 times and got the value

i told my proff that its only a prediction and the value only shows how much the program can be sure about its prediction .
another explanation i came up is this :

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

Yes you could say that. Low bootstrap values could also indicate lack of phylogenetic subdivisions. Depending on the distribution of variation among other taxa, the wrongly clustered short branch clade can give low bootstrap values overall.


Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of Genome Rearrangements. MIT Press, Cambridge 2009.

Moret B, Warnow T: Advances in phylogeny reconstruction from gene order and content data. Molecular Evolution: Producing the Biochemical Data, Part B, Volume 395 of Methods in Enzymology. Edited by: Zimmer Roalson. Elsevier 2005, 673-700.

Tannier E: Yeast ancestral genome reconstructions: the possibilities of computational methods. بروك. 7th RECOMB Workshop Comp. Genomics (RECOMB-CG’09), Volume 5817 of Lecture Notes in Comp. علوم. Springer Verlag, Berlin 2009, 1-12.

Efron B, Tibshirani R: An Introduction to the Bootstrap. Chapman & Hall/CRC, Boca Raton 1993.

Felsenstein J: Confidence limits on phylogenies: an approach using the bootstrap. Evol. 1985, 39: 783-791. 10.2307/2408678

Anisimova M, Gascuel O: Approximate likelihood-ratio test for branches: A fast, accurate, and powerful alternative. Syst Biol. 2006, 55 (4): 539-552. 10.1080/10635150600755453

Guindon S, Gascuel O: PHYML—A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 2003, 52 (5): 696-704. 10.1080/10635150390235520

Shi J, Zhang Y, Luo H, Tang J: Using jackknife to assess the quality of gene order phylogenies. المعلوماتية الحيوية BMC. 2010, 11: 168. 10.1186/1471-2105-11-168

Lin Y, Rajan V, Moret B: Fast and accurate phylogenetic reconstruction from high-resolution whole-genome data and a novel robustness estimator. Proc 8th RECOMB Workshop Comp Genomics (RECOMB-CG’10), Volume 6398 of Lecture Notes in Comp Sci. Springer Verlag, Berlin 2010, 137-148.

Saitou N, Nei M: The neighbor-joining method: A new method for reconstructing phylogenetic trees. مول بيول إيفول. 1987, 4: 406-425.

Desper R, Gascuel O: Theoretical Foundation of the Balanced Minimum Evolution Method of Phylogenetic Inference and Its Relationship to Weighted Least-Squares Tree Fitting. مول بيول إيفول. 2003, 21 (3): 587-598. 10.1093/molbev/msh049

Marron M, Swenson K, Moret B: Genomic distances under deletions and insertions. Theor Comput Sci. 2004, 325 (3): 347-360. 10.1016/j.tcs.2004.02.039

Lin Y, Moret B: Estimating true evolutionary distances under the DCJ model. Proc 16th Int’l Conf on Intelligent Systems for Mol. بيول. (ISMB’08), Volume 24(13) of Bioinformatics. 2008, i114-i122.

Swenson K, Marron M, Earnest-DeYoung J, Moret B: Approximating the true evolutionary distance between two genomes. بروك. 7th SIAM Workshop on Algorithm Engineering & Experiments (ALENEX’05). 2005, SIAM Press, Philadelphia

Lin Y, Rajan V, Swenson K, Moret B: Estimating true evolutionary distances under rearrangements, duplications, and losses. Proc 8th Asia Pacific Bioinf Conf (APBC’10), Volume 11 (Suppl 1) of BMC Bioinformatics. 2010, S54-

Quenouille M: Approximate tests of correlation in time-series 3. Math Proc Cambridge Philos Soc. 1949, 45 (3): 483-484. 10.1017/S0305004100025123

Tukey J: Bias and confidence in not quite large samples. Ann Math Stat. 1958, 29 (2): 614.Miller R: The jackknifeMiller R: The jackknife

Efron B: Bootstrap methods: another look at the jackknife. Ann Stat. 1979, 7: 1-26. 10.1214/aos/1176344552

The jackknife, the bootstrap and other resampling plans. CBMS-NSF Regional Conf Series in Applied Math, Volume 38. 1982, SIAM

Efron B, Gong G: A leisurely look at the bootstrap, the jackknife, and cross-validation. Am Statistician. 1983, 37: 36-48.

Miller R: The jackknife-a review. Biometrika. 1974, 61: 1.

Efron B: Nonparametric estimates of standard error: the jackknife, the bootstrap and other methods. Biometrika. 1981, 68 (3): 589-10.1093/biomet/68.3.589. 10.1093/biomet/68.3.589

Soltis P, Soltis D: Applying the bootstrap in phylogeny reconstruction. Statist Sci. 2003, 18 (2): 256-267. 10.1214/ss/1063994980

Holmes S: Bootstrapping phylogenetic trees: theory and methods. Stat Sci. 2003, 18 (2): 241-255. 10.1214/ss/1063994979

Felsenstein J, Kishino H: Is There Something Wrong with the Bootstrap on Phylogenies? A Reply to Hillis and Bull. Syst Biol. 1993, 42 (2): 193-200.

Shao J, Wu C: A general theory for jackknife variance estimation. Ann Stat. 1989, 17 (3): 1176-1197. 10.1214/aos/1176347263

Farris J: The future of phylogeny reconstruction. Zoologica Scr. 1997, 26 (4): 303-311. 10.1111/j.1463-6409.1997.tb00420.x

Farris J, Albert V, Källersjö M, Lipscomb D, Kluge A: Parsimony jackknifing outperforms neighbor-joining. Cladistics. 1996, 12 (2): 99-124. 10.1111/j.1096-0031.1996.tb00196.x

Salamin N, Chase M, Hodkinson T, Savolainen V: Assessing internal support with large phylogenetic DNA matrices. Mol Phyl Evol. 2003, 27 (3): 528-10.1016/S1055-7903(03)00011-3. 10.1016/S1055-7903(03)00011-3

Mort M, Soltis P, Soltis D, Mabry M: Comparison of three methods for estimating internal support on phylogenetic trees. Syst Biol. 2000, 49: 160-171. 10.1080/10635150050207456

Rokas A, Holland P: Rare genomic changes as a tool for phylogenetics. Trends in Ecol and Evol. 2000, 15: 454-459. 10.1016/S0169-5347(00)01967-4

Swofford D, Olson G, Waddell P, Hillis D: Phylogenetic inference. الطبعة الثانية. Edited by: Hillis D, Moritz C, Mable B. 1996, Sunderland, Sinauer Assoc,

Moret B, Tang J, Wang LS, Warnow T: Steps toward accurate reconstructions of phylogenies from gene-order data. J Comput Syst Sci. 2002, 65 (3): 508-525. 10.1016/S0022-0000(02)00007-7

Wang LS: Exact-IEBP: a new technique for estimating evolutionary distances between whole genomes. Proc 33rd Ann ACM Symp Theory of Comput (STOC’01). 2001, 637-646. ACM Press, New York,

Wang LS, Warnow T: Estimating true evolutionary distances between genomes. Proc 1st Workshop Algs in Bioinf (WABI’01), Volume 2149 of Lecture Notes in Comp Sci. 2001, 176-190. Springer Verlag, Berlin,

Hillis D, Huelsenbeck J: Assessing molecular phylogenies. علم. 1995, 267: 255-256. 10.1126/science.267.5195.255

Bergeron A, Mixtacki J, Stoye J: A unifying view of genome rearrangements. Proc 6th Workshop Algs in Bioinf (WABI’06), Volume 4175 of Lecture Notes in Comp Sci. 2006, 163-173. Springer Verlag, Berlin,

Yancopoulos S, Attie O, Friedberg R: Efficient sorting of genomic permutations by translocation, inversion and block interchange. المعلوماتية الحيوية. 2005, 21 (16): 3340-3346. 10.1093/bioinformatics/bti535

R Development Core Team: R: A Language and Environment for Statistical Computing. 2009, R Foundation for Statistical Computing, Vienna,

Madsen O, Scally M, Douady CJ, Kao DJ, DeBry RW, Adkins R, Amrine HM, Stanhope MJ, de Jong, Springer MS: Parallel adaptive radiations in two major clades of placental mammals. طبيعة سجية. 2001, 409: 610-614. 10.1038/35054544

Murphy W, Eizirik E, Johnson W, Zhang Y, Ryder O, O’Brien S: Molecular phylogenetics and the origins of placental mammals. طبيعة سجية. 2001, 409: 614-618. 10.1038/35054550

Amrine-Madsen H, Koepfli KP, Wayne R, Springer M: A new phylogenetic marker, apolipoprotein B , provides compelling evidence for eutherian relationships. Mol Phyl Evol. 2003, 28 (2): 225-240. 10.1016/S1055-7903(03)00118-0

Huttley G, Wakefield M, Easteal S: Rates of genome evolution and branching order from whole-genome analysis. مول بيول إيفول. 2007, 24 (8): 1722-1730. 10.1093/molbev/msm094

Wildman D, Uddin M, Opazo J, Liu G, Lefort V, Guindon S, Gascuel O, Grossman L, Romero R, Goodman M: Genomics, biogeography, and the diversification of placental mammals. Proc Nat’l Acad Sci, USA. 2007, 104 (36): 14395-14400. 10.1073/pnas.0704342104

Cannarozzi G, Schneider A, Gonnet G: A phylogenomic study of human, dog, and mouse. بلوس كومبوت بيول. 2007, 3: e2. 10.1371/journal.pcbi.0030002

Wang LS, Jansen R, Moret B, Raubeson L, Warnow T: Fast Phylogenetic Methods For Genome Rearrangement Evolution: An Empirical Study. Proc 7th Pacific Symp on Biocomputing (PSB’02). 2002, World Scientific Pub, Singapore, 524-535.

Hu F, Gao N, Tang J: Maximum likelihood phylogenetic reconstruction using gene order encodings. Proc 8th IEEE Symp Comput Intell in Bioinf & Comput Biol (CIBCB’11). IEEE Press, Piscataway, 2011, 117-122.

Lin Y, Rajan V, Moret B: Bootstrapping phylogenies inferred from rearrangement data. Proc 11th Workshop Algs in Bioinf (WABI’11), Volume 6833 of Lecture Notes in Comp Sci. Springer Verlag, Berlin, 2011, 175-187.


15.3 - Bootstrapping

Bootstrapping is a method of sample reuse that is much more general than cross-validation [1]. The idea is to use the observed sample to estimate the population distribution. Then samples can be drawn from the estimated population and the sampling distribution of any type of estimator can itself be estimated.

The steps in bootstrapping are illustrated in the figure above. Observed quantities are denoted by solid curves and unobserved quantities by dashed curves. The objective is to estimate the true sampling distribution of some quantity T, which may be numeric (such as a regression coefficient) or more complicated (such as a feature cluster dendrogram). The true sampling distribution is computed by taking new samples from the true population, computing T and then accumulating all of the values of T into the sampling distribution. However, taking new samples is expensive, so instead, we take a single sample (1) and use it to estimate the population (2). We then (3) take samples "in silico" (on the computer) from the estimated population, compute T from each (4) and accumulate all of the values of T into an estimate of the sampling distribution. From this estimated sampling distribution we can estimate the desired features of the sampling distribution. For example, if T is quantitative, we are interested in features such as the mean, variance, skewness, etc and also confidence intervals for the mean of T. If T is a cluster dendrogram, we can estimate features such as the proportion of trees in the sampling distribution than include a particular node.

There are three forms of bootstrapping which differ primarily in how the population is estimated. Most people who have heard of bootstrapping have only heard of the so-called nonparametric or resampling bootstrap.

Nonparametric (resampling) bootstrap

In the nonparametric bootstrap a sample of the same size as the data is take from the data with replacement. ماذا يعني هذا؟ It means that if you measure 10 samples, you create a new sample of size 10 by replicating some of the samples that you've already seen and omitting others. At first this might not seem to make sense, compared to cross validation which may seem to be more principled. However, it turns out that this process actually has good statistical properties.

Semiparametric bootstrap

The resampling bootstrap can only reproduce the items that were in the original sample. The semiparametric bootstrap assumes that the population includes other items that are similar to the observed sample by sampling from a smoothed version of the sample histogram. It turns out that this can be done very simply by first taking a sample with replacement from the observed sample (just like the nonparametric bootstrap) and then adding noise.

Semiparametric bootstrapping works out much better for procedures like feature selection, clustering and classification in which there is no continuous way to move between quantities. In the nonparametric bootstrap sample there will almost always be some replication of the same sample values due to sampling with replacement. In the semiparametric bootstrap, this replication will be broken up by the added noise.

Parametric bootstrap

Parametric bootstrapping assumes that the data comes from a known distribution with unknown parameters. (For example the data may come from a Poisson, negative binomial for counts, or normal for continuous distribution.) You estimate the parameters from the data that you have and then you use the estimated distributions to simulate the samples.

All of these three methods are simulation-based ideas.

The nonparametric bootstrap does not work well because sampling with replacement produces exact replicates. The samples that are identical are going to get clustered together. So, you don't get very much new information.

The semi-parametric bootstrap perturbs the data with a bit a noise. For clustering, instead of taking a bootstrap sample and perturbing it, we might take the entire original sample and perturb it. This allows us to identify the original data points on the cluster diagram and see whether they remain in the same clusters or move to new clusters.

Obtaining a confidence interval for a Normal mean (a parametric example)

Suppose we have a sample of size n and we believe the population is Normally distributed. A parametric bootstrap can be done by computing the sample mean (ar) and variance (s^2). The bootstrap samples can be taken by generating random samples of size n from N((ar,s^2)). After taking 1000 samples or so, the set of 1000 bootstrap sample means should be a good estimate of the sampling distribution of (ar). A 95% confidence interval for the population mean is then formed by sorting the bootstrap means from lowest to highest, and dropping the 2.5% smallest and 2.5% largest. the smallest and largest remaining values are the ends of the confidence interval.

How does this compare to the usual confidence interval: (arpm t_<.975>s/sqrt)? Our interval turns out to approximate (arpm z_<.975>s/sqrt) - that is, is uses the Normal approximation to the t-distribution. This is because it does not take into account that we have estimated the variance. There are ways to improve the estimate, but we will not discuss them here.

Obtaining a confidence interval for (pi_0) with RNA-seq data (a complex parametric example)

For an example of using the parametric bootstrap let's consider computing a confidence interval for (pi_0) an RNA-seq experiment. In this case we will assume that the data are Poisson. Here is what we would do:

1) First we estimate (pi_0) from all of the data.

2) Now we need to obtain a bootstrap sample from the Poisson distribution. We will hold the library sizes fixed.

i) in each sample for each feature, recompute the count as the percentage of the library size.

ii) for each feature compute the mean percentage over all the samples from that treatment - call this (g_) where i is the feature.

iii) For each sample, multiply the library size (N_j) where j is the sample, by (g_i) to obtain (N_jg_i) the expected count for feature i in sample j.

iv) The bootstrap sample for feature i in sample j is generated as a random Poisson with mean (N_jg_i) .

b) Now that there is a bootstrap "observation" for each feature in each sample, redo the differential expression analysis and estimate (pi_0).

c) Repeat steps a0 and b0 1000 times. Now you have 1000 different estimates of (pi_0) - this is your estimate of the sampling distribution of the estimate.

3) Your 1000 bootstrap estimates can be used to draw a histogram of the sampling distribution of the estimate of (pi_0). The central 95% of the histogram is a 95% confidence interval for (pi_0). To estimate this interval, it is simplest to use the sorted bootstrap values instead of the histogram. For example, if you drop the 2.5% smallest and largest values, the remainder are in the 95% confidence interval. To form the ends of the interval, use the smallest and largest of this central 95% of the bootstrap values.

This is a parametric bootstrap confidence interval because the bootstrap samples were generated by estimating the Poisson means and then generating samples from the Poisson distribution.

[1] Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans . 38 . Society of Industrial and Applied Mathematics CBMS-NSF Monographs. ISBN 0-89871-179-7 .


Phylogenetic Bootstrapping (BS) is a standard technique for inferring confidence values on phylogenetic trees that is based on reconstructing many trees from minor variations of the input data, trees called replicates. BS is used with all phylogenetic reconstruction approaches, but we focus here on the most popular, Maximum Likelihood (ML). Because ML inference is so computationally demanding, it has proved too expensive to date to assess the impact of the number of replicates used in BS on the quality of the support values. For the same reason, a rather small number (typically 100) of BS replicates are computed in real-world studies. Stamatakis <em>et al.</em> recently introduced a BS algorithm that is 1---2 orders of magnitude faster than previous techniques, while yielding qualitatively comparable support values, making an experimental study possible.

In this paper, we propose <em>stopping criteria</em> , that is, thresholds computed at runtime to determine when enough replicates have been generated, and report on the first large-scale experimental study to assess the effect of the number of replicates on the quality of support values, including the performance of our proposed criteria. We run our tests on 17 diverse real-world DNA, single-gene as well as multi-gene, datasets, that include between 125 and 2,554 sequences. We find that our stopping criteria typically stop computations after 100---500 replicates (although the most conservative criterion may continue for several thousand replicates) while producing support values that correlate at better than 99.5% with the reference values on the best ML trees. Significantly, we also find that the stopping criteria can recommend very different numbers of replicates for different datasets of comparable sizes.


Configuration of the Bootstrap

There are two parameters that must be chosen when performing the bootstrap: the size of the sample and the number of repetitions of the procedure to perform.

Sample Size

In machine learning, it is common to use a sample size that is the same as the original dataset.

The bootstrap sample is the same size as the original dataset. As a result, some samples will be represented multiple times in the bootstrap sample while others will not be selected at all.

If the dataset is enormous and computational efficiency is an issue, smaller samples can be used, such as 50% or 80% of the size of the dataset.

Repetitions

The number of repetitions must be large enough to ensure that meaningful statistics, such as the mean, standard deviation, and standard error can be calculated on the sample.

A minimum might be 20 or 30 repetitions. Smaller values can be used will further add variance to the statistics calculated on the sample of estimated values.

Ideally, the sample of estimates would be as large as possible given the time resources, with hundreds or thousands of repeats.


شاهد الفيديو: سلسلة التعريف بالكتب - 10 - التمهيد لشرح كتاب التوحيد - صالح آل الشيخ (أغسطس 2022).