معلومة

ما المعلومات التي تعرضها صفحة إحصائيات وحدة KEGG؟


أثناء تصفح الصفحة الرئيسية لوحدة KEGG Module ، قمت بالنقر فوق الزر المسمى إحصائيات الوحدة النمطية. هل يمكن لأحد أن يخبرني ماذا تعني هذه الأرقام؟ ما هي احصائيات؟


ما أفهمه هو أن هذه الإحصائيات تظهر تغطية كل وحدة KEGG في مجموعة النشوء والتطور المعينة. على سبيل المثال ، تم العثور على M00001 في 275 من الكائنات حقيقية النواة في KEGG (والتي تمثل 90.5٪ من حقيقيات النوى في KEGG). نفس المنطق ينطبق على المجموعات الأخرى.

مثال سريع يوضح هذه الفرضية ، تم إجراؤه مع مجموعة Protists الموجودة في كائنات KEGG (نظرًا لأنه من السهل العد بالعين). هناك 43 من المحتجين ، وفي الإحصائيات تقول (اعتبارًا من 2015/7/9) أن الوحدة M00001 موجودة في 33 منهم ، وبالتالي: 33/43 دولارًا = 0.7674419 دولارًا والتي تتفق مع 76.7٪ المعروضة.


ما المعلومات التي تعرضها صفحة إحصائيات وحدة KEGG؟ - مادة الاحياء

رسم الخرائط الوظيفية والتحليل لدراسات الميتاجينوميات و metatranscriptomics

تتوفر بعض الأمثلة على النتائج في الصفحة الرئيسية: https://qbrc.swmed.edu/FMAP/.

يوفر FMAP قاعدة بيانات تسلسل بروتين مرجعي أكثر منطقية تعتمد على UniRef.

تحديد الجينات وفيرة التفاضل KEGG Orthology

رسم خرائط الجينات الوفيرة تفاضليًا للمسارات والوحدات (KEGG Pathway و KEGG Module)

رسم خرائط الجينات الوفيرة تفاضليًا إلى المشغلات (ODB (v3))

الإحصائيات :: واجهة R - Perl مع البرنامج الإحصائي R.

برنامج رسم الخرائط الذي يوفر بحث BLASTX عن التسلسل يقرأ: DIAMOND أو USEARCH

أوامر Linux: wget ، cat ، Sort

Bio :: DB :: Classonomy - الوصول إلى قاعدة بيانات التصنيف (وهو مطلوب فقط إذا كنت تريد إنشاء قاعدة بيانات مخصصة.)

XML :: LibXML - Perl Binding لـ libxml2 (وهو مطلوب فقط إذا كنت تريد تنزيل تسلسلات الجينوم.)

  • FMAP_database.pl
    • معالجة
    • مدخل
        هوية التسلسل (50 أو 90 أو 100)
    • (اختياري) معرفات تصنيف NCBI (عدد صحيح)
  • تتطلب Bio :: DB :: التصنيف.
  • سيتم تنزيل ملفات البيانات التالية من خلال اتصال FTP. إذا كانت لديك مشكلة في اتصال FTP ، فيرجى تنزيل الملفات من خلال طريقة أخرى ونسخها إلى دليل "FMAP_data" قبل تنفيذ الأمر "FMAP_database.pl".
    ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
    ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/idmapping.dat.gz
    ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz
    أو ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz
    أو ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
  • تتطلب اتصال HTTP لـ KEGG API.
    • FMAP_assembly.pl
      • معالجة
        • قراءة الخرائط: محاذاة تسلسل النوكليوتيدات باستخدام BWA
        • رسم خرائط ORF: محاذاة تسلسل البروتين باستخدام DIAMOND
        1. بادئة ملفات الإخراج
        2. قام De novo بتجميع تسلسلات بتنسيق FASTA
          • يمكن إنشاء ملف FASTA بواسطة مجمعات metagenome مثل SPAdes و MetaVelvet.
          • يمكن إدخال ملف FASTA يحتوي على تسلسل الجينوم المستهدف بدلاً من ذلك.
        3. يقرأ التسلسل الكامل للبندقية metagenomic / metatranscriptomic بتنسيق FASTQ أو FASTA
          • يمكن تحديد ملفات متعددة للقراءة.
          • يجب تحديد ملفات القراءة ذات النهاية المقترنة مفصولة بفواصل مثل "input.R1.fastq، input.R2.fastq".
          • يمكن ضغط ملفات القراءة بواسطة gzip.
        1. Prefix.region.abundance.txt (وفرة خرائط مناطق ORF لتقويم تقويم KEGG)
        2. Prefix.abundance.txt (وفرة من تقويم العظام KEGG)
        • FMAP_assembly_centrifuge.pl
          • تتطلب أجهزة الطرد المركزي.
          • مدخل
            1. FMAP_assembly.region.txt (تعيين مناطق ORF إلى قواعد تقويم KEGG التي تم إنشاؤها بواسطة FMAP_assembly)
            2. قام De novo بتجميع تسلسلات بتنسيق FASTA
            3. بادئة اسم ملف فهرس الطرد المركزي (مطروحًا منها X.cf اللاحقة)
          • الإخراج: FMAP_assembly.region.taxon.txt (FMAP_assembly.region.txt بما في ذلك عمود معرفات تصنيف NCBI (عدد صحيح))
          • FMAP_assembly_heatmap.pl
            • تتطلب Bio :: DB :: التصنيف.
            • الإدخال: FMAP_assembly.abundance.txt (الوفرة الناتجة عن FMAP_assembly)
            • الإخراج: تنسيق HTML لجدول خريطة الحرارة الوفرة
            • FMAP_assembly_operon.pl
              • الإدخال: FMAP_assembly.region.txt (تعيين مناطق ORF إلى قواعد تقويم KEGG التي تم إنشاؤها بواسطة FMAP_assembly)
              • الإخراج: FMAP_assembly_operon.txt (ODB (v3) المشغلات المعروفة التي تتكون من تقويم العظام الموجودة معًا على كونتيج / سقالة / نسخة مجمعة)
              • FMAP_download_genome.pl
                • الإدخال: معرفات تصنيف NCBI (عدد صحيح)
                • الإخراج: ملف FASTA يحتوي على تسلسل الجينوم
                • يتطلب XML :: LibXML.
                • FMAP_mapping.pl
                  • الإدخال: تسلسل كامل للبندقية ميتاجينوم (أو metatranscriptomic) يقرأ بتنسيق FASTQ أو FASTA
                  • الإخراج: أفضل النتائج المطابقة بتنسيق NCBI BLAST ‑m8 (= NCBI BLAST + ‑outfmt 6)
                  • FMAP_quantification.pl
                    • الإدخال: إخراج "FMAP_mapping.pl"
                    • الإخراج: وفرة (RPKM) من تقويم العظام KEGG
                    • أعمدة الإخراج: معرف تقويم العظام KEGG ، تعريف تقويم العظام ، الوفرة (RPKM)
                    • FMAP_table.pl
                      • المدخلات: مخرجات "FMAP_quantification.pl"
                      • الإخراج: جدول وفرة
                      • أعمدة الإخراج: معرف تقويم العظام KEGG ، تعريف تقويم العظام ، وفرة العينة 1 ، وفرة العينة 2 ،.
                      • FMAP_comparison.pl
                        • المدخلات: إخراج "FMAP_table.pl" ، معلومات مجموعة العينة
                        • المخرجات: مقارنة إحصائيات الاختبار لتقويم العظام
                        • أعمدة الإخراج: معرف تقويم العظام KEGG ، تعريف تقويم العظام ، تغيير طية السجل 2 ، قيمة p ، قيمة p معدلة بواسطة FDR ، مرشح (نجاح أو فشل)
                        • FMAP_pathway.pl
                          • الإدخال: إخراج "FMAP_comparison.pl"
                          • المخرجات: مسارات مخصبة في تقويم العظام بمرشح مرشح
                          • أعمدة الإخراج: معرف مسار KEGG ، تعريف المسار ، عدد تقويم العظام ، التغطية ، القيمة p ، معرفات KEGG Orthology مع معرفات الألوان مع الألوان: إدخال تعيين مسار KEGG (http://www.kegg.jp/kegg/tool/map_pathway2. لغة البرمجة)
                          • FMAP_module.pl
                            • الإدخال: إخراج "FMAP_comparison.pl"
                            • الإخراج: وحدات مخصبة في تقويم العظام بمرشح مرشح
                            • أعمدة الإخراج: معرف وحدة KEGG ، تعريف الوحدة ، عدد تقويم العظام ، التغطية ، القيمة p ، معرفات KEGG Orthology مع معرفات الألوان مع الألوان: إدخال تعيين مسار KEGG (http://www.kegg.jp/kegg/tool/map_pathway2. لغة البرمجة)
                            • FMAP_operon.pl
                              • الإدخال: إخراج "FMAP_comparison.pl"
                              • الإخراج: عوامل تتكون من تقويم العظام بمرشح
                              • أعمدة الإخراج: معرفات المشغل المعروفة ODB (v3) ، تعريف المشغل ، تغيير أضعاف log2 ، معرفات KEGG Orthology ، معرفات مسار KEGG
                              • FMAP_plot.pl
                                • الإدخال: إخراج "FMAP_pathway.pl" أو "FMAP_module.pl" أو "FMAP_operon.pl"
                                • الإخراج: ملف صورة بتنسيق PNG لقطعة p-value
                                • FMAP_all.pl
                                  • الإدخال: ملف جدول التكوين
                                  • أعمدة الإدخال: المجموعة (التحكم ،.) ، اسم العينة ، ملف الإدخال "FMAP_mapping.pl"
                                  • الإخراج: ملف نصي يتضمن جميع أوامر FMAP ، وجميع مخرجات FMAP

                                  استخدم قاعدة البيانات المنشأة مسبقًا (UniRef90 والبكتيريا / العتائق / الفطريات)

                                  1. FMAP_download.pl
                                  2. FMAP_mapping.pl
                                  3. FMAP_quantification.pl
                                  4. FMAP_table.pl
                                  5. FMAP_comparison.pl
                                  6. FMAP_pathway.pl
                                  7. FMAP_module.pl
                                  8. FMAP_operon.pl

                                  استخدم قاعدة بيانات مخصصة (يمكنك تعريف UniRef والتصنيف.)

                                  1. FMAP_database.pl
                                  2. FMAP_prepare.pl
                                  3. FMAP_mapping.pl
                                  4. FMAP_quantification.pl
                                  5. FMAP_table.pl
                                  6. FMAP_comparison.pl
                                  7. FMAP_pathway.pl
                                  8. FMAP_module.pl
                                  9. FMAP_operon.pl

                                  Kim J، Kim MS، Koh AY، Xie Y، Zhan X. "FMAP: رسم الخرائط الوظيفية وخط التحليل لدراسات الميتاجينوميات و metatranscriptomics" BMC Bioinformatics. 2016 أكتوبر 1017 (1): 420. PMID: 27724866


                                  الوظائف والميزات

                                  التوسع في وظائف باثفيو الأساسية

                                  يجعل خادم Pathview Web جميع الوظائف الأساسية لحزمة Pathview (10) يمكن الوصول إليها بسهولة ، أي (1) تصور المسار ، (2) تعيين البيانات وتكاملها و (3) (إمكانية التشغيل البيني مع مختلف) مسارات عمل تحليل المسار المتكاملة. يوضح الشكل التكميلي S1 الوظيفة الرئيسية. يُنصح بتجربة أمثلة التحليلات عبر الإنترنت لمعرفة بالضبط ما يمكن أن يفعله Pathview والخادم. تحليلات الأمثلة هذه واضحة ومباشرة وتعمل في -10-30 ثانية لكل منها. بالإضافة إلى سهولة الاستخدام ، يقوم الخادم بتوسيع هذه الوظائف بشكل كبير (الجدول 1).

                                  مقارنة بين الإصدارات الثلاثة من برنامج Pathview

                                  إصدار . صفقة . الويب. API.
                                  واجهه المستخدمص واجهة المستخدم الرسومية قذيفة باش
                                  وصولافتح مفتوح ومسجل افتح
                                  مضيفbioconductor.org/packages/pathview/ Pathview.uncc.edu Pathview.uncc.edu
                                  التصورعرض KEGG (ملفات png) ، عرض Graphviz (ملفات pdf) نفس إصدار R ، الرسوم البيانية ذات الروابط التشعبية نفس إصدار R.
                                  تعيين البيانات& gt3000 نوع KEGG + تقويم العظام ، 12 معرف جين ، 21 معرف مركب نفس إصدار R. نفس إصدار R.
                                  تكامل البياناتأي بيانات قابلة للتعيين ، عدد تعسفي من الشروط / العينات نفس إصدار R. نفس إصدار R.
                                  التحليل (إمكانية التشغيل البيني)أي سير عمل من خلال R ، ولا سيما سير عمل GAGE ​​/ Pathview سير العمل المتكامل على الخادم أي سير عمل من خلال برنامج شل النصي ، سير عمل متكامل على الخادم
                                  تاريخ التحليللا نعم لا
                                  تبادل البياناتلا نعم لا
                                  التركيبمع R / Bioconductor لا حاجة نص باش واحد
                                  إصدار التحديثكل 6 أشهر مع Bioconductor ثابت (برنامج) كل شهر (بيانات) ثابت (برنامج) كل شهر (بيانات)
                                  دعم المستخدمsupport.bioconductor.org ، منتديات المعلوماتية الحيوية ، البريد الإلكتروني على الخادم والبريد الإلكتروني على الخادم والبريد الإلكتروني
                                  إصدار . صفقة . الويب. API.
                                  واجهه المستخدمص واجهة المستخدم الرسومية قذيفة باش
                                  وصولافتح مفتوح ومسجل افتح
                                  مضيفbioconductor.org/packages/pathview/ Pathview.uncc.edu Pathview.uncc.edu
                                  التصورعرض KEGG (ملفات png) ، عرض Graphviz (ملفات pdf) نفس إصدار R ، الرسوم البيانية ذات الروابط التشعبية نفس إصدار R.
                                  تعيين البيانات& gt3000 نوع KEGG + تقويم العظام ، معرف الجين 12 ، معرف مركب 21 نفس إصدار R. نفس إصدار R.
                                  تكامل البياناتأي بيانات قابلة للتعيين ، عدد تعسفي من الشروط / العينات نفس إصدار R. نفس إصدار R.
                                  التحليل (إمكانية التشغيل البيني)أي سير عمل من خلال R ، ولا سيما سير عمل GAGE ​​/ Pathview سير العمل المتكامل على الخادم أي سير عمل من خلال برنامج شل النصي ، سير عمل متكامل على الخادم
                                  تاريخ التحليللا نعم لا
                                  تبادل البياناتلا نعم لا
                                  التركيبمع R / Bioconductor لا حاجة نص باش واحد
                                  إصدار التحديثكل 6 أشهر مع Bioconductor ثابت (برنامج) كل شهر (بيانات) ثابت (برنامج) كل شهر (بيانات)
                                  دعم المستخدمsupport.bioconductor.org ، منتديات المعلوماتية الحيوية ، البريد الإلكتروني على الخادم والبريد الإلكتروني على الخادم والبريد الإلكتروني

                                  يعد كل من إصدارات الويب و API جزءًا من خادم الويب.

                                  إصدار . صفقة . الويب. API.
                                  واجهه المستخدمص واجهة المستخدم الرسومية قذيفة باش
                                  وصولافتح مفتوح ومسجل افتح
                                  مضيفbioconductor.org/packages/pathview/ Pathview.uncc.edu Pathview.uncc.edu
                                  التصورعرض KEGG (ملفات png) ، عرض Graphviz (ملفات pdf) نفس إصدار R ، الرسوم البيانية ذات الروابط التشعبية نفس إصدار R.
                                  تعيين البيانات& gt3000 نوع KEGG + تقويم العظام ، 12 معرف جين ، 21 معرف مركب نفس إصدار R. نفس إصدار R.
                                  تكامل البياناتأي بيانات قابلة للتعيين ، عدد تعسفي من الشروط / العينات نفس إصدار R. نفس إصدار R.
                                  التحليل (إمكانية التشغيل البيني)أي سير عمل من خلال R ، ولا سيما سير عمل GAGE ​​/ Pathview سير العمل المتكامل على الخادم أي سير عمل من خلال برنامج شل النصي ، سير عمل متكامل على الخادم
                                  تاريخ التحليللا نعم لا
                                  تبادل البياناتلا نعم لا
                                  التركيبمع R / Bioconductor لا حاجة نص باش واحد
                                  إصدار التحديثكل 6 أشهر مع Bioconductor ثابت (برنامج) كل شهر (بيانات) ثابت (برنامج) كل شهر (بيانات)
                                  دعم المستخدمsupport.bioconductor.org ، منتديات المعلوماتية الحيوية ، البريد الإلكتروني على الخادم والبريد الإلكتروني على الخادم والبريد الإلكتروني
                                  إصدار . صفقة . الويب. API.
                                  واجهه المستخدمص واجهة المستخدم الرسومية قذيفة باش
                                  وصولافتح مفتوح ومسجل افتح
                                  مضيفbioconductor.org/packages/pathview/ Pathview.uncc.edu Pathview.uncc.edu
                                  التصورعرض KEGG (ملفات png) ، عرض Graphviz (ملفات pdf) نفس إصدار R ، الرسوم البيانية ذات الروابط التشعبية نفس إصدار R.
                                  تعيين البيانات& gt3000 نوع KEGG + تقويم العظام ، 12 معرف جين ، 21 معرف مركب نفس إصدار R. نفس إصدار R.
                                  تكامل البياناتأي بيانات قابلة للتعيين ، عدد تعسفي من الشروط / العينات نفس إصدار R. نفس إصدار R.
                                  التحليل (إمكانية التشغيل البيني)أي سير عمل من خلال R ، ولا سيما سير عمل GAGE ​​/ Pathview سير العمل المتكامل على الخادم أي سير عمل من خلال برنامج شل النصي ، سير عمل متكامل على الخادم
                                  تاريخ التحليللا نعم لا
                                  تبادل البياناتلا نعم لا
                                  التركيبمع R / Bioconductor لا حاجة نص باش واحد
                                  إصدار التحديثكل 6 أشهر مع Bioconductor ثابت (برنامج) كل شهر (بيانات) ثابت (برنامج) كل شهر (بيانات)
                                  دعم المستخدمsupport.bioconductor.org ، منتديات المعلوماتية الحيوية ، البريد الإلكتروني على الخادم والبريد الإلكتروني على الخادم والبريد الإلكتروني

                                  يعد كل من إصدارات الويب و API جزءًا من خادم الويب.

                                  لتصور المسار ، تكون الرسوم البيانية الناتجة تفاعلية ومرتبطة تشعبيًا عند تصفحها عبر الإنترنت (الشكل 1 ج). تم تنفيذ ميزات مماثلة في موقع KEGG على الويب للتعليق التوضيحي للوظيفة (الجينات أو المسارات المركبة أو المتصلة). ولكن تم تصنيفها على أنها ميزات تتمحور حول بيانات المستخدم على Pathview Web. يتم تلوين جميع العقد (الجزيئات والجينات / البروتينات / الإنزيمات والمستقلبات / المركبات) مع تعيين بيانات المستخدم وتمييزها على الرسوم البيانية. الأهم من ذلك ، أن هذه العقد الملونة موصوفة بمعلومات تحوم ، والتي تشير على وجه التحديد إلى الجزيئات من بيانات المستخدم التي تم تعيينها هناك. لن تظهر الإدخالات غير المعينة المرتبطة بالعقدة. بالإضافة إلى ذلك ، فإن هذه العقد قابلة للنقر وترتبط تشعبيًا بصفحات مرجعية في KEGG ، وهو مناسب لتفسير النتائج. تشير العقد الفارغة إلى عدم تعيين بيانات المستخدم وهي غير قابلة للنقر.

                                  تصبح وظيفة تعيين البيانات والتكامل تفاعلية أيضًا (الشكل 1 أ). تتوفر القوائم الكاملة للأنواع والجينات وأنواع المعرفات المركبة ومعرفات المسار المرجعي في المربعات المنسدلة مع الإكمال التلقائي والتدقيق الإملائي. بالإضافة إلى ذلك ، يتم تقديم معرفات المسار في مربع قائمة لتحديد النقر فوق. والجدير بالذكر أن هذه الخيارات مترابطة في واجهة الويب (الشكل 1 أ). تتحول قوائم أنواع معرف الجينات ومعرفات المسار تلقائيًا إلى الأنواع المحددة. من ناحية أخرى ، المعرفات المركبة ليست خاصة بالأنواع. لا تعمل هذه الميزات على توسيع وظيفة تعيين / تكامل البيانات في Pathview فحسب ، بل تعمل أيضًا على تقليل الخطوات المعقدة والمعرضة للخطأ إلى بضع نقرات.

                                  يعد Pathview قابلاً للتشغيل البيني بدرجة كبيرة من حيث أنه يتناسب بسهولة مع تدفقات عمل تحليل المسار المختلفة باستخدام أنواع أو أدوات بيانات مختلفة. يستفيد خادم الويب من هذه الميزة ويوفر سير عمل تحليل مسار عام ومتكامل (الشكل 2 ب وخيار تحديد المسار في الشكل 1 أ). سير العمل هذا مفيد على نطاق واسع لأنواع مختلفة من بيانات الجينات والبيانات المركبة (الشكل 2 ب). الأهم من ذلك ، يمكن استخدامه أيضًا للتحليل المشترك لكل من بيانات الجينات والبيانات المركبة (الشكل 3 والجدول 2 ، المثال 4 عبر الإنترنت). بينما تم تنفيذ التحليل المشترك سابقًا (24 ، 25) ، فإن خادم الويب Pathview يجعل هذا التحليل ممكنًا لمجموعة واسعة من الأنواع وأنواع البيانات. مثل Pathview نفسها ، يعمل سير عمل تحليل المسار لكل من البيانات الرقمية (مثل مستويات الوفرة أو التعبير) والفئوية (مثل قائمة المعرف الجيني أو المركب). بالنسبة للبيانات الرقمية ، يتم استخدام GAGE ​​(7) نظرًا لتعدد استخداماتها العالية. بالنسبة للبيانات الفئوية ، يتم تنفيذ تحليل التمثيل الزائد باستخدام اختبار الهندسة المفرطة. عند وجود كل من بيانات الجينات والبيانات المركبة ، يتم إجراء تحليل المسار على كل مجموعة بيانات على حدة أولاً ، ثم يتم دمج النتائج في إحصاءات عالمية أكثر قوة /ص- القيم من خلال التحليل التلوي (الشكل 2 ب). لاحظ أن التحليل التلوي يسمح بالتكامل عبر البيانات الرقمية والفئوية.

                                  تصميم خادم الويب Pathview: (أ) هندسة معمارية، (ب) سير العمل وأنماط مختلفة. لاحظ أن سير العمل يعمل إما مع بيانات الجينات أو البيانات المركبة (بدون PA ، PA عادي) أو كليهما معًا (بدون PA ، PA متكامل). في خطوة تحليل المسار ، يتم استخدام إثراء مجموعة الجينات القابلة للتطبيق عمومًا (GAGE) للبيانات الرقمية وتحليل التمثيل الزائد للبيانات الفئوية. في خطوة التحليل التلوي ، ص- يتم تلخيص القيم من تحليل المسار المنتظم إلى القيم العالمية ص- يتم تحديد القيم والمسارات بناءً على الأخير.

                                  تصميم خادم الويب Pathview: (أ) هندسة معمارية، (ب) سير العمل وأنماط مختلفة. لاحظ أن سير العمل يعمل إما مع بيانات الجينات أو البيانات المركبة (بدون PA ، PA عادي) أو كليهما معًا (بدون PA ، PA متكامل). في خطوة تحليل المسار ، يتم استخدام إثراء مجموعة الجينات القابلة للتطبيق عمومًا (GAGE) للبيانات الرقمية وتحليل التمثيل الزائد للبيانات الفئوية. في خطوة التحليل التلوي ، ص- يتم تلخيص القيم من تحليل المسار المنتظم إلى القيم العالمية ص- يتم تحديد القيم والمسارات بناءً على الأخير.

                                  تحليل المسار المتكامل وتصور كل من بيانات التعبير الجيني وبيانات التمثيل الغذائي (مثال 4 عبر الإنترنت). يظهر هنا مسار KEGG hsa00190 الفسفرة التأكسدية. يتم عرض إحصائيات التحليل في الجدول 2.

                                  تحليل المسار المتكامل وتصور كل من بيانات التعبير الجيني وبيانات التمثيل الغذائي (مثال 4 عبر الإنترنت). يظهر هنا مسار KEGG hsa00190 الفسفرة التأكسدية. يتم عرض إحصائيات التحليل في الجدول 2.

                                  نتائج تحليل المسار المتكامل لكل من التعبير الجيني وبيانات التمثيل الغذائي (مثال 4 عبر الإنترنت)

                                  مسار . stat.gene. الحجم. stat.cpd. الحجم. cpd. ص. p.cpd. ص.val. ف.val.
                                  hsa04141 معالجة البروتين في الشبكة الإندوبلازمية 3.79 144 غير متوفر 1 1.07E-10 غير متوفر 1.07E-10 2.17E-08
                                  hsa00190 الفسفرة المؤكسدة 2.76 97 1.71 16 2.74E-06 1.99E-02 9.67E-07 9.77E-05
                                  hsa04142 ليسوسوم 2.77 110 غير متوفر 4 2.28E-06 غير متوفر 2.28E-06 1.53E-04
                                  hsa03050 بروتيسوم 2.68 39 غير متوفر غير متوفر 6.66E-06 غير متوفر 6.66E-06 3.36E-04
                                  hsa00520 السكر الأميني وأيض سكر النوكليوتيدات 1.52 41 2.68 83 9.29E-03 1.88E-04 2.48E-05 1.00E-03
                                  تصدير البروتين hsa03060 2.46 18 غير متوفر غير متوفر 6.14E-05 غير متوفر 6.14E-05 2.07E-03
                                  التصاق البؤري hsa04510 −2.30 192 غير متوفر 2 8.43E-05 غير متوفر 8.43E-05 2.43E-03
                                  hsa04060 تفاعل مستقبلات السيتوكين-السيتوكين −2.17 226 غير متوفر غير متوفر 1.92E-04 غير متوفر 1.92E-04 4.84E-03
                                  hsa04080 تفاعل ليجند-مستقبلات عصبي −1.49 242 2.20 53 1.01E-02 2.21E-03 2.61E-04 5.86E-03
                                  hsa04145 فاجوسوم 2.07 131 غير متوفر 1 3.99E-04 غير متوفر 3.99E-04 8.06E-03
                                  مسار . stat.gene. الحجم. stat.cpd. الحجم. cpd. ص. p.cpd. ص.val. ف.val.
                                  hsa04141 معالجة البروتين في الشبكة الإندوبلازمية 3.79 144 غير متوفر 1 1.07E-10 غير متوفر 1.07E-10 2.17E-08
                                  hsa00190 الفسفرة المؤكسدة 2.76 97 1.71 16 2.74E-06 1.99E-02 9.67E-07 9.77E-05
                                  hsa04142 ليسوسوم 2.77 110 غير متوفر 4 2.28E-06 غير متوفر 2.28E-06 1.53E-04
                                  hsa03050 بروتيسوم 2.68 39 غير متوفر غير متوفر 6.66E-06 غير متوفر 6.66E-06 3.36E-04
                                  hsa00520 السكر الأميني وأيض سكر النوكليوتيدات 1.52 41 2.68 83 9.29E-03 1.88E-04 2.48E-05 1.00E-03
                                  تصدير البروتين hsa03060 2.46 18 غير متوفر غير متوفر 6.14E-05 غير متوفر 6.14E-05 2.07E-03
                                  التصاق البؤري hsa04510 −2.30 192 غير متوفر 2 8.43E-05 غير متوفر 8.43E-05 2.43E-03
                                  hsa04060 تفاعل مستقبلات السيتوكين-السيتوكين −2.17 226 غير متوفر غير متوفر 1.92E-04 غير متوفر 1.92E-04 4.84E-03
                                  hsa04080 تفاعل ليجند-مستقبلات عصبي −1.49 242 2.20 53 1.01E-02 2.21E-03 2.61E-04 5.86E-03
                                  hsa04145 فاجوسوم 2.07 131 غير متوفر 1 3.99E-04 غير متوفر 3.99E-04 8.06E-03

                                  يظهر مثال التصور في الشكل 3. تتضمن الأعمدة إحصائيات الاختبار للجينات والبيانات المركبة (2 و 4) و ص- القيم (6-7) ، مقاسات مجموعة الجينات (3 و 5) و ص- و س- قيم التحليل المركب (8-9)

                                  مسار . stat.gene. الحجم. stat.cpd. الحجم. cpd. ص. p.cpd. ص.val. ف.val.
                                  hsa04141 معالجة البروتين في الشبكة الإندوبلازمية 3.79 144 غير متوفر 1 1.07E-10 غير متوفر 1.07E-10 2.17E-08
                                  hsa00190 الفسفرة المؤكسدة 2.76 97 1.71 16 2.74E-06 1.99E-02 9.67E-07 9.77E-05
                                  hsa04142 ليسوسوم 2.77 110 غير متوفر 4 2.28E-06 غير متوفر 2.28E-06 1.53E-04
                                  hsa03050 بروتيسوم 2.68 39 غير متوفر غير متوفر 6.66E-06 غير متوفر 6.66E-06 3.36E-04
                                  hsa00520 السكر الأميني وأيض سكر النوكليوتيدات 1.52 41 2.68 83 9.29E-03 1.88E-04 2.48E-05 1.00E-03
                                  تصدير البروتين hsa03060 2.46 18 غير متوفر غير متوفر 6.14E-05 غير متوفر 6.14E-05 2.07E-03
                                  التصاق البؤري hsa04510 −2.30 192 غير متوفر 2 8.43E-05 غير متوفر 8.43E-05 2.43E-03
                                  hsa04060 تفاعل مستقبلات السيتوكين-السيتوكين −2.17 226 غير متوفر غير متوفر 1.92E-04 غير متوفر 1.92E-04 4.84E-03
                                  hsa04080 تفاعل ليجند-مستقبلات عصبي −1.49 242 2.20 53 1.01E-02 2.21E-03 2.61E-04 5.86E-03
                                  hsa04145 فاجوسوم 2.07 131 غير متوفر 1 3.99E-04 غير متوفر 3.99E-04 8.06E-03
                                  مسار . stat.gene. الحجم. stat.cpd. الحجم. cpd. ص. p.cpd. ص.val. ف.val.
                                  hsa04141 معالجة البروتين في الشبكة الإندوبلازمية 3.79 144 غير متوفر 1 1.07E-10 غير متوفر 1.07E-10 2.17E-08
                                  hsa00190 الفسفرة المؤكسدة 2.76 97 1.71 16 2.74E-06 1.99E-02 9.67E-07 9.77E-05
                                  hsa04142 ليسوسوم 2.77 110 غير متوفر 4 2.28E-06 غير متوفر 2.28E-06 1.53E-04
                                  hsa03050 بروتيسوم 2.68 39 غير متوفر غير متوفر 6.66E-06 غير متوفر 6.66E-06 3.36E-04
                                  hsa00520 السكر الأميني وأيض سكر النوكليوتيدات 1.52 41 2.68 83 9.29E-03 1.88E-04 2.48E-05 1.00E-03
                                  تصدير البروتين hsa03060 2.46 18 غير متوفر غير متوفر 6.14E-05 غير متوفر 6.14E-05 2.07E-03
                                  التصاق البؤري hsa04510 −2.30 192 غير متوفر 2 8.43E-05 غير متوفر 8.43E-05 2.43E-03
                                  hsa04060 تفاعل مستقبلات السيتوكين-السيتوكين −2.17 226 غير متوفر غير متوفر 1.92E-04 غير متوفر 1.92E-04 4.84E-03
                                  hsa04080 تفاعل ليجند-مستقبلات عصبي −1.49 242 2.20 53 1.01E-02 2.21E-03 2.61E-04 5.86E-03
                                  hsa04145 فاجوسوم 2.07 131 غير متوفر 1 3.99E-04 غير متوفر 3.99E-04 8.06E-03

                                  يظهر مثال التصور في الشكل 3. تتضمن الأعمدة إحصائيات الاختبار للجينات والبيانات المركبة (2 و 4) و ص- القيم (6-7) ، مقاسات مجموعة الجينات (3 و 5) و ص- و س- قيم التحليل المركب (8-9)

                                  ميزات الخادم عبر الإنترنت فقط

                                  بالإضافة إلى وظائف Pathview الأساسية ، يوفر خادم الويب ميزات إضافية وتجربة فريدة غير متوفرة لمستخدمي حزمة R غير المتصلة (الجدول 1).

                                  يتم تحديث وتحسين Pathview Web باستمرار في واجهاته ووظائفه. يتزامن الخادم شهريًا مع قواعد بيانات مصدر KEGG من خلال REST API. يتمتع المستخدم دائمًا بإمكانية الوصول إلى أحدث الرسوم البيانية والبيانات الخاصة بالمسار وأكثرها اكتمالاً ودقة. بالإضافة إلى ذلك ، يتم تشغيل عمليات التحديث كجزء من إجراءات خلفية خوادم الويب ولا تؤثر على المستخدمين. في المقابل ، يتلقى مستخدمو حزمة R تحديثات رئيسية في كل من بيانات مصدر المسار ووظيفة البرنامج كل 6 أشهر مع دورة إطلاق الموصل الحيوي.

                                  يوفر خادم الويب حسابات مستخدمين مسجلين مجانية (على الرغم من أن التسجيل غير مطلوب). يتم حفظ كل محفوظات التحليل بهذه الحسابات ، بما في ذلك بيانات الإدخال وإعدادات التحليل والنتائج. يمكن للمستخدمين مراجعة تحليلاتهم وتكرارها ومشاركتها مع المستخدمين الآخرين بسهولة. تتيح هذه الميزة البحث التعاوني والعلوم القابلة للتكرار. في غضون ذلك ، يتم حظر جميع عمليات الوصول غير المصرح بها لبيانات المستخدم.

                                  يوفر خادم الويب قناة مهمة لدعم المستخدم والمشاركة في مشروع Pathview. يمكن للمستخدمين إبداء التعليقات والاقتراحات ، أو طلب المساعدة في الصفحة المخصصة. يجمع الخادم بيانات الاستخدام ، مما يساعدنا على فهم احتياجات المستخدمين بشكل أفضل. نشارك أيضًا هذه الأفكار أو القياس حول المشروع مع المستخدمين. على سبيل المثال ، يتم عرض إحصائيات الاستخدام الموجزة لكل من الخادم والحزمة كرسم بياني في الوقت الفعلي في الصفحة الأولى. ستؤدي مشاركات المستخدمين والإحصاءات هذه إلى تنمية مستنيرة بشكل أفضل.

                                  يعمل خادم الويب أيضًا كصفحة رئيسية لمشروع Pathview بالكامل. يتضمن هذا المورد المركزي عبر الإنترنت العديد من الصفحات الداعمة التي تغطي وصف المشروع والوثائق والمراجع والبرامج التعليمية والأخبار وجهات الاتصال والروابط ذات الصلة.


                                  2.1 & # xa0 & # xa0 الدوافع

                                  دعم إعادة بناء التمثيل الغذائي والنمذجة الحسابية يتمثل أحد تطبيقات MetaCyc & # x2019s الأولية في العمل كقاعدة بيانات مرجعية للتنبؤ الحسابي بشبكة التمثيل الغذائي لكائن حي من جينومه المشروح ، مثل عنصر PathoLogic في Pathway Tools [مثال]. يمكن تحويل عمليات إعادة البناء هذه إلى نماذج استقلابية باستخدام مكون MetaFlux في أدوات المسار.

                                  تقديم مرجع موسوعي عن المسارات والإنزيمات يتم استخدام MetaCyc كمصدر يسهل الوصول إليه للحصول على أحدث المعلومات المنسقة من الأدبيات حول المسارات والإنزيمات الأيضية من قبل الباحثين من أجل البحث الأساسي وتحليل الجينوم ، ومن قبل الطلاب والمعلمين للأغراض التعليمية. [مثال]

                                  دعم هندسة التمثيل الغذائي يستخدم مهندسو الأيض MetaCyc كموسوعة لمسارات التمثيل الغذائي والإنزيمات التي يمكن تعديلها وراثيًا إلى كائن حي لتغيير عملية التمثيل الغذائي. [مثال]


                                  محتويات

                                  الأفكار الناشئة من إدارة البيانات تحرير

                                  في السبعينيات من القرن الماضي ، كانت إدارة المعلومات تهتم إلى حد كبير بمسائل أقرب إلى ما يمكن أن يسمى الآن إدارة البيانات: البطاقات المثقوبة والأشرطة المغناطيسية وغيرها من وسائط حفظ السجلات ، التي تنطوي على دورة حياة مثل هذه الأشكال التي تتطلب الإنشاء والتوزيع والنسخ الاحتياطي والصيانة والتخلص . في هذا الوقت بدأ التعرف على الإمكانات الهائلة لتكنولوجيا المعلومات: على سبيل المثال شريحة واحدة تخزن كتابًا كاملاً ، أو بريد إلكتروني ينقل الرسائل على الفور حول العالم ، أفكار رائعة في ذلك الوقت. [1] مع انتشار تكنولوجيا المعلومات واتساع نطاق أنظمة المعلومات في الثمانينيات والتسعينيات ، [2] اتخذت إدارة المعلومات شكلاً جديدًا. حولت الشركات التقدمية مثل بريتيش بتروليوم مفردات ما كان يُعرف آنذاك باسم "إدارة تكنولوجيا المعلومات" ، بحيث أصبح "محللو الأنظمة" "محللي أعمال" ، وأصبح "العرض الاحتكاري" مزيجًا من "الاستعانة بمصادر داخلية" و "الاستعانة بمصادر خارجية" ، وتقنية المعلومات الكبيرة تم تحويل الوظيفة إلى "فرق ضئيلة" بدأت في السماح ببعض المرونة في العمليات التي تسخر المعلومات لصالح الأعمال. [3] امتد نطاق اهتمام الإدارة العليا بالمعلومات في شركة بريتيش بتروليوم من خلق القيمة من خلال تحسين العمليات التجارية ، بناءً على الإدارة الفعالة للمعلومات ، والسماح بتنفيذ أنظمة المعلومات المناسبة (أو "التطبيقات") التي تم تشغيلها على البنية التحتية لتكنولوجيا المعلومات التي تم الاستعانة بمصادر خارجية لها. [3] وبهذه الطريقة ، لم تعد إدارة المعلومات مهمة بسيطة يمكن أن يؤديها أي شخص ليس لديه أي شيء آخر يقوم به ، بل أصبحت مسألة إستراتيجية للغاية وتحتل اهتمام الإدارة العليا. أصبح من الضروري فهم التقنيات المستخدمة ، والقدرة على إدارة مشاريع نظم المعلومات وتغيير الأعمال بشكل جيد ، والاستعداد لمواءمة استراتيجيات التكنولوجيا والأعمال. [4]

                                  وضع إدارة المعلومات في الصورة الأكبر تحرير

                                  في الفترة الانتقالية التي سبقت الرؤية الإستراتيجية لإدارة المعلومات ، قدم فينكاترامان (مؤيدًا قويًا لهذا التحول والتحول ، [5] ترتيبًا بسيطًا للأفكار التي جمعت بإيجاز إدارات البيانات والمعلومات والمعرفة (انظر الشكل)) جادل بأن:

                                  • البيانات التي يتم الاحتفاظ بها في البنية التحتية لتكنولوجيا المعلومات يجب أن تكون كذلك مفسرة من أجل تقديم المعلومات.
                                  • المعلومات في نظم المعلومات لدينا يجب أن تكون يفهم من أجل الظهور كمعرفة.
                                  • المعرفة تسمح للمديرين اتخاذ قرارات فعالة.
                                  • يجب أن تؤدي القرارات الفعالة إلى الإجراءات المناسبة.
                                  • من المتوقع أن يتم تنفيذ الإجراءات المناسبة نتائج ذات مغزى.

                                  يُشار إلى هذا غالبًا باسم نموذج DIKAR: البيانات والمعلومات والمعرفة والعمل والنتيجة ، [6] فهو يعطي دليلًا قويًا على الطبقات المشاركة في محاذاة التكنولوجيا والاستراتيجيات التنظيمية ، ويمكن اعتباره لحظة محورية في تغيير المواقف تجاه إدارة المعلومات. إن الاعتراف بأن إدارة المعلومات هي استثمار يجب أن يقدم نتائج ذات مغزى مهم لجميع المنظمات الحديثة التي تعتمد على المعلومات واتخاذ القرارات الجيدة لنجاحها. [7]

                                  النظريات السلوكية والتنظيمية تحرير

                                  من المعتقد بشكل عام أن إدارة المعلومات الجيدة أمر بالغ الأهمية للعمل السلس للمنظمات ، وعلى الرغم من عدم وجود نظرية مقبولة بشكل عام لإدارة المعلومات في حد ذاته، النظريات السلوكية والتنظيمية تساعد. باتباع نظرية العلوم السلوكية للإدارة ، والتي تم تطويرها بشكل أساسي في جامعة كارنيجي ميلون وبدعم بارز من مارس وسيمون ، [8] معظم ما يحدث في المنظمات الحديثة هو في الواقع معالجة المعلومات واتخاذ القرار. أحد العوامل الحاسمة في معالجة المعلومات واتخاذ القرار هو قدرة الفرد على معالجة المعلومات واتخاذ القرارات في ظل قيود قد تنبع من السياق: عمر الشخص ، أو تعقيد الموقف ، أو الافتقار إلى الجودة المطلوبة في المعلومات المتوفرة - يتفاقم كل ذلك بسبب التقدم السريع للتكنولوجيا والأنواع الجديدة من الأنظمة التي تتيحها ، خاصة وأن الشبكة الاجتماعية تظهر كظاهرة لا يمكن للشركات تجاهلها. ومع ذلك ، قبل أن يكون هناك أي اعتراف عام بأهمية إدارة المعلومات في المنظمات ، جادل مارس وسيمون [8] بأنه يجب اعتبار المنظمات كنظم تعاونية ، تتمتع بمستوى عالٍ من معالجة المعلومات وحاجة كبيرة لاتخاذ القرار على مستويات مختلفة. وبدلاً من استخدام نموذج "الرجل الاقتصادي" ، كما دعت إليه النظرية الكلاسيكية [9] ، اقترحوا "الرجل الإداري" كبديل ، بناءً على حججهم حول الحدود المعرفية للعقلانية. بالإضافة إلى ذلك ، اقترحوا فكرة الإرضاء ، والتي تستلزم البحث في البدائل المتاحة حتى يتم استيفاء حد القبول - وهي فكرة أخرى لا تزال قائمة. [10]

                                  تحرير النظرية الاقتصادية

                                  بالإضافة إلى العوامل التنظيمية التي ذكرها مارس وسيمون ، هناك قضايا أخرى تنبع من الديناميكيات الاقتصادية والبيئية. هناك تكلفة لجمع وتقييم المعلومات اللازمة لاتخاذ القرار ، بما في ذلك الوقت والجهد اللازمين. [11] يمكن أن تكون تكلفة المعاملات المرتبطة بعمليات المعلومات عالية. على وجه الخصوص ، يمكن للقواعد والإجراءات التنظيمية المعمول بها أن تمنع اتخاذ القرار الأنسب ، مما يؤدي إلى نتائج دون المستوى الأمثل. [12] [13] هذه قضية تم تقديمها على أنها مشكلة رئيسية مع المنظمات البيروقراطية التي تفقد اقتصاديات التغيير الاستراتيجي بسبب المواقف الراسخة. [14]

                                  تحرير الخلفية

                                  وفقًا لمدرسة كارنيجي ميلون ، فإن قدرة المؤسسة على معالجة المعلومات هي في صميم الكفاءة التنظيمية والإدارية ، ويجب تصميم استراتيجيات المنظمة لتحسين قدرة معالجة المعلومات [15] ونظرًا لأن أنظمة المعلومات التي توفر تلك القدرة أصبحت رسمية ومؤتمتة ، تم اختبار الكفاءات بشدة على العديد من المستويات. [16] تم الاعتراف بأن المنظمات بحاجة إلى أن تكون قادرة على التعلم والتكيف بطرق لم تكن واضحة من قبل [17] وبدأ الأكاديميون في تنظيم ونشر الأعمال النهائية المتعلقة بالإدارة الإستراتيجية للمعلومات وأنظمة المعلومات. [4] [18] بالتزامن مع ذلك ، فإن أفكار إدارة العمليات التجارية [19] وإدارة المعرفة [20] على الرغم من أن الكثير من التفكير المبكر المتفائل حول إعادة تصميم العمليات التجارية قد فقد مصداقيته منذ ذلك الحين في أدبيات إدارة المعلومات. [21] في مجال الدراسات الإستراتيجية ، يعتبر فهم بيئة المعلومات ذات الأولوية القصوى ، حيث يُنظر إليه على أنه مجموع الأفراد والمنظمات والأنظمة التي تجمع المعلومات أو تعالجها أو تنشرها أو تعمل بناءً عليها. تتكون هذه البيئة من ثلاثة أبعاد مترابطة تتفاعل باستمرار مع الأفراد والمنظمات والأنظمة. هذه الأبعاد هي الأبعاد المادية والمعلوماتية والمعرفية. [22]

                                  مواءمة التكنولوجيا واستراتيجية العمل مع إدارة المعلومات تحرير

                                  قدم فينكاترامان عرضًا بسيطًا للقدرات المطلوبة لمنظمة تريد إدارة المعلومات جيدًا - نموذج DIKAR (انظر أعلاه). كما عمل مع آخرين لفهم كيفية مواءمة استراتيجيات التكنولوجيا والأعمال بشكل مناسب من أجل تحديد القدرات المحددة المطلوبة. [23] هذا العمل يوازيه كتاب آخرون في عالم الاستشارات ، [24] الممارسة [25] والأوساط الأكاديمية. [26]

                                  نموذج حافظة معاصر لتحرير المعلومات

                                  قامت Bytheway بجمع وتنظيم الأدوات والتقنيات الأساسية لإدارة المعلومات في مجلد واحد. [7] في صميم وجهة نظره لإدارة المعلومات ، يوجد نموذج محفظة يأخذ في الاعتبار الاهتمام المتزايد بالمصادر الخارجية للمعلومات والحاجة إلى تنظيم المعلومات غير المنظمة خارجيًا لجعلها مفيدة (انظر الشكل).

                                  تُظهر حافظة المعلومات هذه كيف يمكن جمع المعلومات وتنظيمها بشكل مفيد ، في أربع مراحل:

                                  المرحلة 1: الاستفادة من المعلومات العامة: التعرف على مخططات خارجية جيدة التنظيم للبيانات المرجعية واعتمادها ، مثل الرموز البريدية ، وبيانات الطقس ، وبيانات تحديد المواقع عبر نظام تحديد المواقع العالمي (GPS) وجداول السفر الزمنية ، على سبيل المثال في الصحافة الحاسوبية الشخصية. [27]

                                  المرحلة الثانية: وضع علامات على الضوضاء على شبكة الويب العالمية: استخدم المخططات الحالية مثل الرموز البريدية وبيانات نظام تحديد المواقع العالمي (GPS) أو أكثر عادةً عن طريق إضافة "علامات" ، أو إنشاء أنطولوجيا رسمية توفر بنية. يقدم Shirky لمحة عامة عن هذين النهجين. [28]

                                  المرحلة 3: الغربلة والتحليل: في العالم الأوسع ، تمتد الأنطولوجيا المعممة التي هي قيد التطوير إلى مئات الكيانات ومئات العلاقات فيما بينها وتوفر الوسائل لاستنباط المعنى من كميات كبيرة من البيانات. تعمل البيانات المنظمة في قواعد البيانات بشكل أفضل عندما تعكس تلك البنية نموذج معلومات عالي المستوى - علم الوجود أو نموذج علاقة الكيان. [29]

                                  المرحلة الرابعة: الهيكلة والأرشفة: مع الحجم الكبير من البيانات المتاحة من مصادر مثل الشبكة الاجتماعية ومن أنظمة القياس عن بعد المصغرة المستخدمة في إدارة الصحة الشخصية ، وطرق جديدة لأرشفة البيانات ثم البحث عنها للحصول على معلومات مفيدة. تعد طرق تقليل الخريطة ، الناشئة عن البرمجة الوظيفية ، طريقة أحدث لاستنباط المعلومات من مجموعات البيانات الأرشيفية الكبيرة التي أصبحت مثيرة للاهتمام للشركات العادية التي لديها موارد بيانات كبيرة جدًا للعمل معها ، ولكنها تتطلب موارد متقدمة متعددة المعالجات. [30]

                                  تحرير الكفاءات لإدارة المعلومات بشكل جيد

                                  في عام 2004 ، نُشر نظام الإدارة "هيئة إدارة المعلومات للمعرفة" لأول مرة على شبكة الويب العالمية [31] ، وقد وضع لإظهار أن الكفاءات الإدارية المطلوبة للحصول على فوائد حقيقية من الاستثمار في المعلومات معقدة ومتعددة الطبقات. يشتمل نموذج الإطار الذي هو الأساس لفهم الكفاءات على ستة مجالات "معرفة" وأربعة مجالات "عملية":

                                  يستند IMBOK إلى الحجة القائلة بأن هناك ستة مجالات للكفاءة الإدارية المطلوبة ، اثنان منها ("إدارة عمليات الأعمال" و "إدارة معلومات الأعمال") مرتبطان ارتباطًا وثيقًا. [32]

                                  • تكنولوجيا المعلومات: يمكن أن تؤدي وتيرة التغيير التكنولوجي والضغط من أجل الحصول باستمرار على أحدث المنتجات التكنولوجية إلى تقويض استقرار البنية التحتية التي تدعم الأنظمة ، وبالتالي تحسين العمليات التجارية وتحقيق الفوائد. من الضروري إدارة "جانب العرض" والاعتراف بأن التكنولوجيا أصبحت ، بشكل متزايد ، سلعة. [33]
                                  • نظام معلومات: بينما تم تطوير أنظمة المعلومات تاريخيًا داخليًا ، فقد أصبح من الممكن على مر السنين الحصول على معظم أنظمة البرامج التي تحتاجها المؤسسة من صناعة حزم البرامج. ومع ذلك ، لا تزال هناك إمكانية للميزة التنافسية من تنفيذ أفكار الأنظمة الجديدة التي تحقق النوايا الاستراتيجية للمنظمات. [4]
                                  • العمليات التجارية والمعلومات التجارية: يتم تطبيق أنظمة المعلومات على العمليات التجارية من أجل تحسينها ، وهي تجلب البيانات إلى الأعمال التي تصبح مفيدة كمعلومات تجارية. لا يزال يُنظر إلى إدارة عمليات الأعمال على أنها فكرة جديدة نسبيًا لأنها لم يتم تبنيها عالميًا ، وكانت صعبة في كثير من الحالات في مجال الأعمال معلومة حتى أكثر من التحدي. [34] [35]
                                  • فائدة تجارية: ما هي الفوائد التي نسعى إليها؟ من الضروري ليس فقط أن نكون صادقين بوحشية بشأن ماذا علبة ولكن أيضًا لضمان الإدارة الفعالة وتقييم تقديم المنافع. منذ ظهور بطاقة الأداء المتوازن وتعميمها [36] ، كان هناك اهتمام كبير بإدارة أداء الأعمال ولكن لم يتم بذل الكثير من الجهود الجادة لربط إدارة أداء الأعمال بفوائد استثمارات تكنولوجيا المعلومات وإدخال أنظمة معلومات جديدة حتى مطلع الألفية. [26]
                                  • استراتيجية العمل: على الرغم من أنها بعيدة كل البعد عن قضايا العمل اليومية لإدارة المعلومات في المنظمات ، إلا أن الإستراتيجية في معظم المنظمات يجب ببساطة أن تكون على علم بفرص تكنولوجيا المعلومات وأنظمة المعلومات ، سواء لمعالجة الأداء الضعيف أو لتحسين التمايز والقدرة التنافسية. تعتمد أدوات التحليل الاستراتيجي مثل سلسلة القيمة وتحليل عامل النجاح الحاسم بشكل مباشر على الاهتمام المناسب بالمعلومات التي (أو يمكن) إدارتها [4]

                                  حتى مع القدرة الكاملة والكفاءة ضمن مجالات المعرفة الستة ، يُقال أن الأمور لا تزال تسوء. تكمن المشكلة في هجرة الأفكار وقيمة إدارة المعلومات من مجال اختصاص إلى آخر. تلخيص ما يفسره Bytheway بشيء من التفصيل (وبدعم من مراجع ثانوية مختارة): [37]

                                  • المشاريع: تكنولوجيا المعلومات لا قيمة لها حتى يتم هندستها في نظم المعلومات التي تلبي احتياجات العمل عن طريق إدارة المشروع الجيدة. [38]
                                  • تغيير الأعمال: أفضل نظم المعلومات تنجح في تحقيق المنافع من خلال تحقيق التغيير داخل أنظمة الأعمال ، لكن الناس لا يقدرون التغيير الذي يفرض مطالب جديدة على مهاراتهم بالطرق التي تفعلها نظم المعلومات الجديدة في كثير من الأحيان. على عكس التوقعات الشائعة ، هناك بعض الأدلة على أن القطاع العام قد نجح في إحداث تغيير في الأعمال بسبب تكنولوجيا المعلومات. [39]
                                  • العمليات التجارية: مع وجود أنظمة جديدة مطبقة ، مع تحسين العمليات التجارية ومعلومات الأعمال ، ومع استعداد الموظفين أخيرًا وقادرين على العمل مع العمليات الجديدة ، يمكن للشركة أن تبدأ العمل ، حتى عندما تمتد الأنظمة الجديدة إلى ما هو أبعد من حدود عمل واحد. [40]
                                  • ادارة الأداء: لم تعد الاستثمارات تتعلق فقط بالنتائج المالية ، بل يجب أن يكون النجاح المالي متوازناً مع الكفاءة الداخلية ، ورضا العملاء ، والتعلم والتطوير التنظيمي. [36]

                                  تحرير الملخص

                                  هناك دائمًا العديد من الطرق لرؤية الأعمال التجارية ، ووجهة نظر إدارة المعلومات هي طريقة واحدة فقط. من المهم أن تتذكر أن المجالات الأخرى من النشاط التجاري ستساهم أيضًا في الإستراتيجية - ليس فقط إدارة المعلومات الجيدة هي التي تحرك الأعمال إلى الأمام. سيكون لكل من حوكمة الشركات وإدارة الموارد البشرية وتطوير المنتجات والتسويق دورًا مهمًا تلعبه بطرق إستراتيجية ، ويجب ألا نرى مجالًا واحدًا للنشاط وحده كمصدر وحيد للنجاح الاستراتيجي. من ناحية أخرى ، تعتمد كل من حوكمة الشركات وإدارة الموارد البشرية وتطوير المنتجات والتسويق على الإدارة الفعالة للمعلومات ، وبالتالي في التحليل النهائي ، يمكن القول إن كفاءتنا لإدارة المعلومات بشكل جيد ، على أساس واسع يتم تقديمه هنا ، أن تكون سائدة.

                                  إدارة التغيير المطلوب تحرير

                                  غالبًا ما تواجه المنظمات العديد من تحديات إدارة المعلومات والقضايا على المستوى التشغيلي ، خاصةً عندما يتم إحداث التغيير التنظيمي. تتطلب حداثة هياكل الأنظمة الجديدة والافتقار إلى الخبرة في الأساليب الجديدة لإدارة المعلومات مستوى من إدارة التغيير التنظيمي المعروف بصعوبة تقديمه. نتيجة لإحجام تنظيمي عام عن التغيير ، لتمكين أشكال جديدة من إدارة المعلومات ، قد يكون هناك (على سبيل المثال): نقص في الموارد المطلوبة ، وعدم الاعتراف بفئات جديدة من المعلومات والإجراءات الجديدة التي تستخدمها ، عدم وجود دعم من الإدارة العليا يؤدي إلى فقدان الرؤية الإستراتيجية ، وحتى المناورات السياسية التي تقوض عمل المنظمة بأكملها. [41] ومع ذلك ، ينبغي أن يؤدي تنفيذ الأشكال الجديدة لإدارة المعلومات عادة إلى فوائد تشغيلية.

                                  العمل المبكر لـ Galbraith Edit

                                  في العمل المبكر ، مع الأخذ بعين الاعتبار معالجة المعلومات لتصميم المؤسسة ، حدد جاي جالبريث خمسة مجالات تكتيكية لزيادة قدرة معالجة المعلومات وتقليل الحاجة إلى معالجة المعلومات. [42]

                                  • تطوير وتنفيذ ومراقبة جميع جوانب "بيئة" المنظمة.
                                  • إنشاء موارد الركود لتقليل الحمل على التسلسل الهرمي العام للموارد وتقليل معالجة المعلومات المتعلقة بالحمل الزائد.
                                  • إنشاء مهام قائمة بذاتها ذات حدود محددة والتي يمكن أن تحقق الإغلاق المناسب ، وبجميع الموارد المتاحة اللازمة لأداء المهمة.
                                  • التعرف على العلاقات الجانبية التي تتقاطع مع الوحدات الوظيفية ، وذلك لنقل سلطة القرار إلى العملية بدلاً من تجزئتها داخل التسلسل الهرمي.
                                  • الاستثمار في أنظمة المعلومات العمودية التي توجه تدفق المعلومات لمهمة محددة (أو مجموعة من المهام) وفقًا لمنطق العمل المطبق.

                                  منظمة المصفوفة تحرير

                                  يؤدي مفهوم العلاقات الجانبية إلى شكل تنظيمي يختلف عن التسلسل الهرمي البسيط ، "منظمة المصفوفة". يجمع هذا العرض الرأسي (الهرمي) للمؤسسة والعرض الأفقي (المنتج أو المشروع) للعمل الذي تقوم به المرئي للعالم الخارجي. إن إنشاء منظمة مصفوفة هو أحد ردود الإدارة على السيولة المستمرة للطلب الخارجي ، وتجنب الاستجابات المتنوعة والزائفة للطلبات العرضية التي تميل إلى التعامل معها بشكل فردي.


                                  ما المعلومات التي تعرضها صفحة إحصائيات وحدة KEGG؟ - مادة الاحياء

                                  تعريفات | التنظيم | الرجوع من نص | اختصار & quot الشكل & quot | أرقام وجداول الترقيم |
                                  | التنسيب في الورق | أساطير | نشر أسطورة | تشريح طاولة | تشريح الرسم البياني |
                                  | أرقام مركبة | الرسوم البيانية الشريطية | التردد الرسومي | مبعثرات | الرسوم البيانية الخطية |

                                  | المزيد من الأمثلة |

                                  بمجرد اكتمال التحليلات الإحصائية الخاصة بك ، ستحتاج إلى تلخيص البيانات والنتائج لعرضها على القراء. قد تتخذ ملخصات البيانات أحد الأشكال الثلاثة: النص والجداول والأشكال.

                                  النص: على عكس ما قد تكون سمعته ، لا تستدعي جميع التحليلات أو النتائج وجود جدول أو شكل. من الأفضل ذكر بعض النتائج البسيطة في جملة واحدة ، مع تلخيص البيانات بطريقة الوالدية:

                                  كان إنتاج البذور أعلى للنباتات في المعالجة بأشعة الشمس الكاملة (52.3 +/- 6.8 بذرة) مقارنة بالنباتات التي تلقت الضوء المرشح (14.7 + / - 3.2 بذرة ، طن = 11.8 ، دف = 55 ، ص & لتر 0.001.)

                                  الجداول: تعرض الجداول قوائم بالأرقام أو النصوص في أعمدة ، ولكل عمود عنوان أو تسمية. لا تستخدم الجدول عندما ترغب في إظهار اتجاه أو نمط علاقة بين مجموعات من القيم - يتم تقديم هذه بشكل أفضل في الشكل. على سبيل المثال ، إذا كنت بحاجة إلى تقديم أحجام السكان ونسب الجنس لكائن الدراسة الخاص بك في سلسلة من المواقع ، وخططت للتركيز على الاختلافات بين المواقع الفردية وفقًا (على سبيل المثال) نوع الموطن ، يمكنك استخدام جدول. ومع ذلك ، إذا أردت أن تبين لنا أن نسبة الجنس كانت مرتبطة بحجم السكان ، فيمكنك استخدام الشكل.

                                  الأشكال: الأشكال هي عروض تقديمية مرئية للنتائج ، بما في ذلك الرسوم البيانية والرسوم البيانية والصور والرسومات والمخططات والخرائط وما إلى ذلك. الرسوم البيانية هي أكثر أنواع الأشكال شيوعًا وستتم مناقشتها بالتفصيل. هذا القسم. تظهر الرسوم البيانية اتجاهات أو أنماط العلاقة.

                                  تنظيم عرضك التقديمي: بمجرد الانتهاء من تحليلاتك وتحديد أفضل طريقة لتقديم كل منها ، فكر في كيفية ترتيبها. يجب أن تخبر تحليلاتك & quot؛ قصة & quot؛ التي تقود القارئ عبر الخطوات اللازمة للإجابة المنطقية على السؤال (الأسئلة) الذي طرحته في مقدمتك. يمكن أن يكون الترتيب الذي تقدم به نتائجك مهمًا في إقناع القراء مثل ما تقوله بالفعل في النص.

                                  كيفية الرجوع إلى الجداول والأشكال من النص: يجب الإشارة إلى كل شكل وجدول مدرج في الورقة من النص. استخدم الجمل التي تلفت انتباه القارئ إلى العلاقة أو الاتجاه الذي ترغب في تسليط الضوء عليه ، مشيرًا إلى الشكل أو الجدول المناسبين فقط:

                                  كانت معدلات الإنبات أعلى بشكل ملحوظ بعد 24 ساعة في الماء الجاري منها في الضوابط (الشكل 4).

                                  تُظهر تناظرات تسلسل الحمض النووي للجين الأرجواني من المتجانسات الأربعة (الجدول 1) تشابهًا كبيرًا ، يختلف في 4 أزواج قاعدية على الأكثر.

                                  تجنب الجمل التي لا تعطي أي معلومات سوى توجيه القارئ إلى الشكل أو الجدول:

                                  يوضح الجدول 1 ملخص نتائج ارتفاعات الذكور والإناث في كلية بيتس.

                                  اختصار الكلمة & quotFigure & quot: عند الإشارة إلى شكل في النص ، يتم اختصار الكلمة & quot كلتا الكلمتين مكتوبتان بالكامل في الأساطير الوصفية.

                                  • تعمل الجملة الأولى كعنوان للشكل (أو الجدول) ويجب أن تشير بوضوح إلى النتائج التي تظهر في سياق سؤال الدراسة ،
                                  • ملخص الإحصائيات التي تم رسمها (على سبيل المثال ، المتوسط ​​و SEM) ،
                                  • الكائن الحي الذي تمت دراسته في التجربة (إن وجد) ،
                                  • سياق النتائج: العلاج المطبق أو العلاقة المعروضة ، إلخ.
                                  • الموقع (فقط إذا كانت تجربة ميدانية) ،
                                  • معلومات توضيحية محددة مطلوبة لتفسير النتائج الموضحة (في الجداول ، يتم ذلك بشكل متكرر كملاحظات سفلية) وقد تتضمن مفتاحًا لأي تعليقات توضيحية ،
                                  • معلمات أو ظروف الثقافة إن وجدت (درجة الحرارة ، الوسائط ، إلخ) حسب الاقتضاء ، و ،
                                  • أحجام العينات وملخصات الاختبارات الإحصائية عند تطبيقها.
                                  • لا تعيد صياغة تسميات المحور ببساطة بعلامة & quotversus & quot مكتوبة بينهما.

                                  تنسيق ووضع الأساطير:

                                  • يجب أن تتطابق وسائل إيضاح الشكل والجدول مع عرض الجدول أو الرسم البياني.
                                  • تذهب أساطير الجدول أعلى جسم الجدول ويتم تركها مضبوطة تتم قراءة الجداول من أعلى إلى أسفل.
                                  • تنتقل وسائل إيضاح الأشكال إلى أسفل الرسم البياني وتُترك رسومًا بيانية مبررة ، وعادةً ما تُقرأ أنواع أخرى من الأشكال من الأسفل إلى الأعلى.
                                  • استخدم خطًا بحجم أصغر من النص الأساسي للمستند وكن متسقًا في جميع أنحاء المستند.
                                  • استخدم نفس خط النص الأساسي.

                                  يوضح الجدول 4 أدناه التخطيط النموذجي لجدول مقسم إلى ثلاثة أقسام محددة بخطوط. يتم إنشاء الجداول بسهولة أكبر باستخدام وظيفة جدول معالج الكلمات أو ورقة انتشار مثل Excel. تُعد خطوط الشبكة أو المربعات ، التي يتم استدعاؤها عادةً بواسطة معالجات الكلمات ، مفيدة في ضبط محاذاة الخلايا والأعمدة ، ولكن يجب حذفها من النسخة المطبوعة. من غير المحتمل أن يُسمح بالجداول المنسقة بحدود الخلية في دفتر يومية.

                                  مثال 1: بإذن من Shelley Ball.

                                  مثال 2: بإذن من Shelley Ball.

                                  مثال 3: بإذن من جريج أندرسون

                                  في هذه الأمثلة لاحظ عدة أشياء:

                                  • وجود فترة بعد & quotTable # & quot
                                  • يتم وضع وسيلة الإيضاح (تسمى أحيانًا التسمية التوضيحية) فوق الجدول
                                  • يتم تحديد الوحدات في عناوين الأعمدة حيثما كان ذلك مناسبًا
                                  • تُستخدم خطوط الترسيم لتعيين وسيلة الإيضاح والعناوين والبيانات والحواشي السفلية بعيدًا عن بعضها البعض.
                                  • تستخدم الحواشي السفلية لتوضيح النقاط في الجدول ، أو لنقل معلومات متكررة حول الإدخالات
                                  • يمكن أيضًا استخدام الحواشي السفلية للدلالة على الفروق الإحصائية بين المجموعات.

                                  توضح الأقسام أدناه متى وكيف يتم استخدام أنواع الأشكال الأربعة الأكثر شيوعًا (الرسم البياني الشريطي ، الرسم البياني للتردد ، مخطط الانتشار XY ، الرسم البياني الخطي XY.) يقدم القسم الأخير أمثلة على أنواع الأشكال الأخرى الأقل شيوعًا.

                                  أجزاء من الرسم البياني: فيما يلي أمثلة للأشكال (الرسوم البيانية الخطية والشريطية النموذجية) مع تمييز الأجزاء المكونة المختلفة باللون الأحمر. ارجع إلى هذه الأمثلة إذا واجهت مصطلحًا غير مألوف أثناء قراءة الأقسام التالية.

                                  بعض الاعتبارات العامة حول الأشكال:

                                  • كبير أم صغير؟ بالنسبة للأوراق المتعلقة بالدورة التدريبية ، فإن القاعدة الأساسية الجيدة هي تغيير حجم الأرقام لملء نصف الصفحة تقريبًا. استخدم حجم خط يسهل قراءته للمحاور والعلامات. يجب ألا يضطر القراء للوصول إلى عدسة مكبرة لقراءة وسيلة الإيضاح أو المحاور. قد تتطلب الأرقام المركبة صفحة كاملة.
                                  • لون أم لا لون؟ في أغلب الأحيان يفضل الأسود والأبيض. الأساس المنطقي هو أنه إذا كنت بحاجة إلى نسخ ورقتك بالفاكس ، فإن أي معلومات تنقلها الألوان ستفقد للقارئ. ومع ذلك ، بالنسبة لعرض الملصق أو الحديث مع الصور المسقطة ، يمكن أن يكون اللون مفيدًا في التمييز بين مجموعات البيانات المختلفة. يجب أن ينقل كل جانب من جوانب الشكل المعلومات التي لا تستخدم الألوان أبدًا لمجرد أنها جميلة.
                                  • عنوان أم لا عنوان؟ لا تستخدم أبدًا عنوانًا للأشكال المضمنة في مستند ، حيث تنقل وسيلة الإيضاح جميع المعلومات الضرورية ويشغل العنوان مساحة إضافية. ومع ذلك ، بالنسبة إلى الملصقات أو الصور المعروضة ، حيث قد يواجه الأشخاص صعوبة في قراءة الطباعة الصغيرة من وسيلة الإيضاح ، يكون عنوان الخط الأكبر مفيدًا للغاية.
                                  • محاور تعويض أم لا؟ اختر لإزاحة المحاور فقط عندما يتم حجب نقاط البيانات عن طريق طباعتها فوق المحور ص.
                                  • أشرطة الخطأ أم لا؟ قم دائمًا بتضمين أشرطة الخطأ (على سبيل المثال ، SD أو SEM) عند وسائل التخطيط. في بعض الدورات التدريبية ، قد يُطلب منك رسم مقاييس أخرى مرتبطة بالمتوسط ​​، مثل فترات الثقة. عند تحليل البيانات التي تم تحليلها باستخدام اختبارات غير معلمية ، فمن المرجح أن تقوم برسم الوسيط والربيعيات أو النطاق. قد تكون هذه مخططات نقطية أو مربعات وشعيرات.
                                  • علامات التجزئة - استخدم الفطرة السليمة عند اتخاذ قرار بشأن العلامات الرئيسية (المرقمة) مقابل العلامات الصغيرة. يجب استخدام العلامات الرئيسية لتقسيم نطاق القيم المرسومة إلى قيم صحيحة بشكل معقول. ضمن الفواصل الزمنية الرئيسية ، من الضروري عادةً إضافة علامات التجزئة الفاصلة الصغيرة التي تقسم المقياس إلى وحدات منطقية (أي الفاصل الزمني الذي يعد عاملاً من عوامل الفاصل الزمني الرئيسي). على سبيل المثال ، عند استخدام فواصل زمنية رئيسية من 10 ، يمكن استخدام فترات علامة صغيرة من 1،2 ، أو 5 ، ولكن ليس 3 أو 4. عندما تتبع البيانات فترة زمنية موحدة على المحور س (على سبيل المثال ، سلسلة مرات ، أو بزيادات متساوية من التركيز) ، استخدم علامات التجزئة الرئيسية لمطابقة البيانات. لن يتم استخدام فترات طفيفة في هذه الحالة.
                                  • عرض وسيلة الإيضاح - يجب أن يتطابق عرض وسيلة إيضاح الشكل مع عرض الرسم البياني (أو أي محتوى آخر.
                                  • اعتبارات النمط - عندما يكون لديك أشكال متعددة ، تأكد من توحيد الخط وأحجام الخطوط وما إلى ذلك بحيث تبدو جميع الأشكال متشابهة من حيث الأسلوب.

                                  عندما يكون لديك العديد من الرسوم البيانية ، أو الرسوم البيانية وغيرها من المواد التوضيحية المترابطة ، فقد يكون من الأكثر فاعلية تقديمها كشكل مركب. تجمع الأشكال المركبة رسومًا بيانية متعددة في شكل واحد مشترك وتشترك في وسيلة إيضاح مشتركة. يجب تحديد كل رقم بوضوح بالحرف الكبير (A ، B ، C ، إلخ) ، وعند الإشارة إليه من نص النتائج ، يتم تحديده على وجه التحديد بواسطة هذا الحرف ، على سبيل المثال ، & quot. (الشكل 1 ب) & مثل. يجب أن تحدد وسيلة إيضاح الشكل المركب أيضًا كل رسم بياني والبيانات التي يقدمها بالحرف.

                                  تُستخدم الرسوم البيانية الشريطية عندما ترغب في مقارنة قيمة متغير واحد (عادةً قيمة تلخيصية مثل الوسط) بين عدة مجموعات. على سبيل المثال ، يعد الرسم البياني الشريطي مناسبًا لإظهار متوسط ​​أحجام النباتات التي تم حصادها من قطع الأراضي التي تلقت 4 معالجات أسمدة مختلفة. (لاحظ أنه على الرغم من إمكانية استخدام الرسم البياني الشريطي لإظهار الاختلافات بين مجموعتين فقط ، خاصةً للأغراض التربوية ، فإن محرري العديد من المجلات يفضلون توفير مساحة من خلال تقديم هذه المعلومات في النص.)

                                  في هذا المثال لاحظ أن:

                                  • أسطورة يذهب تحت الرقم
                                  • فترة تتبع & quot الشكل 1 & quot ولا يتم اختصار مفتاح الرسم نفسه & quot الشكل & quot
                                  • يتم تسمية المتغير المقاس على المحور ص. في معظم الحالات ، يتم تقديم الوحدات هنا أيضًا (انظر المثال التالي)
                                  • يتم تسمية المتغير الفئوي (الموطن) على المحور X ، ويتم تحديد كل فئة
                                  • تم تحديد متغير فئوي ثان (سنة) داخل الموطن بواسطة لون تعبئة شريطي مختلف. يجب تحديد ألوان الشريط في مفتاح موجود حيثما توجد مساحة مناسبة داخل الرسم البياني.
                                  • يتم تضمين أشرطة الخطأ ، لتمديد +1 SD أو SEM فوق المتوسط.
                                  • يمكن الإشارة إلى الفروق الإحصائية من خلال نظام من الأحرف فوق الأشرطة ، مع ملاحظة مصاحبة في التسمية التوضيحية تشير إلى الاختبار ومستوى الأهمية المستخدم.
                                  • اكتمال الأسطورة ، والتي تتطلب في هذه الحالة أكثر من 3 أسطر فقط لوصف العلاجات المستخدمة والمتغيرة المقاسة.
                                  • تسميات المحور مع الوحدات
                                  • مستويات مجموعة العلاج (pH) المحددة على المحور X.
                                  • تصاحب كل شريط أشرطة الخطأ وأحجام عينات المجموعة ، وكل منها محدد جيدًا في وسيلة الإيضاح
                                  • يشار إلى الفروق الإحصائية في هذه الحالة بخطوط مرسومة فوق الأشرطة ، ويتم تحديد الاختبار الإحصائي ومستوى الأهمية في وسيلة الإيضاح.

                                  الرسوم البيانية للتردد (وتسمى أيضًا توزيعات التردد) هي رسوم بيانية من النوع الشريطي توضح كيفية توزيع الأفراد المقاسين على طول محور المتغير المقاس. يمكن أن يكون التردد (المحور ص) مطلقًا (أي عدد الأعداد) أو نسبيًا (أي النسبة المئوية أو نسبة العينة). والمثال المألوف هو الرسم البياني لدرجات الامتحان ، والذي يوضح عدد الطلاب الذين حققوا كل درجة ممكنة. الرسوم البيانية التردد مهمة في وصف السكان ، على سبيل المثال توزيعات الحجم والعمر.

                                  لاحظ عدة أشياء حول هذا المثال:

                                  • يتضمن المحور Y إشارة واضحة (& quot٪ & quot) إلى استخدام الترددات النسبية. (بعض الأمثلة على الترددات المطلقة: & quot عدد السيقان & quot ، & quot عدد الطيور المرصودة & quot)
                                  • تم تقسيم المتغير المقاس (المحور X) إلى فئات (& quotbins & quot) بالعرض المناسب لتصور توزيع حجم السكان. في هذه الحالة ، قسّمت الصناديق التي يبلغ طولها مترًا واحدًا السكان إلى 17 عمودًا بارتفاعات متفاوتة. كان ضبط حجم الحاوية على 0.5 متر قد ينتج عنه عدد كبير جدًا من الأعمدة ذات الترددات المنخفضة في كل منها ، مما يجعل من الصعب تصور نمط. على العكس من ذلك ، فإن تعيين حجم الحاوية كبير جدًا (2-3 م) قد ينتج عنه عدد قليل جدًا من الأعمدة ، مما يؤدي مرة أخرى إلى حجب النمط الأساسي. تتمثل القاعدة الأساسية في البدء بعدد من الحاويات يساوي الجذر التربيعي لأكبر قيمة في مجموعة (مجموعات) البيانات الخاصة بك المراد رسمها.
                                  • القيم المسماة على المحور X هي مراكز bin في هذا المثال ، تحتوي bin 10 m على قيم تتراوح من 9.50 إلى 10.49 م.
                                  • يشار إلى حجم العينة بوضوح ، إما في وسيلة الإيضاح (كما في هذه الحالة) أو في نص الرسم البياني نفسه
                                  • يشتمل المحور Y على علامات تحديد مرقمة وثانوية للسماح بتحديد قيم الشريط بسهولة.

                                  هذه قطع من إحداثيات X و Y تُظهر درجة كل فرد أو عينة على متغيرين. عند رسم البيانات بهذه الطريقة ، فإننا عادةً ما نهتم بمعرفة ما إذا كان المتغيرين يظهران & quot؛ علاقة اقتباس & quot ، أي هل يتغيران في القيمة معًا بطريقة متسقة؟

                                  لاحظ في هذا المثال أن:

                                  • يتم تسمية كل محور (بما في ذلك الوحدات عند الاقتضاء) ويتضمن علامات التجزئة المرقمة والثانوية للسماح بتحديد قيم النقاط المرسومة بسهولة
                                  • يتم تضمين حجم العينة في وسيلة الإيضاح أو نص الرسم البياني
                                  • إذا تم تحليل البيانات إحصائيًا ووجدت علاقة بين المتغيرات ، فيمكن الإشارة إليها من خلال رسم خط الانحدار على الرسم البياني ، وبإعطاء معادلة الانحدار وأهميتها الإحصائية في وسيلة الإيضاح أو جسم الشكل
                                  • تم تحديد نطاق كل محور بعناية لزيادة انتشار النقاط وتقليل المساحة الفارغة الضائعة حيث لا تسقط أي نقاط. على سبيل المثال ، يتم قطع المحور X إلى أقل من 50 جم لأنه لم يتم قياس نباتات أصغر من 52 جم. تؤدي النطاقات المحددة أيضًا إلى علامات التجزئة ذات العلامات التي يسهل قراءتها (50 ، 100 ، 150 & # 133 ، بدلاً من 48 ، 96 ، 144 & # 133)

                                  أي متغير يسير على المحور X؟ عندما يعتمد أحد المتغيرات بشكل واضح على آخر (على سبيل المثال ، يعتمد الارتفاع على العمر ، ولكن من الصعب تخيل العمر اعتمادًا على الارتفاع) ، فإن الاصطلاح هو رسم المتغير التابع على المحور Y والمتغير المستقل على المحور X. في بعض الأحيان لا يوجد متغير مستقل واضح (على سبيل المثال الطول مقابل عرض الأوراق: هل يعتمد العرض على العرض أم العكس؟) توضح حبكة X و Y العلاقة بينهما (بدلاً من تأثير أحدهما على الآخر).

                                  في المثال الموضح أعلاه ، يمكننا أن نتخيل أن إنتاج البذور قد يعتمد على الكتلة الحيوية للنبات ، ولكن من الصعب أن نرى كيف يمكن أن تعتمد الكتلة الحيوية بشكل مباشر على إنتاج البذور ، لذلك نختار الكتلة الحيوية كمحور X. بدلاً من ذلك ، قد تكون العلاقة غير مباشرة: قد يعتمد كل من إنتاج البذور والكتلة الحيوية النباتية على بعض المتغيرات الأخرى غير المقاسة. اختيارنا للمحاور لإثبات الارتباط لا يعني بالضرورة السببية.

                                  ترسم الرسوم البيانية الخطية سلسلة من القيم ذات الصلة التي تصور تغيرًا في Y كدالة لـ X. مثالان شائعان هما منحنى النمو للفرد أو السكان بمرور الوقت ، ومنحنى الجرعة والاستجابة الذي يظهر تأثيرات جرعات متزايدة من عقار أو علاج او معاملة.

                                  متى يتم توصيل النقاط؟ إذا تم الحصول على كل نقطة في السلسلة من نفس المصدر وتعتمد على القيم السابقة (على سبيل المثال ، مخطط لوزن الطفل على مدار عام ، أو قوة العضلات عند الانقباضات المتتالية كإجهاد عضلي) ، فإن النقاط يجب أن يكون متصلاً بخط من نقطة إلى نقطة.ومع ذلك ، إذا كانت السلسلة تمثل قياسات مستقلة لمتغير لإظهار اتجاه (على سبيل المثال ، متوسط ​​سعر ذاكرة الكمبيوتر بمرور الوقت ، منحنى قياسي للكثافة الضوئية مقابل تركيز المادة المذابة) ، فيمكن حينئذٍ نمذجة الاتجاه أو العلاقة عن طريق حساب أفضل- ملاءمة الخط أو المنحنى عن طريق تحليل الانحدار (انظر دليل غير مؤلم للإحصاءات) لا تقم بتوصيل النقاط عند إجراء القياسات بشكل مستقل.

                                  • يتم استخدام رمز مختلف لكل مجموعة (الأنواع) ، ويتم وضع مفتاح الرموز في جسم الرسم البياني حيث تسمح المساحة بذلك. الرموز كبيرة بما يكفي ليتم التعرف عليها بسهولة في حجم الرسم البياني النهائي
                                  • كل نقطة تمثل قيمة متوسطة ، وهذا مذكور في وسيلة الإيضاح. لذلك يتم رسم أشرطة الخطأ لكل نقطة وتحديدها في وسيلة الإيضاح أيضًا.
                                  • نظرًا لأنه تم إجراء القياسات على مجموعات مستقلة لكل نوع ، فإن النقاط غير متصلة بنقطة إلى نقطة بدلاً من ذلك يتم تركيب منحنى بالبيانات لإظهار الاتجاه.
                                  • هذه المرة ، يتم توصيل النقاط بنقطة إلى نقطة داخل كل علاج ، لأنه تم قياس النسبة المئوية التراكمية للإنبات داخل نفس مجموعة البذور كل يوم ، وبالتالي فهي تعتمد على قياسات الأيام السابقة
                                  • يتم استخدام رمز مختلف لكل علاج ، والرموز كبيرة بما يكفي (والخطوط المتصلة بشكل جيد بما فيه الكفاية) بحيث يمكن قراءة كل شيء بسهولة بحجم الرسم البياني النهائي
                                  • بالإضافة إلى مفتاح الرموز ، يتم توفير نوعين آخرين من المعلومات المفيدة في نص الشكل: قيم أعلى وأدنى النسب المئوية التراكمية النهائية ، وخط متقطع (خط أساسي) يوضح أدنى نسبة إنبات تراكمية تم تحقيقها. يتم تحديد هذا الخط الأساسي في وسيلة الإيضاح.

                                  بعض أنواع الأشكال الأخرى

                                  الشكل 9. صورة جوية لموقع الدراسة ca. عام 1949 وعام 1998 (داخلي) يظهران تجديد الغابة. الصور مهداة من المكتب الميداني لوزارة الزراعة الأمريكية ، أوبورن ، مين.


                                  تصور البيانات المكانية وثلاثية الأبعاد

                                  هناك أنواع أخرى من البيانات المرئية بخلاف الرسوم البيانية. قد تفكر في الخريطة الطبوغرافية أو صورة القمر الصناعي كصورة أو رسم تخطيطي لسطح الأرض ، لكن هاتين الصورتين هي طرق لتصور البيانات المكانية. تُظهر الخريطة الطبوغرافية البيانات التي تم جمعها عن الارتفاع وموقع المعالم الجغرافية مثل البحيرات أو قمم الجبال (انظر الشكل 6). ربما تم جمع هذه البيانات في الميدان من قبل المساحين أو من خلال النظر إلى الصور الجوية ، ولكن مع ذلك ، الخريطة ليست صورة لمنطقة - إنها تمثيل مرئي للبيانات. تحقق الخريطة الطبوغرافية في الشكل 6 في الواقع هدفًا ثانيًا يتجاوز مجرد تصور البيانات: فهي تأخذ بيانات ثلاثية الأبعاد (الاختلافات في ارتفاع الأرض) وتعرضها في بعدين على قطعة من الورق.

                                  الشكل 6: جزء من الخريطة الطبوغرافية Warren Peak 7.5 '. الخطوط البنية الصلبة هي خطوط إرتفاع. تأخذ هذه الصورة بيانات ثلاثية الأبعاد عن الارتفاع وتصورها في بعدين.

                                  وبالمثل ، عادةً ما يُساء فهم صور الأقمار الصناعية على أنها صور للأرض من الفضاء ، لكنها في الواقع أكثر تعقيدًا من ذلك بكثير. يسجل القمر الصناعي البيانات الرقمية لكل بكسل ، ويقوم بذلك عند أطوال موجية محددة مسبقًا في الطيف الكهرومغناطيسي (راجع Light II: الوحدة الكهرومغناطيسية لمزيد من المعلومات). بمعنى آخر ، الصورة نفسها عبارة عن تصور للبيانات التي تمت معالجتها من البيانات الأولية الواردة من القمر الصناعي. على سبيل المثال ، تسجل الأقمار الصناعية لاندسات البيانات في سبعة أطوال موجية مختلفة: ثلاثة في الطيف المرئي وأربعة في الأطوال الموجية للأشعة تحت الحمراء. يتم عرض الصورة المركبة لأربعة من تلك الأطوال الموجية في صورة جزء من جبال روكي كولورادو الموضحة في الشكل 7. المنطقة الحمراء الكبيرة في الجزء السفلي من الصورة ليست نباتات حمراء في الجبال بدلاً من ذلك ، إنها منطقة ذات قيم عالية لانبعاث أطوال موجات الأشعة تحت الحمراء (أو الحرارية). في الواقع ، كانت هذه المنطقة موقعًا لحريق غابات كبير ، يُعرف باسم حريق هايمان ، قبل شهر من الحصول على صورة القمر الصناعي في يوليو 2002.

                                  الشكل 7: صورة القمر الصناعي لاندسات في يوليو 2002 لحريق هايمان بوسط كولورادو. صورة ونسخ مشروع USGS Landsat

                                  ما هو القاسم المشترك بين صور الأقمار الصناعية والخرائط الطبوغرافية؟


                                  وصف الدورة التدريبية

                                  يقدم هذا المساق مقدمة أولية عن الاحتمالات والإحصاءات مع التطبيقات. تشمل الموضوعات: التوافقيات الأساسية ، المتغيرات العشوائية ، التوزيعات الاحتمالية ، الاستدلال البايزي ، اختبار الفرضيات ، فترات الثقة ، والانحدار الخطي.

                                  استخدم إصدار ربيع 2014 من هذا الموضوع نظام MITx السكني ، والذي يمكّن المواد الموجودة داخل الحرم الجامعي من تزويد طلاب معهد ماساتشوستس للتكنولوجيا بأدوات التعلم والتقييم مثل مجموعات المشكلات عبر الإنترنت ومقاطع فيديو المحاضرات وأسئلة القراءة وأسئلة ما قبل المحاضرة والمساعدة في مجموعة المشكلات والبرامج التعليمية مقاطع الفيديو ومحتوى مراجعة الاختبارات وحتى الاختبارات عبر الإنترنت.


                                  النهج التحليلية الحالية للمسار

                                  تم استخدام مصطلح "تحليل المسار" في سياقات واسعة جدًا في الأدبيات [2]. تم تطبيقه على تحليل مصطلحات علم الجينات (GO) (يشار إليها أيضًا باسم "مجموعة الجينات") ، وشبكات التفاعل الفيزيائي (على سبيل المثال ، تفاعلات البروتين والبروتين) ، والمحاكاة الحركية للمسارات ، وتحليل مسار الحالة المستقرة (على سبيل المثال ، تحليل توازن التدفق) ، وفي استنتاج المسارات من بيانات التعبير والتسلسل. ومع ذلك ، قد يكون تعريف "المسار" في بعض هذه الاستخدامات مضللًا أو غير صحيح. على سبيل المثال ، لا يصف أنطولوجيا المقصورة الخلوية في GO المسار.

                                  إنه خارج نطاق هذه المراجعة لمناقشة العدد الكبير من الأساليب التحليلية التي يغطيها مثل هذا التطبيق الواسع لمصطلح "تحليل المسار". لذلك ، تركز هذه المراجعة على الطرق التي تستغل معرفة المسار في المستودعات العامة مثل GO أو موسوعة كيوتو للجينات والجينوم (KEGG) ، بدلاً من الأساليب التي تستنتج المسارات من القياسات الجزيئية. نسمي هذا النهج قاعدة المعرفة - مدفوعة تحليل المسار. يحدد المسارات التي قد تتأثر في حالة ما من خلال ربط المعلومات في قاعدة معرفة مسار واحدة على الأقل بأنماط التعبير الجيني للحالة. والنتيجة هي التعبير التفاضلي لمجموعة من الجينات أو البروتينات بدلاً من قائمة الجينات الفردية.

                                  بدلاً من المراجعة الفردية لعدد كبير من مناهج تحليل المسار ، يتمثل هدفنا هنا في تجميع المناهج حسب نوع التحليل الذي تؤديه ومناقشة مزاياها النسبية. ومع ذلك ، بالنسبة لأولئك الذين يرغبون في الحصول على معلومات محددة حول الأدوات الفردية ، يوفر النص S2 مقارنات الميزات لعدد من الأدوات الفردية في كل مجموعة.

                                  تقريبًا جميع الأساليب والأدوات التي تمت مناقشتها هنا مستقلة عن البيانات التي تم إنشاؤها من معظم تقنيات الإنتاجية العالية ، بما في ذلك بيانات التسلسل من الجيل التالي وقواعد المعرفة المستخدمة للتعليقات التوضيحية للمسار. في هذه المراجعة ، نستخدم قياسات التعبير الجيني كمثال للبيانات لمناقشة وشرح الأساليب المختلفة.

                                  الجيل الأول: مناهج تحليل التمثيل الزائد (ORA)

                                  أدت الحاجة الفورية للتحليل الوظيفي لبيانات التعبير الجيني للمصفوفة الدقيقة وظهور GO خلال تلك الفترة إلى تحليل التمثيل الزائد (ORA) ، والذي يقيم إحصائيًا جزء الجينات في مسار معين موجود بين مجموعة الجينات التي تظهر تغيرات في التعبير (الجدول 1). يشار إليها أيضًا باسم "طريقة الجدول 2 × 2" في الأدبيات [3]. يستخدم ORA واحدًا أو أكثر من الأشكال المختلفة للاستراتيجية التالية [4] - [11] (الشكل 1): أولاً ، يتم إنشاء قائمة الإدخال باستخدام عتبة أو معايير معينة. على سبيل المثال ، قد يختار الباحث الجينات التي يتم التعبير عنها بشكل تفاضلي بشكل مفرط أو ناقص في حالة معينة بمعدل اكتشاف خاطئ (FDR) يبلغ 5٪. بعد ذلك ، لكل مسار ، يتم حساب جينات الإدخال التي تشكل جزءًا من المسار. تتكرر هذه العملية للحصول على قائمة خلفية مناسبة من الجينات (على سبيل المثال ، جميع الجينات المقاسة على ميكروأري). بعد ذلك ، يتم اختبار كل مسار من أجل التمثيل الزائد أو الناقص في قائمة جينات الإدخال. تعتمد الاختبارات الأكثر شيوعًا على التوزيع فوق الهندسي أو مربع كاي أو التوزيع ذي الحدين. نحيل القراء إلى المقارنات الأخيرة لأدوات ORA لمزيد من التفاصيل [12] ، [13]. تختلف العديد من أدوات ORA اختلافًا طفيفًا عن بعضها البعض لأنها تستخدم نفس الاختبارات الإحصائية بالإضافة إلى قواعد بيانات المسارات المتداخلة (الجدول S1).

                                  لاحظ أن هذه النظرة العامة تنطبق بشكل متساوٍ على القياسات الجزيئية باستخدام البروتينات ، وأي تقنيات أخرى عالية الإنتاجية. تُعد البيانات التي تم إنشاؤها بواسطة تجربة باستخدام تقنية عالية الإنتاجية (مثل المصفوفة الدقيقة والبروتينات والأيض) ، جنبًا إلى جنب مع التعليقات التوضيحية الوظيفية (قاعدة بيانات المسار) للجينوم المقابل ، مدخلات في جميع طرق تحليل المسار تقريبًا. بينما تتطلب طرق ORA أن يكون الإدخال عبارة عن قائمة بالجينات المعبر عنها تفاضليًا ، تستخدم طرق FCS مصفوفة البيانات بأكملها كمدخلات. بالإضافة إلى التعليقات التوضيحية الوظيفية للجينوم ، تستخدم الطرق المستندة إلى PT عدد ونوع التفاعلات بين منتجات الجينات ، والتي قد تكون أو لا تكون جزءًا من قاعدة بيانات المسار. نتيجة كل طريقة لتحليل المسار هي قائمة بالمسارات المهمة في الحالة قيد الدراسة. DE ، معبراً عنه تفاضليًا.

                                  محددات.

                                  على الرغم من توفر عدد كبير من الأدوات واستخدامها على نطاق واسع ، فإن ORA لديها عدد من القيود. أولاً ، الإحصائيات المختلفة المستخدمة بواسطة ORA (على سبيل المثال ، التوزيع الهندسي الفائق ، التوزيع ذي الحدين ، توزيع مربع كاي ، إلخ) مستقلة عن التغييرات المقاسة. هذا يعني أن هذه الاختبارات تأخذ في الاعتبار عدد الجينات وحدها وتتجاهل أي قيم مرتبطة بها مثل شدة المسبار. من خلال تجاهل هذه البيانات ، يعامل ORA كل جين على قدم المساواة. ومع ذلك ، يمكن أن تكون المعلومات حول مدى التنظيم (على سبيل المثال ، التغييرات الطية ، أهمية التغيير ، وما إلى ذلك) مفيدة في تعيين أوزان مختلفة لجينات الإدخال ، بالإضافة إلى المسارات التي تشارك فيها ، والتي بدورها يمكن أن توفر معلومات أكثر من مناهج ORA الحالية.

                                  ثانيًا ، يستخدم ORA عادةً الجينات الأكثر أهمية ويتجاهل الجينات الأخرى. على سبيل المثال ، عادةً ما يتم الحصول على قائمة إدخال الجينات من تجربة ميكروأري باستخدام عتبة تعسفية (على سبيل المثال ، الجينات ذات التغيير الطي و / أو ص-القيم ). بهذه الطريقة ، الجينات الأقل أهمية هامشيًا (على سبيل المثال ، تغيير الطية = 1.999 أو ص-value = 0.051) مفقودة ، مما أدى إلى فقدان المعلومات. بريتلينغ وآخرون عالج هذه المشكلة من خلال اقتراح طريقة ORA لتجنب العتبات. يستخدم نهجًا تكراريًا يضيف جينًا واحدًا في كل مرة للعثور على مجموعة من الجينات يكون المسار الأكثر أهمية لها [14].

                                  ثالثًا ، من خلال معالجة كل جين على قدم المساواة ، يفترض ORA أن كل جين مستقل عن الجينات الأخرى. ومع ذلك ، فإن علم الأحياء عبارة عن شبكة معقدة من التفاعلات بين المنتجات الجينية التي تشكل مسارات مختلفة. قد يكون أحد أهداف تحليل التعبير الجيني هو اكتساب نظرة ثاقبة كيف تتجلى التفاعلات بين المنتجات الجينية كتغييرات في التعبير الجيني. الاستراتيجية التي تفترض أن الجينات مستقلة هي محدودة بشكل كبير في قدرتها على تقديم رؤى في هذا الصدد. علاوة على ذلك ، فإن افتراض الاستقلال بين الجينات يرقى إلى اختبار "فرضية العدم التنافسية" (انظر أدناه) ، والذي يتجاهل بنية الارتباط بين الجينات. وبالتالي ، قد تكون الأهمية المقدرة للمسار متحيزة أو غير صحيحة.

                                  رابعًا ، يفترض ORA أن كل مسار مستقل عن المسارات الأخرى ، وهذا خطأ. على سبيل المثال ، يُعرّف GO العملية البيولوجية على أنها سلسلة من الأحداث التي ينجزها واحد أو أكثر أمر تجميعات الوظائف الجزيئية (http://www.geneontology.org/GO.doc.shtml). مثال آخر على الاعتماد بين المسارات هو مسار دورة الخلية في KEGG (http://www.genome.jp/kegg/pathway/hsa/hsa04110.html) ، حيث يؤدي وجود عامل النمو إلى تنشيط مسار إشارات MAPK. وهذا بدوره ينشط مسار دورة الخلية. لا توجد طرق ORA تفسر هذا الاعتماد بين الوظائف الجزيئية في GO ومسارات الإشارة في KEGG.

                                  الجيل الثاني: مناهج الدرجات الوظيفية (FCS)

                                  تتمثل فرضية التصنيف الوظيفي للفئة (FCS) في أنه على الرغم من أن التغييرات الكبيرة في الجينات الفردية يمكن أن يكون لها تأثيرات كبيرة على المسارات ، إلا أن التغييرات الأضعف ولكن المنسقة في مجموعات من الجينات المرتبطة وظيفيًا (أي المسارات) يمكن أن يكون لها أيضًا تأثيرات كبيرة. مع استثناءات قليلة [15] - [17] ، تستخدم جميع طرق FCS تنوعًا من إطار العمل العام الذي يتكون من الخطوات الثلاث التالية [18] (الشكل 1 ، الجدول 1): أولاً ، يتم حساب الإحصاء على مستوى الجين باستخدام الجزيئية قياسات من تجربة. يتضمن ذلك حساب التعبير التفاضلي للجينات أو البروتينات الفردية. الإحصائيات المستخدمة حاليًا على مستوى الجينات تشمل ارتباط القياسات الجزيئية بالنمط الظاهري [19] ، ANOVA [20] ، إحصاء Q [15] ، نسبة الإشارة إلى الضوضاء [21] ، ر- الاختبار [20] ، [22] ، والنتيجة Z [23]. على الرغم من أن اختيار الإحصاء على مستوى الجين له تأثير ضئيل على تحديد مجموعات الجينات المخصبة بشكل كبير [18] ، عندما يكون هناك عدد قليل من التكرارات البيولوجية ، قد يكون الإحصاء المنتظم أفضل. علاوة على ذلك ، يمكن أن تفشل إحصائيات المستوى الجيني غير المحولة في تحديد المسارات ذات الجينات الأعلى والأسفل المنظمة. في هذه الحالة ، يُفضل تحويل الإحصائيات على مستوى الجينات (مثل القيم المطلقة ، القيم التربيعية ، الرتب ، إلخ) [18] ، [24].

                                  ثانيًا ، يتم تجميع الإحصائيات على مستوى الجينات لجميع الجينات في المسار في إحصائية واحدة على مستوى المسار. يمكن أن تكون هذه الإحصائية متعددة المتغيرات [17] ، [25] - [28] وتفسر الترابط بين الجينات ، أو يمكن أن تكون أحادية المتغير [22] ، [24] وتتجاهل الترابط بين الجينات. تتضمن إحصائيات مستوى المسار المستخدمة بواسطة الأساليب الحالية إحصائية كولموغوروف-سميرنوف [21] ، [29] ، أو مجموع ، أو متوسط ​​، أو متوسط ​​الإحصاء على مستوى الجين [24] ، ومجموع رتبة ويلكوكسون [30] ، والإحصاء الأقصى [31]. بغض النظر عن نوعه ، يمكن أن تعتمد قوة الإحصاء على مستوى المسار على نسبة الجينات المعبر عنها تفاضليًا في المسار ، وحجم المسار ، ومقدار الارتباط بين الجينات في المسار. ومن المثير للاهتمام ، أنه على الرغم من أنه من المتوقع أن يكون للإحصاءات متعددة المتغيرات قوة إحصائية أعلى ، إلا أن الإحصائيات أحادية المتغير تظهر قوة أكبر في عمليات القطع الصارمة عند تطبيقها على البيانات البيولوجية الحقيقية () ، وقوة متساوية كإحصاءات متعددة المتغيرات عند قطع أقل صرامة () [1].

                                  تتمثل الخطوة الأخيرة في FCS في تقييم الأهمية الإحصائية للإحصاء على مستوى المسار. عند حساب الدلالة الإحصائية ، يمكن تقسيم الفرضية الصفرية التي تم اختبارها بواسطة مناهج تحليل المسار الحالية على نطاق واسع إلى فئتين: 1) فرضية العدم التنافسية و 2) فرضية العدم القائمة بذاتها [3] ، [18] ، [22] ، [31] . تعمل الفرضية الصفرية القائمة بذاتها على تبديل تسميات الفئة (أي الأنماط الظاهرية) لكل عينة وتقارن مجموعة الجينات في مسار معين مع نفسها ، مع تجاهل الجينات غير الموجودة في المسار. من ناحية أخرى ، تعمل فرضية العدم التنافسية على تبديل تسميات الجينات لكل مسار ، وتقارن مجموعة الجينات في المسار بمجموعة من الجينات غير الموجودة في المسار. يحتوي النص S2 على مناقشة مفصلة حول الاختلافات بين الفرضيتين الصفريتين.

                                  تعالج طرق FCS ثلاثة قيود لـ ORA. أولاً ، لا يتطلب الأمر حدًا تعسفيًا لتقسيم بيانات التعبير إلى مجموعات كبيرة وغير مهمة. بدلاً من ذلك ، تستخدم طرق FCS جميع القياسات الجزيئية المتاحة لتحليل المسار. ثانيًا ، بينما يتجاهل ORA تمامًا القياسات الجزيئية عند تحديد المسارات المهمة ، تستخدم طرق FCS هذه المعلومات من أجل اكتشاف التغييرات المنسقة في التعبير عن الجينات في نفس المسار. أخيرًا ، من خلال النظر في التغييرات المنسقة في التعبير الجيني ، تراعي طرق FCS الاعتماد بين الجينات في المسار ، وهو ما لا يفعله ORA.

                                  محددات.

                                  على الرغم من أن FCS يعد تحسنًا مقارنة بـ ORA [19] ، [22] ، إلا أن له أيضًا العديد من القيود. أولاً ، على غرار ORA ، يحلل FCS كل مسار بشكل مستقل. هذا قيد لأن الجين يمكن أن يعمل في أكثر من مسار واحد ، مما يعني أن المسارات يمكن أن تتقاطع وتتداخل. وبالتالي ، في التجربة ، بينما قد يتأثر مسار واحد في التجربة ، قد يلاحظ المرء أن المسارات الأخرى تتأثر بشكل كبير بسبب مجموعة الجينات المتداخلة. هذه الظاهرة شائعة جدًا عند استخدام مصطلحات GO لتحديد المسارات بسبب الطبيعة الهرمية لـ GO.

                                  ثانيًا ، تستخدم العديد من طرق FCS التغييرات في التعبير الجيني لترتيب الجينات في مسار معين ، وتجاهل التغييرات من التحليل الإضافي. على سبيل المثال ، افترض أن جينين في المسار ، A و B ، يتغيران بمقدار ضعفين و 20 ضعفًا ، على التوالي. طالما أن كلاهما لهما نفس الرتب مقارنة بالجينات الأخرى في المسار ، فإن معظم طرق FCS ستعاملهما على قدم المساواة ، على الرغم من أن الجين الذي لديه تغيير في أضعاف أعلى من المحتمل أن يكون له وزن أكبر. لكن الأهم من ذلك ، أن النظر في مراتب الجينات فقط هو أمر مفيد أيضًا ، لأنه أكثر قوة بالنسبة للقيم المتطرفة. الاستثناء الملحوظ لهذا السيناريو هو الأساليب التي تستخدم إحصائيات على مستوى الجينات (على سبيل المثال ، إحصاء t) لحساب الدرجات على مستوى المسار. على سبيل المثال ، طريقة FCS التي تحسب إحصائية على مستوى المسار كمجموع أو متوسط ​​حسابات إحصائية على مستوى الجين للاختلاف النسبي في القياسات (على سبيل المثال ، الفئة ، SAFE في الجدول S2).

                                  الجيل الثالث: طوبولوجيا المسار (PT) - المناهج المستندة إلى

                                  يوفر عدد كبير من قواعد معرفة المسار المتاحة للجمهور معلومات تتجاوز قوائم الجينات البسيطة لكل مسار. على عكس GO وقاعدة بيانات التواقيع الجزيئية (MSigDB) ، توفر قواعد المعرفة هذه أيضًا معلومات حول منتجات الجينات التي تتفاعل مع بعضها البعض في مسار معين ، وكيف تتفاعل (على سبيل المثال ، التنشيط ، والتثبيط ، وما إلى ذلك) ، وأين تتفاعل (على سبيل المثال. ، السيتوبلازم ، النواة ، إلخ). تتضمن قواعد المعرفة هذه KEGG [32] ، MetaCyc [33] ، Reactome [34] ، RegulonDB [35] ، STKE (http://stke.sciencemag.org) ، BioCarta (http://www.biocarta.com) ، و PantherDB [36].

                                  تأخذ طريقتا ORA و FCS في الاعتبار عدد الجينات في المسار أو التعايش الجيني لتحديد المسارات المهمة ، وتجاهل المعلومات الإضافية المتاحة من قواعد المعرفة هذه. وبالتالي ، حتى إذا تم إعادة رسم المسارات بالكامل مع روابط جديدة بين الجينات ، طالما أنها تحتوي على نفس مجموعة الجينات ، فإن ORA و FCS ستنتج نفس النتائج. تم تطوير الطرق المستندة إلى طوبولوجيا المسار (PT) (الجدول 1 الجدول S3) للاستفادة من المعلومات الإضافية. الطرق المستندة إلى PT هي في الأساس نفس طرق FCS من حيث أنها تؤدي نفس الخطوات الثلاث مثل طرق FCS. يتمثل الاختلاف الرئيسي بين الاثنين في استخدام طوبولوجيا المسار لحساب الإحصائيات على مستوى الجينات.

                                  Rahnenfuhrer et al. ScorePAGE المقترحة ، والتي تحسب التشابه بين كل زوج من الجينات في مسار (على سبيل المثال ، الارتباط ، التغاير ، إلخ) [37]. قياس التشابه بين كل زوج من الجينات مماثل لإحصائيات مستوى الجينات في طرق FCS ، والتي يتم حساب متوسطها لحساب درجة على مستوى المسار.ومع ذلك ، بدلاً من إعطاء وزن متساوٍ لجميع أوجه التشابه بين الزوجين ، يقسم ScorePAGE أوجه التشابه بين الزوجين بعدد التفاعلات اللازمة لربط جينات في مسار معين (الشكل 1). على الرغم من أن هذا النهج مصمم لتحليل المسارات الأيضية ، إلا أنه من الناحية النظرية ينطبق أيضًا على مسارات الإشارات.

                                  تم اقتراح نهج تحليلي حديث لعامل التأثير (IF) لتحليل مسارات الإشارات. يأخذ IF في الاعتبار بنية وديناميكيات المسار بأكمله من خلال دمج عدد من العوامل البيولوجية المهمة ، بما في ذلك التغييرات في التعبير الجيني وأنواع التفاعلات ومواضع الجينات في المسار [38] ، [39] (الشكل 1). باختصار ، يصمم تحليل IF مسار الإشارات كرسم بياني ، حيث تمثل العقد الجينات وتمثل الحواف التفاعلات بينها. علاوة على ذلك ، فإنه يحدد إحصائية على مستوى الجين ، تسمى عامل الاضطراب (PF) للجين ، كمجموع للتغيير المقاس في التعبير والوظيفة الخطية لعوامل الاضطراب لجميع الجينات في المسار (انظر المعادلة 1 في النص S1 ). نظرًا لأن PF لكل جين يتم تعريفه بواسطة معادلة خطية ، يتم تعريف المسار بأكمله على أنه نظام خطي. تمثيل المسار كنظام خطي يعالج أيضًا الحلقات في المسارات [39]. يتم تعريف IF للمسار (الإحصاء على مستوى المسار) على أنه مجموع PF لجميع الجينات في المسار (انظر المعادلة 2 في النص S1). تم تحسين تحليل IF مؤخرًا لمعالجة التأثير المهيمن للتغيير في التعبير على PF والمعدل الإيجابي الخاطئ المرتفع لقائمة صغيرة من جينات الإدخال [40].

                                  تفترض طرق FCS التي تستخدم الارتباطات بين الجينات [19] ، [41] ضمنيًا أن الشبكة الأساسية ، كما هو محدد بواسطة بنية الارتباط ، لا تتغير مع تغير الظروف التجريبية. ومع ذلك ، قد يكون هذا الافتراض غير دقيق. على سبيل المثال ، هيكل الارتباط بين ARG2 والجينات الأخرى في مسار دورة اليوريا تتغير مع تغير في التعبير ARG2 [42] ، مما يشير إلى تغييرات في طوبولوجيا المسار.

                                  شجاع وآخرون اقترح طريقة ، تسمى NetGSA ​​، والتي تفسر التغيير في الارتباط وكذلك التغيير في بنية الشبكة مع تغير الظروف التجريبية [43]. نهجهم ، مثل تحليل IF ، نماذج التعبير الجيني كدالة خطية للجينات الأخرى في الشبكة. ومع ذلك ، فهو يختلف عن IF في جانبين. أولاً ، يفسر التعبير الأساسي للجين من خلال تمثيله كمتغير كامن في النموذج. ثانيًا ، يتطلب أن يتم تمثيل المسارات على هيئة رسوم بيانية حلقية موجهة (DAGs). إذا كان المسار يحتوي على دورات ، فإن NetGSA ​​يتطلب متغيرات كامنة إضافية تؤثر على العقد في الدورة. في المقابل ، لا يفرض تحليل IF أي قيد على بنية المسار [39].

                                  محددات.

                                  على الرغم من صعوبة تعميم الأساليب المعتمدة على PT ، إلا أن لها العديد من القيود الشائعة. تتمثل إحدى المشكلات الواضحة في أن طوبولوجيا المسار الحقيقي تعتمد على نوع الخلية بسبب ملفات تعريف التعبير الجيني الخاص بالخلية والحالة قيد الدراسة. ومع ذلك ، نادرًا ما تكون هذه المعلومات متاحة ومجزأة في قواعد المعرفة ، حتى لو كانت مفهومة تمامًا [44]. مع تحسن التعليقات التوضيحية ، من المتوقع أن تصبح هذه الأساليب أكثر فائدة. تشمل القيود الأخرى للطرق المستندة إلى PT عدم القدرة على نمذجة الحالات الديناميكية للنظام وعدم القدرة على النظر في التفاعلات بين المسارات بسبب الروابط الضعيفة بين المسارات لحساب الترابط بين المسارات. تمت مناقشة هذه القيود بالتفصيل في قسم التحديات البارزة أدناه.


                                  ما المعلومات التي تعرضها صفحة إحصائيات وحدة KEGG؟ - مادة الاحياء

                                  بو لي (bli28 at mgh dot harvard dot edu)

                                  RSEM عبارة عن حزمة برامج لتقدير مستويات التعبير الجيني والشكل الإسوي من بيانات RNA-Seq. توفر حزمة RSEM واجهة سهلة الاستخدام ، وتدعم الخيوط للحساب المتوازي لخوارزمية EM ، وبيانات القراءة أحادية النهاية والمزدوجة ، ودرجات الجودة ، والقراءات متغيرة الطول ، وتقدير RSPD. بالإضافة إلى ذلك ، فإنه يوفر المتوسط ​​اللاحق وتقديرات فاصل المصداقية 95٪ لمستويات التعبير. من أجل التصور ، يمكنه إنشاء ملفات BAM و Wiggle في كل من إحداثيات النص والإحداثيات الجينومية. يمكن تصور ملفات الإحداثيات الجينومية بواسطة كل من مستعرض الجينوم UCSC وعارض الجينوم التكاملي (IGV) التابع لمعهد Broad. يمكن تصور ملفات تنسيق النصوص بواسطة IGV. لدى RSEM أيضًا البرامج النصية الخاصة به لإنشاء مخططات عمق قراءة النص بتنسيق pdf. الميزة الفريدة لـ RSEM هي أنه يمكن تكديس مخططات عمق القراءة ، مع مساهمة عمق القراءة في القراءات الفريدة الموضحة باللون الأسود والمساهمة في القراءات المتعددة الموضحة باللون الأحمر. بالإضافة إلى ذلك ، يمكن أيضًا تصور النماذج المستفادة من البيانات. أخيرًا وليس آخرًا ، تحتوي RSEM على جهاز محاكاة.

                                  لتجميع RSEM ، قم ببساطة بتشغيل

                                  لتجميع EBSeq ، المضمن في حزمة RSEM ، قم بتشغيل

                                  لتثبيت RSEM ، ضع دليل RSEM في متغير PATH الخاص بالبيئة. بدلا من ذلك ، قم بتشغيل

                                  بشكل افتراضي ، يتم تثبيت ملفات RSEM التنفيذية على / usr / local / bin. يمكنك تغيير موقع التثبيت عن طريق ضبط DESTDIR و / أو متغيرات البادئة. سيتم تثبيت الملفات التنفيذية RSEM على $$/سلة مهملات . القيم الافتراضية لـ DESTDIR والبادئة هي DESTDIR = والبادئة = / usr / local. على سبيل المثال،

                                  سيقوم بتثبيت الملفات التنفيذية RSEM إلى / home / my_name / software / bin.

                                  ملحوظة التي تجعل التثبيت لا تقوم بتثبيت البرامج النصية ذات الصلة بـ EBSeq ، مثل rsem-gener-ngvector و rsem-run-ebseq و rsem-control-fdr. ولكن تم تثبيت مصفوفة rsem-create-data-matrix ، التي تنشئ مصفوفة العد لتحليل التعبير التفاضلي.

                                  يلزم تثبيت C ++ و Perl و R.

                                  لاستخدام الخيار --gff3 من rsem-Prepar-reference ، يلزم تثبيت Python أيضًا.

                                  للاستفادة من دعم RSEM المدمج لبرنامج محاذاة Bowtie / Bowtie 2 / STAR / HISAT2 ، يجب تثبيت Bowtie / Bowtie2 / STAR / HISAT2.

                                  ط. إعداد المتواليات المرجعية

                                  يمكن لـ RSEM استخراج النصوص المرجعية من الجينوم إذا قمت بتزويده بتعليقات توضيحية للجينات في ملف GTF / GFF3. بدلاً من ذلك ، يمكنك تزويد RSEM بتسلسلات النص مباشرةً.

                                  يرجى ملاحظة أن ملفات GTF التي تم إنشاؤها من UCSC Table Browser لا تحتوي على معلومات علاقة جينية الشكل. ومع ذلك ، إذا كنت تستخدم مسار التعليق التوضيحي لجينات UCSC ، فيمكن استرداد هذه المعلومات عن طريق تنزيل ملف knownIsoforms.txt للجينوم المناسب.

                                  لتحضير التسلسلات المرجعية ، يجب عليك تشغيل برنامج rsem-Prepar-reference. يركض

                                  بناء مراجع RSEM باستخدام التعليقات التوضيحية RefSeq أو Ensembl أو GENCODE

                                  RefSeq و Ensembl نوعان من التعليقات التوضيحية المستخدمة بشكل متكرر. بالنسبة للإنسان والفأر ، تتوفر أيضًا تعليقات GENCODE التوضيحية. في هذا القسم ، نعرض كيفية إنشاء مراجع RSEM باستخدام هذه التعليقات التوضيحية. لاحظ أنه من المهم إقران الجينوم بملف التعليقات التوضيحية لكل مصدر تعليق توضيحي. بالإضافة إلى ذلك ، نوصي المستخدمين باستخدام التجميعات الأولية للجينومات. بدون فقدان التعميم ، نستخدم الجينوم البشري كمثال بالإضافة إلى بناء مؤشرات Bowtie.

                                  ل المرجع، يمكن العثور على ملف الجينوم والتعليقات التوضيحية بتنسيق GFF3 في RefSeq genomes FTP:

                                  على سبيل المثال ، يتم تحديد موقع ملف الجينوم البشري وملف GFF3 في الدليل الفرعي vertebrate_mammalian / Homo_sapiens / all_assembly_versions / GCF_000001405.31_GRCh38.p5. GCF_000001405.31_GRCh38.p5 هو أحدث إصدار من التعليقات التوضيحية عندما تمت كتابة هذا القسم.

                                  قم بتنزيل وفك ضغط ملفات الجينوم والتعليقات التوضيحية إلى دليل العمل الخاص بك:

                                  يحتوي GCF_000001405.31_GRCh38.p5_genomic.fna على جميع تسلسلات المستوى الأعلى ، بما في ذلك التصحيحات والأنماط الفردانية. للحصول على التجميع الأساسي ، قم بتشغيل البرنامج النصي Python RSEM التالي:

                                  ثم اكتب الأمر التالي لإنشاء مراجع RSEM:

                                  في الأمر أعلاه ، تخبر مصادر موثوقة RSEM باستخراج النصوص فقط من مصادر RefSeq مثل BestRefSeq أو Curated Genomic. بشكل افتراضي ، تثق RSEM في كافة المصادر. يوجد أيضًا خيار أنماط gff3-RNA والافتراضي هو mRNA. الإعداد - gff3-RNA-pattern mRNA ، سيسمح rRNA لـ RSEM باستخراج جميع mRNAs و rRNAs من الجينوم. قم بزيارة هنا لمزيد من التفاصيل.

                                  نظرًا لأنه يصعب فهم معرفات الجين والنسخة (على سبيل المثال gene1000 و rna28655) المستخرجة من ملفات RefSeq GFF3 ، فمن المستحسن تشغيل خيار -append-names في rsem-calculate-expression لتفسير أفضل لنتائج القياس الكمي.

                                  ل فرقةيمكن العثور على ملفات الجينوم والتعليقات التوضيحية في Ensembl FTP.

                                  قم بتنزيل وفك ضغط ملفات الجينوم البشري وملفات GTF:

                                  ثم استخدم الأمر التالي لإنشاء مراجع RSEM:

                                  إذا كنت ترغب في استخدام ملف GFF3 بدلاً من ذلك ، وهو أمر غير ضروري وغير موصى به ، فيجب عليك إضافة خيار - نسخة أنماط gff3-RNA لأن mRNA يتم استبداله بنسخة في ملفات Ensembl GFF3.

                                  جينكود يوفر فقط التعليقات التوضيحية البشرية والماوس. يمكن العثور على ملفات الجينوم والتعليقات التوضيحية من موقع ويب GENCODE.

                                  قم بتنزيل وفك ضغط ملفات الجينوم البشري وملفات GTF:

                                  ثم اكتب الأمر التالي:

                                  على غرار شرح Ensembl ، إذا كنت تريد استخدام ملفات GFF3 (غير مستحسن) ، أضف خيارًا - gff3-RNA-pattern transcript.

                                  بناء مراجع RSEM للكائنات غير النمطية

                                  بالنسبة للكائنات غير النمطية ، مثل الفيروسات ، قد يكون لديك ملف GFF3 فقط يحتوي على الجينات فقط وليس أي نسخ. تحتاج إلى تشغيل - gff3-genes-as-transcripts بحيث تجعل RSEM كل جين كنص فريد.

                                  فيما يلي مثال لأمر:

                                  II. حساب قيم التعبير

                                  لحساب قيم التعبير ، يجب عليك تشغيل برنامج rsem-calculate-expression. يركض

                                  حساب قيم التعبير من بيانات أحادية الطرف

                                  بالنسبة للنماذج أحادية الطرف ، يتوفر للمستخدمين خيار توفير توزيع طول الجزء عبر خياري -fragment-length-mean و -fragment-length-sd. تعد مواصفات التوزيع الدقيق لطول الجزء أمرًا مهمًا لدقة تقديرات مستوى التعبير من البيانات أحادية النهاية. إذا لم يتم توفير متوسط ​​طول الجزء و sd ، فلن تأخذ RSEM توزيع طول الجزء في الاعتبار.

                                  استخدام بديل التقويم

                                  بشكل افتراضي ، تقوم RSEM بأتمتة محاذاة القراءات للإشارة إلى النصوص باستخدام محاذاة Bowtie. قم بتشغيل --bowtie2 لـ rsem-Prepar-reference وسيسمح rsem-calculate-expression لـ RSEM باستخدام برنامج محاذاة Bowtie 2 بدلاً من ذلك. يرجى ملاحظة أنه لا يُسمح بمحاذاة indel والمحاذاة المحلية والمحاذاة المتنافرة عندما تستخدم RSEM Bowtie 2 نظرًا لأن RSEM لا يمكنها حاليًا التعامل معها. راجع وصف الخيار --bowtie2 في rsem-calculate-expression لمزيد من التفاصيل. وبالمثل ، فإن تشغيل --star سيسمح لـ RSEM باستخدام تقويم STAR. قم بتشغيل - سيسمحhisat2-hca لـ RSEM باستخدام التقويم HISAT2 وفقًا لخط أنابيب Human Cell Atals SMART-Seq2. لاستخدام برنامج محاذاة بديل ، قم بمحاذاة قراءات المدخلات مع ملف reference_name.idx.fa الذي تم إنشاؤه بواسطة rsem-Prepar-reference ، وقم بتنسيق إخراج المحاذاة بتنسيق SAM / BAM / CRAM. بعد ذلك ، بدلاً من توفير القراءات لـ rsem-calculate-expression ، حدد الخيار --alignments وقم بتوفير ملف SAM / BAM / CRAM كوسيطة.

                                  تتطلب RSEM محاذاة القراءة لتكون متجاورة. بالنسبة للقراءات ذات النهاية المزدوجة ، تتطلب RSEM أيضًا أن يكون رفيقي أي محاذاة متجاورتين. للتحقق مما إذا كان ملف SAM / BAM / CRAM يفي بالمتطلبات ، قم بتشغيل

                                  إذا كان ملفك لا يفي بالمتطلبات ، يمكنك استخدام convert-sam-for-rsem لتحويله إلى ملف BAM يمكن لـ RSEM معالجته. يركض

                                  لاحظ أن RSEM ** لا ** تدعم المحاذاة ذات الفجوات. لذا تأكد من أن التقويم الخاص بك لا ينتج محاذاة مع التداخلات / الحذف. بالإضافة إلى ذلك ، يجب عليك التأكد من استخدام reference_name.idx.fa ، الذي تم إنشاؤه بواسطة RSEM ، لإنشاء مؤشرات التقويم الخاصة بك.

                                  يتضمن RSEM نسخة من SAMtools. عندما لا يتم تحديد - no-bam-output وتحديد --sort-bam-by-الإحداثي ، سينتج RSEM هذه الملفات الثلاثة: sample_name.transcript.bam ، ملف BAM غير الفرز ، sample_name.transcript.sorted.bam و sample_name.transcript.sorted.bam.bai ملف BAM الذي تم فرزه والمؤشرات التي تم إنشاؤها بواسطة SAMtools المضمنة. جميع الملفات الثلاثة موجودة في إحداثيات نصية. عندما يحدد المستخدمون بالإضافة إلى ذلك الخيار --output-genome-bam ، سينتج RSEM ثلاثة ملفات أخرى: sample_name.genome.bam ، ملف BAM غير الفرز ، sample_name.genome.sorted.bam و sample_name.genome.sorted.bam.bai ملف ومؤشرات BAM التي تم فرزها. كل هذه الملفات في إحداثيات جينومية.

                                  أ) تحويل ملف نسخة BAM إلى ملف BAM للجينوم

                                  عادةً ، ستفعل RSEM ذلك نيابةً عنك عبر خيار - Output-genome-bam الخاص بـ rsem-calculate-expression. ومع ذلك ، إذا قمت بتشغيل مرجع rsem-Prepar-reference واستخدمت reference_name.idx.fa لإنشاء فهارس للمحاذاة الخاصة بك ، فيمكنك استخدام rsem-tbam2gbam لتحويل ملف محاذاة تنسيق BAM الخاص بك إلى ملف محاذاة BAM للإحداثيات الجينية دون الحاجة إلى ذلك قم بتشغيل خط أنابيب RSEM بالكامل.

                                  Reference_name: اسم المرجع الذي تم إنشاؤه بواسطة rsem-Prepar-reference unsorted_transcript_bam_input: يجب أن يفي هذا الملف بما يلي: 1) يتم تجميع محاذاة نفس القراءة معًا ، 2) لأي محاذاة ثنائية النهاية ، يجب أن يكون الشريكان متجاورين ، 3) لا ينبغي فرز هذا الملف بواسطة samtools genome_bam_output: اسم ملف تنسيق الجينوم الناتج BAM

                                  ب) إنشاء ملف تذبذب

                                  يمكن إنشاء مؤامرة متذبذبة تمثل العدد المتوقع للقراءات المتداخلة مع كل موضع في مجموعة الجينوم / النص من إخراج ملف الجينوم / نسخة BAM المصنفة. لإنشاء مخطط التذبذب ، قم بتشغيل برنامج rsem-bam2wig على ملف sample_name.genome.sorted.bam / sample_name.transcript.sorted.bam.

                                  Sorted_bam_input: يجب فرز ملف بتنسيق BAM
                                  wig_output: إخراج اسم ملف wiggle ، على سبيل المثال الإخراج
                                  wiggle_name: اسم هذه المؤامرة المتذبذبة
                                  - no-fractional-weight: إذا تم تعيين هذا ، فلن تبحث RSEM عن علامة "ZW" وستظهر كل محاذاة في ملف BAM بوزن 1. قم بتعيين هذا إذا لم يتم إنشاء ملف BAM بواسطة RSEM. يرجى ملاحظة أن هذا الخيار يجب أن يكون في نهاية سطر الأوامر

                                  ج) تحميل ملف BAM و / أو Wiggle في متصفح الجينوم UCSC أو عارض الجينوم التكاملي (IGV)

                                  بالنسبة لمتصفح جينوم UCSC ، يرجى الرجوع إلى صفحة تعليمات المسار المخصص UCSC.

                                  للحصول على عارض الجينوم التكاملي ، يرجى الرجوع إلى الصفحة الرئيسية لـ IGV. ملاحظة: على الرغم من أن IGV يمكنه إنشاء مخطط عمق القراءة من ملف BAM المحدد ، إلا أنه لا يمكنه التعرف على علامة "ZW" التي تضعها RSEM. لذلك تحسب IGV كل محاذاة على أنها وزن 1 بدلاً من الوزن المتوقع للمخطط الذي تنشئه. لذلك نوصي باستخدام ملف wiggle الذي تم إنشاؤه بواسطة RSEM لتصور عمق القراءة.

                                  فيما يلي بعض الإرشادات لتصور ملفات تنسيق النص باستخدام IGV:

                                  حدد File - & gt Import Genome ، ثم املأ المعرف والاسم وملف Fasta. يجب أن يكون ملف Fasta reference_name.idx.fa. بعد ذلك ، انقر فوق الزر حفظ. لنفترض أنه تم ملء المعرف باسم reference_name ، فسيتم إنشاء ملف يسمى reference_name.genome. في المرة القادمة ، يمكننا استخدام: File - & gt Load Genome ، ثم حدد reference_name.genome.

                                  حدد ملف - & gt تحميل من ملف ، ثم اختر ملف تصور تنسيق تنسيق نص واحد تم إنشاؤه بواسطة RSEM. قد يطلب منك IGV تحويل ملف wiggle إلى ملف tdf. يجب عليك استخدام igvtools لأداء هذه المهمة. تتمثل إحدى طرق إجراء التحويل في استخدام الأمر التالي:

                                  د) إنشاء مؤامرات النص المتذبذب

                                  لإنشاء مخططات تذبذب نصية ، يجب عليك تشغيل برنامج rsem-plot-transcript-wiggles. يركض

                                  هـ) تصور النموذج الذي تعلمته RSEM

                                  توفر RSEM برنامج نصي R ، نموذج rsem-plot ، لإلقاء نظرة على النموذج الذي تم تعلمه.

                                  sample_name: اسم العينة التي تم تحليلها
                                  output_plot_file: اسم ملف المخططات التي تم إنشاؤها من النموذج. إنه ملف pdf

                                  المؤامرات التي تم إنشاؤها تعتمد على نوع القراءة وتكوين المستخدم. قد يشمل توزيع طول الجزء ، وتوزيع طول الرفيق ، وتوزيع موضع بدء القراءة (RSPD) ، ونقاط الجودة مقابل الجودة المرصودة نظرًا لقاعدة مرجعية ، والموضع مقابل النسبة المئوية لخطأ التسلسل بالنظر إلى قاعدة مرجعية وإحصاءات المحاذاة.

                                  توزيع طول الجزء وتوزيع طول الرفيق: المحور السيني هو طول الجزء / ماتي ، المحور ص هو احتمال إنشاء جزء / رفيقة بالطول المرتبط

                                  RSPD: قراءة توزيع مركز البداية. المحور السيني هو رقم الحاوية ، المحور الصادي هو احتمال كل سلة. يمكن استخدام RSPD كمؤشر على التحيز 3 '

                                  نقاط الجودة مقابل الجودة المرصودة نظرًا لقاعدة مرجعية: المحور السيني هو عبارة عن نقاط جودة متقنة مرتبطة بالبيانات ، والمحور ص هو "الجودة المرصودة" ، ودرجات الجودة المخادعة التي تعلمتها RSEM من البيانات. Q = -10log_10 (P) ، حيث Q هي درجة جودة Phred و P هي احتمال حدوث خطأ في التسلسل لقاعدة معينة

                                  الموضع مقابل النسبة المئوية لخطأ التسلسل في حالة وجود قاعدة مرجعية: المحور السيني هو الموضع والمحور الصادي هو النسبة المئوية لخطأ التسلسل

                                  إحصائيات المحاذاة: تتضمن مدرج تكراري ومخطط دائري. بالنسبة إلى المدرج التكراري ، يُظهر المحور السيني عدد المستوى الإسوي محاذاة للقراءة والمحور ص يوفر عدد القراءات مع العديد من المحاذاة. تعني قيمة inf في المحور x عدد القراءات التي تمت تصفيتها بسبب عدد كبير جدًا من المحاذاة. للمخطط الدائري ، أربع فئات من القراءات - غير قابلة للمحاذاة وفريدة من نوعها ، المستوى الإسويمتعدد الخرائط ، مفلترة - يتم رسمها وتدوين نسبها. في كل من المدرج التكراري والمخطط الجزئي ، تنتمي الأرقام إلى غير قابلة للمحاذاة ، وفريدة من نوعها ، ومتعددة الخرائط ، ويتم تلوينها بالترشيح باللون الأخضر والأزرق والرمادي والأحمر.

                                  لنفترض أننا قمنا بتنزيل جينوم الفأرة من متصفح UCSC Genome Browser. لا نضيف ذيول بولي (A) ونستخدم / ref / mouse_0 كاسم مرجعي. لدينا ملف بتنسيق FASTQ ، mmliver.fq ، يحتوي على قراءات أحادية الطرف من عينة واحدة ، والتي نسميها mmliver_single_quals. نريد تقدير قيم التعبير باستخدام نموذج أحادي الطرف مع توزيع طول الجزء. نحن نعلم أن توزيع طول الجزء يتم تقريبه من خلال التوزيع الطبيعي بمتوسط ​​150 وانحراف معياري قدره 35. نرغب في إنشاء فترات مصداقية 95٪ بالإضافة إلى تقديرات الاحتمالية القصوى. سيتم السماح لـ RSEM بـ 1G من الذاكرة لحساب الفاصل الزمني للمصداقية. سوف نتخيل تعيينات القراءة الاحتمالية التي تم إنشاؤها بواسطة RSEM على متصفح الجينوم UCSC. سنقوم بإنشاء قائمة مؤامرات تذبذب نصية (output.pdf) للجينات المتوفرة في gene_ids.txt. سوف نتخيل النماذج التي تم تعلمها في mmliver_single_quals.models.pdf

                                  الأوامر الخاصة بهذا السيناريو هي كما يلي:

                                  يوفر RSEM للمستخدمين برنامج rsem-simulate-reads لمحاكاة بيانات RNA-Seq بناءً على المعلمات المستفادة من مجموعات البيانات الحقيقية. يركض

                                  للحصول على معلومات الاستخدام أو قراءة الأقسام الفرعية التالية.

                                  اسم الإشارة: اسم مراجع RSEM ، والتي يجب أن تكون قد تم إنشاؤها بالفعل بواسطة مرجع rsem-Prepar-reference

                                  ملف_نموذج_مقدر: يصف هذا الملف كيف سيتم تسلسل قراءات RNA-Seq بالنظر إلى مستويات التعبير. يحدد نوع القراءات التي سيتم محاكاتها (طرف واحد / طرف مزدوج ، بدون نقاط جودة) ويتضمن معلمات لتوزيع طول الجزء ، وقراءة توزيع موضع البداية ، ونماذج خطأ التسلسل ، إلخ.عادة ، يجب تعلم هذا الملف من البيانات الحقيقية باستخدام rsem-calculate-expression. يمكن العثور على الملف ضمن مجلد sample_name.stat باسم sample_name.model. يوفر model_file_description.txt تنسيق ومعاني هذا الملف.

                                  النتائج_المشكلة_الصورة المقدرة: يحتوي هذا الملف على مستويات التعبير لجميع الأشكال الإسوية المسجلة في المرجع. يمكن تعلمه باستخدام rsem-calculate-expression من بيانات حقيقية. الملف المقابل الذي يريد المستخدمون استخدامه هو sample_name.isoforms.results. إذا كانت المحاكاة من ملف تعريف التعبير المصمم من قبل المستخدم مطلوبة ، فابدأ من ملف sample_name.isoforms.results وقم بتعديل عمود TPM فقط. يقرأ المحاكي عمود TPM فقط. لكن الاحتفاظ بتنسيق الملف كما هو مطلوب. إذا كانت مراجع RSEM المبنية على دراية بالنصوص الخاصة بالأليل ، فيجب استخدام sample_name.alleles.results بدلاً من ذلك.

                                  ثيتا 0: تحدد هذه المعلمة جزء القراءات التي تأتي من "ضوضاء" الخلفية (بدلاً من النص). يمكن أيضًا تقديرها باستخدام rsem-calculate-expression من بيانات حقيقية. يمكن للمستخدمين العثور عليه كالقيمة الأولى للسطر الثالث من الملف sample_name.stat / sample_name.theta.

                                  ن: العدد الإجمالي للقراءات المراد محاكاتها. إذا تم تنفيذ rsem-calculate-expression على مجموعة بيانات حقيقية ، فيمكن العثور على العدد الإجمالي للقراءات كرقم رابع من السطر الأول من الملف sample_name.stat / sample_name.cnt.

                                  إخراج_اسم: بادئة لجميع ملفات الإخراج.

                                  - البذور البذرية: قم بتعيين البذور لمولد الأرقام العشوائية المستخدم في المحاكاة. يجب أن يكون الأصل عددًا صحيحًا بدون إشارة يبلغ 32 بت.

                                  -Q: تعيينه سيتوقف عن إخراج المعلومات الوسيطة.

                                  output_name.sim.isoforms.results ، output_name.sim.genes.results: يتم تقدير مستويات التعبير عن طريق حساب مصدر كل قراءة محاكاة. output_name.sim.alleles.results: يتم تقدير مستويات التعبير الخاصة بـ Allele عن طريق حساب مصدر كل قراءة محاكاة.

                                  output_name.fa إذا كان طرفًا واحدًا بدون نقاط جودة
                                  output_name.fq إذا كانت ذات نهاية واحدة بنقاط جودة
                                  output_name_1.fa & amp output_name_2.fa إذا كانت النهاية مقترنة بدون نقاط جودة
                                  output_name_1.fq & amp output_name_2.fq إذا كانت النهاية مقترنة بنقاط الجودة.

                                  تنسيق خط الرأس: يشفر سطر رأس كل قراءة تمت محاكاته مصدره. سطر العنوان له التنسيق:

                                  <& gt / @>: يجب أن يظهر إما "& gt" أو "@". تظهر "& gt" إذا تم إنشاء ملفات FASTA وظهور "@" إذا تم إنشاء ملفات FASTQ

                                  يتخلص: فهرس القراءة المحاكي ، مرقم من 0

                                  دير: اتجاه القراءة المحاكاة. 0 يشير إلى حبلا إلى الأمام ("+") و 1 يشير إلى حبلا عكسي ("-")

                                  سيد: قم بتمثيل النص الذي تمت محاكاة هذه القراءة منه. يتراوح بين 0 و M ، حيث M هو العدد الإجمالي للنصوص. إذا كان sid = 0 ، تتم محاكاة القراءة من ضوضاء الخلفية. خلاف ذلك ، يتم محاكاة القراءة من نسخة مع فهرس معرّف الأمان (sid). يمكن العثور على اسم نسخة sid الخاصة بالنسخة في العمود transcript_id لملف sample_name.isoforms.results (في السطر sid + 1 ، السطر 1 مخصص لأسماء الأعمدة)

                                  نقاط البيع: موضع البداية للقراءة المحاكاة في حبلا دير من نسخة sid. وهي مرقمة من 0

                                  insertL: تظهر فقط للقراءات ذات النهاية المزدوجة. يعطي طول الإدخال للقراءة المحاكاة.

                                  لنفترض أننا نريد محاكاة 50 مليون قراءة أحادية النهاية مع درجات الجودة واستخدام المعلمات التي تم تعلمها من المثال. بالإضافة إلى ذلك ، قمنا بتعيين theta0 على 0.2 و output_name على أنه simulated_reads. الأمر هو:

                                  قم بإنشاء نسخة إلى خريطة الجينات من Trinity Output

                                  بالنسبة لمستخدمي Trinity ، يوفر RSEM برنامج نصي بيرل لإنشاء ملف خريطة الجينات من ملف fasta الذي تنتجه Trinity.

                                  trinity_fasta_file: ملف fasta الذي تنتجه شركة Trinity ، والذي يحتوي على جميع النصوص المجمعة.
                                  map_file: اسم ملف نسخة إلى خريطة جينية.

                                  تحليل التعبير التفاضلي

                                  لا تأخذ أدوات تحليل التعبير التفاضلي الشائعة (DE) مثل edgeR و DESeq التباين بسبب قراءة عدم اليقين في التعيين في الاعتبار. نظرًا لأن غموض قراءة الخرائط منتشر بين الأشكال الإسوية والنصوص المجمعة من de novo ، فإن هذه الأدوات ليست مثالية لاكتشاف DE في مثل هذه الظروف.

                                  يمكن أن تأخذ EBSeq ، وهي أداة تحليل تجريبية لـ Bayesian DE تم تطويرها في UW-Madison ، التباين بسبب قراءة غموض التعيين في الاعتبار عن طريق تجميع الأشكال الإسوية مع عدد الأشكال الإسوية للجين الأصل. بالإضافة إلى ذلك ، فهو أكثر قوة بالنسبة للقيم المتطرفة. لمزيد من المعلومات حول EBSeq (بما في ذلك الورقة التي تصف طريقتهم) ، يرجى زيارة موقع EBSeq.

                                  تتضمن RSEM EBSeq في مجلدها المسمى EBSeq. لاستخدامه ، اكتب أولاً

                                  لتجميع رموز EBSeq ذات الصلة.

                                  يتطلب EBSeq علاقة الشكل الإسوي للجين من أجل اكتشاف الشكل الإسوي لـ DE. ومع ذلك ، بالنسبة للنسخة المجمعة من de novo ، من الصعب الحصول على علاقة دقيقة بين الشكل الجيني. بدلاً من ذلك ، توفر RSEM برنامج نصي rsem-create-ngvector ، والذي يقوم بتجميع النصوص بناءً على مقاييس تتعلق مباشرة بقراءة غموض التعيين. أولاً ، يقوم بحساب "عدم قابلية التعيين" لكل نص. إن "عدم قابلية التعيين" للنسخة هو النسبة بين عدد k mers مع تطابق كامل واحد على الأقل مع النصوص الأخرى والعدد الإجمالي لـ k mers لهذا النص ، حيث k هي معلمة. بعد ذلك ، يتم إنشاء متجه Ng عن طريق تطبيق خوارزمية Kmeans على قيم "عدم قابلية التعيين" مع تعيين عدد المجموعات على 3. سيتأكد هذا البرنامج من أن متوسط ​​درجات "عدم قابلية التعيين" للمجموعات بترتيب تصاعدي. يتم تعيين جميع النصوص التي يقل أطوالها عن k إلى المجموعة 3. تشغيل

                                  إذا كان مرجعك عبارة عن مجموعة نسخ مجمعة من de novo ، فيجب عليك تشغيل rsem-create-ngvector أولاً. ثم قم بتحميل output_name.ngvec الناتجة إلى R. على سبيل المثال ، يمكنك استخدام ملفات

                                  . بعد ذلك ، قم بتعيين "NgVector = NgVec" لاختبار التعبير التفاضلي (إما EBTest أو EBMultiTest).

                                  لراحة المستخدمين ، توفر RSEM أيضًا مصفوفة rsem-create-data-matrix للبرنامج النصي لاستخراج مصفوفة الإدخال من نتائج التعبير:

                                  يجب أن تكون ملفات النتائج إما جميع النتائج على مستوى الجينات أو جميع النتائج على مستوى الشكل الإسوي. يمكنك تحميل المصفوفة في R بواسطة

                                  قبل تشغيل أي من EBTest أو EBMultiTest.

                                  أخيرًا ، يوفر RSEM نصين ، rsem-run-ebseq و rsem-control-fdr ، لمساعدة المستخدمين في العثور على الجينات / النصوص المعبر عنها التفاضلية. أولاً ، يستدعي rsem-run-ebseq EBSeq لحساب الإحصائيات ذات الصلة لجميع الجينات / النصوص. يركض

                                  للحصول على معلومات الاستخدام أو زيارة صفحة وثائق rsem-run-ebseq. ثانيًا ، يأخذ rsem-control-fdr نتيجة rsem-run-ebseq وتقارير تسمى الجينات / النسخ المعبر عنها تفاضليًا عن طريق التحكم في معدل الاكتشاف الخاطئ. يركض

                                  للحصول على معلومات الاستخدام أو قم بزيارة صفحة التوثيق rsem-control-fdr. يمكن لهذين البرنامجين إجراء تحليل DE إما بشرطين أو شروط متعددة.

                                  يرجى ملاحظة أن rsem-run-ebseq و rsem-control-fdr يستخدمان معلمات EBSeq الافتراضية. للاستخدام المتقدم لـ EBSeq أو معلومات حول كيفية عمل EBSeq ، يرجى الرجوع إلى دليل EBSeq.

                                  يجب إرسال الأسئلة المتعلقة بـ EBSeq إلى Ning Leng.

                                  يستخدم RSEM المحسن مسبقًا (pRSEM) معلومات تكميلية (مثل بيانات ChIP-seq) لتخصيص أجزاء رسم الخرائط المتعددة لـ RNA-seq. قمنا بتضمين كود pRSEM في المجلد الفرعي pRSEM / وكذلك في البرامج النصية لـ RSEM's rsem-Prepar-reference و rsem-calculate-expression.

                                  للحصول على فكرة سريعة حول كيفية استخدام pRSEM ، يمكنك تجربة هذا العرض التوضيحي. يوفر برنامجًا نصيًا واحدًا ، يسمى run_pRSEM_demo.sh ، والذي يسمح لك بتشغيل جميع وظائف pRSEM. يحتوي أيضًا على أوصاف تفصيلية لسير عمل pRSEM ، وملفات الإدخال والإخراج.

                                  لاحظ أنك تحتاج إلى تجميع RSEM أولاً قبل تجميع pRSEM. حاليًا ، تم اختبار pRSEM على Linux فقط.

                                  لتشغيل pRSEM على مثال RSEM أعلاه ، تحتاج إلى تقديم:

                                  • ملف (ملفات) تسلسل ChIP-seq بتنسيق FASTQ أو ملف ذروة ChIP-seq بتنسيق BED. سيتم استخدامها بواسطة pRSEM للحصول على معلومات تكميلية لتخصيص أجزاء رسم الخرائط المتعددة RNA-seq.
                                  • ملف تعيين الجينوم بتنسيق bigWig للسماح لـ pRSEM ببناء مجموعة تدريب من الأشكال الإسوية للتعلم مسبقًا. يمكن الحصول على قابلية رسم الخرائط من مسار ENCODE المركب لـ UCSC لـ hg19 البشري والماوس mm9. بالنسبة للجينومات الأخرى ، يمكنك إنشاء ملف قابلية التعيين باتباع [هذا البرنامج التعليمي] (http://wiki.bits.vib.be/index.php/Create_a_mappability_track#Install_and_run_the_GEM_library_tools).

                                  بافتراض أنك ترغب في استخدام ملفات تسلسل ChIP-seq الخاصة بـ RNA Pol II /data/mmliver_PolIIRep1.fq.gz و /data/mmliver_PolIIRep2.fq.gz ، مع تحكم ChIP-seq /data/mmliver_ChIPseqCtrl.fq.gz. أيضًا ، بافتراض أن ملف التعيين لجينوم الماوس هو /data/mm9.bigWig وتفضل استخدام STAR الموجود في / sw / STAR لمحاذاة أجزاء RNA-seq واستخدام Bowtie لمحاذاة قراءات ChIP-seq. بعد ذلك ، يمكنك استخدام الأوامر التالية لتشغيل pRSEM:

                                  لمعرفة المزيد حول خيارات وأمثلة pRSEM ، يمكنك استخدام الأوامر:

                                  • لينكس
                                  • إصدار Perl & GT = 5.8.8
                                  • إصدار Python & GT = 2.7.3
                                  • إصدار R & GT = 3.3.1
                                  • موصل حيوي 3.3

                                  السادس. الحزم الخارجية المطلوبة

                                  سيتم تثبيت جميع الحزم التالية تلقائيًا عند تجميع pRSEM.

                                    : امتداد لـ data.frame الخاص بـ R ، يستخدم بكثرة بواسطة pRSEM. : التمثيل الفعال للفواصل الجينومية والتلاعب بها ، وتستخدم بكثرة بواسطة pRSEM. : تخمين ترميز نقاط جودة ملف ChIP-seq FASTQ. : يستخدم ل SPP Peak Caller. : ذروة المتصل متتالية رقاقة. تم تعديل شفرة المصدر بشكل طفيف فيما يتعلق بالعناوين المضمنة ليتم تجميعها تحت R v3.3.1. : حساب معدل الاكتشاف غير القابل للإنتاج لاستدعاء القمم من عدة مكررات متسلسلة رقاقة.

                                  صمم Bo Li و Colin Dewey خوارزمية RSEM. نفذ Bo Li برنامج RSEM. ساهم Peng Liu في خيارات تقويم STAR و RSEM المحسّن مسبقًا (pRSEM).

                                  يستخدم RSEM مكتبات Boost C ++ و SAMtools. يتضمن RSEM EBSeq لتحليل التعبير التفاضلي.

                                  نشكر الصدق والدكتور صمويل أرفيدسون وجون مارشال ومايكل آر كروزو للمساهمة في التصحيحات.

                                  نشكر Han Lin و j.miller و Joël Fillon والدكتور Samuel G.

                                  ملحوظة أن bam_sort.c من SAMtools تم تعديله بشكل طفيف بحيث لا يقوم samtools sort -n بتحريك زملائه من محاذاة النهاية المزدوجة بعيدًا. بالإضافة إلى ذلك ، نقوم بتشغيل الخيار - بدون لعنات عند تكوين SAMtools وبالتالي لم يتم إنشاء الأمر الفرعي tview المستند إلى الشتائم الخاص بـ SAMtools.


                                  شاهد الفيديو: ببساطة شرح احصائيات جوجل لا غني عنها لأي موقع (كانون الثاني 2022).