معلومة

ما هي أفضل طريقة للعثور على المجالات الموجودة في قائمة معرفات InterPro التي تعتبر محفزة؟


ما هي أفضل طريقة للعثور على المجالات الموجودة في قائمة معرفات InterPro التي تعتبر محفزة؟

(في هذه الحالة ، نحن نبحث في الإنزيمات البشرية ومعرفات InterPro لمجالاتها).

شكرا لك مقدما! سيتز


في InterPro ، يمكنك إجراء بحث "حسب النص" واكتب كلمة "catalytic". يمنحك قائمة بالمعرفات مع الوصف ويمكنك تنزيل القائمة.


2 ما هو PlanMine؟

PlanMine هي قاعدة بيانات لتعدين النسخ المستوية. نستضيف نسخًا مجمعة بشكل مستقل من الأنواع النموذجية S. meditteranea التي ساهمت بها مجموعات مختلفة ، بالإضافة إلى نسخ من الأنواع المستوية "البرية" للتحليل المقارن. يمكنك البحث في PlanMine بالتسلسل (باستخدام استعلام BLAST الخاص بنا) أو عن طريق التعليق التوضيحي (هذا أسهل باستخدام قوالبنا المحددة مسبقًا). تتضمن المعلومات القابلة للتعدين حاليًا تماثلات BLAST ، ومصطلحات GO ، وأخصائيي تقويم العظام في الأنواع المستوية الأخرى ، ومعلومات التعبير الجيني والمعلومات التصنيفية عن الأنواع الممثلة. تم تصميم PlanMine باستخدام منصة مستودع البيانات Intermine ، والتي يتم استخدامها أيضًا من قبل مجتمعات الكائنات الحية النموذجية الأخرى بما في ذلك WormMine و FlyMine و YeastMine و ZebrafishMine ، وبالتالي تتيح مقارنات سهلة عبر الأنظمة.


ما هي جميع الاستخدامات الممكنة لـ GO؟

سيكون من المستحيل سرد جميع التطبيقات المحتملة لـ GO ، لكن التطبيقات التي تم استخدام GO بالفعل من أجلها تشمل ما يلي:

  • دمج المعلومات البروتينية من الكائنات الحية المختلفة
  • تعيين وظائف لمجالات البروتين
  • إيجاد أوجه تشابه وظيفية في الجينات التي يتم التعبير عنها بشكل مفرط أو ناقص التعبير في الأمراض ومع تقدمنا ​​في العمر
  • التنبؤ باحتمالية تورط جين معين في أمراض لم يتم تحديدها بعد لجينات معينة
  • تحليل مجموعات الجينات التي يتم التعبير عنها بشكل مشترك أثناء التطور
  • تطوير طرق آلية لاستخلاص المعلومات حول وظيفة الجينات من الأدبيات
  • التحقق من نماذج الشبكات الجينية والاستقلابية والتفاعل المنتج.

للحصول على مراجع لهذه وغيرها من الدراسات التي استخدمت GO ، انظر GO وصفحة الأدبيات العلمية.


& ltp> يوفر هذا القسم أي معلومات مفيدة حول البروتين ، ومعظمها معلومات بيولوجية. & ltp> & lta href = '/ help / function_section' target = '_ top'> المزيد. & lt / a> & lt / p> الوظيفة i

& ltp> هذا القسم الفرعي من & lta href = "http://www.uniprot.org/help/function٪5Fsection"> Function & lt / a> يصف النشاط التحفيزي للإنزيم ، أي تفاعل كيميائي يحفزه الإنزيم. & ltp > & lta href = '/ help / catalytic_activity' target = '_ top'> المزيد. & lt / a> & lt / p> النشاط الحفزي i

    في UniProtKB لهذا الجزيء. في ريا لهذا الجزيء. من هذا الجزيء في ChEBI.
    في UniProtKB لهذا الجزيء. في ريا لهذا الجزيء.
    في UniProtKB لهذا الجزيء. في ريا لهذا الجزيء. من هذا الجزيء في ChEBI.
    في UniProtKB لهذا الجزيء. في ريا لهذا الجزيء. من هذا الجزيء في ChEBI.
    في UniProtKB لهذا الجزيء. في ريا لهذا الجزيء.

& # xd & ltp> المعلومات التي تم إنشاؤها بواسطة نظام التعليقات التوضيحية التلقائي UniProtKB ، بدون التحقق اليدوي. & lt / p> & # xd & # xd & ltp> & lta href = "/ manual / Evidences # ECO: 0000256"> المزيد. & lt / a> & lt / p> & # xd تأكيد تلقائي وفقًا للقواعد i


& ltp> يوفر هذا القسم معلومات عن موقع وطوبولوجيا البروتين الناضج في الخلية. & ltp> & lta href = '/ help / subcellular_location_section' target = '_ top'> المزيد. & lt / a> & lt / p> الموقع الخلوي أنا

جهاز جولجي

التأكيد التلقائي وفقًا للقواعد i

التأكيد التلقائي وفقًا للقواعد i

مواقع أخرى

التأكيد التلقائي وفقًا للقواعد i

التأكيد التلقائي وفقًا للقواعد i

التأكيد التلقائي وفقًا للقواعد i

جهاز جولجي
نواة
غشاء بلازمي
مواقع أخرى
    المصدر: UniProtKB-SubCell المصدر: Ensembl المصدر: Ensembl المصدر: المجموعة المصدر: HPA المصدر: Ensembl المصدر: Ensembl المصدر: Ensembl

طوبولوجيا

مفتاح الميزةالمنصب (ق)وصف الإجراءات عرض رسوميطول
& ltp> هذا القسم الفرعي من & lta href = "http://www.uniprot.org/help/subcellular٪5Flocation٪5Fsection"> 'Subcellular location' & lt / a> يصف امتداد منطقة الغشاء الممتد للبروتين . يشير إلى وجود مناطق الغشاء ألفا الحلزونية والغشاء الممتد لبروتينات الغشاء بيتا البرميل. & ltp> & lta href = '/ help / transmem' target = '_ top'> المزيد. & lt / a> & lt / p> ترانسيمبرين i 676 – 696 تحليل التسلسل الحلزوني

التأكيد التلقائي وفقًا لتحليل التسلسل i

الكلمات الرئيسية - المكون الخلوي ط


ما هي أفضل طريقة للعثور على المجالات الموجودة في قائمة معرفات InterPro التي تعتبر محفزة؟ - مادة الاحياء

    يجب أن يكون نموذج المجال إما: (1) النطاق الأعلى مرتبة (أفضل قيمة إلكترونية) NCBI المنسق ، أو (2) نموذج المجال الأعلى مرتبة من مصدر خارجي ، إذا لم يكن هناك مجال برعاية NCBI يلبي كل معايير نتيجة معينة.

إذا كانت العديد من نماذج المجال المنسقة من NCBI تتماشى مع فاصل زمني معين على تسلسل بروتين استعلام وتمرير كلا المعيارين أعلاه ، فإن النموذج الأعلى درجة هو النتيجة المحددة ويتم سرد النماذج الأخرى على أنها نتائج غير محددة. يعد النموذج الأعلى تسجيلًا بشكل عام النموذج الذي يحتوي على أفضل قيمة E ، ولكن إذا كان هناك نموذجان أو أكثر لهما نفس القيمة E ، فسيتم استخدام نقاط البت الخاصة بهما لكسر التعادل. على سبيل المثال ، تُظهر نتائج البحث على القرص المضغوط لتسلسل البروتين NP_229631 NP_229631 عدة مجالات برعاية NCBI محاذاة لنفس منطقة الاستعلام. المجالات الأعلى تصنيفًا التي ترعاها NCBI هي cd05297 (GH4_alpha_glucosidase_galactosidase) و cd05197 (GH4_glycoside_hydrolases) ، وكلاهما لهما قيمة E من 2e-169 (اعتبارًا من 08 مارس 2010). ومع ذلك ، فإن درجة البت للضربة إلى cd05297 (590.69) أعلى من درجة البت لـ cd05197 (590.65) ، لذلك يتم عرض cd05297 في نتائج بحث القرص المضغوط حيث يتم عرض النتيجة المحددة و cd05197 على أنها نتيجة غير محددة. في حالة احتمال عدم كفاية درجة البت لكسر التعادل ، يتم اختيار ضربة واحدة فقط بشكل عشوائي لتكون نتيجة محددة. (ملاحظة: يمكن رؤية درجة البت لضربة بحث على قرص مضغوط لنموذج مجال من خلال النقر على علامة الجمع (+) الموجودة على يسار رقم التعريف الخاص بها في "قائمة عدد مرات الدخول إلى المجال" المجدولة في صفحة نتائج البحث على القرص المضغوط . بالإضافة إلى ذلك ، يتم عرض درجة البت العتبة الخاصة بالمجال للمجال المنسق من قبل NCBI في مربع الإحصائيات بصفحة ملخص القرص المضغوط لنموذج المجال.)

في المقابل ، يمكن أن تحتوي بعض تسلسلات استعلام البروتين على العديد من النتائج للنطاقات المنسقة من NCBI ، ولن يظهر أي منها كنتيجة محددة. هذا صحيح في نتائج CD_Search لتسلسل البروتين NP_486772 (اعتبارًا من 08 مارس 2010). في هذه الحالة ، يكون cd01662 (Ubiquinol oxidase I) هو النطاق الأعلى تصنيفًا (أفضل قيمة إلكترونية) NCBI ، ومع ذلك ، لا يتم عرضه كناتج محدد لأن درجة البت لتلك النتيجة لا تتوافق مع النطاق أو تتجاوزه- عتبة محددة. تحتوي النتائج على نطاقين آخرين برعاية NCBI ، cd01663 (Cyt_c_Oxidase_I) و cd00919 (Heme_Cu_Oxidase_I) ، على درجات بت التي تلبي أو تتجاوز عتبات النطاق المحددة لتلك النماذج ، لكنها غير مدرجة على أنها نتائج محددة لأن أيا منهما هو النطاق الأعلى مرتبة (أي أفضل قيمة إلكترونية) من NCBI.

من أجل أن تكون نتيجة محددة ، يجب أن يكون نموذج النطاق: (أ) هو نموذج النطاق الأعلى تصنيفًا * و * (ب) لديه درجة بت تفي أو تتجاوز درجة العتبة الخاصة بالمجال. تم العثور على الجمع بين المعيارين لتقليل عدد المكالمات الإيجابية الكاذبة.

  • هناك مستوى عالي من الثقة في أن تسلسل بروتين الاستعلام هو عضو في عائلة البروتين التي يمثلها نموذج المجال وله الوظيفة المحددة الموضحة في هذا المجال.
  • إذا كان تسلسل الاستعلام موجودًا في قاعدة بيانات Entrez Protein ، فسيتم شرح الوظيفة المستنبطة على أنها "منطقة" في سجل تسلسل البروتين ، مع إظهار اسم نموذج المجال ذي الدرجات العالية وامتداده الأساسي. إذا كانت النتيجة المحددة لنموذج مجال برعاية NCBI والذي يتضمن ميزات محفوظة (مخلفات متضمنة في التحفيز أو الربط) ، يتم شرحها في سجل تسلسل البروتين على أنها "مواقع". إذا كانت النتيجة المحددة لنموذج مجال من مصدر خارجي ، وكان النموذج ينتمي إلى عائلة فائقة يمثل ممثلها مجالًا برعاية NCBI يحتوي على مثل هذه التعليقات التوضيحية ، فإن الميزات / المواقع المحفوظة التي تم التعليق عليها على ممثل العائلة الفائقة ستكون تعيينها إلى تسلسل الاستعلام.
  • يمكن الاستدلال على الوظيفة العامة لعائلة المجال الفائقة لتسلسل بروتين الاستعلام ، لكن الوظيفة المحددة أقل تأكيدًا.
  • إذا كان تسلسل بروتين الاستعلام موجودًا في قاعدة بيانات Entrez Protein ، فسيتم شرح الاسم والوظيفة العامة لعائلة المجال الفائقة في سجل تسلسل البروتين (كـ "منطقة"). اسم ونص الوظيفة مشتق من نموذج المجال الذي تم اختياره كممثل للعائلة الفائقة. يتم أيضًا شرح الميزات المحفوظة ("المواقع") في سجل تسلسل البروتين إذا كان ممثل العائلة الفائقة هو مجال برعاية NCBI يحتوي على مثل هذه التعليقات التوضيحية.

كيف يمكنني عرض محاذاة تسلسل متعددة مع تضمين تسلسل الاستعلام الخاص بي؟

تصور المحاذاة بما في ذلك الهياكل ثلاثية الأبعاد

إذا قمت بعرض طريقة عرض محاذاة تتضمن تسلسل استعلام ، يمكنك أيضًا عرض نفس المحاذاة في برنامج Cn3D بالضغط على زر عرض الهيكل. (يستغرق تثبيت Cn3D دقيقتين فقط ويصف البرنامج التعليمي ميزات البرنامج ووظائفه. يجب تثبيت البرنامج حتى يعمل زر عرض الهيكل.)

إذا تم تضمين تسلسل بروتين من بنية ثلاثية الأبعاد ضمن التسلسلات المستخدمة في تنسيق نموذج مجال ، فستعرض Cn3D البنية ثلاثية الأبعاد أيضًا. إذا تضمن نموذج المجال تسلسلات من أكثر من هيكل ثلاثي الأبعاد ، فسيتم عرض جميع الهياكل ، وفرضها على بعضها البعض ، وسيتم عرض تسلسلها في محاذاة التسلسل المتعدد.

يوفر Cn3D تلوينًا خاصًا بالعمود عن طريق الحفظ التسلسلي عند استدعائه مع عروض محاذاة متعددة. هذه ميزة ملائمة لدراسة حفظ التسلسل داخل محاذاة القرص المضغوط ومعرفة مدى ملاءمة الاستعلام المحاذي للأنماط الحالية للحفظ والتنوع.

كم من الوقت يجب أن أنتظر نتائج البحث على القرص المضغوط؟

يتم تشغيل بحث القرص المضغوط بالتوازي مع البروتين BLAST: & # 160 متى تنتهي طلبات البحث في قائمة انتظار BLAST؟

هل يمكنني تشغيل RPS-BLAST محليًا؟
كيف يمكنني إنشاء قاعدة بيانات البحث الخاصة بي للبحث المحلي؟
كيف يمكنني الحصول على قاعدة بيانات البحث عن CDD الخاصة بـ NCBI للبحث المحلي؟

نعم ، يمكنك تشغيل RPS-BLAST محليًا. يتم حزم إصدار مستقل من RPS-BLAST مع الملفات التنفيذية بلاست المتاحة على موقع NCBI FTP ، وهو متاح أيضًا كجزء من توزيع مجموعة أدوات NCBI (انظر ftp://ftp.ncbi.nih.gov/toolbox).

توفر الدلائل المنفصلة على موقع FTP المستندات التي تصف كل تطبيق من تطبيقات BLAST ، بما في ذلك المستندات الخاصة بـ RPS-BLAST وتطبيق Formatrpsdb الذي يمكن استخدامه لإنشاء قواعد بيانات بحث منسقة بشكل صحيح للاستخدام مع RPS-BLAST.

تتوفر قواعد بيانات البحث المنسقة مسبقًا ، والتي تمت معالجتها بالفعل بواسطة Formatrpsdb ، على موقع CDD FTP. يوفر ملف README الموجود على موقع CDD FTP أيضًا مزيدًا من التفاصيل حول تخصيص قواعد بيانات البحث.

ما الذي يفسر الاختلافات في نتائج البحث الناتجة عن خدمة الويب للبحث عن الأقراص المضغوطة و RPS-BLAST المستقلة؟

هناك العديد من الاختلافات بين خدمة الويب للبحث عن الأقراص المضغوطة و RPS-BLAST المستقلة ، كما تم توزيعها بواسطة NCBI وتستخدم مع قواعد بيانات البحث كما تم توزيعها بواسطة مجموعة CDD.

تم تحسين خادم الويب للاستخدام الأكثر شيوعًا لمورد CDD ، وهو التعليق على تسلسل البروتين بنطاقات بروتين محددة بوضوح ومفهومة جيدًا ، كما تم تحسينه للسرعة من أجل استيعاب حجم كبير من عمليات البحث.

في المقابل ، لا تستخدم RPS-BLAST المستقلة معلمة حجم قاعدة البيانات الثابتة المفترضة. لذلك عند استخدام مجموعة بحث تم تنزيلها من موقع CDD FTP ، فقد يختلف حجم قاعدة البيانات عن تلك المستخدمة بواسطة خدمة الويب للبحث عن الأقراص المضغوطة ، وستتلقى نفس نتيجة بروتين الاستعلام الخاص بك لنموذج قيمة إلكترونية مختلفة في النتيجة المستقلة. على سبيل المثال ، إذا كان حجم قاعدة بيانات FTP أصغر مما تفترضه خدمة الويب للبحث عن الأقراص المضغوطة في معلمة حجم قاعدة البيانات الخاصة بها ، فستتلقى نفس نتيجة بروتين الاستعلام الخاص بك لنموذج قيمة E أقل في القائمة المستقلة. على العكس من ذلك ، إذا كان حجم قاعدة بيانات FTP أكبر مما تفترضه خدمة الويب للبحث عن الأقراص المضغوطة في معلمة حجم قاعدة البيانات الخاصة بها ، فستتلقى نفس نتيجة بروتين الاستعلام الخاص بك إلى نموذج مجال محفوظ قيمة E أعلى في القائمة المستقلة .

إذا كنت تريد RPS-BLAST المستقل استخدام نفس معلمة حجم قاعدة البيانات المستخدمة لخادم الويب (وبالتالي إعادة إنتاج نفس القيم الإلكترونية باستخدام RPS-BLAST المستقلة التي تم إنشاؤها بواسطة خدمة الويب) ، يمكنك القيام بذلك عن طريق إنشاء ملف "اسم مستعار" على جهاز الكمبيوتر المحلي الخاص بك ووضعه في نفس الدليل مثل RPS-BLAST القابل للتنفيذ. يمكن أن يكون للملف اسم مثل "mycdd.pal" ويمكن أن يحتوي على محتويات مثل ما يلي (حيث تمثل الأسطر التي تبدأ بـ "#" تعليقات):
سيسمح لك هذا الآن بالبحث في قاعدة البيانات المسماة "Cdd" باستخدام معلمتين لحجم مجموعة البحث كما هو محدد ، على سبيل المثال: بالإضافة إلى المعلمات الإحصائية المختلفة ، لا تقوم خدمة الويب للبحث عن الأقراص المضغوطة بتصفية المناطق المنحازة تركيبيًا في تسلسل الاستعلام بشكل افتراضي. يستخدم التسجيل المصحح للتكوين للتخفيف من آثار التحيز التركيبي. في المقابل ، يقوم RPS-BLAST المستقل بتصفية المقاطع المنحازة تركيبيًا ولا يستخدم التسجيل المصحح للتركيب. في الإصدار الحالي من RPS-BLAST 2.2.29 (اعتبارًا من فبراير 2014) ، يمكنك تعيين المعلمات لتكرار إعدادات البحث عن القرص المضغوط عن طريق تحديد "-comp_based_stats 1" و "-seg no" في سطر الأوامر. إذا لم يتم تحديد هذه الخيارات ، فقد يقوم RPS-BLAST المستقل باسترداد نتائج مختلفة نوعًا ما. أخيرًا ، لا تتوفر بعض الخيارات المتقدمة في RPS-BLAST المستقلة في خدمة الويب ، مثل القدرة على استخدام وضع الضربة الواحدة / وضع التمرير من أجل اكتشاف العلاقات المتجانسة البعيدة. قد يحصل المستخدمون الذين حددوا هذه الخيارات في الإصدار المستقل على نتائج بحث مختلفة باستخدام خدمة الويب.

كيف يمكنني الحصول على قاعدة بيانات البحث عن CDD الخاصة بـ NCBI للبحث المحلي؟

كيف يمكنني إنشاء قاعدة بيانات البحث الخاصة بي للبحث المحلي؟

 
مستند تعليمات البحث عن الأقراص المضغوطة الدفعي

  • تسلسل البروتين فقط
    • بحث عن قرص مضغوط دفعة يقبل تسلسل البروتين فقط . الحد الأقصى لعدد الاستعلامات لكل طلب هو 4000 ، كما هو مذكور أسفل الحد الأقصى للإدخال أدناه. (اساسي البحث عن القرص المضغوط، والتي تُستخدم لإدخال الاستفسارات الفردية ، يمكنها قبول تسلسلات البروتين أو النوكليوتيدات.)
    • يمكن إدخال قائمة بروتينات الاستعلام مباشرة (كتابتها أو نسخها / لصقها) في مربع النص في صفحة الويب للبحث عن الأقراص المضغوطة المجمعة أو تحميلها كملف نصي. (يصف قسم منفصل من هذا المستند تنزيلات البيانات المبرمجة.)
    • يمكن تمثيل بروتينات الاستعلام كقائمة من معرفات التسلسل أو بيانات التسلسل ، مفصولة بفواصل الأسطر ، كما هو موضح أدناه.
    • تتلقى كل وظيفة معرف بحث فريدًا يتم إنشاؤه عشوائيًا.
    • ملاحظة: إذا تم إدخال بروتينات استعلام متعددة عن غير قصد في صفحة بحث القرص المضغوط العادية ، فسيتم إعادة توجيه استعلامك تلقائيًا إلى أداة البحث عن الأقراص المضغوطة الدفعية. إذا لم تكن هناك فواصل أسطر بين بروتينات الاستعلام ، فسيتم عرض رسالة خطأ ولن تحدث إعادة توجيه. لاحظ أيضًا أن Batch CD-search لا يقبل تسلسل النوكليوتيدات ، ومع ذلك ، يمكن إرسال طلبات البحث عن تسلسل النوكليوتيدات بشكل فردي إلى أداة البحث عن الأقراص المضغوطة القياسية.

    لكي يتم اعتباره صالحًا ، يجب أن يكون GI أو الانضمام موجودًا في (1) قاعدة بيانات Entrez Protein الحية (تعتبر هذه معرفات حالية) أو (2) في الخلفية ، قاعدة البيانات الأرشيفية ، والتي تحتوي على CURRENT بالإضافة إلى NOT CURRENT ( على سبيل المثال ، معرّفات مهملة أو أولية).

    لاحظ أنه لا تتم معالجة المعرفات الحالية بواسطة بحث القرص المضغوط الدفعي إلا إذا تم تنشيط خيار تضمين تسلسلات متوقفة (تسمى في الأصل "معرف البحث 1 لمعرفات غير معروفة"). إذا تم إلغاء تنشيطه ، فسيتم تجاهل أي معرفات غير حالية في قائمة الاستعلام الخاصة بك بواسطة بحث القرص المضغوط الدفعي وسيتم إرجاع النتائج للمعرفات الحالية فقط. سيضع إخراج بحث القرص المضغوط الدفعي علامة على كل معرّف غير حالي بالرسالة ، "تحذير: قد يكون سجل التسلسل هذا قديمًا أو أوليًا."

    إذا لم يتم العثور على المعرف في قاعدة بيانات Entrez Protein الحية أو في قاعدة البيانات الأرشيفية ، فسيتم اعتباره غير صالح وسيتم تجاهله بواسطة برنامج Batch CD-Search. لن تظهر المعرفات غير الصالحة في نموذج جدول البيانات لصفحة ملخص الوظيفة الأولية ، أو في ملفات بيانات الإخراج المحملة. ومع ذلك ، ستظهر في قائمة "التنقل في النتائج" للعرض الرسومي لنتائج البحث ، المدرجة على أنها "استعلام #N - XXXXXXXX (غير صالح)" بخط رمادي باهت.

    • تنسيق FASTA أو بيانات التسلسل العاري - يمكن أيضًا إدخال تسلسلات بروتين الاستعلام في Batch CD-Search بتنسيق FASTA أو ببساطة كبيانات تسلسل عارية (رمز حرف واحد). في كلتا الحالتين ، يجب أن تنتهي بيانات البروتين بسطر فارغ (على سبيل المثال ، يجب أن يتبع بيانات التسلسل حرفين متتاليين من السطر الجديد ( n n) للإشارة إلى نهاية البيانات). بالنسبة إلى تنسيق FASTA ، يجب أن يظهر الحرف ">" على أنه الحرف الأول من سطر التعريف (تعريف) لتسلسل تنسيق FASTA ، وإلا فقد يتم تحليل التعريف كمعرف وبالتالي سيتم تفسيره على أنه استعلام مختلف عن بيانات التسلسل.
    • يمكن إدخال ما يصل إلى 4000 تسلسل بروتين و / أو معرفات في Batch CD-Search ، إما من خلال واجهة الويب أو من خلال البرمجة النصية. سيتم رفض الطلبات التي تحتوي على أكثر من 4000 استعلام نظرًا لأن ذروة استخدام هذا المورد المشترك قد زادت بشكل كبير وأثرت على توفر الخدمة.

    بشكل افتراضي ، يتم تعيين "وضع البحث" على "تلقائي". يطبق هذا الوضع تلقائيًا معلمات البحث التي تم استخدامها لتوليد نتائج محسوبة مسبقًا لجميع التسلسلات في قاعدة بيانات NCBI Protein ، ويوفر أسرع طريقة للحصول على نتائج Batch CD-Search.

    سيتغير وضع البحث تلقائيًا إلى "البحث المباشر فقط" إذا قمت بتغيير قاعدة البيانات التي تريد البحث وفقًا لها ، أو استخدمت قيمة توقع أقل صرامة ، أو طبقت نتيجة مصححة للتكوين ، أو طبقت مرشحًا منخفض التعقيد.

    إذا قمت بتغيير وضع البحث مرة أخرى إلى "تلقائي" ، فسيتم إعادة تعيين معلمات البحث إلى قيمها الافتراضية.

    ملاحظة: تعديل "الحد الأقصى لعدد مرات الدخول" أو تنشيط / إلغاء تنشيط خيار "تضمين التسلسلات المتوقفة" لا يغير وضع البحث. بدلاً من ذلك ، يقوم فقط بتصفية نتائج البحث الخاصة بك كما حددتها.

    مزيد من التفاصيل حول وضع البحث وكل من المعلمات الأخرى مذكورة أدناه:

    • وضع البحث
      • تلقائي - يختار برنامج Batch CD-Search استرداد نتائج البحث المحسوبة مسبقًا أو الحية لكل عنصر منفصل في قائمة الاستعلام ، اعتمادًا على طبيعة العنصر. على سبيل المثال ، إذا كان عنصر الاستعلام هو UID صالحًا ، فسيحاول البرنامج دائمًا استرداد نتيجة البحث المحسوبة مسبقًا. إذا فشل ذلك ، سيحاول البرنامج بعد ذلك إجراء بحث RPS-BLAST مباشر. ومع ذلك ، إذا تم تقديم بيانات التسلسل بشكل صريح (مثل FASTA أو التسلسل الأساسي) ، ينتقل البرنامج مباشرة إلى البحث المباشر. (لاحظ أن وضع البحث "التلقائي" يستخدم معلمات البحث الافتراضية إذا كنت ترغب في تغيير المعلمات من الإعدادات الافتراضية ، فاستخدم وضع "البحث المباشر فقط".)
      • محسوبة مسبقًا فقط - سيقوم برنامج Batch CD-Search باسترداد البيانات المحسوبة مسبقًا فقط لمعرفات التسلسل في قائمة الاستعلام الخاصة بك. إذا كانت البيانات المحسوبة مسبقًا غير متوفرة لمعرف تسلسل معين ، فلن يتم إرجاع نتيجة بحث لهذا العنصر. لاحظ أن وضع البحث هذا يعمل فقط للإدخال الذي تم إدخاله كمعرفات تسلسل إذا كان الإدخال الخاص بك عبارة عن بيانات تسلسل ، فلن يتم إرجاع أي نتائج. (لاحظ أيضًا أن وضع "الحساب المسبق فقط" يستخدم معلمات البحث الافتراضية إذا كنت ترغب في تغيير المعلمات من إعداداتها الافتراضية ، فاستخدم وضع "البحث المباشر فقط".)
      • البحث المباشر فقط - سيقوم برنامج Batch CD-Search بإجراء بحث مباشر PRS-BLAST لكل عنصر في قائمة الإدخال ، سواء كان العنصر عبارة عن معرف تسلسل أو بيانات تسلسل. يتيح لك هذا الوضع أيضًا تغيير معلمات البحث من إعداداتها الافتراضية.
      • إذا كان عامل التصفية منخفض التعقيد قيد التشغيل للبحث ، فلن يتم استخدام المناطق المنحازة من الناحية التركيبية في البحث مقابل قاعدة بيانات المجال ويتم عرضها على شكل كتل سماوية صلبة. (على سبيل المثال ، افتح نتائج بحث القرص المضغوط الافتراضية لـ P14780 ، GI 269849668 ، مع تشغيل التصفية.) ومع ذلك ، قد لا تزال هذه المناطق تتداخل مع بصمة المجال أو يتم تضمينها في المحاذاة الزوجية التي تم إنشاؤها بواسطة RPS-BLAST .

      • إذا تم إيقاف تشغيل عامل التصفية منخفض التعقيد للبحث ، فسيتم استخدام المناطق المنحازة من الناحية التركيبية في البحث ويتم عرضها ككتل خارجة في السماوي. (على سبيل المثال ، افتح نتائج البحث عن القرص المضغوط لـ P14780 ، GI 269849668 ، مع إيقاف تشغيل التصفية.) مع ذلك ، يرجى مراعاة أن المناطق المنحازة تركيبيًا يمكن أن تسبب تعليقًا توضيحيًا غير دقيق لتسلسل الاستعلام.

      • إذا لم يقم عامل التصفية منخفض التعقيد باكتشاف أي مناطق منحازة تركيبيًا في تسلسل الاستعلام ، فسيتم عرضه كشريط رمادي عادي (بدون مناطق سماوية) ، كما هو موضح في الرسوم التوضيحية للعينة العرض المختصر والعرض الكامل للبحث عن القرص المضغوط النتائج.
      • يبحث هذا الخيار في قاعدة بيانات ID1 لقاعدة بيانات الأرشفة الخلفية عن أي معرفات لتسلسل البروتين في قائمة الإدخال الخاصة بك والتي لم يتم التعرف عليها على أنها حالية في قاعدة بيانات Entrez Protein الحية. إذا تم العثور على معرفات التسلسل هذه في قاعدة البيانات الأرشيفية ، فسيقوم برنامج Batch CD-Search باسترداد النتائج لها ، حتى إذا تم إهمالها. يتم تنشيط هذا الخيار افتراضيًا. إذا تم إلغاء تنشيطه ، فسيتم تجاهل أي معرفات غير حالية في قائمة الاستعلام الخاصة بك بواسطة بحث القرص المضغوط الدفعي وسيتم إرجاع النتائج للمعرفات الحالية فقط. (راجع قسم التحقق من صحة UID للحصول على تفاصيل إضافية.)
      • يمكن تحديد سلسلة عشوائية كعنوان لوظيفة بحث معينة ، بحد أقصى 256 حرفًا. (إذا تم توفير رمز أطول ، فسيتم اقتطاعه.) لا يتم استخدام المسمى الوظيفي بأي شكل من الأشكال بواسطة محرك البحث. لذلك فهو اختياري تمامًا ولكن يوصى به لسهولة التعرف على نتائج البحث ، خاصةً عند تقديم وظائف متعددة في وقت واحد.
      • يمكنك تقديم عنوان بريد إلكتروني واحد أو أكثر هنا لتلقي إشعار عند انتهاء مهمة البحث. يجب الفصل بين عناوين البريد الإلكتروني المتعددة بفاصلات. سيظهر عنوان الوظيفة ، إذا تم تعيينها ، في سطر الموضوع.
      • عند إرسال بحث عن قرص مضغوط دفعة بنجاح ، يتم تعيين معرف فريد تم إنشاؤه عشوائيًا أو "معرف البحث" لتعريف البحث (على سبيل المثال ، QM2-qcdsearch-xxxxxxxxxxx). يمكن استخدام معرّف البحث لاسترداد حالة / نتائج البحث لمدة تصل إلى يومين بعد إجراء البحث لأول مرة. للقيام بذلك ، أدخل معرف البحث في مربع النص "استرداد بحث سابق" في صفحة بحث القرص المضغوط دفعة وانقر فوق الزر "استرداد". يتم توفير مزيد من التفاصيل حول معرفات البحث في جزء منفصل من هذا المستند.
      • _______________________
      • _______________________
      • _______________________
        • _____________
        • _____________
        • _____________
        • ملخص العمل
          • اكتمل البحث بنجاح - بعد تشغيل بحث القرص المضغوط دفعة بنجاح (انظر رموز حالة الوظيفة) ، يتم عرض صفحة ويب أولية مع الرسالة ، "اكتمل البحث بنجاح." يشير هذا إلى أن نتائج البحث الكاملة قد تم تجميعها في قاعدة بيانات مؤقتة ، والتي تعمل كهيكل بيانات رئيسي يمكنك من خلاله اختيار تنزيل البيانات (زيارات المجال أو تفاصيل المحاذاة أو الميزات) أو عرض النتائج بيانياً. بمجرد تحديد خيار التنزيل أو العرض الرسومي المطلوب ، يستخرج البرنامج الإخراج المحدد من بنية البيانات الرئيسية ويعرضها كملف نصي أو عرض ويب. تظل بنية البيانات الرئيسية متاحة لك لمدة تصل إلى يومين بعد تشغيل البحث لأول مرة. تأكد من حفظ معرف البحث لاسترداد النتائج خلال تلك الفترة الزمنية ، إما من خلال مربع النص "استرداد بحث سابق" في الصفحة الرئيسية لبحث القرص المضغوط دفعة واحدة أو من خلال تنزيلات البيانات المبرمجة باستخدام واجهة برمجة تطبيقات الويب.
          • إحصائيات
معرف البحث عند بدء البحث ، يتم إرجاع معرف بحث فريد تم إنشاؤه عشوائيًا لتحديد الاستعلام وبنية البيانات الرئيسية التي تحتوي على المجموعة الكاملة من النتائج التي تم استردادها بواسطة البحث. (يستخدم البرنامج لاحقًا بنية البيانات الرئيسية هذه لاستخراج أي مجموعة فرعية من المعلومات التي طلبها المستخدم وإنشاء المخرجات النهائية ، اعتمادًا على المعلمات التي تحددها.) يبدأ معرف البحث بـ "QM2-qcdsearch-" كتوقيع ويتبع بواسطة رقم سداسي عشري تم إنشاؤه عشوائيًا (xxxxxxxxxxx) ، على سبيل المثال: QM2-qcdsearch-xxxxxxxxxxx

كلا شكلي معرف البحث صالحين كإدخال لمربع نص "استرداد بحث سابق" في الصفحة الرئيسية لبحث القرص المضغوط الدفعي ولتنزيل / معالجة البيانات المبرمجة (باستخدام معلمة cdsid). يمكن استخدام معرّف البحث لاسترداد حالة / نتائج البحث لمدة تصل إلى يومين بعد إجراء البحث لأول مرة.

يتم توفير تفسيرات رؤوس الأعمدة التي تظهر في نموذج جدول البيانات في قسم مرات الدخول إلى المجال من مستند المساعدة هذا ويمكن الوصول إليها أيضًا من خلال النقر على رؤوس الأعمدة في نموذج ملف الإخراج.

  • نوع البيانات (بيانات الهدف)
    • زيارات المجال - قائمة بنماذج المجال المحفوظة ، من قاعدة البيانات التي حددتها للبحث ، والتي لها نتائج إحصائية مهمة لتسلسل البروتين في قائمة الاستعلام الخاصة بك. (يوجد مثال في ملف منفصل.)

    التنسيق: جدول محدد بعلامات جدولة يسرد المعلومات التالية لكل تسلسل بروتين في قائمة استعلامك:

    Q # N - XXXXXXXX رقم الاستعلام: الرقم الترتيبي (N) لتسلسل الاستعلام من قائمة الإدخال الأصلية. يتم تسجيل رقم الاستعلام كـ Q # N - XXXXXXXX ، حيث XXXXXXXX هو إما معرف التسلسل ، أو أول 15 حرفًا من سطر تعريف FASTA ، أو أول 15 حمض أميني لبيانات التسلسل العاري.

    ملاحظة: إذا كانت معرّفات التسلسل المدرجة في قائمة الإدخال وبعض هذه المعرفات غير صالحة ، فستفقد أرقام ومعرفات طلبات البحث الخاصة بهم من ملف الإخراج ، ولكن يمكن رؤيتها في قائمة "التنقل في النتائج" للعرض الرسومي لنتائج البحث ، إذا رغبت في ذلك . على سبيل المثال ، إذا احتوى ملف الإدخال الخاص بك على أربعة معرّفات تسلسل وكان الثالث غير صالح ، فسيعرض ملف الإخراج نتائج Q # 1 و Q # 2 و Q # 4. ومع ذلك ، يمكن رؤية الاستعلام غير الصحيح (Q # 3) كنص باللون الرمادي بالتنسيق "الاستعلام رقم 3 - XXXXXXXX (غير صالح)" في العرض الرسومي.

    نوع الضربة يمكن أن تتضمن نتائج بحث القرص المضغوط أنواع النتائج التي تمثل مستويات ثقة متنوعة (نتائج محددة ، نتائج غير محددة) ونطاق نموذج النطاق (العائلات الفائقة ، والنطاقات المتعددة). يمكن رؤيتها في كل من العرض المختصر والشاشة الكاملة ، باستثناء النتائج غير المحددة ، والتي تظهر فقط في العرض الكامل.
    معرف PSSM معرّف PSSM هو المعرّف الفريد لمصفوفة التسجيل الخاصة بالموضع (PSSM) لنموذج المجال. إذا تغير PSSM الخاص بنموذج المجال بأي طريقة كنتيجة للتحديثات التي تم إجراؤها على محاذاة التسلسل المتعدد ، فإنه يتلقى معرف PSSM جديدًا. يحتوي كل سجل للعائلة الفائقة في قاعدة بيانات المجال المحفوظ أيضًا على معرّف PSSM ، والذي يشير إلى مجموعة محددة من معرّفات PSSM للمجال المحفوظة التي تشتمل على العائلة الفائقة ، بدلاً من مصفوفة تسجيل فعلية خاصة بالموقع للعائلة الفائقة ككل. أكثر. (ملاحظات إضافية: يحتوي كل سجل عائلة عظمى في قاعدة بيانات المجال المحفوظ أيضًا على معرّف PSSM ، والذي يشير إلى مجموعة محددة من معرّفات PSSM للمجال المحفوظة التي تشتمل على العائلة الفائقة ، بدلاً من مصفوفة تسجيل النتائج الخاصة بالموقع الفعلي للعائلة الفائقة ككل. لا يمكن استرجاع PSSM (على سبيل المثال ، 667) من خلال واجهة بحث Entrez CDD لأنها لم تعد مفهرسة. ومع ذلك ، يمكن استرجاعها من النسخة المؤرشفة من قاعدة البيانات باستخدام خيار "جلب مباشر عبر UID" في طرق بحث CDD صفحة.)
    من الى نطاق الأحماض الأمينية في تسلسل بروتين الاستعلام الذي يتوافق معه نموذج المجال. (ملاحظة: إذا كانت المحاذاة التي تم العثور عليها بواسطة RPS-BLAST قد حذفت أكثر من 20٪ من مدى القرص المضغوط في النهاية n أو c أو كليهما ، تتم الإشارة إلى الطبيعة الجزئية للنتيجة في عمود "غير مكتمل" في جدول النتائج . يمكن أيضًا رصد النتائج الجزئية في العرض الرسومي كرسوم كاريكاتورية لنموذج النطاق ذات حواف خشنة (مثال توضيحي).) (ملاحظة: لا يشير النطاق في ملف الإخراج الذي تم تنزيله إلى ما إذا كانت النتيجة جزئية ، أي إذا تم العثور على المحاذاة بواسطة حذف RPS-BLAST أكثر من 20٪ من مدى القرص المضغوط عند الطرف n- أو c ، أو كليهما. ومع ذلك ، يمكن رصد الزيارات الجزئية في العرض الرسومي كرسوم متحركة لنموذج المجال مع حواف خشنة (مثال مصور).)
    القيمة الإلكترونية تشير القيمة المتوقعة ، أو القيمة الإلكترونية ، إلى الأهمية الإحصائية للنتيجة ، حيث يُرجح العثور على النتيجة بالصدفة. أكثر.
    نقاط بت تُشتق القيمة S 'من درجة المحاذاة الخام S درجة المحاذاة الخام S التي تم فيها مراعاة الخصائص الإحصائية لنظام التسجيل المستخدم. نظرًا لأنه تم تطبيع درجات البت فيما يتعلق بنظام التسجيل ، يمكن استخدامها لمقارنة درجات المحاذاة من عمليات بحث مختلفة. (يتم تحديد درجة بت في مسرد دليل NCBI مسرد مصطلحات BLAST ومسرد الدليل الميداني.)
    انضمام رقم الانضمام إلى النتيجة ، والتي يمكن أن تكون إما نموذج مجال أو مجموعة عائلة فائقة. (إذا كانت النتيجة عبارة عن نموذج مجال ، فسيتم إدراج رقم الانضمام (cl *) لمجموعة العائلة الفائقة التي تنتمي إليها في عمود "Superfamily" بملف الإخراج.)
    اسم قصير الاسم المختصر للمجال المحفوظ ، والذي يحدد المجال بإيجاز. على سبيل المثال ، "Voltage gated ClC" هو العنوان المختصر لنموذج المجال المحفوظ برعاية NCBI لقناة الكلوريد ذات الجهد الكهربائي (cd00400).
    غير مكتمل إذا كانت النتيجة إلى مجال محفوظ جزئية (على سبيل المثال ، إذا كانت المحاذاة التي تم العثور عليها بواسطة RPS-BLAST قد حذفت أكثر من 20٪ من مدى القرص المضغوط عند الطرف n أو c أو كليهما) ، فسيتم ملء هذا العمود بأحد القيم التالية:
    & # 160 & # 160 & # 160 & # 160 & # 160 N: & # 160 & # 160 & # 160 & # 160 & # 160 غير مكتمل عند الطرف N
    & # 160 & # 160 & # 160 & # 160 & # 160 C: & # 160 & # 160 & # 160 & # 160 & # 160 غير مكتمل عند الطرف C
    & # 160 & # 160 & # 160 & # 160 & # 160 NC: & # 160 & # 160 & # 160 غير مكتمل في كل من الطرف N والطرف C
    (تم حذف aligmnent الذي تم العثور عليه بواسطة RPS-BLAST
    أكثر من 40٪ من النطاق الإجمالي للقرص المضغوط)
    إذا اكتملت الدخول إلى مجال محفوظ ، فسيتم ملء هذا العمود بشرطة (-).
    (ملاحظة: يمكن أيضًا رصد النتائج الجزئية في العرض الرسومي كرسوم كاريكاتورية لنموذج المجال مع حواف خشنة (مثال مصور).)
    الأسرة الفائقة يتم ملء هذا العمود فقط لنماذج المجال ذات النتائج المحددة أو غير المحددة ، ويسرد رقم الانضمام للعائلة الفائقة التي ينتمي إليها نموذج المجال.

    (إذا كانت النتيجة لعائلة مميزة نفسها ، فسيتم ملء هذا العمود ببساطة بشرطة لأن انضمام العائلة الفائقة مدرج بالفعل في عمود "الانضمام" السابق.)

    ______ ______

    نص ASN XML جسون نص بلاست
         

    انقر فوق أي من التنسيقات الثلاثة الأولى أعلاه لقراءة المزيد عنها. يتم وصف تنسيق نص بلاست أدناه.

    يعرض تنسيق نص بلاست لتنزيل تفاصيل المحاذاة من نتائج بحث الأقراص المضغوطة الدفعية محاذاة زوجية بين تسلسل استعلام البروتين وتسلسل الإجماع من كل نموذج مجال و / أو العائلة الفائقة التي حصلت على نتيجة للتسلسل. يتم تمييز التطابقات الدقيقة بواسطة رمز توجيه الإخراج ("|") بين تسلسل الاستعلام وقاعدة البيانات. على سبيل المثال ، يوجد أدناه مقتطف من تفاصيل المحاذاة بتنسيق نص بلاست لزيارات المجال على NP_000240 (GI: 4557757). انقر فوق المثال أدناه لفتح نموذج الملف الكامل ، الذي يمثل النتائج المختصرة لتسلسل الاستعلام هذا اعتبارًا من 1 نوفمبر 2010:

    التنسيق: جدول محدد بعلامات جدولة يسرد المعلومات التالية لكل تسلسل بروتين في قائمة استعلامك:

    Q # N - XXXXXXXX رقم الاستعلام: الرقم الترتيبي (N) لتسلسل الاستعلام من قائمة الإدخال الأصلية. يتم تسجيل رقم الاستعلام كـ Q # N - XXXXXXXX ، حيث XXXXXXXX هو إما معرف التسلسل ، أو أول 15 حرفًا من سطر تعريف FASTA ، أو أول 15 حمض أميني لبيانات التسلسل العاري.

    ملاحظة: إذا كانت أي أرقام استعلام مفقودة من ملف الإخراج ، فهذا يشير إلى أنه إما: (أ) لم يتم العثور على ميزات في تسلسلات البروتين هذه ، أو (ب) معرّفات التسلسل غير صالحة. (يمكن رؤية معرفات التسلسل غير الصالحة في قائمة "التنقل في النتائج" للعرض الرسومي لنتائج البحث ، إذا رغبت في ذلك. على سبيل المثال ، إذا كان ملف الإدخال يحتوي على أربعة معرّفات تسلسل وكان الثالث غير صالح ، فسيعرض ملف الإخراج النتائج بالنسبة إلى Q # 1 و Q # 2 و Q # 4. يمكن رؤية الاستعلام غير الصالح (Q # 3) ، مع ذلك ، كنص باللون الرمادي بالتنسيق "الاستعلام رقم 3 - XXXXXXXX (غير صالح)" في العرض الرسومي. )

    نوع يمكن أن يكون نوع الميزة إما:

    محدد: ميزات / مواقع محفوظة تم تعيينها على مجموعة تسلسلات طلبات البحث من نتائج محددة.

    عام: الميزات / المواقع المحفوظة التي تم تعيينها على مجموعة تسلسلات الاستعلام من نتائج غير محددة ، لأن هذه النتائج غير المحددة تنتمي إلى عائلة فائقة يمثل ممثلها مجالًا منظمًا من قبل NCBI يحتوي على مثل هذه التعليقات التوضيحية.

    عنوان الاسم المختصر للميزة / الموقع المحفوظ ، على سبيل المثال ، "موقع نشط" ، "رباعي محفز" ، "موقع ربط Ca2 + ،" إلخ.
    إحداثيات قائمة محددة بفواصل لرموز الأحماض الأمينية ذات الحرف الواحد ومواضعها في تسلسل الاستعلام ، مما يشير إلى البقايا الموجودة في بروتين الاستعلام تتماشى مع الميزة / الموقع المحفوظ الذي تم شرحه في نموذج المجال. على سبيل المثال: D50، Y55، K84، H117
    الحجم الكامل العدد الإجمالي للمخلفات في الميزة / الموقع المحفوظ الذي تم شرحه في نموذج المجال.
    الحجم المعين عدد المخلفات في تسلسل بروتين الاستعلام الذي يطابق المخلفات في الميزة / الموقع المحفوظ الذي تم شرحه في نموذج المجال.
    المجال المصدر معرّف PSSM لنموذج المجال الذي تم فيه التعليق على الميزة / الموقع المحفوظ.
    ______ ______

    1. توفر Left Panel عناصر تحكم تتيح لك تحديد أي بروتين (بروتينات) فردي من قائمة الاستعلام الخاصة بك والتي تريد عرض التعليقات التوضيحية للمجال لها بيانياً ، أو لتنزيل نتائج البحث الكاملة.
      • التنقل في النتائج - يحتوي الجانب الأيسر من نافذة المتصفح على مربع "التنقل في النتائج" الذي يسرد كل تسلسل استعلام من قائمة الإدخال الأصلية. يتم عرض التسلسلات بالتنسيق Q # N - XXXXXXXX ، حيث Q # N هو رقم الاستعلام و XXXXXXXX إما معرف التسلسل ، أو أول 15 حرفًا من سطر تعريف FASTA ، أو أول 15 حمضًا أمينيًا لبيانات التسلسل العاري. انقر فوق أي تسلسل استعلام لعرض عرض رسومي لميزات وميزات المجال. إذا كنت ترغب في تحديد تسلسلات استعلام متعددة من القائمة ، فاستخدم مفتاحي CTRL أو SHIFT أثناء النقر فوق التسلسلات المطلوبة.
        • الوضع المضغوط - يعرض خيار "الوضع المضغوط" في مربع "التنقل في النتائج" بنية المجال لكل تسلسل استعلام على سطر واحد. يكون نوع العرض هذا مفيدًا بشكل خاص إذا قمت بتحديد اثنين أو أكثر من بروتينات الاستعلام من القائمة وأردت مقارنة بنى المجال الخاصة بهم. (كما هو مذكور أعلاه ، يمكنك استخدام مفتاحي CTRL أو SHIFT أثناء النقر على بروتينات الاستعلام المدرجة في مربع "التنقل في النتائج" ، إذا كنت ترغب في تحديد تسلسلات متعددة من تلك القائمة.)
        • ملاحظة: إذا كانت معرّفات التسلسل المدرجة في إدخالك وبعض هذه المعرّفات غير صالحة ، فستظهر أرقام ومعرّفات طلبات البحث الخاصة بها كنص باللون الرمادي بالتنسيق "الاستعلام #N - XXXXXXXX (غير صالح)" في قائمة "التنقل في النتائج". (مع ذلك ، لن تظهر المعرّفات غير الصالحة وأرقام الاستعلام الخاصة بها في ملفات البيانات التي تم تنزيلها.)
      • تنزيل البيانات - تكون "خيارات تنزيل البيانات" أسفل مربع "التنقل في النتائج" هي نفسها المعروضة في صفحة ملخص الوظيفة.

    • يُظهر العرض الأولي آثار أقدام المجال في تسلسل الاستعلام الأول. استخدم مربع "التنقل في النتائج" لتحديد أي تسلسل استعلام بروتين آخر من قائمة الإدخال. يتم عرض عرض موجز (مثال مصور) للمجالات بشكل افتراضي. إذا تم العثور على المعالم / المواقع المحفوظة أيضًا ، فستظهر كمثلثات صغيرة (مثال مصور).
    • تتيح لك عناصر التحكم "إظهار المواقع الوظيفية" و "العرض: موجز / قياسي / عرض كامل" على الحافة اليمنى من شاشة العرض الرسومية تشغيل أو إيقاف تشغيل التعليقات التوضيحية للميزات ، وتحديد مستوى التفاصيل المطلوب في العرض.
    • مرر الماوس فوق أي بصمة مجال لعرض محاذاة زوجية لتسلسل الاستعلام لتسلسل الإجماع لنموذج المجال.
      • إذا كانت البصمة تمثل عائلة عظمى ، فانقر فوق البصمة لفتح سجل العائلة الفائقة المقابل ، والذي بدوره يسرد نماذج النطاق المختلفة المتضمنة داخله.
      • إذا كانت البصمة عبارة عن نتيجة محددة (مرئية في كل من العرض المختصر والكامل لنتائج البحث) أو نتيجة غير محددة (مرئية فقط في العرض الكامل لنتائج البحث) ، يمكنك النقر فوق البصمة لعرض تسلسل الاستعلام المضمّن في محاذاة التسلسل المتعدد لنموذج المجال.
      • انقر فوق المثلث لعرض تفاصيل إضافية حول الميزة ، بما في ذلك محاذاة تسلسل متعدد لتسلسل استعلامك وتسلسلات البروتين المستخدمة لتنظيم نموذج المجال ، حيث تُظهر علامات التجزئة (#) الموجودة أعلى التسلسلات المحاذاة موقع بقايا الميزة المحفوظة .
      • إذا تم تضمين بنية ثلاثية الأبعاد ضمن الأدلة المستخدمة للتعليق على الميزة ، فستعرض صفحة التفاصيل صورة مصغرة ، والتي توفر عرضًا تقريبيًا لموقع الميزة في 3 أبعاد ويسمح لك بفتح عرض هيكل ثلاثي الأبعاد تفاعلي في Cn3D المجاني برنامج.

      تنزيلات البيانات المكتوبة (واجهة برمجة تطبيقات الويب)

      إذا تم الاستدعاء مع المعلمات ، فيمكن استخدام بحث القرص المضغوط الدفعي كواجهة لتنزيل / معالجة البيانات المبرمجة. يمكن تقديم الاستعلام كطلب HTTP GET أو طلب HTTP POST.

      يتم إرسال طلب HTTP GET كعنوان URL ويمكن أن يحتوي على ما يقرب من 1000 حرف كحد أقصى. لا يوجد حد للأحرف على طول طلب HTTP POST ، ولكن هناك حدًا يبلغ 4000 تسلسل و / أو معرفات بروتينية في طلب بحث مضغوط دفعة واحدة.

      يسترجع البرنامج بيانات الإخراج في خطوتين: أولاً ، يقوم بالبحث ويجمع جميع المعلومات المتاحة من نتائج البحث في هيكل بيانات رئيسي ، ثم يستخرج مجموعة فرعية من المعلومات التي طلبها المستخدم ويبني الناتج النهائي.

      كلا شكلي معرف البحث صالحين كإدخال (باستخدام معلمة cdsid) لتنزيل / معالجة البيانات المكتوبة. يمكن استخدام معرّف البحث لاسترداد حالة / نتائج البحث لمدة تصل إلى يومين بعد إجراء البحث لأول مرة.

      للتحقق من حالة أو استرداد نتائج بحث سابق:
      cdsid حدد سلسلة معرف البحث ، على سبيل المثال ، "cdsid = QM2-qcdsearch-xxxxxxxxxxx" إذا كنت تريد التحقق من حالة البحث السابق. قم بتضمين رقم سداسي عشري ثاني ، على سبيل المثال ، "cdsid = QM2-qcdsearch-xxxxxxxxxxx-yyyyyyyyyyy" إذا كنت تريد استرداد بيانات الإخراج المحددة التي تم طلبها مسبقًا للبحث. (كلا شكلي معرف البحث صالحين لمدة تصل إلى يومين بعد تشغيل البحث لأول مرة.) إذا كنت تريد استرداد مجموعة فرعية مختلفة من بيانات الإخراج لبحث تم تشغيله مسبقًا ، فحدد سلسلة معرف البحث ، على سبيل المثال ، "cdsid = QM2-qcdsearch-xxxxxxxxxxx ، "بالإضافة إلى أي من معلمات الإخراج الموضحة أدناه.
      لإجراء بحث جديد:
      ديسيبل حدد اسم قاعدة البيانات. تشمل القيم المسموح بها: "cdd" و "pfam" و "smart" و "tigrfam" و "cog" و "kog". تنطبق هذه المعلمة فقط إذا كان وضع البحث (smode) نشطًا. إذا تم ضبط وضع البحث على حساب مسبق أو تلقائي ، فسيتم البحث في قاعدة بيانات CDD الافتراضية.
      dbpath حدد الدليل الذي توجد به قاعدة البيانات. هذه المعلمة للاستخدام الداخلي فقط.
      دخان حدد وضع البحث المطلوب: "تلقائي" (تلقائي) ، "مسبق" (محسوب مسبقًا فقط) ، أو "مباشر" (مباشر)
      useid1 "true" / "false" ، تحدد هذه المعلمة ما إذا كان يجب على البرنامج البحث في قاعدة البيانات الأرشيفية الخلفية عن أي معرفات لتسلسل البروتين في قائمة الإدخال الخاصة بك والتي لم يتم التعرف عليها على أنها حديثة في قاعدة بيانات Entrez Protein الحية. إذا تم العثور على معرفات التسلسل هذه في قاعدة البيانات الأرشيفية ، فسيقوم برنامج Batch CD-Search باسترداد النتائج لها ، حتى إذا تم إهمالها. يتم تنشيط هذا الخيار افتراضيًا. إذا تم إلغاء تنشيطه ، فسيتم تجاهل أي معرفات غير حالية في قائمة الاستعلام الخاصة بك بواسطة بحث القرص المضغوط الدفعي وسيتم إرجاع النتائج للمعرفات الحالية فقط. (راجع قسم التحقق من صحة UID للحصول على تفاصيل إضافية.)
      compbasedadj "0" / "1" 2 "/" 3 "-> ، تحدد هذه المعلمة ما إذا كان البرنامج سيستخدم التسجيل المصحح للتركيب. القيم المحتملة هي:

      0: NoCompositionBasedStats (تم إيقاف تشغيل الإحصائيات المستندة إلى التكوين)
      1: CompositionBasedStats (الإحصائيات المستندة إلى التركيب قيد التشغيل (افتراضي))
      2: تكوين مصفوفة تعديل
      3: CompoForceFullMatrixAdjust

      منقي "صواب" / "خطأ" ، تحدد هذه المعلمة ما إذا كان البرنامج سيقوم بتصفية المناطق المتحيزة تكوينًا من تسلسلات الاستعلام. الإعداد الافتراضي هو كاذب".
      ملاحظة: بشكل عام ، إذا تم تشغيل مرشح التعقيد المنخفض ، فيجب إيقاف تشغيل التسجيل المصحح للتكوين. ومع ذلك ، من الممكن تشغيل كلا الخيارين في نفس الوقت (لتصفية الإيجابيات الكاذبة التي تتسلل عبر شقوق تصحيح التركيب) ، أو إيقافها في نفس الوقت (للعثور على أقارب بعيدًا عن الاستعلامات المنحازة من الناحية التركيبية) ، اذا رغب. استفسارات حدد بروتينات الاستعلام ، إما كمعرفات فريدة أو كبيانات تسلسلية. راجع قسم "الإدخال" في هذا المستند للتعرف على القواعد. تقييم رقم الفاصلة العائمة ، يحدد القيمة المتوقعة (القيمة الإلكترونية) الفاصلة ، والتي تعدل حد الأهمية الإحصائية المستخدمة للإبلاغ عن المطابقات مقابل PSSM في قاعدة البيانات. تنطبق هذه المعلمة فقط إذا كان وضع البحث (smode) نشطًا. إذا تم ضبط وضع البحث على حساب مسبق أو تلقائي ، فسيتم تطبيق القيمة E الافتراضية البالغة 0.01. ماكسهيت عدد صحيح ، يحدد الحد الأقصى لعدد النتائج المراد إرجاعها لكل بروتين في قائمة طلبات البحث. تنطبق هذه المعلمة فقط إذا كان وضع البحث (smode) نشطًا. إذا تم ضبط وضع البحث على حساب مسبق أو تلقائي ، فسيتم تطبيق الحد الأقصى الافتراضي للرقم 500. لتحديد الناتج المطلوب لبحث جديد أو سابق: tdata حدد نوع البيانات (بيانات الهدف) المطلوب في الإخراج. القيم المسموح بها هي: "الزيارات" (نتائج النطاق) ، أو "المحاذاة" (تفاصيل المحاذاة) ، أو "المآثر" (الميزات). النفمت إذا قمت بتحديد tdata = aligns (تفاصيل المحاذاة) ، فيمكنك استخدام معلمة "alnfmt" لتحديد تنسيق التنزيل المطلوب. القيم المسموح بها هي: "asn" أو "xml" أو "json". dmode حدد وضع البيانات المطلوب في الإخراج. القيم المسموح بها هي:
      "rep" (النتيجة الأعلى درجة ، لكل منطقة من تسلسل الاستعلام ، كما هو موضح في النتائج الموجزة) ، أو
      "std" (النتيجة الأفضل تسجيلًا من كل قاعدة بيانات مصدر ، لكل منطقة من تسلسل الاستعلام ، كما هو موضح في النتائج القياسية) ، أو
      "كامل" (المجموعة الكاملة من النتائج في النتائج الكاملة).
      (لا تزال القيمة "الكل" مسموحًا بها وقد تم استخدامها سابقًا لعرض النتيجة الكاملة ، ولكنها تعرض الآن النتيجة القياسية ، منذ 12 فبراير 2014 ، عندما أصبح الوضع القياسي متاحًا كخيار عرض جديد.) qdefl "true" / "false" ، تحدد هذه المعلمة ما إذا كان سيتم تضمين أسطر تعريف لبروتينات الاستعلام في الإخراج. cddefl "true" / "false" ، تحدد هذه المعلمة ما إذا كان سيتم تضمين عناوين المجالات المحفوظة في الإخراج. ___ BLUE_CELL___  

      النموذج رقم 1: إرسال بروتينات الاستعلام مع معرفات التسلسل 116863 و 122 و 1065303 و 109389365 تحقق من قاعدة بيانات أرشيف الخلفية بحثًا عن معرفات التسلسل غير الصالحة وقم بإرجاع قائمة موجزة (وهو الإعداد الافتراضي ، حيث لم يتم تحديد معلمة dmode) من مرات الدخول إلى المجال في الإخراج:

      https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi؟queries=116863٪0A122٪0A1065303٪0A109389365&useid1=true&tdata=hits

      النموذج رقم 2: لإجراء بحث تم تشغيله مسبقًا باستخدام cdsid = QM2-qcdsearch-xxxxxxxxxxx ، قم باسترداد تفاصيل المحاذاة (tdata = aligns) بتنسيق XML (alnfmt = xml) للنتائج الكاملة (dmode = all):

      https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi؟cdsid=QM2-qcdsearch-xxxxxxxxxxx&tdata=aligns&alnfmt=xml&dmode=all

      المثال رقم 3: _____ الوصف_من_ما_هذا_HTTP_GET_request_will_do_______:

      لاحظ أن نموذج معرف البحث أعلاه لن يعمل في هذا الوقت لأن معرف البحث صالح لمدة يومين فقط بعد تشغيل البحث لأول مرة. يتم توفيره هنا فقط كمثال.

      0 تم إنجاز المهمة بنجاح
      1 معرف البحث غير صالح
      2 لا يوجد إدخال فعال (عادة لا يتم تحديد بروتينات استعلام أو معرّف بحث)
      3 مازال العمل قيد التشغيل / الانتظار
      4 خطأ خدمة مدير قائمة الانتظار (qman)
      5 البيانات تالفة أو لم تعد متوفرة (تم تنظيف ذاكرة التخزين المؤقت ، إلخ)
      ___ BLUE_CELL___  
      • ملف إدخال العينة - يمكن أن يحتوي ملف الإدخال على معرفات تسلسل البروتين و / أو بيانات التسلسل. يحتوي المثال التالي (مع اسم الملف "samplefile.in") على مزيج من البيانات الجغرافية والمدخلات وبيانات التسلسل الأولي:

      نقلاً عن قاعدة بيانات المجال المحفوظة (CDD):

      توفر صفحة ملخص الهيكل المعلومات التالية لسجل بنية جزيئية ثلاثية الأبعاد (مثال: __PDB_ACCN_AND_MMDB_ID__: ___short_title_of_record):

      CDD: المجالات المحفوظة وهيكل البروتين ثلاثي الأبعاد. الدقة الأحماض النووية. 2013 يناير 141 (D1): D348-52. Epub 2012 28 نوفمبر. [PubMed PMID: 23197659] [نص كامل] CDD: قاعدة بيانات مجال محفوظة للتعليق التوضيحي الوظيفي للبروتينات. الدقة الأحماض النووية. 2011 39 يناير (إصدار قاعدة البيانات): D225-9. Epub 2010 24 نوفمبر. CDD: شرح وظيفي محدد بقاعدة بيانات المجال المحفوظة. الدقة الأحماض النووية. 2009 37 يناير (إصدار قاعدة البيانات): D205-10.
      Lu S، Wang J، Chitsaz F، Derbyshire MK، Geer RC، Gonzales NR، Gwadz M، Hurwitz DI، Marchler GH، Song JS، Thanki N، Yamashita RA، Yang M، Zhang D، Zheng C، Lanczycki CJ، Marchler- Bauer A. CDD / SPARCLE: قاعدة بيانات المجال المحفوظ في عام 2020. الأحماض النووية Res. 2020 يناير 848 (D1): D265-D268. دوى: 10.1093 / nar / gkz991. (Epub 2019 نوفمبر 28.) [PubMed PMID: 31777944] [النص الكامل في Oxford Academic]
      Marchler-Bauer A ، Bo Y ، Han L ، He J ، Lanczycki CJ ، Lu S ، Chitsaz F ، Derbyshire MK ، Geer RC ، Gonzales NR ، Gwadz M ، Hurwitz DI ، Lu F ، Marchler GH ، Song JS ، Thanki N ، وانغ Z ، ياماشيتا را ، تشانغ د ، تشنغ سي ، جير لي ، براينت ش. CDD / SPARCLE: التصنيف الوظيفي للبروتينات عبر بنى مجال العائلة الفرعية. الدقة الأحماض النووية. 2017 يناير 445 (D1): D200-D203. دوى: 10.1093 / nar / gkw1129. Epub 2016 نوفمبر 29. [PubMed PMID: 27899674] [النص الكامل في Oxford Academic] [النص الكامل في PubMed Central] مارشلر-باور أ ، ديربيشاير إم كيه ، جونزاليس إن آر ، لو إس ، تشيتساز إف ، جير لي ، جير آر سي ، هي جي ، غوادز إم ، هورويتز دي ، لانشيكي سي جيه ، لو إف ، مارشلر جي إتش ، سونج جي إس ، ثانكي إن ، وانغ زي ، ياماشيتا را ، تشانغ د ، تشنغ سي ، براينت ش. CDD: قاعدة بيانات المجال المحفوظة لـ NCBI. الدقة الأحماض النووية. 2015 يناير 2843 (إصدار قاعدة البيانات): D222-2. دوى: 10.1093 / nar / gku1221. Epub 2014 نوفمبر 20. [PubMed PMID: 25414356] [نص كامل]

      نقلاً عن أداة CD-Search أو Batch CD-Search:

      توفر صفحة ملخص الهيكل المعلومات التالية لسجل بنية جزيئية ثلاثية الأبعاد (مثال: __PDB_ACCN_AND_MMDB_ID__: ___short_title_of_record):


      المواد والأساليب

      مجموعة بيانات "عالم البروتين"

      لمقارنة غير متحيزة لجميع الطرق المغطاة ، تم استخدام نفس مجموعة البيانات في جميع الأوقات. تم إنشاء مجموعة بيانات "عالم البروتين" (بيانات غير منشورة) [18] من خلال مقارنة جميع البروتينات المعروفة والمتوقعة حاليًا (SpTrEMBL [19] ، RefSeq [20] ، Ensembl [21]) من خلال خوارزمية Smith-Waterman [22] ] ، باستخدام قيم Z للحصول على تقدير مستقل بحجم قاعدة البيانات للأهمية [23]. لقد ثبت أن خوارزمية Smith-Waterman أكثر حساسية [24] من التقريبات الأسرع (البرمجة غير الديناميكية) ، خوارزميات BLAST [25] و FASTA [26]. مجموعة البيانات متاحة مجانًا من خلال موقع الويب الخاص بمركز المعلوماتية الجزيئية والجزيئية الحيوية [27]. نظرًا لأن بيانات التعبير الجيد والبيانات الوظيفية الأخرى كانت متاحة للإنسان والماوس والديدان ، فقد استخدمنا العلاقات التقويمية بين هذه الأنواع الثلاثة لدراستنا.

      طرق تحديد تقويم العظام

      طرق تحديد تقويم العظام الستة المشمولة في هذه الدراسة مذكورة أدناه. يتم تضمين أفضل طريقة ضرب ثنائية الاتجاه وخمس طرق متعدد إلى متعدد. تنقسم طرق متعدد إلى متعدد إلى طرق تقويم جماعي وطرق تقويم غير جماعية. تحدد طرق تقويم المجموعة ، KOG [9] و INP [6] و MCL [7] ، مجموعات عديدة ومتميزة من الجينات والبروتينات المتعامدة. لا تحدد طريقتا متعدد إلى متعدد ، وهما PGT [10] و Z1H ، المجموعات المتعامدة ، ولكن لا يزال بإمكانهما تحديد علاقات أطراف كثيرة. يوضح الجدول 3 عدد المجموعات المتعامدة والبروتينات الفريدة وأزواج البروتين ضمن مجموعات تقويم العظام المتعددة. متوسط ​​حجم البروتين هو المتوسط ​​الهندسي للعدد الإجمالي للبروتينات البشرية الفريدة والعدد الإجمالي لبروتينات الفأر / الدودة الفريدة ضمن العلاقات التقويمية المحددة.

      أفضل ضربة ثنائية الاتجاه

      أفضل طريقة ثنائية الاتجاه (BBH) هي الطريقة الأكثر استخدامًا لتحديد الأزواج المتعامدة. يفترض أن زوج البروتين المتقاطع الذي يعيد فيه كل بروتين البروتين الآخر باعتباره أفضل نتيجة في البروتين الآخر بأكمله هو زوج متعامد. في هذا البحث ، تم تحديد أفضل النتائج ثنائية الاتجاه بناءً على قيم Z لمجموعة بروتين عالم الإنسان والفأر والديدان البشرية ، دون قطع تشابه في التسلسل. في المجموع ، تم تحديد 12817 فأرًا بشريًا و 5714 زوجًا لتقويم العظام للديدان البشرية. على الرغم من أن طريقة BBH من الناحية النظرية يمكن أن تعطي بعض أخصائي تقويم العظام ، إلا أنها تعطي عمليًا فقط أزواج تقويم العظام واحد لواحد.

      InParanoid

      في طريقة INP [6] ، تم الكشف عن جميع درجات التشابه الزوجي الممكنة بين مجموعات البيانات A-A و B-B و A-B و B-A التي حصلت على درجات أعلى من الحد الفاصل (bitscore ≥50 ، تداخل ≥50٪). ثم يتم تحديد أفضل الضربات ثنائية الاتجاه وتمييزها كأطباء تقويم محتملين. يتم تمييز الأزواج الموجودة في الأنواع التي تحصل على درجات أعلى من هذه الأزواج المتعامدة على أنها أخصائيو تقويم إضافية. تحصل هذه `` in-paralogs '' على قيم ثقة تشير إلى مدى تشابهها مع أخصائي تقويم العظام الرئيسي: يتم تعيين 100٪ إلى أخصائي تقويم العظام الرئيسي و 0٪ يتم تخصيصه لتسلسل مع الحد الأدنى من نقاط التشابه المطلوبة ليتم تمييزها على أنها متوازنة من مجموعة معينة. أخيرًا ، يتم حل المجموعات المتداخلة من أخصائيي تقويم العظام وتتم إضافة قيم الثقة القائمة على التمهيد لجميع مجموعات أخصائيي تقويم العظام. بالإضافة إلى ذلك ، يمكن استخدام بروتين خارج المجموعة لاختبار أهمية الدرجات في paralog. تم تنزيل الإصدار 1.35 من InParanoid [28] وتم تشغيل البرنامج باستخدام المعلمات القياسية ، باستثناء استخدام مصفوفة BLOSUM80 بدلاً من مصفوفة BLOSUM62 القياسية. تعتبر مصفوفة BLOSUM80 أكثر ملاءمة عند دراسة أزواج البروتين ذات المسافات التطورية الصغيرة نسبيًا. تم استبعاد بروتين المجموعة الخارجية الثالثة الاختيارية. استخدمنا Paracel BLAST 1.4.9. من خلال خوارزمية INP ، تم تحديد 19،482 زوجًا متعامدًا بين الإنسان والماوس ، والتي تضم 12،610 مجموعة تقويمية تم تحديد 17،011 زوجًا لتقويم العظام بين الإنسان والديدان ، والتي تضم 4،135 مجموعة تقويمية.

      مجموعات euKaryotic المتعامدة

      قاعدة بيانات KOG [9] هي النسخة الخاصة بحقيقيات النوى من قاعدة بيانات COG [5]. يعتبر الكثيرون أن قاعدة البيانات الأخيرة هي قاعدة بيانات تقويم العظام القياسية في هذه اللحظة. يبدأ كل من إجراء COG و KOG بمقارنة الكل ضد الكل باستخدام BLAST ، متبوعًا باكتشاف مثلثات أفضل النتائج المتسقة المتبادلة والخاصة بالجينوم (BeTs). في وقت لاحق يتم دمج المثلثات ذات الجانب المشترك لتشكيل KOGs الأولية الخام ، وبعد ذلك يتم إجراء تحليل لكل حالة على حدة لكل KOG مرشح ، من بين أمور أخرى لتقسيم البروتينات المندمجة. يكمن الاختلاف بين COG و KOG في الخطوة الأخيرة ، المعالجة اليدوية. يولي إجراء KOG اهتمامًا إضافيًا بالبروتينات متعددة المجالات ، وهي شائعة جدًا في حقيقيات النوى. تتكون قاعدة بيانات KOG حاليًا من سبعة بروتينات حقيقية النواة. تم استخدام بلاست ضد الكل لتحديد KOG المقابل لكل بروتين بشري وفأر ودودة داخل مجموعة SpTrEMBL. تم تحديد العلاقات المتعامدة بين جميع البروتينات البشرية والماوس والديدان داخل KOG. بسبب المجموعات الكبيرة التي يمكن تشكيلها بواسطة KOGs ، تم تحديد ما لا يقل عن 810،697 زوجًا من البروتينات التقويمية البشرية والفأر ، مقسمة على 7874 مجموعة تقويمية تم تحديد 155387 زوجًا متعامدًا بين الإنسان والديدان ، والتي تضم 4155 مجموعة متعامدة.

      OrthoMCL

      تبدأ خوارزمية MCL [7] بـ BLASTP الكل ضد الكل ، وبعد ذلك يتم تمييز أزواج التشابه المتبادل الأفضل بين الأنواع كأخصائيي تقويم مفترضين وأزواج التشابه المتبادل الأفضل على أنها نظائر مماثلة حديثة. يتم حساب مصفوفة التشابه ، متبوعة بمجموعة ماركوف [29] ، والتي تحدد المجموعات المتعامدة. تم الحصول على قائمة بجميع معرفات البروتين البشري والفأر المرتبطة بمعرف مجموعة OrthoMCL من المؤلفين. تم تعيين معرفات بروتين Ensembl هذه إلى بروتين SpTrEMBL باستخدام EnsMart [30] الإصدار 19.3 [31]. تم تحديد العلاقات التقويمية بين جميع البروتينات البشرية والماوسية في جميع المجموعات البالغ عددها 7002 ، والتي تعطي إجمالي 12،625 زوجًا من البروتينات المتعامدة. تم تصحيح فقدان أخصائي تقويم العظام من خلال حساب عدد معرفات المجموعة المعينة لمعرف SpTrEMBL (57.3397٪). تم تقسيم متوسط ​​حجم البروتين البالغ 9018 (للفأر البشري) على 0.573397 ، مما يعطي عددًا مصححًا من البروتينات وهو 15727. تم الحصول على معرفات الدودة البشرية من خلال OrthoMCL-DB الجديد [32] تم تحديد 9749 زوجًا من البروتينات التقويمية للديدان البشرية ، والتي تضم 4705 مجموعة تقويمية. بسبب طريقة رسم الخرائط المختلفة ، لم نكن بحاجة إلى تصحيح متوسط ​​حجم بروتين الدودة البشرية.

      Z 1 مائة

      ضمن طريقة Z1H ، تعتبر جميع أزواج البروتين عبر الأنواع التي لها درجة Z 100 أو أعلى كأخصائيين تقويم. تقدر قيمة Z الأهمية الإحصائية لدرجة المحاذاة الديناميكية لـ Smith-Waterman (درجة SW) من خلال استخدام عملية مونت كارلو [23]. في هذا النهج ، يتم خلط أزواج التسلسلات المحددة عشوائيًا 200 مرة وإعادة ترتيبها. يتم بعد ذلك تحديد أهمية درجة SW للزوج المحدد من خلال مقارنة درجة SW للزوج المحدد مع الدرجات للأزواج التي تم خلطها. من خلال مقارنة النتيجة مع تلك الخاصة بالتسلسلات المتتالية ، تأخذ الطريقة ضمنيًا في الاعتبار تأثيرات تكوين التسلسل وطول التسلسل. تحتوي مجموعة Z1H على أزواج من المتواليات التي تكون نقاط SW الخاصة بها أعلى بمئة انحراف معياري من متوسط ​​درجة SW للتسلسلات التي تم خلطها. باستخدام طريقة Z1H ، تم تحديد 290176 فأرًا بشريًا و 21509 زوجًا من بروتينات تقويم العظام للديدان البشرية. لا تحدد الخوارزمية مجموعات مميزة من البروتينات ، وبالتالي فهي طريقة غير جماعية.

      شجرة النشوء والتطور

      تستخدم طريقة PGT المخرجات الناتجة عن المحاذاة المتعددة وحساب الشجرة التالي [10] لتحديد العلاقات المتعامدة. على الرغم من أن مثل هذه الحسابات تستغرق وقتًا طويلاً ، إلا أنها يجب أن تعطي فكرة أفضل عن تطور البروتينات المدروسة ، ومن حيث المبدأ تكون أقرب إلى التعريف التطوري الأصلي لتقويم العظام. تم تحديد تقويم العظام من خلال تجميع جميع البروتينات على 9 أنواع حقيقية النواة مغطاة في Protein World والتي لها قيمة Z أعلى من 20 مقارنة بأحد البروتينات البشرية ، ولها منطقة تماثل أكبر من 50٪ من طول الاستعلام. تمت محاذاة المجموعات الناتجة البالغ عددها 23،829 باستخدام إصدار ClustalW 1.82 [33] ، وتم إنشاء الأنساب باستخدام الانضمام إلى الجوار [34]. لحساب أشجار النشوء والتطور ، استخدمنا فقط المواضع التي كانت موجودة في جميع التسلسلات المتوافقة ، وتم ترجمة مستويات هوية تسلسل البروتين إلى مسافات تطورية باستخدام تصحيح Kimura كما هو مطبق في ClustalW. تم تعيين المعلمات الأخرى على الافتراضي. بعد العمليات الحسابية ، تختار خوارزمية تحديد تقويم العظام الأقسام في الشجرة التي تتضمن فقط أخصائيي تقويم العظام والمعاقين لتحديد العلاقات التقويمية لكل زوج من الأنواع [10]. بالنسبة للإنسان والفأر ، تم تحديد 85848 علاقة. بالنسبة للإنسان والديدان ، تم تحديد 49،979 علاقة. نظرًا لأن شجرة النشوء والتطور تُحسب لمتماثلات كل تسلسل ، ولم يتم دمج الأشجار ، فإن هذه الطريقة تشبه طريقة Z1H ، وليست طريقة مجموعة نقية.

      المعايير

      فيما يلي وصف وسير عمل المعايير المستخدمة. يقيس أول معيارين "الحفظ المباشر للمعلمات الوظيفية" ، أي أنهما يفحصان بروتينًا واحدًا فقط في الإنسان وبروتينًا واحدًا في الفئران / الدودة. تقارن الطرق الثلاثة الأخيرة العلاقة بين بروتينين في الإنسان بالعلاقة بين أخصائيي تقويم العظام في الماوس / الدودة ("الحفظ الزوجي للمعلمات الوظيفية").

      تم تحليل نتائج طرق تقويم العظام بطريقتين: لقد حددنا متوسط ​​الدرجات لجميع علاقات تقويم العظام الزوجي داخل مجموعة تقويم العظام وفكرنا فقط في أفضل زوج مسجل ضمن مجموعة تقويم العظام. من الواضح أن الخيار الأخير يؤدي إلى درجة أعلى بكثير لعلاقات تقويم العظام من متعدد إلى متعدد. ومع ذلك ، من خلال تضمين زوج واحد فقط من متواليات تقويم العظام لكل مجموعة تقويم العظام ، يتم موازنة هذه الدرجة العالية من خلال تقليل العدد الإجمالي للعلاقات التقويمية (واحد لكل مجموعة تقويم العظام). يتم أخذ كل من عدد العلاقات التقويمية ونوعية هذه العلاقات في الاعتبار في التقييم النهائي لخوارزميات تحديد تقويم العظام.

      الحفظ المباشر للمعلمات الوظيفية

      لاختبار الحفاظ على الوظيفة ، تم حساب ارتباط بيرسون بين ملامح التعبير للبروتينات في زوج متعامد. كانت مجموعة بيانات التعبير المستخدمة هنا [35] عبارة عن مجموعة فرعية من عينات أنسجة بشرية وفأرية طبيعية مرضيًا من منتج قاعدة بيانات Gene Logic BioExpress [36]. بسبب التداخل الصغير لفئات الأنسجة (115 في الإنسان ، 25 في الماوس) ، تم استخدام فئات نسيج SNOMED [37] لحساب معامل الارتباط (15 في الإنسان ، و 12 في الماوس ، و 12 فئة متداخلة). تتكون مجموعة البيانات البشرية من 3269 عينة من الأنسجة و 44792 شظية (كدنا) ومجموعة بيانات الماوس المكونة من 859 عينة من الأنسجة و 36701 شظية (كدنا). الارتباط المثالي له درجة 1 ، بينما يكون للارتباط المضاد المثالي درجة -1. استخدمنا بيانات التعبير من ستيوارت وزملائه [38] لتحليل الدودة البشرية ، ومقارنة الأنسجة من كلا النوعين التي لها ملامح تعبير متشابهة. لأسباب تتعلق بالحساب لتوفير الوقت ، استخدمنا عينة من مجموعة البيانات لحساب الأنسجة المتشابهة: تمت مقارنة أول 10 أنسجة بشرية مع جميع أنسجة الديدان البالغ عددها 978 ، باستخدام أول 10 ميتاجين حددها ستيوارت وآخرون. شوهدت "أفضل نتيجة" لعينات أنسجة الدودة لكل عينة من الأنسجة البشرية على أنها نسيج مطابق. ثم تم استخدام هذه الأنسجة العشرة المقابلة لحساب معاملات ارتباط بيرسون بين بروتينات الإنسان والديدان ، والتي تم استخدام الارتباطات الإيجابية منها فقط. تم تصحيح أحجام البروتين لذلك بضربها في اثنين ، قبل حساب متوسط ​​حجم البروتين. لأسباب تتعلق بالتمثيل البصري ، عرضنا أشرطة خطأ تبلغ ثُمن SD فقط. نظرًا للاختلافات بين تحليلات بيانات تعبير الفأر البشري والديدان البشرية ، نؤكد أنه لا ينبغي مقارنة الرقمين (الشكلان 1 أ و 1 ب) ببعضهما البعض. ومع ذلك ، يمكن استخدام الأرقام لمقارنة طرق تحديد تقويم العظام داخل أزواج هذه الأنواع.

      يمكن أيضًا قياس الحفاظ على الوظيفة الجزيئية من خلال فحص ما إذا كان أخصائي تقويم العظام من نفس عائلة InterPro [39]. يمثل كل رقم انضمام لـ InterPro عائلة أو مجالًا بروتينيًا ، يحتوي على مجموعة عبر الأنواع من البروتينات المتماثلة مع شرح وظيفي خاص بها. البروتينات داخل عائلة بروتين InterPro لها تركيبات مجال مماثلة. مرة أخرى ، كلما زادت النسبة المئوية بأرقام انضمام متساوية InterPro ، كان الحفاظ على الوظيفة أفضل. نظرًا لأن التعليق التوضيحي لـ InterPro يعتمد على التشابه مع المجالات المحددة مسبقًا ، فهو ليس مستقلاً عن التسلسل ولا يمكن استخدامه كمعيار مستقل تمامًا. ومع ذلك ، فإنه يسمح للشخص بالحكم إلى أي مدى تمتلك البروتينات التي تعتبر متعامدة نفس تكوين المجال. هذا مهم لأن معظم الطرق التلقائية للتنبؤ بتقويم العظام ، مثل OrthoMCL ، لا تتطلب أن تكون البروتينات متجانسة كاملة الطول.

      الحفظ الزوجي للمعلمات الوظيفية

      لقياس حفظ التعبير المشترك ، تم أولاً حساب الارتباط بين ملفات تعريف التعبير لكل زوج من الجينات البشرية والإنسانية. كانت مجموعة بيانات التعبير المستخدمة عبارة عن مجموعة فرعية من عينات الأنسجة البشرية والفأرية الطبيعية المرضية من منتج قاعدة بيانات Gene Logic BioExpress ، كما هو مذكور أعلاه. استخدمنا هذه المرة جميع الفئات الـ 115 لحساب معامل ارتباط بيرسون للأزواج البشرية والإنسانية ، وقمنا بحساب معاملات ارتباط بيرسون لأزواج جينات الفأر والفأر باستخدام 25 فئة من الأنسجة في الماوس. يعتبر التعبير المشترك محفوظًا عندما يكون لزوج الجين البشري المدروس الذي له معامل ارتباط بيرسون أعلى من عتبة معينة زوجًا من الجينات المتعامدة في الماوس يحتوي على معامل ارتباط بيرسون أعلى من نفس العتبة. تفاوتت هذه العتبة بين 0.0 و 1.0 بفاصل 0.1. يمكن استخدام التعبير المشترك للتنبؤ بوظيفة البروتين ، خاصة عندما يتم حفظها في التطور [10 ، 15]. لاختبار أي من مجموعات تقويم العظام يمكن استخدامها بشكل أفضل لتحسين التنبؤ بالوظيفة القائمة على التعبير المشترك ، حددنا أيضًا أزواج البروتين التي كانت نشطة في نفس العملية ، باستخدام قاعدة بيانات GO [16]. قيل إن بروتينين نشطين في نفس العملية إذا كانا يشتركان في عنصر المستوى الرابع من شجرة العملية البيولوجية GO ، حيث يكون الجذر هو عنصر المستوى 0 وكل فرع لاحق يكون بمستوى واحد أعلى. أخيرًا ، تم حساب جزء مجموعة البروتين الكلية التي تشارك عنصر المستوى الرابع هذا للعديد من العتبات ، كمقياس لحساسية وانتقائية طريقة تحديد تقويم العظام للتنبؤ بالوظيفة عن طريق الحفاظ على التعبير المشترك. في هذا التحليل ، تم تجاهل ملصقات GO مثل "غير محدد". تم إجراء تحليل الدودة البشرية بطريقة مماثلة ، ولكن باستخدام بيانات التعبير من ستيوارت وزملائه [38]. لحساب معاملات الارتباط الموثوقة ، استخدمنا فقط الجينات هنا التي تحتوي على بيانات تعبيرية لما لا يقل عن 900 عينة من أصل 1202 عينة من الأنسجة البشرية. في الدودة ، استخدمنا جميع الجينات التي تحتوي على بيانات تعبير لما لا يقل عن 500 عينة من أصل 979 عينة نسيج.

      يعتبر الحفاظ على ترتيب الجينات هو المقياس الثاني للحفظ الزوجي. قمنا هنا بفحص ما إذا كان هناك جينان متجاوران على الجينوم باستخدام EnsMart [30] الإصدار 19.3 [31] لتحليل الفأر البشري والإصدار 34 من EnsMart لتحليل الدودة البشرية. لكل زوج من الأزواج حيث كان هذا هو الحال ، قمنا بفحص ما إذا كان أخصائيو تقويم العظام في الماوس / الدودة متجاورين أيضًا على الجينوم. إذا كان الأمر كذلك ، فقد تم اعتبار ترتيب الجينات محفوظًا لهذا الزوج الجيني. نظرًا لعدم الحاجة إلى عتبة متغيرة (هناك جينان متجاوران أم لا) ، فهذا أكثر مباشرة من قياس حفظ التعبير المشترك. يتم استخدام جزء الجينات البشرية المجاورة التي يكون أخصائيو تقويم العظام في الفئران / الدودة أيضًا جيرانًا لها كمقياس لدقة تنبؤات تقويم العظام.

      المقياس الثالث للحفظ الزوجي هو الحفاظ على تفاعل البروتين والبروتين. تم استخدام قاعدة بيانات قاعدة بيانات البروتينات المتفاعلة (DIP) [40] لتحديد تفاعلات البروتين البروتين في الإنسان والفأر / الدودة. يعتبر تفاعل البروتين والبروتين محفوظًا عندما يتفاعل بروتينان متفاعلان في الإنسان مع أخصائي تقويم العظام في الفأر / الدودة التي تتفاعل أيضًا. مرة أخرى ، يعتبر جزء التفاعل بين البروتينات البشرية التي يتفاعل معها أخصائيو تقويم العظام في الفئران / الدودة مقياسًا للحفاظ على الوظيفة.

      مجموعة مرجعية تقويم العظام

      حددنا قائمة "أزواج تقويم العظام الحقيقية" ، لكل من الفأر البشري والديدان البشرية ، كمجموعة مرجعية. اخترنا بروتينات كتلة Hox والهيموغلوبين كمجموعة مرجعية بين الإنسان والفأر بسبب تطورها المدروس جيدًا في الفقاريات. حددنا تقويم تقويم المثلية باستخدام الشكل 1 من [41]. نتج عن ذلك 41 زوجًا من البروتينات المتعامدة ، تتكون من 31 بروتينًا بشريًا و 35 بروتينًا للفأر. تم التعرف على أخصائيو تقويم الهيموجلوبين باستخدام Lecomte وآخرون. [42] ، مما أدى إلى تكوين تسعة أزواج من أربعة بروتينات بشرية وتسعة بروتينات فئران. بالنسبة للديدان البشرية ، استخدمنا التحليل على المستقبلات النووية التي أجراها جيسيندانر وآخرون. [43] ، مما أدى إلى تكوين 29 زوجًا متعامدًا من 22 بروتينًا بشريًا و 18 بروتينًا دوديًا. تم إجراء تحليل تقويمي ثانٍ للديدان البشرية على عائلة المستقبلات الشبيهة بالحصيلة [44] ، والتي تحتوي على عضو واحد فقط في الدودة ولكن 10 أفراد في الإنسان. تم تحليل عائلة البروتين الخامسة والأخيرة ، البروتينات الشبيهة بالبروتينات Sm و Sm [45] ، لكل من أخصائيي تقويم العظام والديدان البشرية. بالنسبة لهذه العائلة ، وجدنا 13 بروتينًا بشريًا و 17 بروتينًا للفأر في 17 زوجًا متعامدًا ، جنبًا إلى جنب مع 6 بروتينات بشرية و 6 بروتينات دودة في 6 أزواج.

      لكل جزء من هذه الأجزاء من مجموعتنا المرجعية ولكل من طرق تحديد تقويم العظام الستة ، حددنا عدد الأزواج المتعامدة التي تمت تغطيتها ، جنبًا إلى جنب مع عدد الإيجابيات الخاطئة (الأزواج التي تحتوي فقط على البروتين البشري أو بروتين الفأر / الدودة من زوج مرجعي). أخيرًا ، لإجراء مقارنة عادلة بين طرق تحديد تقويم العظام المتعددة ، قمنا بحساب عدد الأزواج المتعامدة مقسومًا على متوسط ​​حجم البروتين.


      بروتياز الإنسان والفأر: نهج جينومي مقارن

      الإنزيمات المحللة للبروتين لها أدوار أساسية في جميع الكائنات الحية. بالإضافة إلى أنشطة التحليل المائي غير المحددة ، قد يعمل البروتياز أيضًا كأنزيمات معالجة تؤدي إلى انقسام انتقائي للغاية ومحدود من ركائز معينة. تعتبر أحداث المعالجة المحللة للبروتين هذه ضرورية في التحكم في سلوك الخلية وبقائها وموتها ، وقد تتغير في العديد من الحالات المرضية.

      أدى التوافر الأخير لتسلسل الجينوم البشري والفأر إلى فتح إمكانية التحليل المقارن والعالمي للتدهور المقابل - المجموعات الكاملة من البروتياز التي تنتجها هذه الكائنات.

      يتكون التحلل البشري من 553 بروتياز ومتماثل على الأقل ، والتي يتم توزيعها في خمس فئات: 21 أسبارتيك ، 143 سيستين ، 186 ميتالو ، 176 سيرين و 27 ثريونين بروتياز. يعتبر تدهور الفئران أكثر تعقيدًا ، حيث يحتوي على ما لا يقل عن 628 عضوًا - 514 منهم عبارة عن تقويم حقيقي للبروتياز البشري. ينشأ هذا التعقيد المتزايد بشكل أساسي من توسع عائلات إنزيم البروتين في الفئران المرتبطة بالوظائف الإنجابية والمناعية.

      كان الدافع وراء تطور تدهور كل من الإنسان والفأر هو دمج مجموعة واسعة من الوحدات الوظيفية المتخصصة في المجالات التحفيزية. توجد هذه المجالات المساعدة في أكثر من 40٪ من البروتياز ، وتعمل على تعديل تفاعلها مع الركائز والمثبطات والمستقبلات.

      ترتبط العديد من البروتياز بأمراض الإنسان بسبب الإفراط في التعبير عنها في أمراض مثل السرطان والتهاب المفاصل والأمراض التنكسية العصبية وأمراض القلب والأوعية الدموية. ومع ذلك ، قمنا أيضًا بفهرسة 53 اعتلالًا وراثيًا ناتجًا بشكل رئيسي عن طفرات فقدان الوظيفة في جينات البروتياز. قدم جيل نماذج الفئران معلومات قيمة عن الآليات الجزيئية التي لها دور في تطور وتطور العديد من الأمراض التي تنطوي على تغييرات في وظيفة البروتياز.

      قد يسهل التحليل الجزيئي لأنظمة البروتياز تطوير استراتيجيات جديدة لعلاج أمراض تحلل البروتين من خلال تحديد الهدف والتصميم العقلاني لمثبطات انتقائية لمنع البروتياز المفرط أو ، بدلاً من ذلك ، من خلال الطرق التي تهدف إلى استبدال أو زيادة نشاط الغائب أو المعيب. البروتياز.


      ما هي أفضل طريقة للعثور على المجالات الموجودة في قائمة معرفات InterPro التي تعتبر محفزة؟ - مادة الاحياء

      قد تستخدم المواقع الخارجية التالية تجميعات أو تعليقات توضيحية مختلفة عن FlyBase.

      يرجى الاطلاع على عرض JBrowse لـ Dmel Sodh-1 للحصول على معلومات حول الميزات الأخرى

      لتقديم تصحيح لنموذج جيني ، يرجى استخدام نموذج Contact FlyBase

      تمت مراجعة النموذج الجيني خلال 5.50

      تمت مراجعة النموذج الجيني خلال 5.55

      تشترك مجموعة (مجموعات) polypeptides الموضحة أدناه في تسلسل متطابق مع بعضها البعض.

      انقر للحصول على قائمة بالميزات التنظيمية (المعززات ، TFBS ، إلخ) واضطرابات الجينات (الطفرات النقطية ، indels ، إلخ) داخل أو تداخل Dmel Sodh-1 باستخدام ميزة مخطط أداة.

      تعليق: anlage في حالة ناسندي

      تعليق: anlage في حالة ناسندي

      تعليق: anlage في حالة ناسندي

      تعليق: ذكرت على أنها بريمورديوم الغدة اللعابية

      تم الكشف عن نصوص Sodh-1 و Sodh-2 في مراحل اليرقات والبالغين ، وعند مستويات منخفضة في مراحل العذراء. Sodh-1 هو النص الرئيسي في جميع المراحل التي تمت دراستها.

      GBrowse - عرض مرئي لإشارات RNA-Seq

      يرجى الملاحظة لم يعد FlyBase يشرف على عمليات استنساخ الجينوم ، لذا قد لا تكون هذه القائمة كاملة

      يرجى الملاحظة يسرد هذا القسم cDNAs و ESTs التي تقع ضمن النطاق الجيني للنموذج الجيني ، والذي قد يشمل cDNAs و ESTs للجينات داخل الإنترونات ، أو الجينات المتداخلة. يرجى الاطلاع على GBrowse لمحاذاة cDNAs و ESTs مع نموذج الجينات.

      لكل (كدنا) متسلسل بالكامل ، يحتفظ DGRC بأشكال مختلفة من (كدنا) (مثل الموسومة أو غير الموسومة) في عدة نواقل مضيفة مختلفة للاستنساخ اللاحق والتعبير في خطوط خلايا ذبابة الفاكهة و ذبابة الفاكهة.


      ما هي أفضل طريقة للعثور على المجالات الموجودة في قائمة معرفات InterPro التي تعتبر محفزة؟ - مادة الاحياء

      قد تستخدم المواقع الخارجية التالية تجميعات أو تعليقات توضيحية مختلفة عن FlyBase.

      يرجى الاطلاع على عرض JBrowse لـ Dmel Jheh3 للحصول على معلومات حول الميزات الأخرى

      لتقديم تصحيح لنموذج جيني ، يرجى استخدام نموذج Contact FlyBase

      تمت مراجعة النموذج الجيني خلال 5.50

      لا يوجد سوى نص ترميز بروتين واحد وعديد ببتيد واحد مرتبط بهذا الجين

      انقر للحصول على قائمة بالميزات التنظيمية (المعززات ، TFBS ، إلخ) واضطرابات الجينات (الطفرات النقطية ، indels ، إلخ) داخل أو تداخل Dmel Jheh3 باستخدام ميزة مخطط أداة.

      GBrowse - عرض مرئي لإشارات RNA-Seq

      يرجى الملاحظة لم يعد FlyBase يشرف على عمليات استنساخ الجينوم ، لذا قد لا تكون هذه القائمة كاملة

      يرجى الملاحظة يسرد هذا القسم cDNAs و ESTs التي تقع ضمن النطاق الجيني للنموذج الجيني ، والذي قد يشمل cDNAs و ESTs للجينات داخل الإنترونات ، أو الجينات المتداخلة. يرجى الاطلاع على GBrowse لمحاذاة cDNAs و ESTs مع نموذج الجينات.

      لكل (كدنا) متسلسل بالكامل ، يحتفظ DGRC بأشكال مختلفة من (كدنا) (مثل الموسومة أو غير الموسومة) في عدة نواقل مضيفة مختلفة للاستنساخ اللاحق والتعبير في خطوط خلايا ذبابة الفاكهة و ذبابة الفاكهة.


      شاهد الفيديو: القائمة المنسدلة المعتمدة على قائمة أخرى (كانون الثاني 2022).