معلومة

ما هي طرق استنتاج التفاعلات الجينية؟


هل يوجد تصنيف لطرق استنتاج التفاعلات الجينية؟ أعني بعض الأعمال المنشورة ، تستخدم بيانات الجينوميات الجينية. هل هذا ممكن مع بيانات التعبير وحدها؟ وماذا عن شاشات الاضطراب؟ أعتقد أنهم جميعًا بحاجة إلى معلومات حول المسوخ / الاختلافات الجينية؟


BioGRID هي قاعدة بيانات تفاعلية ، وتقوم بفهرسة التفاعلات (من بين أشياء أخرى) فئة التجربة التي اكتشفتها. انظر http://wiki.thebiogrid.org/doku.php/experimental_systems#genetic_interactions

بخلاف ذلك ، يجب أن تنظر في المراجعات والمنشورات الحديثة ، ولكنك ستضيع بسهولة ما لم تكتشف بعض التفاصيل المهمة ، مثل:

  • ما الأنواع؟ الخميرة ، الدودة ، الإنسان ، خط الخلية؟
  • أي نوع من التفاعل؟ فتك اصطناعي؟ نزهة معقدة ، خيالية؟
  • كم الثمن؟ على مستوى الجينوم؟ 2-3 جينات؟

نظرة عامة على الطرق الإحصائية المستخدمة لاستنتاج شبكات تنظيم الجينات وشبكات تفاعل البروتين البروتين.

تميز حقبة ما بعد الجينوم بتوافر طوفان من البيانات الجينومية ، مما مكن الباحثين من البحث عن أبعاد جديدة لفهم العمليات البيولوجية المعقدة التي تحكم حياة الكائن الحي [1-5]. يتم تنفيذ وظائف الحفاظ على الحياة المختلفة من خلال جهد تعاوني يشمل الحمض النووي والحمض النووي الريبي والبروتينات. تتفاعل الجينات والبروتينات مع نفسها ومع بعضها البعض وتنسق الإنجاز الناجح للعديد من المهام المهمة. إن فهم كيفية عملهم معًا لتشكيل شبكة خلوية في كائن حي أمر مهم للغاية في مجال البيولوجيا الجزيئية. مشكلتان مهمتان في هذا المجال الناشئ إلى حد كبير من البيولوجيا الحسابية هما استدلال شبكات تنظيم الجينات واستدلال شبكات تفاعل البروتين البروتين. تبحث هذه الورقة أولاً في كيفية تفاعل الجينات والبروتينات مع نفسها ثم تناقش الاستدلال على شبكة خلوية تكاملية من الجينات والبروتينات مجتمعة.

تنظيم الجينات هو واحد من العديد من العمليات الرائعة التي تحدث في كائن حي حيث يتم التحكم في التعبير عن الجينات وقمعها بطريقة منهجية. بمساعدة إنزيم بوليميراز RNA ، ينتقل الحمض النووي إلى mRNA والذي قد يترجم أو لا يترجم إلى بروتينات. لقد وجد أنه في بعض الحالات الخاصة يتم نسخ الرنا المرسال إلى الحمض النووي. يتم تمثيل عمليات النسخ والترجمة بشكل تخطيطي في الشكل 1 ، حيث تظهر التفاعلات باللون الأسود الإطار الأكثر عمومية والتفاعلات الموضحة باللون الأحمر تحدث بشكل أقل تكرارًا. تلعب عوامل النسخ (TFs) ، وهي فئة من البروتينات ، دورًا مهمًا في الارتباط بالحمض النووي وبالتالي تنظيم نسخها. نظرًا لأن الجينات قد تكون ترميزًا لـ TFs و / أو بروتينات أخرى ، يتم تكوين شبكة معقدة من الجينات والبروتينات. يتم قياس مستوى نشاط الجين من حيث كمية المنتج الوظيفي الناتج ، ويشار إليه بالتعبير الجيني. إن التقنيات الجينومية الحديثة عالية الإنتاجية قادرة على قياس قيم التعبير الجيني وقدمت مجموعات بيانات واسعة النطاق ، والتي يمكن استخدامها للحصول على رؤى حول كيفية تنظيم شبكات الجينات وتشغيلها. أحد أكثر التمثيلات التي تمت مواجهتها لشبكات تنظيم الجينات هو من حيث الرسم البياني ، حيث يتم تصوير الجينات من خلال عقدها وتمثل الحواف التفاعلات فيما بينها.

تتمثل مشكلة الاستدلال في شبكة تنظيم الجينات (GRN) في فهم نموذج النظام الأساسي [6-10]. ببساطة ، بالنظر إلى بيانات التعبير الجيني ، يجب تحديد إجراءات التنشيط أو القمع بواسطة مجموعة من الجينات على الجينات الأخرى. هناك العديد من المشكلات المرتبطة بهذه المشكلة ، بما في ذلك اختيار النماذج التي تلتقط تفاعلات الجينات بشكل جيد بما فيه الكفاية ، متبوعة بخوارزميات استدلال قوية وموثوقة يمكن استخدامها لاستخلاص استنتاجات حاسمة حول الشبكة. تختلف الشبكات المستنتجة في تطورها اعتمادًا على مدى ودقة المعرفة السابقة المتاحة ونوع النماذج المستخدمة في العملية. من المهم أيضًا أن تمتلك شبكات الجينات التي يتم استنتاجها على هذا النحو الجودة المرغوبة للغاية لإمكانية التكاثر من أجل الحصول على درجة عالية من الثقة بها. يمكن لصورة دقيقة بما فيه الكفاية للتفاعلات الجينية أن تمهد الطريق لاختراقات مهمة في إيجاد علاجات لمختلف الأمراض الجينية بما في ذلك السرطان.

تعتبر تفاعلات البروتين والبروتين (PPIs) ذات أهمية كبيرة لعمل الخلية. يمكن الحصول على نظرة ثاقبة للآلية الجزيئية من خلال إيجاد تفاعلات البروتين بدرجة عالية من الدقة [11 ، 12]. لا تتكون شبكات تفاعل البروتين فقط من التفاعلات الثنائية ، ولكن من أجل تنفيذ المهام المختلفة ، تعمل البروتينات معًا مع مجموعات لتشكيل مجمعات بروتينية. يجب التأكيد على أن بروتينًا معينًا ربما يكون جزءًا من مجمعات بروتينية مختلفة ، وبالتالي فإن مشكلة الاستدلال أكثر تعقيدًا. تتيح مجموعات البيانات البروتينية عالية الإنتاجية الحالية استنتاج تفاعلات البروتين البروتين. ومع ذلك ، فقد وجد أن تفاعلات البروتين البروتين التي تم الحصول عليها باستخدام طرق مختلفة قد لا تكون مكافئة ، مما يشير إلى وجود عدد كبير من الإيجابيات والسلبيات الخاطئة في البيانات. على غرار تمثيل شبكات تنظيم الجينات ، سيتم أيضًا تصميم شبكات تفاعل البروتين البروتين من حيث الرسوم البيانية ، حيث تشير البروتينات إلى العقد وتشير الحواف إلى وجود تفاعل بين العقد المجاورة.

تم تطبيق العديد من الأساليب الإحصائية على نطاق واسع لحل مشاكل المعلوماتية الحيوية المختلفة في العقد الماضي. هناك العديد من الأوراق التي تقدم مراجعة ممتازة لمختلف التقنيات الإحصائية والحسابية لاستنتاج الشبكات الجينومية والبروتينية [2 ، 12]. ومع ذلك ، من المهم فهم أوجه التشابه والاختلاف الأساسية التي تميز مشكلتي الاستدلال. تقدم هذه الورقة لمحة عامة عن أحدث الأساليب الإحصائية المقترحة لاستدلال شبكات GRNs و PPI. بالنسبة لاستدلال شبكة الجينات ، سيتم تقديم ثلاث فئات كبيرة من تقنيات النمذجة والاستدلال ، وهي مناهج النمذجة الرسومية الاحتمالية ، والطرق النظرية للمعلومات ، ونماذج تمثيل فضاء الدولة. تتم مراجعة طرق التجميع والنمذجة الرسومية الاحتمالية التي تشكل أكبر فئة من الأساليب الإحصائية باستخدام بيانات PPI لشبكات تفاعل البروتين البروتين. من خلال مراجعة موجزة لهذه الخوارزميات المعاصرة ، يتمثل هدفنا في تزويد القارئ بفهم غني بما فيه الكفاية للتقنيات الحديثة المستخدمة في مجال استدلال الشبكة الجينومية والبروتينية.

يتم تنظيم باقي هذه الورقة على النحو التالي. يصف القسم 2 بعض مجموعات البيانات المتاحة لاستدلال الشبكات الجينومية والبروتينية. يستعرض القسم 3 الأساليب الإحصائية الحديثة المستخدمة لاستنتاج شبكات تنظيم الجينات. تتم مراجعة تقنيات استنتاج شبكة البروتين والبروتين في القسم 4. طرق الحصول على شبكة متكاملة مع شبكة الجينات وبروتين البروتين كشبكات فرعية مذكورة في القسم 5. تتم مناقشة تقييم الشبكة المستنتج في القسم 6. وأخيرًا ، يتم استخلاص الاستنتاجات في القسم السابع.

2. البيانات البيولوجية المتوفرة

يتميز عصر ما بعد الجينوم بتوافر كمية هائلة من مجموعات البيانات البيولوجية غير المتجانسة بطبيعتها ويصعب تحليلها [3]. من المتوقع أن تساعد مجموعات البيانات هذه في الحصول على معرفة مفيدة حول التفاعلات الأساسية في شبكات الجينات والبروتينات. يستعرض هذا القسم بعض الأنواع الرئيسية من البيانات المستخدمة لاستدلال الشبكات الجينومية والبروتينية ، بما في ذلك بيانات التعبير الجيني ، وبيانات التفاعل بين البروتين والبروتين ، وبيانات رقاقة ChIP.

2.1. بيانات التعبير الجيني. من بين جميع مجموعات البيانات المتاحة ، تعد بيانات التعبير الجيني هي الأكثر استخدامًا لاستدلال شبكة تنظيم الجينات. التعبير الجيني هو العملية التي ينتج عنها نسخ وظيفية ، على سبيل المثال ، RNA أو بروتينات ، أثناء استخدام المعلومات المشفرة على الجينات. يعد مستوى التعبير الجيني مؤشرًا مهمًا لمدى نشاط الجين ويتم قياسه في شكل بيانات التعبير الجيني. يدعو التشابه في ملامح التعبير الجيني لجينين إلى مستوى معين من الارتباط بينهما. في هذا البحث ، يتم الإشارة إلى بيانات التعبير الجيني عن طريق متغير عشوائي x (i) ، حيث يشير t إلى مؤشر الوقت.

2.1.1. بيانات (كدنا- ميكروأري). إحدى الطرق لتوليد بيانات cDNA-microarray هي عبر تقنية DNA microarray ، والتي تعد إلى حد بعيد الطريقة الأكثر شيوعًا المستخدمة لهذا الغرض. عدد عينات البيانات بشكل عام أصغر بكثير من عدد الجينات. العيب الرئيسي المرتبط ببيانات cDNA-microarray هو الضوضاء في التعبيرات الجينية المرصودة. على الرغم من أن قيم التعبير الجيني يجب أن تكون مستمرة ، فإن عدم القدرة على قياسها بدقة يشير إلى استخدام القيم التقديرية.

2.1.2. بيانات RNA-Seq. أدى التقدم الأخير في تقنيات التسلسل إلى توفير القدرة على الحصول على مستويات تعبير جيني أكثر دقة [13]. RNA-Seq هي تقنية جديدة لرسم الخرائط وقياس النسخ ، ومن المتوقع أن تحل محل جميع الأساليب المعاصرة بسبب تفوقها من حيث الوقت والتعقيد والدقة. يبدأ تقدير التعبير الجيني في RNA-Seq بالنسخ العكسي لعينة الحمض النووي الريبي في عينات (كدنا) ، والتي تخضع لتسلسل عالي الإنتاجية ، مما يؤدي إلى قراءات تسلسل قصيرة. ثم يتم تعيين هذه القراءات إلى الجينوم المرجعي باستخدام مجموعة متنوعة من أدوات المحاذاة المتاحة. يتم تقدير مستويات التعبير الجيني باستخدام القراءات المعينة ، وقد تم اقتراح العديد من الخوارزميات في الأدبيات الحديثة للعثور على تقديرات فعالة وأكثر دقة لمستويات التعبير الجيني. تم تلخيص هذه العملية في الشكل 2. تم العثور على بيانات التعبير الجيني التي تم الحصول عليها بهذه الطريقة لتكون أكثر استنساخًا وأقل ضوضاءً مقارنةً بالمصفوفات الدقيقة (كدنا). يصف القسم الفرعي التالي البيانات المستخدمة لاستدلال شبكة PPI.

2.2. بيانات تفاعل البروتين والبروتين. تم إنتاج بيانات PPI على نطاق واسع في السنوات الأخيرة بواسطة تقنيات عالية الإنتاجية مثل تنقية تقارب الخميرة ثنائية الهجين والترادف ، والتي توفر تفاعلات مستقرة وعابرة ، وقياس الطيف الكتلي ، مما يشير إلى مجمعات البروتين [11 ، 12]. تتكون مجموعات البيانات هذه ، بالإضافة إلى كونها غير كاملة ، أيضًا من إيجابيات خاطئة ، وبالتالي ، قد لا تتفق التفاعلات الموجودة في مجموعات البيانات المختلفة مع بعضها البعض. بسبب هذا الخلاف ، من الضروري استخدام الأساليب الإحصائية لاستنتاج شبكات PPI من خلال إيجاد تفاعلات موثوقة وقابلة للتكرار والتنبؤ بالتفاعلات التي لم يتم العثور عليها بعد في البيانات المتاحة حاليًا.

2.3 رقاقة البيانات. بيانات رقاقة ChIP ، وهي اختصار للترسيب المناعي للكروماتين والمصفوفة الدقيقة (رقاقة) ، تحقق في التفاعلات بين الحمض النووي والبروتينات. توفر هذه البيانات معلومات حول بروتينات ربط الحمض النووي. نظرًا لأن بعض الجينات تقوم بترميز عوامل النسخ (TFs) التي تنظم بدورها بعض الجينات و / أو البروتينات الأخرى ، فإن هذه المعلومات تأتي جنبًا إلى جنب لاستدلال شبكات الجينات [10] والشبكة المتكاملة. ومع ذلك ، فإن إنشاء بيانات رقاقة ChIP للجينوم الكبير سيكون صعبًا تقنيًا وماليًا.

2.4 مجموعات البيانات الأخرى. بصرف النظر عن مجموعات البيانات الموضحة أعلاه ، فإن بيانات حذف الجينات والاضطراب تستحق الذكر هنا. يتم إنشاء مجموعة بيانات الاضطراب عن طريق إجراء اضطراب أولي ثم السماح للنظام بالتفاعل معها [14]. يتم قياس قيم التعبير الجيني في اللحظات الزمنية التالية وفي الحالة المستقرة ، وبالتالي الحصول على استجابة الجينات للاضطراب المحدد الذي يمكن أن يكون زيادة أو نقصان مستوى التعبير لجميع الجينات أو بعض الجينات. تتضمن مجموعة بيانات حذف الجينات ، كما يشير الاسم ، حذف الجين وقياس مستوى التعبير الناتج عن الجينات الأخرى. قد تكشف هذه البيانات بشكل فعال عن العلاقات المباشرة البسيطة [14].

3. نمذجة واستنتاج شبكات تنظيم الجينات

تلتقط شبكات تنظيم الجينات التفاعلات الموجودة بين الجينات. يعد التقدير الدقيق والموثوق لشبكات الجينات أمرًا بالغ الأهمية ويمكن أن يجني فوائد بعيدة المدى في مجال البيولوجيا الطبية ، على سبيل المثال ، من حيث تطوير الأدوية الشخصية. تستعرض الأقسام الفرعية التالية الطرق الإحصائية الرئيسية المستخدمة لاستدلال شبكات تنظيم الجينات. أولاً ، يتم تقديم فئة مهمة من النماذج الرسومية الاحتمالية.

3.1. تقنيات النمذجة الرسومية الاحتمالية. ظهرت النماذج الرسومية الاحتمالية كأداة مفيدة للهندسة العكسية لشبكات تنظيم الجينات. يتم تمثيل شبكة الجينات بالرسم البياني G = (V ، E) ، حيث تمثل V مجموعة الرؤوس (الجينات) ، و E تشير إلى مجموعة الحواف التي تربط الرؤوس. يتم نمذجة رؤوس الرسم البياني كمتغيرات عشوائية وتشير الحواف إلى التفاعل بينهما. يتم الإشارة إلى قيمة التعبير عن الجين i بواسطة [X.sub.i] ، ويتم الإشارة إلى إجمالي عدد الجينات في الشبكة بواسطة N. تصف الأقسام الفرعية التالية بإيجاز بعض تقنيات النمذجة الرسومية القوية والشائعة لاستدلال شبكة الجينات.

3.1.1. شبكات بايزي. تقوم شبكات بايز بنمذجة شبكات تنظيم الجينات على شكل رسوم بيانية حلقية موجهة (DAGs). لتبسيط عملية الاستدلال ، يتم أخذ التوزيع الاحتمالي لشبكات DAG في الاعتبار عمومًا من حيث التوزيعات الشرطية لكل متغير عشوائي وفقًا لأبويه:

[التعبير الرياضي غير قابل للاستنساخ في ASCII] ، (1)

حيث يشير Pa ([X.sub.i]) إلى أصل العقدة [X.sub.i]. يتم الاستدلال على شبكة تنظيم الجينات باستخدام تقنيات التعلم الشبكي Bayesian. يتم ذلك عن طريق تعظيم الاحتمال P (G | D) ، حيث يشير D إلى بيانات التعبير الجيني المتاحة. تم اقتراح العديد من مقاييس النتائج للحصول على أفضل هيكل للرسم البياني [15]. وبالتالي ، فإن الشبكة التي تم الحصول عليها هي فريدة من نوعها إلى حد فئة التكافؤ ، حيث يتم تحديد علاقات الاستقلال بشكل فريد.

تتكون بيانات التعبير الجيني المتاحة حتى الآن من عدد قليل جدًا من نقاط البيانات ، في حين أن عدد الجينات أكبر بشكل كبير ، مما يجعل النظام غير محدد. كبديل للعثور على الشبكات الكاملة ، اقترح العلماء النظر في ميزات مهمة معينة ، على سبيل المثال ، علاقات ماركوف وعلاقات النظام. إذا كان الجين X موجودًا في الشبكة الدنيا التي تغطي الجين Y ، فيُقال إن علاقة ماركوف قد تم تأسيسها. يشار إلى العلاقة بين اثنين من الجينات على أنها علاقة مرتبة إذا ظهر جين معين X أنه أحد الوالدين لجين آخر Y في جميع الشبكات المكافئة. من خلال تجميع هذه المعلومات ، من الممكن استنتاج الهيكل التنظيمي الأساسي بقوة وموثوقية. ينظر هيكل الشبكة المستنتج بهذه الطريقة إلى التفاعلات الثابتة فقط. من أجل تلبية التفاعلات الديناميكية المتأصلة في شبكات الجينات ، تم استخدام شبكات بايز الديناميكية (DBNs) [16 ، 17].

3.1.2. الشبكات الاحتمالية النوعية. هناك طريقة جديدة لنمذجة شبكات الجينات من خلال استخدام الشبكات الاحتمالية النوعية (QPNs) ، والتي تمثل التناظرية النوعية لـ DBNs [18]. الخصائص الهيكلية والاستقلالية لشبكات QPN هي نفس خصائص شبكات بايز. ومع ذلك ، بدلاً من القلق بشأن الاحتمالات الشرطية المحلية للمتغيرات العشوائية ، تنظر الفئة السابقة من النماذج في كيفية تأثير التغييرات في احتمالات المتغيرات العشوائية على احتمالات آبائهم المباشرين. يتم قياس هذا التغيير من الناحية النوعية بدلاً من القيم الكمية ، أي ما إذا كانت الاحتمالات تزيد أو تنقص أو تظل كما هي كما هو موضح في الشكل 3.

هناك خاصيتان مهمتان لشبكات QPN هما التأثيرات النوعية وأوجه التآزر النوعي. يشير التأثير الإيجابي الذي يُشار إليه بواسطة [I.sup. +] (X، Y) إلى الاحتمال الأكبر لامتلاك Y قيمة أعلى عندما تكون قيمة X عالية والعكس صحيح ، بغض النظر عن جميع المتغيرات الأخرى ،

[I.sup. +] (X، Y) iff P (y | x، W) & gt P (y | -x). (2)

في حالة ثلاثة متغيرات ، تنظر QPNs إلى أوجه التآزر. تآزر مضاف إيجابي ، يُرمز إليه بـ [S.sup. +] (، Z) ، عندما يكون التأثير المشترك للعقد الأصلية أكبر على العقدة الفرعية من التأثيرات الفردية التي قدمتها

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (3)

وبالتالي ، توفر QPNs مزيدًا من التبصر في شبكات الجينات من خلال الإشارة إلى ما إذا كان جينًا معينًا محفزًا أم مثبطًا.

3.1.3. نماذج رسومية غاوسية. توفر النماذج الرسومية الغاوسية ، والمعروفة أيضًا باسم نماذج التباين المشترك أو نماذج الرسم البياني للتركيز ، طريقة بسيطة وفعالة لتوصيف التفاعلات الجينية [19 ، 20]. تعتمد هذه الطريقة على تقييم التبعيات الشرطية بين الجينات من حيث معاملات الارتباط الجزئي بين التعبيرات الجينية وتؤدي إلى شبكة غير موجهة. يتم تقدير مصفوفة التغاير باستخدام مجموعات بيانات التعبير الجيني المتاحة. افترض أن X [عضو في] [R.sup.nxn] يشير إلى مصفوفة بيانات التعبير الجيني ، حيث تتوافق الصفوف مع الملاحظات والأعمدة تتوافق مع الجينات ، ثم يتم الحصول على تقدير لمصفوفة التغاير بواسطة

بافتراض قابلية انعكاس [؟؟] ، يمكن تحديد الارتباطات الجزئية على أنها

حيث يشير [[؟؟]. sub.ij] إلى الارتباط الجزئي بين الجينين i و j.

3.1.4. خوارزمية LASSO الرسومية. يتمثل أحد العوائق الرئيسية للطرق القائمة على تقدير التباين - المصفوفة - في عدم موثوقيتها بسبب العدد القليل من عينات البيانات. بالاستفادة من حقيقة أن شبكات الجينات متناثرة بطبيعتها ، فمن الممكن الحصول على التبعيات بين الجينات عن طريق نهج الانحدار الخطي المعاقب [20]. تعمل الخوارزمية الرسومية الأقل انكماشًا مطلقًا وعامل التحديد (LASSO) على حل مشكلة استدلال الشبكة بكفاءة عن طريق تعظيم وظيفة الاحتمالية التالية:

2 / n (W) = log (det (W)) - تتبع ([؟؟] W) - [rho] [[متوازي] W [paralle]. sub.1] ، (6)

حيث يتحكم [rho] في تباين الشبكة ، يمثل الترميز [[المتوازي] * [المتوازي]. sub.1] [l.sub.1] - طبيعي ، بينما يشير W إلى مصفوفة التغاير. يمكن إجراء هذا التصغير باستخدام طرق نزول كتلة التدرج ، والتي يمكن العثور على تفاصيلها في [20] والمراجع الواردة فيها.

3.2 نماذج تمثيل الدولة والفضاء. واحدة من أقدم الأساليب المستخدمة على نطاق واسع لنمذجة شبكات الجينات هي استخدام نماذج تمثيل فضاء الدولة [21].على عكس الفئات الأخرى ، فإن جميع الأساليب التي تنتمي إلى هذه الفئة تمثل التطور الديناميكي لشبكة الجينات. تتكون هذه النماذج عمومًا من مجموعتين من المعادلات ، المجموعة الأولى من المعادلات التي تمثل تطور متغيرات الحالة المخفية التي يُشار إليها بالرمز z (t) ، والمجموعة الثانية من المعادلات المتعلقة بمتغيرات الحالة المخفية ببيانات التعبير الجيني المرصودة ، والمشار إليها بالرمز x (t) كما هو موضح في الشكل 4 تصف الدالتان g (*) و h (*) تطور المتغيرات المخفية والملحوظة ، على التوالي. بعد ذلك ، في هذا القسم سنصف نماذج مختلفة لاستدلال شبكة الجينات باستخدام نموذج تمثيل فضاء الدولة.

3.2.1. نموذج الدولة والفضاء الخطي. أبسط نموذج لمعادلات فضاء الدولة هو النموذج الخطي الغاوسي المعطى بواسطة [21 ، 22]:

ض (t) = Az (t - l) + v (t) ، (7) x (t) = Cz (t) + w (t) ،

حيث A عبارة عن مصفوفة تمثل العلاقات التنظيمية بين الجينات ، و t تمثل النقاط الزمنية المنفصلة. تُستخدم معادلات الفروق بدلاً من المعادلات التفاضلية لأن الملاحظات المنفصلة متوفرة في بيانات التعبير الجيني. تمثل مكونات الضوضاء v (t) و w (t) النظام وضوضاء القياس ، على التوالي ، ويفترض أن تكون Gaussian. نماذج الضوضاء عدم اليقين الموجود في بيانات التعبير الجيني المقدرة. تعتبر المصفوفة C بشكل عام مصفوفة هوية. يمكن إجراء الاستدلال في شبكات الجينات على غرار تمثيل فضاء الدولة (7) باستخدام تحديثات مرشح كالمان القياسية. تتجنب بساطة نموذج الدولة والفضاء فرط تجهيز الشبكة ، وبالتالي ، فإنه يوفر نتائج موثوقة.

3.2.2. النماذج غير الخطية. في حين أنه من المفيد تمثيل شبكات الجينات بنماذج بسيطة لتخفيف التعقيد الحسابي ، فمن الضروري أيضًا دمج التأثيرات غير الخطية في معادلات النظام ، حيث من المعروف أن الجينات تتفاعل بشكل غير خطي [23]. وظيفة معينة تُستخدم بشكل متكرر لالتقاط التأثيرات غير الخطية هي وظيفة القرع السيني المحددة أدناه في (9) [24]. يوصف نموذج تمثيل الفضاء غير الخطي الذي يلتقط التفاعلات الجينية من خلال نظام المعادلات التالي:

z (t) = Az (t - l) + Bf (z (t - l) ، [mu] + [I.sub.0] + v (t) ، (8)

حيث يتم إعطاء الإدخال j لوظيفة المتجه f (*) بواسطة وظيفة الاسكواش السيني:

[التعبير الرياضي غير قابل للاستنساخ في ASCII] ، (9)

حيث [micro] هي معلمة يتم تحديدها. تمثل المصفوفة A العلاقات الخطية بين الجينات ، بينما تميز المصفوفة B التفاعلات غير الخطية. وبالتالي ، فإن المشكلة تتلخص في تقدير المجهول التالي في النظام:

[ثيتا] = [أ ، ب ، [ميكرو] ، [I.sub.0]] ، (10)

حيث [I.sub.0] نماذج للانحياز الثابت. تتمثل إحدى طرق حل هذه المعادلات في استخدام مرشح كالمان الممتد (EKF) [24] ، وهي خوارزمية شائعة لحل معادلات الفضاء غير الخطية. توفر خوارزمية EKF الحل عن طريق تقريب النظام غير الخطي بالتقريب الخطي من الدرجة الأولى. متغيرات أخرى من خوارزمية مرشح كالمان مثل مرشح كالمان التكعيبي (CKF) ومرشح كالمان غير المعطر (UKF) وخوارزمية مرشح الجسيمات تستخدم أيضًا لحل مشاكل الاستدلال [25].

ومع ذلك ، بالنسبة للعديد من الدراسات ، فإن النموذج غير الخطي المدروس يتكون من عدد كبير من المجهول ومن أجل تقدير هذه المتغيرات غير المعروفة بدقة كبيرة ، يلزم وجود مجموعات بيانات تتكون من عدد كبير من العينات. يمثل توافر مجموعات البيانات الأصغر عقبة لا يمكن التغلب عليها في التقدير الموثوق به لعدد كبير من الأشياء المجهولة. يمكن تجنب هذه المشكلة جزئيًا عن طريق تبسيط النموذج ليشمل فقط المصطلحات غير الخطية ، وبالتالي تقليل عدد المعلمات غير المعروفة إلى الحد الأدنى [25] وتقريب [ميكرو] ليكون واحدًا. ثم يتم إعطاء نظام المعادلات المقابلة لمثل هذا السيناريو البخل بواسطة

حيث f هي الوظيفة المحددة مسبقًا.

3.2.3. النماذج ذات القيود المتفرقة. الميزة الحاسمة للعديد من شبكات الجينات هي تناثرها المتأصل ، أي أن جميع الجينات في الشبكة مرتبطة ببعض الجينات الأخرى فقط. لذلك ، من المتوقع أن تحتوي المصفوفات A و B التي تصور العلاقات التنظيمية بين الجينات على عدد قليل جدًا من القيم غير الصفرية مقارنة بحجم هذه المصفوفات. لذلك ، يمكن تطبيق طرق قائمة على الانكماش مثل LASSO [25 ، 26] لتقدير المعلمات واختيار نموذج شحيح. تتمثل إحدى طرق استنتاج النماذج ذات قيود التباين في إجراء تقدير مزدوج ، والذي يتضمن تقدير الحالات والمعلمات واحدة تلو الأخرى. يمكن تقدير الحالات المخفية باستخدام خوارزمية مرشح الجسيمات ، وبمجرد الحصول على جميع التقديرات للحالات المخفية ، يمكن تكديسها معًا لتشكيل مصفوفة و

وبالتالي يتم الحصول على نظام المعادلات التالي لإجراء تقدير المعلمة:

[التعبير الرياضي غير قابل للاستنساخ في ASCII] ، (12)

والتي يمكن التعبير عنها بشكل مضغوط في تمثيل المتجه / شكل المصفوفة كـ

[z.sub.n] = [PHI] [b.sub.n] + [v.sub.n]. (13)

يعمل LASSO على نظام المعادلات هذا وينتج متجه المعلمة [b.sub.n] عن طريق تقليل المعيار [27]:

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (14)

يبدو أن تقديرات المعلمات التي تم الحصول عليها باستخدام الخوارزميات المستندة إلى LASSO أكثر موثوقية من التقديرات المقدمة من الطرق الأخرى [25].

3.2.4. نماذج الدولة والفضاء للتبعيات المتأخرة بالوقت. لا تأخذ نماذج فضاء الدولة التي تمت مناقشتها حتى الآن في الاعتبار التأخيرات الزمنية ، حيث تم العثور على تفاعلات متأخرة زمنيًا موجودة في شبكات الجينات [28] بسبب الوقت اللازم لحدوث عمليات النسخ والترجمة. تتمثل إحدى طرق نمذجة هذه الظاهرة في اعتماد نموذج فضاء الدولة التالي:

ض (t) = Az (t-l) + Bu (t - [tau]) + v (t) ، (15)

في نموذج فضاء الحالة هذا ، يُنظر إلى الإدخال على أنه ملف تعريف تعبير لمنظم مثل عامل النسخ. هنا ، يرمز A إلى مصفوفة انتقال الحالة N x N ، بينما تلتقط المصفوفة N x p المصفوفة B تأثير منظمات p على النظام. يتم الحصول على قيمة التأخير الزمني [tau] من خلال إيجاد أفضل ملاءمة لمجموعة من القيم الممكنة باستخدام معيار معلومات Akaike (AIC) لتجنب فرط تجهيز الشبكة.

3.3 طرق المعلومات النظرية. قدمت الطرق النظرية للمعلومات بعضًا من أقوى الخوارزميات وأكثرها موثوقية لاستدلال شبكة الجينات وتشكل الأساس لمعيار في هذا المجال [29-31]. ميزة خاصة مرتبطة بهذه الأساليب هي قدرتها على العمل مع الحد الأدنى من الافتراضات حول الشبكة الأساسية. هذا على النقيض من تقنيات النمذجة الرسومية الاحتمالية وكذلك نماذج فضاء الدولة ، وكلاهما له مجموعة من الافتراضات الخاصة بهما. كما تم إبرازه سابقًا ، توفر شبكة Markov شبكة غير موجهة ، بينما لا تستطيع شبكات Bayesian دمج الدورات أو حلقات التغذية الراجعة. تضع نماذج فضاء الدولة بصرف النظر عن نموذج غاوسي الخطي افتراضات حاسمة حول بنية النموذج. وهذه العيوب لا توجد في حالة المعلومات بالطرق الخطابية. تقدم المناقشة التالية المناهج النظرية للمعلومات الرئيسية لاستنتاج شبكات تنظيم الجينات.

3.3.1. إيجاد العلاقة بين الجينات. اثنان من المفاهيم الأساسية في نظرية المعلومات هما المعلومات المتبادلة والإنتروبيا. يتم تعريف المعلومات المتبادلة بين متغيرين عشوائيين X و Y على أنها [32]

I (XY) = [الجمع على (x، y)] [p (x، y) log p (x، y) / p (x) p (y)]

حيث تشير إلى الانتروبيا أو عدم اليقين الموجود في متغير عشوائي ، وتعطى بواسطة

H (X) = - [الجمع عبر (x)] p (x) log p (x). (17)

تقيس المعلومات المتبادلة الارتباط بين متغيرين عشوائيين. في سياق الاستدلال على شبكة الجينات ، تشير المعلومات المتبادلة الأعلى بين جينين إلى تبعية أعلى ، وبالتالي ، تفاعل محتمل بينهما. تستفيد بعض الخوارزميات الأكثر أهمية وقوة لاستدلال شبكة الجينات من المعلومات المتبادلة للعثور على الجينات المتفاعلة [29 ، 30].

3.3.2. تحديد التفاعلات غير المباشرة بين الجينات. إذا كانت المعلومات المتبادلة بين جينين أكبر من عتبة معينة ، فهذا يشير إلى بعض الارتباط بينهما. ومع ذلك ، فإن هذه المعلومات وحدها لا تكفي لتقرير ما إذا كانت الجينات متصلة بشكل مباشر أو غير مباشر عبر جين وسيط. يوفر عدم المساواة في معالجة البيانات (DPI) بعض الأفكار لتقييم ما إذا كان مثل هذا السيناريو صحيحًا أم لا. في حالة وجود ثلاثة جينات تشكل سلسلة ماركوف كما هو موضح في الشكل 5 ، يمكن التعبير عن DPI كـ

أنا (XY) [أقل من أو يساوي] دقيقة [I (XZ) ، 1 (YZ)]. (18)

باستخدام هذا التفاوت ، وجد أن التفاعل مع أقل المعلومات المتبادلة هو تفاعل غير مباشر. يتم استخدام هذه الطريقة في ARACNE [29] ، والتي أصبحت خوارزمية قياسية لاستدلال شبكة الجينات. ومع ذلك ، فشل DPI في الاحتفاظ في المواقف التي يكون فيها أحد الجينات الثلاثة هو الجين الأب للجينين الآخرين. تم اقتراح المعلومات المتبادلة المشروطة لاستخدامها في مثل هذه الحالات [30]. يتم تعريف المعلومات المتبادلة الشرطية على أنها

[التعبير الرياضي غير قابل للاستنساخ في ASCII] (19)

إذا كانت I (XY | Z) أقل بكثير من I (XY) ، فهذا يعني أن Z هي أحد الجينات X و Y كما هو موضح في الشكل 5 ، إذا كانت الكميتان متساويتان تقريبًا ، فهذا يعني أن الجين Z يعمل ليس لها أي تأثير على الجينين الآخرين. لذلك ، من خلال استخدام فكرة المعلومات المتبادلة المشروطة ، يمكن غربلة التفاعلات غير المباشرة في حالة السبب المشترك.

3.3.3. البحث عن الشبكات الموجهة. لا يوفر حساب المعلومات المتبادلة باستخدام بيانات ثابتة أي معلومات حول العلاقات الموجهة. من ناحية أخرى ، قد يشير استخدام بيانات السلاسل الزمنية إلى اتجاه التفاعلات أيضًا [33]. يمكن التعبير عن المعلومات المتبادلة لبيانات السلاسل الزمنية كـ

[التعبير الرياضي غير قابل للاستنساخ في ASCII] (20)

إذا تم الحصول على قيمة عالية لـ I ([x.sub.t + 1] ، [y.sub.t]) ، فإنها تشير إلى علاقة موجهة من الجين Y إلى X. أثناء استخدام هذه الطرق ، تحديد عتبة الأهمية له أهمية كبيرة ويمكن تقديره بناءً على المعرفة المسبقة حول الشبكة.

الكميات النظرية للمعلومات التي تمت مناقشتها حتى الآن متماثلة (أو ثنائية الاتجاه) ولا تقدم أي معلومات حول الاتجاه في حد ذاتها. تم اقتراح بعض المقاييس الجديدة مؤخرًا لاستنتاج العلاقات غير المتماثلة أو ذات الاتجاه الواحد مثل معامل الخلط [PHI] المحدد على أنه [34]:

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (21)

بعبارة أخرى ، يوفر هذا المعامل مقياسًا للاستقلالية أو الاختلاف بين الجينين X و Y. كما أن DPI ينطبق أيضًا على مقياس الخلط [PHI] ، وبالتالي ، يمكن استخدامه لتحديد التفاعلات غير المباشرة كما في حالة المعلومات المتبادلة.

3.3.4. التبعيات المتأخرة بالوقت. هناك طريقة أخرى لإيجاد العلاقات الموجهة وهي اكتشاف التبعيات المتأخرة بالوقت باستخدام بيانات السلاسل الزمنية. اللحظات الزمنية التي تذهب فيها المعلومات المتبادلة أعلى أو تنخفض إلى ما دون العتبات [[tau] .sub.up] و [[tau] .sub.down] ، على التوالي ، يتم تدوينها [35]. تسمى هذه اللحظات التغيير الأولي لأوقات التعبير (IcE) ويتم تعريفها على أنها

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (22)

يمكن ملاحظة أن agene [x.sub.a] يمكن أن يكون منظمًا للجين [x.sub.b] فقط إذا (iff) IcE ([x.sub.a]) & lt IcE ([x.sub .ب]). يتم إعطاء المعلومات المتبادلة في هذه الحالة من قبل

[التعبير الرياضي غير قابل للاستنساخ في ASCII] (23)

حيث يتم الإشارة إلى التأخير بواسطة k. تتمثل الخطوة التالية في العثور على الحد الأقصى لقيم المعلومات المتبادلة المحسوبة لجميع التأخيرات الزمنية ، أي ،

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (24)

إذا كانت قيمة الحد الأقصى من المعلومات المتبادلة أكبر من الحد المحدد مسبقًا ، يتم التوصل إلى وجود علاقة موجهة من [x.sub.a] إلى [x.sub.b]. يعد حساب العتبة مهمًا جدًا في جميع الطرق النظرية للمعلومات التي يتم اختيارها على أساس القيمة P المحددة مسبقًا [29]. هذا يساعد في الحصول على شبكات بقيمة الأهمية المطلوبة.

3.3.5. اختيار النموذج. يعد اختيار النموذج خطوة مهمة وضرورية في تنفيذ الخوارزميات المذكورة أعلاه. الشبكة التي يتم تشكيلها باستخدام المعلومات المتبادلة وحدها ستؤدي إلى بنية زائدة ، وبالتالي ، يصبح اختيار النموذج أمرًا ضروريًا. تم اقتراح مبدأ الحد الأدنى لطول الوصف (MDL) كنهج عام لاختيار النموذج. ينص MDL على أنه يجب تحديد الشبكة ذات أقصر طول تشفير. بالنسبة للشبكة التي تحتوي على عدد كبير من العقد ، سيكون طول التشفير كبيرًا والعكس صحيح. يوفر مبدأ MDL مقايضة ويساعد في اختيار التفاعلات المهمة فقط بين الجينات. تم تطبيق MDL بطرق مختلفة في إيجاد طول الترميز للشبكة والكثافات الاحتمالية المرتبطة بها [33]. هناك طريقة أخرى لاستخدام هذا المبدأ بالاقتران مع مبدأ الاحتمال الأقصى (ML) الذي ينتج عنه خوارزمية أكثر عمومية [36]. يمكن العثور على مزيد من التفاصيل حول هذه الخوارزمية في [36]. وهكذا ، يبدو أن أدوات نظرية المعلومات قوية جدًا في نمذجة واستنتاج شبكات تنظيم الجينات.

4. استنتاج شبكات التفاعل بين البروتين والبروتين

بعد فحص مشكلة استدلال شبكة الجينات ، يصف هذا القسم الطرق الإحصائية المستخدمة للعثور على شبكات تفاعل بروتين بروتيني موثوقة وكاملة. على عكس شبكات الجينات التي يتم استنتاجها في الغالب باستخدام بيانات التعبير أو ما شابه ذلك ، يمكن تنفيذ الاستدلال على شبكات PPI بطرق غير متغيرة مثل التنميط الوراثي وتحديد الأنماط الهيكلية. تركز هذه الورقة فقط على الطرق التي تستخدم بيانات PPI للاستدلال. البيانات المعطاة في هذا السيناريو هي تفاعلات البروتين البروتين. ومع ذلك ، تتكون مجموعات البيانات هذه من عدد كبير من الإيجابيات والسلبيات الكاذبة وهي بعيدة كل البعد عن أن تكون كاملة ومتجانسة. لذلك ، تم العثور على تداخل صغير فقط بين مجموعات بيانات PPI التي تم الحصول عليها من مصادر مختلفة. ومع ذلك ، فقد لوحظ أن التفاعلات التي تنبأ بها أكثر من طريقة واحدة أكثر موثوقية [37]. يتمثل أحد التحديات في العدد الكبير من التفاعلات التي تشير إليها بيانات PPI بدلاً من التفاعلات الأقل بكثير التي يُفترض وجودها في الواقع. لذلك ، تكمن المشكلة في هذا السيناريو في إيجاد تفاعلات أكثر موثوقية والتنبؤ بالتفاعلات غير المعروفة حتى الآن. بالإضافة إلى ذلك ، يمكن أن تكون تفاعلات البروتين من أنواع مختلفة تتراوح من تفاعلات مستقرة إلى تفاعلات عابرة [37].

وتجدر الإشارة إلى أنه على عكس شبكات الجينات ، لا يزال من الممكن القيام بالكثير من العمل لاستدلال شبكة البروتين البروتين باستخدام الطرق الاحتمالية. في الكائن الحي ، تعمل العديد من البروتينات معًا للقيام بمهام مختلفة لتشكيل مركب بروتيني. تتكون معظم بيانات PPI من تفاعلات ثنائية فقط ومن النادر جدًا العثور على تفاعلات بين أكثر من بروتينين في وقت واحد. ومن ثم ، فإن تحديد مجمعات البروتين له أهمية قصوى لاكتساب فهم أفضل للشبكة الخلوية.

يعد اكتشاف معقدات البروتين مجالًا أساسيًا لدراسة شبكات البروتين [38] ، حيث تم تطبيق طرق التجميع المختلفة. تتضمن إحدى الطرق المختلفة لتحديد مجمعات البروتين تجزئة الرسم البياني ، حيث يتم تجميع الرسم البياني في رسوم بيانية فرعية باستخدام خوارزميات البحث القائمة على التكلفة. يُصنف نهج آخر على نطاق واسع على أنه الحفظ عبر الأنواع [38] ، حيث تُستخدم أدوات المحاذاة للعثور على المجمعات الشائعة في مجموعات البيانات المتعددة القادمة من الأنواع المختلفة. في ما يلي ، تم وصف بعض الأساليب القائمة على النمذجة الرسومية والتكتلية المقترحة مؤخرًا.

4.1 شبكات ماركوف. تبحث بيانات PPI المتاحة في الغالب في التفاعلات الثنائية ، ومن الصعب العثور على تفاعلات ثلاثة جينات أو أكثر. ومع ذلك ، من المهم النظر إلى البروتينات المتفاعلة بشكل كلي. شبكات ماركوف هي تقنيات نمذجة بيانية احتمالية تؤدي إلى رسوم بيانية غير موجهة. افترض أن X = <[X.sub.1] ،. [X.sub.N]] هو متجه لمتغيرات عشوائية نمذجة البروتينات. يتم التقاط توزيعها المشترك من حيث الإمكانات [[psi] .sub.c] [عضو] [PSI]. المتغيرات العشوائية [X.sub.c] التي ترتبط ببعضها البعض تسمى نطاق الاحتمال المعين [[psi] .sub.c]. ثم يتم إعطاء التوزيع الاحتمالي المشترك بواسطة

[التعبير الرياضي غير قابل للاستنساخ في ASCII] ، (25)

حيث Z هو ثابت التطبيع يسمى أيضًا وظيفة التقسيم. بهذه الطريقة ، يتم الحصول على تمثيل مضغوط لتوزيع الاحتمالات. يتم التعرف على بنية الشبكة باستخدام خصائص الاستقلال لشبكات Markov باستخدام بيانات PPI المتاحة. يمكن العثور على تفاصيل هذه الطريقة في [37].

4.2 شبكات بايزي. هناك طريقة أخرى لنمذجة شبكات PPI عن طريق شبكات Bayesian (BNs) [39] ، والتي تمثل تقنية النمذجة الرسومية الاحتمالية. تعتمد خوارزمية الاستدلال على إيجاد كثافات الاحتمال الشرطي P ([X.sub.i] | C) ، حيث تشير C إلى متغير الفئة ، وتشير [X.sub.i] إلى العقدة ith في الشبكة. تتمثل إحدى نقاط القوة الخاصة لـ BNs في قدرتها على تقدير معلمات النموذج حتى في وجود بيانات غير كاملة ، وهو ما يحدث غالبًا مع شبكات PPI. هذه الحقيقة تجعل BNa طريقة مناسبة تمامًا لنمذجة شبكات البروتين. تتمثل إحدى طرق تقدير معلمات النموذج في خوارزمية تعظيم التوقعات (EM) [39]. يتم التعبير عن التوزيع الاحتمالي المشترك كـ

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (26)

بافتراض أن جميع المتغيرات العشوائية مستقلة عن بعضها البعض ، يتم إعطاء الكثافة الخلفية

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (27)

بمجرد معرفة معلمات النموذج ، يمكن التنبؤ بالمتغيرات العشوائية التي قد لا تتوفر البيانات الخاصة بها. لذلك ، توفر هذه الخوارزمية طريقة مناسبة للعثور على مجمعات البروتين.

4.3 طرق المجموعات الرسومية. تعتمد إحدى طرق تجميع الرسم البياني على التعلم الخاضع للإشراف [12 ، 38]. يتم نمذجة الرسوم البيانية الفرعية باستخدام شبكات بايز ، وتتكون السمات من أنماط طوبولوجية للرسوم البيانية والخصائص البيولوجية. بدلاً من افتراض خاصية cliqueness المستخدمة على نطاق واسع ، والتي تعتبر جميع العقد متصلة ببعضها البعض ، تبحث الخوارزمية عن الخصائص التي يتم استنتاجها من المجمعات المعروفة بالفعل. سمتان مهمتان هما التسمية C التي تشير إلى ما إذا كان الرسم البياني الفرعي معقدًا وعدد العقد IV. تتم الإشارة إلى واصفات الميزات الأخرى بما في ذلك إحصائيات الدرجات وكثافة الرسم البياني وإحصاءات ارتباط الدرجات بواسطة [X.sub.1].[X.sub.m] وتعتبر مستقلة بالنظر إلى C و IV. يعد عدد العقد داخل وخارج نفسه ميزة مهمة. يمكن رؤية أهميتها من حقيقة أن عددًا أكبر من العقد في الرسم البياني الفرعي يشير إلى احتمال أقل لكونها زمرة. يتم تعيين درجات لجميع الرسوم البيانية الفرعية من خلال الاستفادة من هذه الخصائص. تتمثل إحدى طرق اكتشاف مدى احتمالية أن يكون الرسم البياني الفرعي مركبًا بروتينيًا في إجراء اختبار فرضية بسيط عن طريق حساب الاحتمال الشرطي التالي [12 ، 38]:

[التعبير الرياضي غير قابل للاستنساخ في ASCII] ، (28)

حيث يتم حساب الاحتمالات اللاحقة عبر قاعدة بايز

[التعبير الرياضي غير قابل للاستنساخ في ASCII]. (29)

يمكن حساب كثافات الاحتمال هذه باستخدام طرق الاحتمالية القصوى. من خلال مقارنة النتيجة التي تم الحصول عليها بعتبة محددة مسبقًا ، يمكن تصنيف بعض الرسوم البيانية الفرعية على أنها مجمعات. تأخذ هذه الخوارزمية المصفوفة الموزونة لبيانات PPI كمدخلات ، حيث يتم تعيين الأوزان باستخدام احتمال أي تفاعل معين. تم مسح العديد من الأساليب الأخرى القائمة على المجموعات الرسومية في [12].

4.4 طرق عامل المصفوفة للتجميع. عامل المصفوفة غير السلبي (NMF) هو طريقة مستخدمة على نطاق واسع في مشاكل التجميع. تم اقتراح تطبيق هذه التقنية مؤخرًا في [40] ، حيث يتم الجمع بين مجموعة من المصفوفات غير السالبة المعامل التي تم الحصول عليها باستخدام بيانات تفاعل البروتين والبروتين معًا لإجراء تكتل ناعم. تكمن أهمية هذه الخطوة في حقيقة أن كائنًا معينًا ربما يمتد إلى فئات متعددة. ومن ثم ، قد لا تكون الخوارزميات المختلفة التي تم الإبلاغ عنها في الأدبيات التي تؤدي عمليات التجميع الثابت ذات فائدة كبيرة في مثل هذه السيناريوهات. لوحظت طريقة NMF للمجموعة لتصنيف البروتينات وفقًا للوظائف التي تؤديها وكذلك تحديد المجموعات المتعددة التي تنتمي إليها.

تنتج الخوارزمية مجموعات قاعدية [tau] عن طريق تحليل مصفوفة البيانات المتماثلة S لتفاعلات البروتين بالطريقة التالية [40]:

[التعبير الرياضي غير قابل للاستنساخ في ASCII] ، (30)

حيث تشير [[موازية] * [موازية]. sub.F] إلى قاعدة فروبينيوس. العوامل V المنتجة بهذه الطريقة ليست فريدة من نوعها. لنفترض أن [k.sub.i] هو عدد المجموعات في المجموعة الأساسية ith ، ولكل منها قيمة مختلفة من أجل تعزيز التنوع. بمجرد توفر مجموعة المصفوفات المحللة ، فإن الخطوة التالية هي إنشاء الرسم البياني من خلال دمج المعلومات الموجودة فيها. المعامل l = [k.sub.1] +. + [k.sub. [tau]] يعطي العدد الإجمالي لمتجهات الأساس التي يُرمز إليها بـ V = <[v.sub.1] ،. [v.sub.l]). يشير كل متجه إلى عقدة على الرسم البياني ، ويتم حساب وزن الحافة باستخدام ارتباط بيرسون لزوج من المتجه ([v.sub.i] ، [v.sub.j]) المعطى بواسطة

[التعبير الرياضي غير قابل للاستنساخ في ASCII] (31)

بعد النظر في مشاكل استدلال شبكات GRNs و PPI بشكل فردي ، ننتقل الآن إلى مراجعة التطورات الأخيرة في النمذجة المشتركة للشبكتين.

5. شبكة خلوية متكاملة

مهدت التطورات في الهندسة العكسية لشبكات GRNs و PPI الطريق لتقدير مشترك لشبكات GRNs و PPI [41]. هذه خطوة نحو استنتاج شبكة متكاملة تتكون من الجينات والبروتينات وعوامل النسخ ، مما يشير إلى التفاعلات فيما بينها وبين بعضها البعض. يوضح الشكل 6 التخطيطي لشبكة خلوية متكاملة. في هذا القسم ، نستعرض طريقتين مهمتين لتقدير الشبكة المشتركة.

5.1 النماذج الرسومية الاحتمالية للاستدلال المشترك. اقترح المرجع [41] طريقة مثيرة للاهتمام لتقدير شبكات GRNs و PPI في وقت واحد. افترض أن التعبير الجيني يُشار إليه بـ x وأن بيانات PPI ممثلة بـ y. توفر الخوارزمية شبكة بروتينية غير موجهة وشبكة جينات موجهة [G.

P ([G.sub.r] ، [G.sub.p] | X ، Y) [يختلف] P ([G.sub.r] ، [G.sub.p] ، X ، Y) = P ( X | [G.sub.r]) ص (Y | [G.sub.p]) ف ([G.sub.r] ، [G.sub.p]) ، (32)

حيث P (X | [G.sub.r] ، [G.sub.p]) = P (X | [G.sub.r]) و P (Y | [G.sub.r] ، [G. sub.p]) = P (Y | [G.sub.p]). يتم إجراء الاستدلال على شبكات ماركوف وبايز بنفس الطريقة الموضحة في الأقسام السابقة. يتم تقدير الشبكتين الفرعيتين بشكل تكراري حتى تتقارب الخوارزمية. يمكن العثور على مزيد من التفاصيل حول هذه الخوارزمية في [41].

5.2 التقدير المشترك باستخدام نموذج الدولة والفضاء. يمكن أيضًا استخدام نموذج فضاء الدولة للحصول على شبكة متكاملة من تفاعلات الجينات والبروتينات [42 ، 43]. تم اقتراح نهج جديد يستخدم نموذجًا غير خطي في [43] ، حيث يتم تقدير معلمات النظام باستخدام المربعات الصغرى المقيدة. من المفترض أن يتبع التعبير الجيني نموذجًا ديناميكيًا قدمه

[x.sub.i] (t + 1) = [x.sub.i] (t) + [N.summation over (j = 1)] [a.sub.ij] [S.sub.i] ( ر) - [[lambda] .sub.i] [z.sub.i] (t) + [k.sub.i] + [w.sub.i] (t) ، (33)

ويشير [y.sub.j] إلى ملف نشاط البروتين لعامل النسخ j ، ويتم تمثيل الانحرافات المتوسطة والمعيارية الخاصة به بواسطة و (بصرف النظر عن حجمه يشير إلى قوة العلاقة بين جين TF و ith ، والعلامة يقترح ما إذا كانت علاقة الإثارة أو المثبطة. يشير النموذج في (33) إلى أن مستوى التعبير الجيني في الوقت الحالي يعتمد على مستوى التعبير الجيني في اللحظة السابقة وكذلك مستوى نشاط البروتين. تأثير تدهور الجين التعبير على غرار [[lambda] .sub.i] ، [k.sub.i] ثابت يمثل المستوى الأساسي ، و [w.sub.i] (t) هو نمذجة الضوضاء الغاوسية للروابط غير المؤكدة في النموذج والأخطاء في البيانات.

يتبع مستوى نشاط البروتين النموذج الديناميكي التالي:

[التعبير الرياضي غير قابل للاستنساخ في ASCII] ، (35)

حيث يعطي [b.sub.ij] العلاقة بين البروتينات ، ويشير a إلى تأثير ترجمة mRNA إلى بروتين ، و [v.sub.n] (t) هو Gaussiannoise. يتم إعطاء المعلمات غير المعروفة لكلا النموذجين بواسطة

[[ثيتا] .sub.i] = [[[a.sub.i1]. [a.sub.iN] [[lambda] .sub.i] [k.sub.i]]. sup.T] ، [[PHI] .sub.n] = [[[b.sub.n1]. [b.sub.nM] [[alpha] .sub.n] [[beta] .sub.n] [h.sub.n]]. sup.T] (36)

ويتم تقديرها من خلال حل مشكلة المربعات الصغرى المقيدة [43]. بمجرد الحصول على الشبكات الفرعية الفردية ، يتم دمجها معًا لتشكيل شبكة خلوية واحدة مع TFs التي تربطها ببعضها البعض.

لا تزال مشكلة استنتاج شبكة متكاملة في مراحل أولية نسبيًا ، ولا تزال العديد من مجالات البحث مفتوحة. علاوة على ذلك ، هناك حاجة لدراسات المقارنة لتحديد مزايا وعيوب الطرق المختلفة المستخدمة.

يمكن تقييم دقة الاستدلال باستخدام معرفة شبكة المعيار الذهبي أو الشبكة الحقيقية. من أجل قياس الخوارزميات ، يجب حساب الحواف المحددة بشكل صحيح أو الإيجابيات الحقيقية (TPs). بالإضافة إلى ذلك ، يجب أيضًا حساب عدد الإيجابيات الكاذبة (FPs) ، أو الحواف المشار إليها بشكل غير صحيح ، والسلبيات الكاذبة (FNs) التي تمثل الاكتشاف المفقود [10]. مع وجود هذه القيم في متناول اليد ، المعدل الإيجابي الحقيقي أو الاسترجاع ، TPR = TP / (TP + FN) ، المعدل الإيجابي الخاطئ ، FPR = FP / (FP + TN) ، والقيمة التنبؤية الإيجابية التي هي ، PPV = TP / (TP + FP) ، وتسمى أيضًا الدقة ، يمكن حسابها. تمكننا هذه الكميات من عرض الأداء بيانياً حسب المنطقة الواقعة تحت منحنى ROC الذي يرسم FPR مقابل TPR. تُستخدم هذه المعايير على نطاق واسع كمعيار الدقة لخوارزميات الاستدلال بشبكة الجينات.

في حين أنه من الممكن تحديد العلاقات التنظيمية للجينات بشكل تجريبي ، إلا أنها لن تكون باهظة من الناحية الفنية فحسب ، بل ثبت أيضًا أنها مكلفة للغاية. لهذا السبب ، تم إنشاء العديد من شبكات السيليكو والفيفو للمساعدة في تحديد خوارزميات استدلال الشبكة. من بين هذه المجموعات مجموعة DREAM (حوار حول تقييم وأساليب الهندسة العكسية) [44] و IRMA (في تقييم الهندسة العكسية والنمذجة في الجسم الحي) [45]. يوفر المرجع [10] مسحًا موحدًا لبعض الخوارزميات المهمة في خوارزميات الاستدلال بشبكة الجينات باستخدام مجموعات البيانات هذه.

7. المناقشات والاستنتاجات

تستعرض هذه الورقة الطرق الإحصائية الرئيسية المستخدمة لاستدلال شبكات الجينات والبروتينات. يمكن إجراء الاستدلال على شبكة PPI بعدة طرق من خلال استغلال معلومات علم الوراثة وبيانات التسلسل. ركزت هذه الورقة فقط على طرق الاستدلال التي تستخدم بيانات PPI.

لاستدلال شبكات تنظيم الجينات ، يمكن ببساطة تحديد المشكلة على النحو التالي: بالنظر إلى بيانات التعبير الجيني ، ابحث عن التفاعلات بين الجينات. تمت مراجعة ثلاث فئات رئيسية من الأساليب الإحصائية في هذه الورقة: النماذج الرسومية الاحتمالية ، ونماذج فضاء الدولة ، والطرق النظرية للمعلومات. لجميع هذه الأساليب ، تم مناقشة تقنيات النمذجة وكذلك الاستدلال. لوحظ أنه تم إحراز تقدم كبير في مجال استدلال GRN. ومع ذلك ، فإن جميع طرق الاستدلال الشبكي المقترحة تقريبًا في الأدبيات تعمل فقط مع مجموعات بيانات التعبير الجيني الشائعة. يمكن أن يكون دمج مجموعات البيانات المختلفة والمعرفة البيولوجية المتاحة للتوصل إلى خوارزميات أفضل وأكثر قوة جزءًا مثيرًا للاهتمام من العمل المستقبلي.

بمقارنة الفئات الثلاث العريضة للطرق الإحصائية التي تمت مراجعتها في الورقة ، وجد أن الأساليب النظرية للمعلومات لها مزايا على الطرق الأخرى من حيث الحد الأدنى من افتراضات النمذجة ، وبالتالي فهي قادرة على نمذجة شبكات أكثر عمومية. تفترض تقنيات النمذجة الرسومية أن تكون الشبكة غير دورية في حالة نمذجة شبكة Bayesian وتوفر رسمًا بيانيًا غير موجه عند استخدام شبكات Markov. تعمل النماذج غير الخطية للدولة مع وظائف غير خطية قد لا تكون الممثل الحقيقي للشبكة الأساسية ، مما يؤدي إلى خوارزميات أقل قوة.

في حالة التنبؤ بشبكة PPI ، فإن الطريقة الإحصائية الأكثر شيوعًا هي التجميع. بالإضافة إلى ذلك ، يتم أيضًا استخدام تقنيات النمذجة الرسومية الاحتمالية. ومع ذلك ، لا تزال العديد من السبل الهامة للبحث مفتوحة. نظرًا لأن شبكات Markov وشبكات Bayesian قادرة على نمذجة شبكات PPI بكفاءة ، فمن المحتمل استخدام تقنيات رسومية احتمالية أخرى مثل الرسوم البيانية للعوامل لحل مشكلة الاستدلال هذه. تعد طرق التجميع أكثر ملاءمة لمشكلة استدلال شبكة PPI حيث ينصب التركيز الرئيسي على تحديد مجمعات البروتين. وجد أن بعض تقنيات النمذجة الهامة والشائعة قد تفشل في نمذجة شبكات PPI [46]. كما يمكن استخدام طرق التجميع على أساس المعلومات المتبادلة [47].

تم اقتراح العديد من الطرق الإحصائية لاستنتاج شبكة متكاملة من تنظيم النسخ والتفاعل بين البروتين والبروتين. يتضمن نموذج الدولة والفضاء لاستدلال الشبكة المتكاملة تقدير المعلمة الذي يشير إلى قوة اللوائح المثبطة والمثيرة. نظرًا لأن الشبكات الخلوية معروفة بأنها متفرقة ، فمن المتوقع أن يؤدي استخدام المربعات الصغرى المقيدة بالتناثر لتقدير المعلمات على النحو المقترح في [25] إلى خوارزميات استدلال أكثر قوة.

أظهرت السنوات الأخيرة تقدمًا هائلاً وسريعًا في مجال نمذجة الشبكة الخلوية. مع زيادة كمية وأنواع مجموعات البيانات ، تعد الخوارزميات التي تجمع مجموعات بيانات متعددة ضرورية للمستقبل.

تم إعداد هذه الورقة من خلال منحة QNRF-NPRP رقم. 09874-3-235 ودعم من NSF Grant no. 0915444. البيانات الواردة هنا هي من مسؤولية المؤلفين وحدهم.

[1] X. Zhou and S. T.C Wong، Computational Systems Bioinformatics، World Scientific، 2008.

[2] Y. Huang، I. M. 26 ، لا. 1 ، ص 76-97 ، 2009.

[3] X. Zhou، X. Wang، and E.R Dougherty، Genomic Networks: Statistical Inference from Microarray Data، John Wiley & ampSons، 2006.

[4] هـ. كيتانو ، "بيولوجيا الأنظمة الحاسوبية ،" الطبيعة ، المجلد 420 ، رقم 6912 ، الصفحات 206-210 ، 2002.

[5] ب. ماليك ، د. جولد ، وف. بلدانداوثاباني ، تحليل بايزي لبيانات التعبير الجيني ، وايلي ، 2009.

[6] H. D. Jong ، "نمذجة ومحاكاة أنظمة التنظيم الوراثي: مراجعة الأدبيات ،" Journal of Computational Biology ، المجلد 9 ، رقم 1 ، الصفحات 67-103 ، 2002.

[7] X. Cai and X. Wang، "Stochastic modeling and simulation of gene networks" IEEE Signal Processing Magazine، vol.24، no.1، pp.27-36،2007.

[8] H. Hache، H. Lehrach، and R. Herwig، "Reverse Engineering of gene Organizational networks: a Comparative study،" Eurasip Journal on Bioinformatics and Systems Biology ، المجلد 2009 ، معرف المقالة 617281 ، 2009.

[9] F. Markowetz و R.Spang ، "استنتاج الشبكات الخلوية - مراجعة" ، BMC Bioinformatics ، المجلد 8 ، مقال S5 ، 2007.

[10] سي إيه بينفولد ودي إل وايلد ، "كيف تستنتج شبكات الجينات من ملامح التعبير ، إعادة النظر" ، Interface Focus ، المجلد 3 ، ص. 857870 ، 2011.

[11] J. Wang، M. Li، Y. Deng، and Y. Pan، "التطورات الحديثة في طرق التجميع لشبكات تفاعل البروتين" BMC Genomics ، المجلد 11 ، لا. الملحق 3 ، المادة S10 ، 2010.

[12] X. Li، M. Wu، C.Kwoh، and S.K.Ng، "النهج الحسابية للكشف عن مجمعات البروتين من شبكات تفاعل البروتين: دراسة استقصائية ،" BMC Genomics ، المجلد 11 ، رقم 1 ، المادة S3 ، 2010.

[13] أ. مرتضوي ، ب. أ. ويليامز ، ك. ماكوي ، إل شايفر ، وب. وولد ، "رسم الخرائط وتحديد كمية نسخ الثدييات بواسطة RNA-Seq ،" Nature Methods ، المجلد. 5 ، لا. 7 ، ص 621-628 ، 2008.

[14] KY Yip و RP Alexander و KK Yan و M. Gerstein ، "تحسين إعادة بناء شبكات تنظيم الجينات في السيليكو من خلال دمج بيانات الضربة القاضية والاضطراب ،" بلوس وان ، المجلد 5 ، رقم 1 ، معرف المقالة e8121 ، 2010 .

[15] D. Koller and N. Friedman ، النماذج الرسومية الاحتمالية: المبادئ والتقنيات ، مطبعة معهد ماساتشوستس للتكنولوجيا ، 2009.

[16] K. Murphy و S. Mian ، "نمذجة بيانات التعبير الجيني باستخدام شبكات Bayesian الديناميكية ،" Tech. ممثل ، جامعة كاليفورنيا ، بيركلي ، كاليفورنيا ، الولايات المتحدة الأمريكية ، 2001.

[17] Y. Zhang و Z. Deng و H. Jiang و P. Jia ، "استنتاج شبكات تنظيم الجينات من مصادر بيانات متعددة عبر شبكة بايزية ديناميكية مع EM هيكلي ،" في DILS ، SCBoulakia و V.Tannen ، Eds. المجلد 4544 من ملاحظات المحاضرات في علوم الكمبيوتر ، الصفحات 204-214 ، سبرينغر ، 2007.

[18] Z. M. Ibrahim ، A. Ngom ، و A. Y. Tawfik ، "استخدام الاحتمال النوعي في شبكات تنظيم الجينات بالهندسة العكسية ،" IEEE Transactions on Computational Biology and Bioinformatics ، المجلد. 8 ، لا. 2 ، ص 326-334 ، 2011.

[19] ن. كرامر ، ج. شافر ، وأ. بوليستيكس ، "التقدير المنتظم لشبكات ارتباط الجينات واسعة النطاق باستخدام نماذج غاوسية رسومية" ، BMC Bioinformatics ، المجلد 10 ، رقم 1 ، ص 384 ، 2009.

[20] P. Menendez، Y. A. I. Kourmpetis، C.J F. ter Braak، and F. A. van Eeuwijk، "Gene Regulatory Network from multifactorial disorder using graphical lasso: application to the DREAM 4 Challen،" PLoS ONE، vol. 5 ، لا. 12 ، معرف المقالة e14147 ، 2010.

[21] F.-X. وو ، دبليو- جيه. Zhang و AJ Kusalik ، "نمذجة التعبير الجيني من بيانات تعبير microarray مع معادلات فضاء الدولة ،" في ندوة المحيط الهادئ حول الحوسبة الحيوية ، RB Altman ، AK Dunker ، L. Hunter ، TA Jung ، و TE Klein ، محرران ، ص 581 -592 ، العالم العلمي ، 2004.

[22] Z. Wang و F. Yang و DWC Ho و S. Swift و A. Tucker و X. Liu ، "النمذجة الديناميكية العشوائية لبيانات السلاسل الزمنية للتعبير الجيني القصير ،" IEEE Transactions on Nanobioscience ، المجلد 7 ، رقم 1 ، ص 44-55 ، 2008.

[23] M. Quach ، N. Brunel ، و F. D'alche-Buc ، "تقدير المعلمات والمتغيرات المخفية في نماذج فضاء الحالة غير الخطية بناءً على معادلات ODE لاستدلال الشبكات البيولوجية ،" المعلوماتية الحيوية ، المجلد 23 ، لا .23 ، ص 3209 - 3216 ، 2007.

[24] Z. Wang و X. Liu و Y. Liu و J. Liang و V. Vinciotti ، "نهج ترشيح kalman ممتد لنمذجة شبكات تنظيم الجينات الديناميكية غير الخطية عبر سلسلة زمنية قصيرة للتعبير الجيني ،" IEEE / ACM Transactions on البيولوجيا الحاسوبية والمعلوماتية الحيوية ، المجلد 6 ، العدد 3 ، الصفحات من 410 إلى 419 ، 2009.

[25] أ. نور ، إي سربدين ، إم إن نونو ، وإتش إن نونو ، "استنتاج شبكات تنظيم الجينات عبر نماذج فضاء الدولة غير الخطية واستغلال التباين ،" معاملات IEEE / ACM على علم الأحياء الحاسوبي والمعلوماتية الحيوية ، المجلد 9 ، رقم. 4 ، ص 1203-1211 ، 2012.

[26] أ.نور ، إي. ص.725-728 ، مارس 2012.

[27] R. Tibshirani ، "الانحدار الانكماش والاختيار عبر lasso ،" Journal of the Royal Statistical Society B، vol. 58 ، ص 267-288 ، 1996.

[28] C. Koh، F. X. Wu، G. Selvaraj، and A.J Kusalik، "Use a state space analysis and location analysis to to the time regulatory Networks،" Eurasip Journal on Bioinformatics and Systems Biology، vol. 2009 ، معرف المقالة 484601 ، 3 صفحات ، 2009.

[29] A. A. Margolin ، I. Nemenman ، K. Basso et al. ، "ARACNE: خوارزمية لإعادة بناء شبكات تنظيم الجينات في سياق خلوي للثدييات ،" BMC Bioinformatics ، المجلد 7 ، لا. الملحق 1 ، المادة S7 ، 2006.

[30] W. Zhao و E. Serpedin و E.R. 5 ، لا. 2 ، ص 262-274 ، 2008.

[31] أ. نور ، إي. سربدين ، إم إن نونو ، إتش إن نونو ، إن. محمد ، وإل شوشان ، "الأساليب النظرية للمعلومات لنمذجة شبكات تنظيم الجينات" ، في ندوة IEEE حول الذكاء الحسابي في المعلوماتية الحيوية والبيولوجيا الحاسوبية ( CIBCB '12) ، ص 418-423 ، 2012.

[32] T. Cover and J. Thomas، Elements of Information Theory، Wiley Interscience، 2006.

[33] W. Zhao، E. Serpedin، and E.R.

[34] إم فيدياساغار ، "الأساليب الاحتمالية في بيولوجيا السرطان ،" تشايلد هود ، المجلد 20 ، الصفحات 82-89 ، 2011.

[35] P. Zoppoli، S. Morganella، and M. Ceccarelli، "TimeDelay-ARACNE: الهندسة العكسية لشبكات الجينات من بيانات الدورة الزمنية من خلال نهج المعلومات النظري ،" BMC Bioinformatics ، المجلد. 11 ، لا. 1 ، المادة 154 ، 2010.

[36] J. Dougherty، I. Tabus، and J. Astola، "Inference of Gene Organizational Networks on the Global Minal description length،" Eurasip Journal on Bioinformatics and Systems Biology، vol. 2008 ، معرف المقالة 482090 ، 2008.

[37] أ. جايموفيتش ، ج. إليدان ، هـ. مارغاليت ، ون.فريدمان ، "نحو شبكة تفاعل بروتين-بروتين متكامل: نهج شبكة ماركوف العلائقية" ، مجلة علم الأحياء الحاسوبية ، المجلد 13 ، رقم 2 ، الصفحات 145-164 ، 2006.

[38] Y. Qi، F. Balem، C.Faloutsos، J. Klein-Seetharaman، and Z. Bar-Joseph، "Protein complex Identering by the supervised chart local clustering،" Bioinformatics، vol.24، no.13، pp .i250-i268، 2008.

[39] جيه آر برادفورد ، سي جيه نيدهام ، إيه جي بولبيت ، ودي آر ويستهيد ، "رؤى في واجهات البروتين والبروتين باستخدام طريقة التنبؤ الشبكي Bayesian ،" Journal of Molecular Biology ، المجلد. 362 ، لا. 2 ، الصفحات 365-386 ، 2006.

[40] D. Greene، G. Cagney، N. Krogan، and P. Cunningham، "Ensemble non-negative matrix methods for clustering protein-protein reaction" Bioinfomatics ، المجلد 24 ، رقم 15 ، ص 1722- 1728 ، 2008.

[41] N. Nariai ، Y. Tamada ، S. Imoto ، and S. Miyano ، "تقدير شبكات تنظيم الجينات وتفاعلات البروتين والبروتين ل Saccharomyces cerevisiae من بيانات متعددة على مستوى الجينوم" Bioinfomatics ، المجلد 21 ، لا. الملحق 2 ، الصفحات 1206-212 ، 2005.

[42] C.W. Li and B. S. Chen ، "تحديد الآليات الوظيفية للشبكات التنظيمية للجينات والبروتينات استجابة لنطاق أوسع من الضغوط البيئية ،" Comparative and Functional Genomics ، المجلد 2010 ، معرف المقالة 408705 ، 2010.

[43] ص. C. Wang and B. S. Chen ، "الشبكة الخلوية المتكاملة لأنظمة النسخ وتفاعلات البروتين والبروتين" ، BMC Systems Biology ، المجلد 4 ، رقم 1 ، المادة 20 ، 2010.

[45] I. Cantone، L. Marucci، F. Iorio et al. ، "شبكة خميرة اصطناعية للتقييم في الجسم الحي لنهج الهندسة العكسية والنمذجة ،" خلية ، المجلد 137 ، رقم 1 ، ص 172- 181 ، 2009.

[46] R. Schweiger ، M. Linial ، and N. Linial ، "النماذج الاحتمالية التوليدية لشبكات تفاعل البروتين البروتين - منظور biclique ،" Bioinfomatics ، المجلد 27 ، رقم 13 ، الصفحات i142-i148 ، 2011.

[47] X. Zhou، X. Wang، and ER Dougherty، "إنشاء شبكات الجينوم باستخدام تجميع المعلومات المتبادلة وتصميم متنبئ بسلسلة ماركوف ومونتي كارلو القابل للانعكاس ،" معالجة الإشارات ، المجلد 83 ، رقم 4 ، الصفحات من 745 إلى 761 ، 2003.

أمينة نور (1) إرشين سربدين (1) محمد نونو (2) حازم نونو (3) نادي محمد (4) ولطفي شوشان (4)

(1) قسم الهندسة الكهربائية وهندسة الحاسبات ، جامعة تكساس إيه وأمبير ، كوليج ستيشن ، تكساس 77843-3128 ، الولايات المتحدة الأمريكية


خلفية

مع تزايد كميات البيانات البيولوجية الناتجة عن التقنيات الحديثة عالية الإنتاجية ، نواجه مشكلة صعبة: كيفية استخراج معلومات مفيدة من البيانات. يتمثل الاتجاه البارز لمعالجة هذه المشكلة في استخدام مناهج التنقيب عن البيانات الحسابية لتحليل البيانات البيولوجية عالية الإنتاجية ، مثل بيانات التعبير الجيني [1-4]. على وجه الخصوص ، تم تطوير أساليب التحليل لاستنتاج التفاعلات التنظيمية من بيانات النسخ. هناك ارتباط نشط (إيجابي) أو مثبط (سلبي) بين الزوج المتفاعل. يمكن أن تكون معرفة نوع التفاعل مفيدة لمجموعة واسعة من التحليلات بما في ذلك التحليل المتمحور حول الوحدة النمطية [15] ومحاكاة الشبكة [16]. يستخدم عدد متزايد من الأساليب مقاييس التعبير المشترك ، إما القائمة على الارتباط (الخطي بشكل عام) أو المستندة إلى نظرية المعلومات (يمكن اعتبار العلاقات غير الخطية) [17] ، لاستنتاج شبكات GRN.

على الرغم من أن الأساليب القائمة على نظرية المعلومات قد تم تطبيقها على نطاق واسع لفك تشفير GRNs [18-20] ، إلا أنها لا تُستخدم حاليًا لتحديد نوع التنظيم بين جينين متصلين في GRN المعاد بناؤه. هنا ، نقدم SIREN ، وهو إطار إحصائي يستخدم مقياسًا جديدًا قائمًا على نظرية المعلومات للتنبؤ بالنوع التنظيمي. إن إطارنا الجديد قادر على التنبؤ بدقة بنوع التنظيم بين جينين متفاعلين. الافتراض الأساسي في نهجنا هو أنه إذا كان لجينين متصلين في الشبكة أنماط تعبير متشابهة ، فمن المحتمل أن يكون هناك ارتباط نشط (إيجابي) فيما بينها. من ناحية أخرى ، إذا كانت أنماط تعبيرهم مضادة للترابط ، فمن المحتمل أن يكون للجينات المتفاعلة تأثير مثبط (سلبي) على بعضها البعض. تستخدم SIREN مقياسًا قائمًا على المعلومات المتبادلة للتنبؤ بنوع التفاعل. تم استخدام توسيع المعلومات المتبادلة على نطاق واسع كمقياس تشابه لحقول اختيار المعالم [21-24]. في نهجنا الجديد ، تم تقديم مصفوفة إعادة القياس لتحويل وظيفة MI ، والتي عادةً ما تولد درجات غير سلبية ، إلى وظيفة يمكن أن يكون لها قيم سالبة. يتم استخدام العلامة الناتجة للتنبؤ بنوع التفاعل. بينما تكتشف SIREN نوع التنظيم ، لا يمكنها اكتشاف اتجاه التنظيم. قمنا بتقييم SIREN من خلال اختباره على بكتريا قولونيةوسرطان البروستاتا وفي معايير GRN للسيليكو. في كل حالة ، حددت SIREN بشكل موثوق الأنواع التنظيمية الإيجابية والسلبية. إلى جانب ذلك ، كشفت مقارنة SIREN مع طريقة خط الأساس بناءً على ارتباط معامل بيرسون (PCC) أن لديها أداءً أكبر في شبكات GRN البيولوجية. تطبيق R للخوارزمية متاح مجانًا على http://baderlab.org/PegahKhosravi/SIREN.


استدلال الشبكة البيولوجية

الشبكة عبارة عن مجموعة من العقد ومجموعة من الحواف الموجهة أو غير الموجهة بين العقد. توجد أنواع عديدة من الشبكات البيولوجية ، بما في ذلك النسخ ، والإشارات ، والتمثيل الغذائي. قليل من هذه الشبكات معروف في أي شيء يقترب من بنيتها الكاملة ، حتى في أبسط أنواع البكتيريا. لا يُعرف الكثير عن المعلمات التي تحكم سلوك هذه الشبكات بمرور الوقت ، وكيف تتفاعل الشبكات على مستويات مختلفة في الخلية ، وكيفية التنبؤ بالوصف الكامل للحالة لخلية حقيقية النواة أو كائن بكتيري في نقطة معينة في المستقبل. بيولوجيا الأنظمة ، بهذا المعنى ، لا تزال في مهدها.

هناك اهتمام كبير بطب الشبكات لنمذجة النظم البيولوجية. تركز هذه المقالة على شرط أساسي ضروري للنمذجة الديناميكية للشبكة: استدلال الهيكل ، أي التنبؤ بـ "مخطط الأسلاك" للشبكة. وبشكل أكثر تحديدًا ، نركز هنا على استدلال بنية الشبكة البيولوجية باستخدام مجموعات متزايدة من بيانات التعبير عالية الإنتاجية للجينات والبروتينات والمستقلبات. [2] باختصار ، تعتمد الطرق التي تستخدم البيانات عالية الإنتاجية لاستدلال الشبكات التنظيمية على البحث عن أنماط الارتباط الجزئي أو الاحتمالات الشرطية التي تشير إلى التأثير السببي. [3] [4] مثل هذه الأنماط من الارتباطات الجزئية الموجودة في البيانات عالية الإنتاجية ، والتي يمكن دمجها مع بيانات تكميلية أخرى حول الجينات أو البروتينات في الشبكات المقترحة ، أو مجتمعة مع معلومات أخرى عن الكائن الحي ، تشكل الأساس الذي تستند إليه هذه تعمل الخوارزميات. يمكن أن تكون هذه الخوارزميات مفيدة في استنتاج طوبولوجيا أي شبكة حيث يمكن أن يؤثر التغيير في حالة عقدة واحدة على حالة العقد الأخرى.

شبكات تنظيم النسخ تحرير

الجينات هي العقد ويتم توجيه الحواف. يعمل الجين كمصدر للحافة التنظيمية المباشرة للجين المستهدف عن طريق إنتاج جزيء RNA أو بروتين يعمل كمنشط نسخي أو مثبط للجين المستهدف. إذا كان الجين منشطًا ، فهو مصدر اتصال تنظيمي إيجابي إذا كان مثبطًا ، فهو إذن مصدر اتصال تنظيمي سلبي. تأخذ الخوارزميات الحسابية قياسات بيانات الإدخال الأولية لمستويات تعبير mRNA للجينات قيد النظر لإدراجها في الشبكة ، مع إرجاع تقدير لطوبولوجيا الشبكة. تعتمد هذه الخوارزميات عادةً على افتراضات الخطية أو الاستقلال أو الحالة الطبيعية ، والتي يجب التحقق منها على أساس كل حالة على حدة. [5] يتم استخدام التجميع أو شكل من أشكال التصنيف الإحصائي عادةً لأداء التنظيم الأولي لقيم تعبير الرنا المرسال عالية الإنتاجية المشتقة من تجارب المصفوفات الدقيقة ، لا سيما لاختيار مجموعات الجينات كمرشحين لعقد الشبكة. [6] ثم يطرح السؤال التالي: كيف يمكن ربط نتائج التجميع أو التصنيف بالبيولوجيا الأساسية؟ يمكن أن تكون هذه النتائج مفيدة لتصنيف الأنماط - على سبيل المثال ، لتصنيف الأنواع الفرعية للسرطان ، أو للتنبؤ بالاستجابات التفاضلية لدواء (علم الصيدلة الجيني). ولكن لفهم العلاقات بين الجينات ، أي لتحديد تأثير كل جين بدقة أكبر على الجينات الأخرى ، يحاول العالم عادةً إعادة بناء شبكة تنظيم النسخ. يمكن القيام بذلك عن طريق تكامل البيانات في النماذج الديناميكية التي تدعمها المؤلفات الأساسية ، أو المعلومات الموجودة في قواعد البيانات العامة ، جنبًا إلى جنب مع نتائج التجميع. [7] يمكن إجراء النمذجة بواسطة شبكة منطقية ، بواسطة المعادلات التفاضلية العادية أو نماذج الانحدار الخطي ، على سبيل المثال انحدار الزاوية الأقل ، بواسطة شبكة بايزي أو بناءً على مناهج نظرية المعلومات. [8] [9] على سبيل المثال ، يمكن أن يتم ذلك عن طريق تطبيق خوارزمية الاستدلال القائمة على الارتباط ، كما سيتم مناقشته أدناه ، وهو النهج الذي حقق نجاحًا متزايدًا مع استمرار زيادة حجم مجموعات المصفوفات الدقيقة المتاحة [3] [ 10] [11]

تحرير تحويل الإشارة

شبكات توصيل الإشارات (مهمة جدًا في بيولوجيا السرطان). البروتينات هي العقد وتمثل الحواف الموجهة التفاعل الذي يتم فيه تعديل التشكل الكيميائي الحيوي للطفل من خلال عمل الوالد (على سبيل المثال بوساطة الفسفرة ، التواجد في كل مكان ، المثيلة ، إلخ). ستكون المدخلات الأساسية في خوارزمية الاستدلال عبارة عن بيانات من مجموعة من التجارب التي تقيس تنشيط / تعطيل البروتين (على سبيل المثال ، الفسفرة / نزع الفسفرة) عبر مجموعة من البروتينات. الاستدلال على شبكات الإشارات هذه معقد بسبب حقيقة أن التركيزات الإجمالية لبروتينات الإشارة ستتقلب بمرور الوقت بسبب تنظيم النسخ والترجمة. يمكن أن يؤدي هذا الاختلاف إلى إرباك إحصائي. وفقًا لذلك ، يجب تطبيق تقنيات إحصائية أكثر تطورًا لتحليل مجموعات البيانات هذه. [12]

تحرير التمثيل الغذائي

شبكات الأيض. المستقلبات هي العقد ويتم توجيه الحواف. سيكون الإدخال الأساسي في الخوارزمية عبارة عن بيانات من مجموعة من التجارب التي تقيس مستويات الأيض.

تحرير تفاعل البروتين والبروتين

شبكات تفاعل البروتين والبروتين هي أيضًا قيد الدراسة النشطة للغاية. ومع ذلك ، لا تستخدم إعادة بناء هذه الشبكات الاستدلال القائم على الارتباط بالمعنى الذي تمت مناقشته للشبكات الموصوفة بالفعل (لا يعني التفاعل بالضرورة تغييرًا في حالة البروتين) ، ويتم ترك وصف لإعادة بناء شبكة التفاعل هذه لمقالات أخرى.


3. نمذجة واستنتاج شبكات تنظيم الجينات

تلتقط شبكات تنظيم الجينات التفاعلات الموجودة بين الجينات. يعد التقدير الدقيق والموثوق لشبكات الجينات أمرًا بالغ الأهمية ويمكن أن يجني فوائد بعيدة المدى في مجال البيولوجيا الطبية ، على سبيل المثال ، من حيث تطوير الأدوية الشخصية. تستعرض الأقسام الفرعية التالية الطرق الإحصائية الرئيسية المستخدمة لاستدلال شبكات تنظيم الجينات. أولاً ، يتم تقديم فئة مهمة من النماذج الرسومية الاحتمالية.

3.1. تقنيات النمذجة الرسومية الاحتمالية

ظهرت النماذج الرسومية الاحتمالية كأداة مفيدة للهندسة العكسية لشبكات تنظيم الجينات. يتم تمثيل شبكة الجينات بالرسم البياني جي = (الخامس, ه)، أين الخامس يمثل مجموعة الرؤوس (الجينات) ، و ه يشير إلى مجموعة الحواف التي تربط الرؤوس. يتم نمذجة رؤوس الرسم البياني كمتغيرات عشوائية وتشير الحواف إلى التفاعل بينهما. قيمة تعبير الجين أنا يرمز بواسطة X أنا، والعدد الإجمالي للجينات في الشبكة يُشار إليه بالرمز ن. تصف الأقسام الفرعية التالية بإيجاز بعض تقنيات النمذجة الرسومية القوية والشائعة لاستدلال شبكة الجينات.

3.1.1. شبكات بايزي

تقوم شبكات بايز بنمذجة شبكات تنظيم الجينات على شكل رسوم بيانية حلقية موجهة (DAGs). لتبسيط عملية الاستدلال ، يتم أخذ التوزيع الاحتمالي لشبكات DAG في الاعتبار عمومًا من حيث التوزيعات الشرطية لكل متغير عشوائي وفقًا لأبويه:

أين بنسلفانيا(X أنا) يشير إلى أصل العقدة X أنا. يتم الاستدلال على شبكة تنظيم الجينات باستخدام تقنيات التعلم الشبكي Bayesian. يتم ذلك عن طريق تعظيم الاحتمال ص(جي | د)، أين د يشير إلى بيانات التعبير الجيني المتاحة. تم اقتراح العديد من مقاييس النتائج للحصول على أفضل هيكل للرسم البياني [15]. وبالتالي ، فإن الشبكة التي تم الحصول عليها هي فريدة من نوعها إلى حد فئة التكافؤ ، حيث يتم تحديد علاقات الاستقلال بشكل فريد.

تتكون بيانات التعبير الجيني المتاحة حتى الآن من عدد قليل جدًا من نقاط البيانات ، في حين أن عدد الجينات أكبر بشكل كبير ، مما يجعل النظام غير محدد. كبديل للعثور على الشبكات الكاملة ، اقترح العلماء النظر في ميزات مهمة معينة ، على سبيل المثال ، علاقات ماركوف وعلاقات النظام. إذا كان الجين X موجود في الحد الأدنى من الشبكة التي تغطي الجين ص، ثم يقال أنه تم إنشاء علاقة ماركوف. يشار إلى العلاقة بين جينين على أنها علاقة منظمة إذا كان جينًا معينًا X يبدو أنه والد لجين آخر ص في جميع الشبكات المكافئة. من خلال تجميع هذه المعلومات ، من الممكن استنتاج الهيكل التنظيمي الأساسي بقوة وموثوقية. ينظر هيكل الشبكة المستنتج بهذه الطريقة إلى التفاعلات الثابتة فقط. من أجل تلبية التفاعلات الديناميكية المتأصلة في شبكات الجينات ، تم استخدام شبكات بايز الديناميكية (DBNs) [16 ، 17].

3.1.2. الشبكات الاحتمالية النوعية

هناك طريقة جديدة لنمذجة شبكات الجينات من خلال استخدام الشبكات الاحتمالية النوعية (QPNs) ، والتي تمثل التناظرية النوعية لـ DBNs [18]. الخصائص الهيكلية والاستقلالية لشبكات QPN هي نفس خصائص شبكات بايز. ومع ذلك ، بدلاً من القلق بشأن الاحتمالات الشرطية المحلية للمتغيرات العشوائية ، تنظر الفئة السابقة من النماذج في كيفية تأثير التغييرات في احتمالات المتغيرات العشوائية على احتمالات آبائهم المباشرين. يتم قياس هذا التغيير من الناحية النوعية بدلاً من القيم الكمية ، أي ما إذا كانت الاحتمالات تزيد أو تنقص أو تظل كما هي كما هو موضح في الشكل 3.

هناك خاصيتان مهمتان لشبكات QPN هما التأثيرات النوعية وأوجه التآزر النوعي. تأثير إيجابي يدل عليه أنا + (X, ص) يشير إلى إمكانية أكبر ل ص ذات قيمة أعلى عندما يكون من X مرتفع والعكس صحيح ، بغض النظر عن جميع المتغيرات الأخرى ،

في حالة ثلاثة متغيرات ، تنظر QPNs إلى أوجه التآزر. تآزر مضاف إيجابي ، يُرمز إليه بـ س + (<X, ص>, ض) ، موجود عندما يكون التأثير المشترك للعقد الأصلية أكبر على العقدة الفرعية من التأثيرات الفردية التي قدمتها

وبالتالي ، توفر QPNs مزيدًا من التبصر في شبكات الجينات من خلال الإشارة إلى ما إذا كان جينًا معينًا محفزًا أم مثبطًا.

3.1.3. نماذج رسومية غاوسية

توفر النماذج الرسومية الغاوسية ، والمعروفة أيضًا باسم نماذج التباين المشترك أو نماذج الرسم البياني للتركيز ، طريقة بسيطة وفعالة لتوصيف التفاعلات الجينية [19 ، 20]. تعتمد هذه الطريقة على تقييم التبعيات الشرطية بين الجينات من حيث معاملات الارتباط الجزئي بين التعبيرات الجينية والنتائج في شبكة غير موجهة. يتم تقدير مصفوفة التغاير باستخدام مجموعات بيانات التعبير الجيني المتاحة. لنفترض أن X & # x02208 & # x0211d ن& # x000d7ن يشير إلى مصفوفة بيانات التعبير الجيني ، حيث تتوافق الصفوف مع الملاحظات وتتوافق الأعمدة مع الجينات ، ثم يتم الحصول على تقدير لمصفوفة التغاير بواسطة

بافتراض قابلية انعكاس W ^ ، يمكن تحديد الارتباطات الجزئية على أنها

حيث تشير & # x003c1 ^ i j إلى الارتباط الجزئي بين الجينات أنا و ي.

3.1.4. خوارزمية LASSO الرسومية

من العوائق الرئيسية للطرق القائمة على تقدير التباين - المصفوفة - عدم موثوقيتها بسبب قلة عدد عينات البيانات. بالاستفادة من حقيقة أن شبكات الجينات متناثرة بطبيعتها ، فمن الممكن الحصول على التبعيات بين الجينات عن طريق نهج الانحدار الخطي المعاقب [20]. تعمل الخوارزمية الرسومية الأقل انكماشًا مطلقًا وعامل التحديد (LASSO) على حل مشكلة استدلال الشبكة بكفاءة عن طريق تعظيم وظيفة الاحتمالية التالية:

أين & # x003c1 يتحكم في تناثر الشبكة ، التدوين || & # x000b7 ||1 يمثل ل 1-norm و و دبليو يشير إلى مصفوفة التغاير. يمكن إجراء هذا التصغير باستخدام طرق نزول كتلة التدرج ، والتي يمكن العثور على تفاصيلها في [20] والمراجع الواردة فيها.

3.2 نماذج تمثيل الدولة والفضاء

واحدة من أقدم الأساليب المستخدمة على نطاق واسع لنمذجة شبكات الجينات هي استخدام نماذج تمثيل فضاء الدولة [21]. على عكس الفئات الأخرى ، فإن جميع الأساليب التي تنتمي إلى هذه الفئة تمثل التطور الديناميكي لشبكة الجينات. تتكون هذه النماذج عمومًا من مجموعتين من المعادلات ، المجموعة الأولى من المعادلات التي تمثل تطور متغيرات الحالة المخفية التي يشير إليها ض(ر) ، والمجموعة الثانية من المعادلات التي تربط متغيرات الحالة المخفية ببيانات التعبير الجيني المرصود ، والمشار إليها بـ x(ر) كما هو مبين في الشكل 4. وظائف ز(& # x000b7) و ح(& # x000b7) يصف تطور المتغيرات المخفية والملحوظة ، على التوالي. بعد ذلك ، في هذا القسم سنصف نماذج مختلفة لاستدلال شبكة الجينات باستخدام نموذج تمثيل فضاء الدولة.

3.2.1. نموذج الدولة والفضاء الخطي

أبسط نموذج لمعادلات فضاء الدولة هو النموذج الخطي الغاوسي المعطى بواسطة [21 ، 22]:

أين أ هي مصفوفة تمثل العلاقات التنظيمية بين الجينات ، و ر لتقف على نقاط زمنية منفصلة. تُستخدم معادلات الفروق بدلاً من المعادلات التفاضلية لأن الملاحظات المنفصلة متوفرة في بيانات التعبير الجيني. مكونات الضوضاء الخامس(ر) و ث(ر) يمثل النظام وضوضاء القياس ، على التوالي ، ويفترض أنهما غاوسي. نماذج الضوضاء عدم اليقين الموجود في بيانات التعبير الجيني المقدرة. المصفوفة ج تعتبر بشكل عام مصفوفة هوية. يمكن إجراء الاستدلال في شبكات الجينات على غرار تمثيل فضاء الدولة (7) باستخدام تحديثات مرشح كالمان القياسية. تتجنب بساطة نموذج الدولة والفضاء فرط تجهيز الشبكة ، وبالتالي ، فإنه يوفر نتائج موثوقة.

3.2.2. النماذج غير الخطية

في حين أنه من المفيد تمثيل شبكات الجينات بنماذج بسيطة لتخفيف التعقيد الحسابي ، فمن الضروري أيضًا دمج التأثيرات غير الخطية في معادلات النظام ، حيث من المعروف أن الجينات تتفاعل بشكل غير خطي [23]. وظيفة معينة تُستخدم بشكل متكرر لالتقاط التأثيرات غير الخطية هي وظيفة القرع السيني المحددة أدناه في (9) [24]. يوصف نموذج تمثيل الفضاء غير الخطي الذي يلتقط التفاعلات الجينية من خلال نظام المعادلات التالي:

أين ال يدخول ال وظيفة المتجه F(& # x000b7) من خلال وظيفة الاسكواش السيني:

أين & # x003bc هي معلمة يجب تحديدها. مصفوفة أ يمثل العلاقات الخطية بين الجينات ، بينما المصفوفة ب يميز التفاعلات غير الخطية. وبالتالي ، فإن المشكلة تتلخص في تقدير المجهول التالي في النظام:

أين أنا 0 نماذج التحيز المستمر. تتمثل إحدى طرق حل هذه المعادلات في استخدام مرشح كالمان الممتد (EKF) [24] ، وهي خوارزمية شائعة لحل معادلات الفضاء غير الخطية. توفر خوارزمية EKF الحل عن طريق تقريب النظام غير الخطي بالتقريب الخطي من الدرجة الأولى. متغيرات أخرى من خوارزمية مرشح كالمان مثل مرشح كالمان التكعيبي (CKF) ومرشح كالمان غير المعطر (UKF) وخوارزمية مرشح الجسيمات تستخدم أيضًا لحل مشاكل الاستدلال [25].

ومع ذلك ، بالنسبة للعديد من الدراسات ، فإن النموذج غير الخطي المدروس يتكون من عدد كبير من المجهول ومن أجل تقدير هذه المتغيرات غير المعروفة بدقة كبيرة ، يلزم وجود مجموعات بيانات تتكون من عدد كبير من العينات. يمثل توافر مجموعات البيانات الأصغر عقبة لا يمكن التغلب عليها في التقدير الموثوق به لعدد كبير من الأشياء المجهولة. يمكن تجنب هذه المشكلة جزئيًا عن طريق تبسيط النموذج ليشمل فقط المصطلحات غير الخطية ، وبالتالي تقليل عدد المعلمات غير المعروفة إلى الحد الأدنى [25] وبالتقريب & # x003bc ليكون واحدا. ثم يتم إعطاء نظام المعادلات المقابلة لمثل هذا السيناريو البخل بواسطة

أين F هي الوظيفة المحددة مسبقًا.

3.2.3. النماذج ذات القيود المتفرقة

الميزة الحاسمة للعديد من شبكات الجينات هي تناثرها المتأصل ، أي أن جميع الجينات في الشبكة مرتبطة ببعض الجينات الأخرى فقط. لذلك ، المصفوفات أ و ب من المتوقع أن يحتوي تصوير العلاقات التنظيمية بين الجينات على عدد قليل جدًا من القيم غير الصفرية مقارنة بحجم هذه المصفوفات. لذلك ، يمكن تطبيق طرق قائمة على الانكماش مثل LASSO [25 ، 26] لتقدير المعلمات واختيار نموذج شحيح. تتمثل إحدى طرق استنتاج النماذج ذات قيود التباين في إجراء تقدير مزدوج ، والذي يتضمن تقدير الحالات والمعلمات واحدة تلو الأخرى. يمكن تقدير الحالات المخفية باستخدام خوارزمية مرشح الجسيمات ، وبمجرد الحصول على جميع التقديرات للحالات المخفية ، يمكن تكديسها معًا لتشكيل مصفوفة وبالتالي يتم الحصول على نظام المعادلات التالي لإجراء تقدير المعلمة:

والتي يمكن التعبير عنها بشكل مضغوط في تمثيل المتجه / شكل المصفوفة كـ

يعمل LASSO على نظام المعادلات هذا وينتج متجهًا للمعلمات ب ن بتقليل المعيار [27]:

يبدو أن تقديرات المعلمات التي تم الحصول عليها باستخدام الخوارزميات المستندة إلى LASSO أكثر موثوقية من التقديرات المقدمة من الطرق الأخرى [25].

3.2.4. نماذج الدولة والفضاء للتبعيات المتأخرة بالوقت

لا تأخذ نماذج فضاء الدولة التي تمت مناقشتها حتى الآن في الاعتبار التأخيرات الزمنية ، حيث تم العثور على تفاعلات متأخرة زمنيًا موجودة في شبكات الجينات [28] بسبب الوقت اللازم لحدوث عمليات النسخ والترجمة. تتمثل إحدى طرق نمذجة هذه الظاهرة في اعتماد نموذج فضاء الدولة التالي:

في نموذج فضاء الحالة هذا ، يُنظر إلى الإدخال على أنه ملف تعريف تعبير لمنظم مثل عامل النسخ. هنا، أ لتقف على ن & # x000d7 ن مصفوفة انتقال الحالة ، بينما ن & # x000d7 ص مصفوفة ب يلتقط تأثير ص المنظمين على النظام. قيمة التأخير الزمني & # x003c4 يتم الحصول عليها من خلال إيجاد أفضل ملاءمة لمجموعة من القيم الممكنة باستخدام معيار معلومات Akaike (AIC) من أجل تجنب فرط تجهيز الشبكة.

3.3 طرق المعلومات النظرية

قدمت الطرق النظرية للمعلومات بعضًا من أقوى الخوارزميات وأكثرها موثوقية لاستدلال شبكة الجينات وتشكل الأساس لمعيار في هذا المجال [29 & # x0201331]. ميزة خاصة مرتبطة بهذه الأساليب هي قدرتها على العمل مع الحد الأدنى من الافتراضات حول الشبكة الأساسية. هذا على النقيض من تقنيات النمذجة الرسومية الاحتمالية وكذلك نماذج فضاء الدولة ، وكلاهما له مجموعة من الافتراضات الخاصة بهما. كما تم إبرازه سابقًا ، توفر شبكة Markov شبكة غير موجهة ، بينما لا تستطيع شبكات Bayesian دمج الدورات أو حلقات التغذية الراجعة. تضع نماذج فضاء الدولة بصرف النظر عن نموذج غاوسي الخطي افتراضات حاسمة حول بنية النموذج. هذه العيوب غير موجودة في حالة الأساليب النظرية للمعلومات. تقدم المناقشة التالية المناهج النظرية للمعلومات الرئيسية لاستنتاج شبكات تنظيم الجينات.

3.3.1. إيجاد العلاقة بين الجينات

اثنان من المفاهيم الأساسية في نظرية المعلومات هما المعلومات المتبادلة والإنتروبيا. المعلومات المتبادلة بين متغيرين عشوائيين X و ص يعرف بأنه [32]

أين ح يشير إلى الانتروبيا أو عدم اليقين الموجود في متغير عشوائي ، ويعطى بواسطة

تقيس المعلومات المتبادلة الارتباط بين متغيرين عشوائيين. في سياق الاستدلال على شبكة الجينات ، تشير المعلومات المتبادلة الأعلى بين جينين إلى تبعية أعلى ، وبالتالي ، تفاعل محتمل بينهما. تستفيد بعض الخوارزميات الأكثر أهمية وقوة لاستدلال شبكة الجينات من المعلومات المتبادلة للعثور على الجينات المتفاعلة [29 ، 30].

3.3.2. تحديد التفاعلات غير المباشرة بين الجينات

إذا كانت المعلومات المتبادلة بين جينين أكبر من عتبة معينة ، فهذا يشير إلى بعض الارتباط بينهما. ومع ذلك ، فإن هذه المعلومات وحدها لا تكفي لتقرير ما إذا كانت الجينات متصلة بشكل مباشر أو غير مباشر عبر جين وسيط. يوفر عدم المساواة في معالجة البيانات (DPI) بعض الأفكار لتقييم ما إذا كان مثل هذا السيناريو صحيحًا أم لا. في حالة وجود ثلاثة جينات تشكل سلسلة ماركوف كما هو موضح في الشكل 5 ، يمكن التعبير عن DPI كـ

باستخدام هذا التفاوت ، وجد أن التفاعل مع أقل المعلومات المتبادلة هو تفاعل غير مباشر. يتم استخدام هذه الطريقة في ARACNE [29] ، والتي أصبحت خوارزمية قياسية لاستدلال شبكة الجينات. ومع ذلك ، فشل DPI في الاحتفاظ في المواقف التي يكون فيها أحد الجينات الثلاثة هو الجين الأب للجينين الآخرين. تم اقتراح المعلومات المتبادلة المشروطة لاستخدامها في مثل هذه الحالات [30]. يتم تعريف المعلومات المتبادلة الشرطية على أنها

لو أنا(X ص | ض) أقل بكثير من أنا(X ص) ، فهذا يعني أن ض هو والد الجينات X و ص كما هو موضح في الشكل 5. في حالة تساوي الكميتين تقريبًا فهذا يعني أن الجين ض ليس له أي تأثير على الجينين الآخرين. لذلك ، من خلال استخدام فكرة المعلومات المتبادلة المشروطة ، يمكن غربلة التفاعلات غير المباشرة في حالة السبب المشترك.

3.3.3. البحث عن الشبكات الموجهة

لا يوفر حساب المعلومات المتبادلة باستخدام بيانات ثابتة أي معلومات حول العلاقات الموجهة. من ناحية أخرى ، قد يشير استخدام بيانات السلاسل الزمنية إلى اتجاه التفاعلات أيضًا [33]. يمكن التعبير عن المعلومات المتبادلة لبيانات السلاسل الزمنية كـ

إذا تم الحصول على قيمة عالية ل أنا(X ر+1 ص ر) ، فإنه يدل على علاقة موجهة من الجين ص إلى X. أثناء استخدام هذه الطرق ، فإن تحديد عتبة الأهمية له أهمية كبيرة ويمكن تقديره بناءً على المعرفة السابقة حول الشبكة.

الكميات النظرية للمعلومات التي تمت مناقشتها حتى الآن متماثلة (أو ثنائية الاتجاه) ولا تقدم أي معلومات حول الاتجاه في حد ذاتها. تم اقتراح بعض المقاييس الجديدة مؤخرًا لاستنتاج العلاقات غير المتماثلة أو ذات الاتجاه الواحد مثل & # x003d5- معامل الخلط المحدد بـ [34]:

بمعنى آخر ، يوفر هذا المعامل مقياسًا للاستقلالية أو الاختلاف بين جينين X و ص. DPI ينطبق أيضًا على & # x003d5-مقياس الخلط ، وبالتالي ، يمكن استخدامه لتحديد التفاعلات غير المباشرة كما في حالة المعلومات المتبادلة.

3.3.4. التبعيات المتأخرة بالوقت

هناك طريقة أخرى لإيجاد العلاقات الموجهة وهي اكتشاف التبعيات المتأخرة بالوقت باستخدام بيانات السلاسل الزمنية. اللحظات الزمنية التي تتخطى فيها المعلومات المتبادلة الحدود أو تنخفض عنها & # x003c4 فوق و & # x003c4 تحت، على التوالي ، لوحظ [35]. تسمى هذه اللحظات التغيير الأولي لأوقات التعبير (IcE) ويتم تعريفها على أنها

يمكن ملاحظة أن الجين x أ يمكن أن يكون منظمًا للجينات x ب إذا وفقط إذا (iff) IcE (x أ) & # x0003c IcE (x ب). يتم إعطاء المعلومات المتبادلة في هذه الحالة من قبل

حيث يتم الإشارة إلى التأخير بواسطة ك. تتمثل الخطوة التالية في العثور على الحد الأقصى لقيم المعلومات المتبادلة المحسوبة لجميع التأخيرات الزمنية ، أي ،

إذا كانت قيمة الحد الأقصى من المعلومات المتبادلة أكبر من عتبة محددة مسبقًا ، يتم استنتاج وجود علاقة موجهة من x أ إلى x ب. يعد حساب العتبة مهمًا جدًا في جميع طرق المعلومات النظرية التي يتم تحديدها على أساس المحدد مسبقًا ص-قيمة [29]. هذا يساعد في الحصول على شبكات بقيمة الأهمية المطلوبة.

3.3.5. اختيار النموذج

يعد اختيار النموذج خطوة مهمة وضرورية في تنفيذ الخوارزميات المذكورة أعلاه. الشبكة التي يتم تشكيلها باستخدام المعلومات المتبادلة وحدها ستؤدي إلى بنية زائدة ، وبالتالي ، يصبح اختيار النموذج أمرًا ضروريًا. تم اقتراح مبدأ الحد الأدنى لطول الوصف (MDL) كنهج عام لاختيار النموذج. ينص MDL على أنه يجب تحديد الشبكة ذات أقصر طول تشفير. بالنسبة للشبكة التي تحتوي على عدد كبير من العقد ، سيكون طول التشفير كبيرًا والعكس صحيح. يوفر مبدأ MDL مقايضة ويساعد في اختيار التفاعلات المهمة فقط بين الجينات. تم تطبيق MDL بطرق مختلفة في إيجاد طول الترميز للشبكة والكثافات الاحتمالية المرتبطة بها [33]. هناك طريقة أخرى لاستخدام هذا المبدأ بالاقتران مع مبدأ الاحتمال الأقصى (ML) الذي ينتج عنه خوارزمية أكثر عمومية [36]. يمكن العثور على مزيد من التفاصيل حول هذه الخوارزمية في [36]. وهكذا ، يبدو أن أدوات نظرية المعلومات قوية جدًا في نمذجة واستنتاج شبكات تنظيم الجينات.


أكوتسو ، ت ، س ميانو وس كوهارا (1999). تحديد الشبكات الجينية من عدد صغير من أنماط التعبير الجيني في إطار ندوة المحيط الهادئ النموذجية للشبكة البوليانية ، الحوسبة الحيوية 4: 17-28.

اراسينا. J.، S. Ben Lamine، MA. ميرميت ، كوهين وجيه ديمونجوت (2000). النمذجة الرياضية في الشبكات الجينية: العلاقات بين التعبير الجيني وكلا من الكسر الكروموسومي والدوائر الإيجابية. في: بورباكيس ، ن. (محرر). بيب 2000. ص 141 - 149. IEEE ، بيسكاتواي.

أراسينا ، ج. ، س. بن لامين ، ماجستير. Memet و O. Cohen و J. Demongeot (2003). النمذجة الرياضية في الشبكات الجينية. معاملات IEEE على علم التحكم الآلي لرجل الأنظمة ، الجزء ب 326: 171-188.

ديمونجوت ج و إم ريتشارد (2000). خوارزميات التجزئة والمطابقة الجديدة كأدوات لنمذجة ومقارنة الصور الطبية. في: Deville، M. and R. Owens (Eds). المؤتمر العالمي السادس عشر إيماكس 2000. ص 127 - 131. EPFL ، لوزان.

ديمونجيوت جيه ، جي بي فرانسواز ، إم ريتشارد ، إف سينيجاس وتي بي. بوم (2002). نهج الهندسة التفاضلية لمعالجة الصور الطبية الحيوية. يتألف من Rendus Biologies 325: 167–174.

ديمونجوت جيه ، إف ثودروز ، ت. بوم ، إف بيرغر وأو كوهين (2003 أ). معالجة صور المصفوفة الحيوية ونمذجة الشبكات الجينية. يتألف Rendus Biologies 326: 487-500.

Demongeot J. ، J. Beyz-Wendling ، J. Mattes ، P. Haigron ، N. Glade and J.L. Coatrieux (2003b). النمذجة والتصوير متعدد النطاقات: تحديات التعقيد الحيوي. إجراءات IEEE 91: 1723-1737.

D'Haeseleer، P.، S. Liang and R. Somogyi (2000). استدلال الشبكات الجينية: من تجميع التعبير المشترك إلى الهندسة العكسية. المعلوماتية الحيوية 16: 707-726.

كروبا ، ب (2002). حول عدد التجارب المطلوبة لإيجاد البنية العرضية للأنظمة المعقدة ، مجلة علم الأحياء النظري 219: 257-267.

Liang، S.، S. Furhman and R. Somogyi (1998). REVEAL ، خوارزمية هندسة عكسية عامة لاستدلال معماريات الشبكة الجينية. ندوة المحيط الهادئ حول الحوسبة الحيوية 3: 18-29.


المناقشة والاستنتاج

تم تطوير عدة طرق لاستنتاج العلاقات بين الجينات والجينات من بيانات التعبير على مدى العقدين الماضيين. في حين أن هذه الأساليب تؤدي أداءً جيدًا في بعض الحالات ، إلا أنها تعاني من عدد من العيوب التي غالبًا ما تؤدي إلى إيجابيات كاذبة أو علاقات مفتاحية مفقودة (السلبيات الخاطئة). يمكن أن يُعزى الأول إلى الطبيعة غير الخاضعة للإشراف لمعظم الطرق (بما في ذلك طرق التعايش والتجميع) مما يجعل من الصعب "تدريبهم" على مجموعة بيانات مصنفة. غالبًا ما ينتج هذا الأخير عن الافتراضات المستخدمة بواسطة طرق محددة (على سبيل المثال ، افتراضات التوزيع لـ DBNs) التي لا تصمد دائمًا.

لمعالجة هذه القضايا ، قدمنا ​​CNNC ، وهو إطار عام لاستدلال العلاقة الجينية ، والذي يعتمد على CNNs. الفكرة الأساسية هنا هي تحويل بيانات الإدخال إلى مدرج تكراري متزامن. يمكّننا هذا التمثيل من الاستفادة الكاملة من المعلومات الواردة في بيانات SC وقدرة شبكات CNN على استغلال المعلومات المكانية. من ناحية أخرى ، توفر بيانات SC معلومات حول العلاقات الفعلية القائمة على الخلية ، بينما توفر العلاقات في الدراسات المجمعة فقط معلومات عن المتوسطات وبالتالي لا تعكس بدقة التفاعلات الحقيقية والسببية. علاوة على ذلك ، يتيح لنا العدد الكبير من الخلايا في مجموعات بيانات SC الأخيرة تقدير التوزيع المشترك لأزواج الجينات بدقة. هنا ، استخدمنا عشرات الآلاف من ملفات تعريف التعبير من عدد صغير نسبيًا من التجارب (بضع مئات) ، في حين أن مجموعات البيانات المجمعة تحتوي على ملفات تعريف أقل بكثير (البيانات المجمعة التي نستخدمها ، والتي هي من واحدة من أكبر التجارب ، تحتوي على ملفات تعريف 300 فقط ). بالإضافة إلى ذلك ، على عكس معظم الأساليب السابقة ، تخضع CNNC للإشراف ، مما يسمح لـ CNN بتكبير الاختلافات الدقيقة بين الأزواج الإيجابية والسلبية. يساعد الإشراف أيضًا على ضبط وظيفة التسجيل بناءً على التطبيق المختلف. على سبيل المثال ، قد تكون الميزات المختلفة مهمة لتحليل التفاعلات الجينية TF عند مقارنتها باستنتاج البروتينات في نفس المسار. أخيرًا ، حقيقة أن الشبكة يمكنها استخدام الكميات الكبيرة من بيانات scRNA-seq دون الحاجة إلى افتراضات صريحة حول توزيع المدخلات تسمح لها بالتغلب على الضوضاء والأخطاء الأخرى بشكل أفضل ، مما يقلل من السلبية الزائفة.

يشير تحليل العديد من تنبؤات التفاعل المختلفة ومهام التعيين الوظيفي إلى أن CNNC يمكن أن يتحسن بالطرق السابقة غير الخاضعة للإشراف. يمكن أيضًا توسيعه بشكل طبيعي لدمج البيانات التكميلية بما في ذلك المعلومات اللاجينية والمتسلسلة. تبرز المقارنات مع الأساليب الأكثر تقدمًا لإعادة بناء الشبكة البيولوجية مزايا CNNC. بالإضافة إلى ذلك ، يمكن استخدام CNNC كخطوة معالجة مسبقة ، أو كمكون في طرق إعادة بناء الشبكة الأكثر تقدمًا. أخيرًا ، يعد CNNC سهل الاستخدام إما مع البيانات العامة أو مع البيانات الخاصة بالظروف. بالنسبة للأولى ، يمكن للمستخدمين تنزيل البيانات والتنفيذ من موقع الويب الداعم ، وتقديم قائمة بالتسميات (الأزواج الإيجابية والسلبية لنظام الاهتمام الخاص بهم) ، واسترداد الدرجات لجميع أزواج الجينات الممكنة. يمكن استخدام هذه بدورها لأي تطبيق لاحق بما في ذلك تحليل الشبكة ، وتخصيص الجينات الوظيفية ، وما إلى ذلك.

في حين تم تطوير عدد من طرق NN السابقة ، من قبلنا وآخرين ، لتحليل متجهات التعبير أحادية الخلية (11 ، 34 ⇓ ⇓ ⇓ –38) ، تختلف هذه الطرق تمامًا عن CNNC. أولاً ، هدفهم عادةً هو مقارنة البيانات عبر الخلايا بدلاً من تحليل العلاقات الجينية داخل الخلايا كما تفعل CNNC. ثانيًا ، على عكس CNNC ، تعتمد هذه الأساليب السابقة على تمثيل متجه (أو مصفوفة لخلايا متعددة) لبيانات التعبير ، والذي لا يستخدم مزايا التحليل المكاني لـ NN العميق. تستخدم CNNC هذه الفكرة عن طريق تحويل علاقات التعايش إلى رسوم بيانية للصور قبل تحليلها. بينما تم تطبيق هذا هنا على بيانات التعبير الجيني ، قد يكون هذا النهج مناسبًا أيضًا لأنواع أخرى من البيانات ، على سبيل المثال ، البيانات المالية.

نظرًا لأن CNNC خاضع للإشراف ، فلن يتم تعميمها بالفعل على الحالات التي لا تتوفر فيها تسميات ، على عكس بعض الطرق التي نقارن بها. من ناحية أخرى ، عندما تتوفر الملصقات ، وهو أمر شائع في العديد من الحالات التي تحتوي على بيانات الجينوم (بما في ذلك جميع المهام التي قدمناها) ، تعد CNNC خيارًا أفضل بكثير من الطرق غير الخاضعة للإشراف.

يتم تنفيذ CNNC في Python ، وتتوفر كل من البيانات وإصدار مفتوح المصدر من البرنامج من موقع الويب الداعم (https://github.com/xiaoyeye/CNNC).


وثائق مماثلة

النشر تاريخ النشر عنوان
سيميني وآخرون. 2019 الفيزياء الإحصائية لشبكات العالم الحقيقي
Wolock et al. 2019 Scrublet: تحديد حسابي لمضاعفات الخلية في البيانات النصية أحادية الخلية
Lähnemann et al. 2020 أحد عشر تحديًا كبيرًا في علم البيانات أحادي الخلية
براتابا وآخرون 2020 خوارزميات المقارنة المعيارية لاستدلال شبكة تنظيم الجينات من البيانات النصية أحادية الخلية
دينغ وآخرون. 2018 تقليل الأبعاد القابلة للتفسير لبيانات النسخ ذات الخلية المفردة باستخدام النماذج التوليدية العميقة
ميتشل وآخرون. 1994 تطور الأوتوماتا الخلوية لإجراء العمليات الحسابية: الآليات والمعوقات
هوانغ وآخرون. 2007 أين ذهبت كل التفاعلات؟ تقدير تغطية خريطتي تفاعل البروتين الهجين
جي وآخرون. 2012 المسح: الكشف عن الوحدة الوظيفية من شبكات تفاعل البروتين البروتين
CN105144190B (ar) 2018-05-01 طريقة ونظام وبرمجيات الجزيء الحيوي لمكون التعريف بالتفاعل
ياو وآخرون. 2011 نماذج ماركوف المخفية غير البارامترية البايزية مع تطبيقات في علم الجينوم
بيشل وآخرون 2012 طرق إعادة أخذ العينات للتحقق من صحة النموذج التلوي مع توصيات للحساب التطوري
US20190252041A1 (ar) 2019-08-15 أنظمة وطرق لتصنيف المتغيرات الجينية والعلاجات وتحديد أولوياتها وتفسيرها باستخدام شبكة عصبية عميقة
AU2009250971B2 (ar) 2012-02-02 طرق اكتشاف الأدوية
جايجر وآخرون 2011 نماذج التأثير المختلط للاعتماد الجيني والمساحي في التصنيف اللغوي
سندي وآخرون. 2012 نموذج احتمالي تكاملي لتحديد التباين الهيكلي في تسلسل البيانات
ميترا وآخرون. 2006 biclustering التطوري متعدد الأهداف لبيانات التعبير الجيني
شيا وآخرون. 2000 بداية بناء الهياكل البروتينية الثلاثية باستخدام نهج هرمي
صن وآخرون. 2011 تقدير المعلمة باستخدام metaheuristics في بيولوجيا الأنظمة: مراجعة شاملة
زشنر وآخرون 2014 استدلال قابل للتحجيم لحركية التفاعل غير المتجانسة من التسجيلات أحادية الخلية المجمعة
Pirim et al. 2012 تجميع بيانات التعبير الجيني عالية الإنتاجية
CN105814573B (ar) 2019-03-29 الطريقة والجهاز والنظام على أساس التطور الموجه
Liang et al. 2000 تطورية مونت كارلو: تطبيقات لأخذ العينات من نموذج C p وتغيير مشكلة نقطة
كيكوتشي وآخرون 2003 النمذجة الديناميكية للشبكات الجينية باستخدام الخوارزمية الجينية ونظام S.
نولز وآخرون. 2008 النمذجة الوصفية في تحسين متعدد الأهداف
هيكرسون وآخرون. 2007 msBayes: خط أنابيب لاختبار سجلات التاريخ الجغرافي النسبي المقارن باستخدام حساب بايزي التقريبي الهرمي

ملفات وروابط أخرى

  • APA
  • اساسي
  • هارفارد
  • فانكوفر
  • مؤلف
  • BIBTEX
  • RIS

في: IET Systems Biology، Vol. 4 ، رقم 6 ، 11.2010 ، ص. 428-440.

مخرجات البحث: المساهمة في المجلة ›المقال› مراجعة الأقران

T1 - الاعتماد متعدد المتغيرات واستدلال الشبكات الجينية

N2 - مهمة حاسمة في بيولوجيا الأنظمة هي تحديد الجينات التي تتفاعل للتحكم في العمليات الخلوية عن طريق التنشيط النسخي لمجموعة من الجينات المستهدفة. تم تطوير العديد من الطرق التي تستخدم الارتباطات الإحصائية في مجموعات البيانات عالية الإنتاجية لاستنتاج مثل هذه التفاعلات. ومع ذلك ، فإن المسارات الخلوية تعاونية للغاية تتطلب غالبًا التأثير المشترك للعديد من الجزيئات. تم اقتراح طرق قليلة لتحديد مثل هذه التفاعلات عالية المستوى بشكل صريح بشكل جزئي بسبب حقيقة أن فكرة الاعتماد الإحصائي متعدد المتغيرات نفسها لا تزال غير محددة بدقة. يحدد المؤلفون مفهوم الاعتماد بين المتغيرات المتعددة باستخدام تقنيات الانتروبيا القصوى ويقدمون الاختبارات الحسابية لتحديد هويتهم. تكشف نتائج الشبكة التركيبية أن هذا الإجراء يكشف التبعيات حتى في الأنظمة قليلة العينات عندما لا يمكن تقدير توزيع الاحتمالية المشتركة بشكل موثوق. يكشف تحليل بيانات المصفوفات الدقيقة المأخوذة من الخلايا البائية البشرية أن إحصائيات الرتبة الثالثة ، ولكن ليس الإحصائيات من الدرجة الثانية ، تكشف عن العلاقات بين الجينات التي تتفاعل في مسار للتنظيم التعاوني لمجموعة مشتركة من الأهداف.

AB - مهمة حاسمة في بيولوجيا الأنظمة هي تحديد الجينات التي تتفاعل للتحكم في العمليات الخلوية عن طريق التنشيط النسخي لمجموعة من الجينات المستهدفة. تم تطوير العديد من الطرق التي تستخدم الارتباطات الإحصائية في مجموعات البيانات عالية الإنتاجية لاستنتاج مثل هذه التفاعلات. ومع ذلك ، فإن المسارات الخلوية تعاونية للغاية تتطلب غالبًا التأثير المشترك للعديد من الجزيئات. تم اقتراح طرق قليلة لتحديد مثل هذه التفاعلات عالية المستوى بشكل صريح بشكل جزئي بسبب حقيقة أن فكرة الاعتماد الإحصائي متعدد المتغيرات نفسها لا تزال غير محددة بدقة. يحدد المؤلفون مفهوم الاعتماد بين المتغيرات المتعددة باستخدام تقنيات الانتروبيا القصوى ويقدمون الاختبارات الحسابية لتحديد هويتهم. تكشف نتائج الشبكة التركيبية أن هذا الإجراء يكشف التبعيات حتى في الأنظمة قليلة العينات عندما لا يمكن تقدير توزيع الاحتمالية المشتركة بشكل موثوق. يكشف تحليل بيانات المصفوفات الدقيقة المأخوذة من الخلايا البائية البشرية أن إحصائيات الرتبة الثالثة ، ولكن ليس الإحصائيات من الدرجة الثانية ، تكشف عن العلاقات بين الجينات التي تتفاعل في مسار للتنظيم التعاوني لمجموعة مشتركة من الأهداف.


المواد والأساليب

تحضير البيانات

قاعدة بيانات التعبير المكاني.

نقوم باستخراج صور ISH المعالجة مسبقًا من FlyExpress (http://www.flyexpress.net) [23-25]. في قاعدة البيانات هذه ، تم اقتصاص صور ISH الأولية من قاعدة بيانات BDGP ومواءمتها وقياسها إلى حجم 320 × 128. كما هو الحال في قاعدة بيانات BDGP ، يتم تعيين الصور المعيارية إلى 16 مرحلة جنينية ، كل جين يتوافق مع مجموعة من الصور ، ومجموعة من مصطلحات السيرة الذاتية (مفردات مضبوطة).

GRN لـ ذبابة الفاكهة تنمية العين.

الحقيقة الأساسية لتفاعلات الجين الهدف TF ، أي التفاعلات التي تم التحقق منها ، مأخوذة من دراسة المرجع. [19] ، حيث تعمل شبكة تنظيم الجينات على نطاق واسع ذبابة الفاكهة تم إنشاء تطوير العين. نحن نعتبرها صالحة لأنهم اعتبروا كل من علاقات التعبير المشترك (بواسطة RNA-Seq) والتفاعلات المادية (باستخدام استدلال الحافز الحسابي) لإنتاج ارتباطات هدف TF. علاوة على ذلك ، حدد المؤلفون مستويات الثقة لشبكات GRN ، وهي الثقة العالية والمتوسطة والمنخفضة ، وأصدروا شبكات GRN العالية والمتوسطة. في GRN عالي الثقة ، تم رسم روابط هدف TF من دليل مباشر ، بينما تحتوي شبكة الثقة المتوسطة على روابط مع أدلة جزئية.

بناء مجموعات البيانات.

لاحظ أن عينات الكائنات الحية المستخدمة في دراسة بوتير [19] هي يرقات ذبابة الفاكهة ، لأن نمو العين يحدث بشكل رئيسي خلال مرحلة اليرقات [26]. في الواقع ، يبدأ نمو العين في وقت مبكر من الجنين (تم شرح الكثير من الجينات بمصطلحات متعلقة بالعين في BDGP) ، ويجمع BDGP الصور الجنينية فقط ، وبالتالي نستخدم الصور من نطاق المرحلة الأخيرة من الفترة الجنينية ، أي المرحلة 13-16. من أجل بناء مجموعة معيارية ، نسترجع الجينات الشائعة المشتركة بين GRN عالي الثقة وآخر مجموعة مرحلة جنينية في FlyExpress ، بما في ذلك 96 TFs و 1261 جينًا مستهدفًا و 2889 رابطًا للجين TF. يتم اختيار أزواج الجينات TF بشكل عشوائي من نفس مجموعة الجينات ، والأزواج السلبية غير موجودة في شبكة الثقة العالية أو المتوسطة. تم تعيين النسبة الموجبة إلى السالبة على 1: 1. نقسم أزواج الجينات TF إلى مجموعات تدريب واختبار ، حيث تكون الصور التي تنتمي إلى نفس الجين إما في مجموعة التدريب أو في مجموعة الاختبار. نسبة التدريب إلى الاختبار هي 4: 1 ، ويتم استخدام بيانات التدريب بنسبة 10٪ للتحقق من الصحة. من أجل إعداد مجموعة اختبار مستقلة ، نقوم بتصفية الروابط المشتركة لشبكات الثقة العالية والثقة المتوسطة ، وترك الروابط خاصة بشبكة الثقة المتوسطة. يتم عرض إحصائيات مجموعة البيانات المعيارية ومجموعة الاختبار المستقلة في الجدول 1.

نمذجة المشكلة

في هذه الدراسة ، نحاول تحديد ما إذا كان TF معينًا ينظم تعبيرًا جينيًا معينًا وفقًا لصور ISH الخاصة بهم ، وبالتالي فإن الإدخال عبارة عن مزيج من ميزتين للصورة والإخراج هو احتمال وجود علاقة منظمة. ومع ذلك ، فهذه ليست مشكلة تصنيف صور تقليدية ، حيث يتوافق كل جين مع مجموعة من الصور ، تم التقاطها في اتجاهات مختلفة ، أي الجانبي ، والبطني ، والظهراني ، أو من دفعات تجريبية مختلفة ، وحجم المجموعة غير ثابت. لذلك ، من أجل استخدام أحدث نماذج التعلم العميق ، نقوم بإنشاء مجموعة من الأمثلة لكل زوج من الجينات ، والتي تتضمن جميع أزواج الصور عبر الجينات ، ويجب أن يكون لكل زوج من الصور نفس الاتجاه. على وجه التحديد ، من أجل TF زأنا وجين زي، تتوافق مع مجموعتين من الصور ، Xأنا و Xي، على التوالى. يترك Xأنا يكون اتحاد ثلاث مجموعات ، Xأنا,ل, Xأنا,الخامس, Xأنا,د، والتي تحتوي على صور للاتجاه الجانبي والبطني والظهري على التوالي. و Xي يتم تعريفه بنفس الطريقة.

اسمحوا أن تكون مساحة الإخراج ، و ذأنا,ي(∈ <0 ، 1>) هو تسمية الإخراج ، مما يشير إلى ما إذا كان التفاعل بينهما زأنا و زي موجود أم لا. في سيناريو التعلم الأصلي ، نريد أن نتعلم وظيفة رسم الخرائط F كما هو موضح في Eq (1) ، (1) حيث يتكون الإدخال من مجموعتين مختلفتين من الصور ذات الأحجام المختلفة. لتبسيط مشكلة التعلم متعددة الحالات ، قمنا بتقسيم الزوج (Xأنا, Xي) في أزواج متعددة من الصور الفردية ، على سبيل المثال ، اين ال صالصورة في Xأنا، هل فالصورة في Xي، ولها نفس التوجه. في مرحلة التدريب ، نقوم بتعيين نفس التسمية ذأنا,ي لجميع الأزواج المنقسمة من (Xأنا, Xي) ، ونحاول تعلم وظيفة رسم الخرائط F′ ، والذي يرضي المعادلة (2) ، (2) حيث يربط المشغل المتجهين في متجه ميزة كامل ، ثم يتم تحويل المهمة إلى مشكلة تعلم أحادية المثيل في سيناريو التعلم التقليدي الخاضع للإشراف. لاحظ أن صورة واحدة قد لا تغطي جميع أنماط التعبير التمثيلية للجين المقابل ، وبالتالي قد يتسبب التبسيط أعلاه في بعض المشاكل ، ولكن وفقًا للدراسات السابقة ، فإن التعلم أحادي المثيل يعمل جيدًا للتعليق التوضيحي التلقائي لـ ذبابة الفاكهة الصور الجنينية [17 ، 27] ، ومن المزايا الأخرى للتحويل إلى التعلم أحادي المثيل أنه يوسع مجموعة البيانات بشكل كبير.

بعد التدريب ، نحصل على وظيفة الخرائط المقدرة للتنبؤ. يُخرج النموذج قيمة احتمالية لكل زوج من الصور ذات الاتجاه نفسه. نظرًا لأن هدفنا هو التنبؤ بالعلاقة التنظيمية لأزواج الجينات TF ، في مرحلة الاختبار ، نحتاج إلى دمج مخرجات أزواج الصور في الاحتمال النهائي لرابط هدف TF ، كما هو موضح في المعادلة (3) ، (3) ) أين | ⋅ | يدل على حجم المجموعة. قمنا بتعيين العتبة على القيمة الافتراضية 0.5 ، أي أن احتمال الناتج أكبر من أو يساوي 0.5 يشير إلى وجود علاقة تنظيمية.

العمارة النموذجية

نقوم بنمذجة التنبؤ بالتفاعل التنظيمي للجينات كمشكلة تصنيف ثنائي ، حيث يتوافق مثيل البيانات مع زوج الجينات ، وتشير التسمية (إيجابية أو سلبية) إلى وجود أو عدم وجود تفاعل تنظيمي بين الجينين. يتم استخراج ميزات البيانات من صور التعبير الجيني. تسميات التدريب مأخوذة من GRNs التي تم الكشف عنها سابقًا باستخدام بيانات RNA-Seq والاستدلال الحافز الحسابي [19]. يوضح الشكل 2 المخطط الانسيابي لـ GripDL. تعمل الشبكة العصبية التلافيفية (CNN) كمصنف ثنائي. على وجه الخصوص ، نحن نتكيف مع نموذج ResNet50 [28] في نظام التنبؤ لدينا. يتم استبدال الطبقة العليا من طراز ResNet50 بطبقة متصلة بالكامل يتم تنشيطها بواسطة وظيفة tanh بأبعاد إخراج تبلغ 128 ، حيث يتم استخدام كل من تسوية الدُفعة والتسرب (معدل التسرب 0.1). يتم إدخال خرج 128-D في الطبقة النهائية المتصلة بالكامل ويؤدي إلى احتمالية التنبؤ عبر وظيفة التنشيط السيني. الإعدادات التفصيلية لمعمارية النموذج موضحة في الجدول 2. هناك أربع مجموعات من الكتل المتبقية ، وهي conv2_x و conv3_x و conv4_x و conv5_x ، والتي تحتوي على أعداد مختلفة من الوحدات الأساسية المتبقية.