معلومة

كيفية تنضيد شبكات تنظيم الجينات


لدي شبكة تنظيم جيني بسيطة نسبيًا أود أن أتخيلها ، مكتملة برموز الأسهم والشريط المشتركة المستخدمة لإظهار ، على التوالي ، الجينات التي تعزز أو تقمع مع الجينات الأخرى. هل هناك طريقة لتنضيد شبكة تنظيم الجينات باستخدام شيء مثل LaTeX أو Graphviz؟

بالنسبة للشبكات البسيطة جدًا ، أعتقد أن شيئًا مثل Photoshop أو Illustrator من المحتمل أن يكون الحل الأسرع ، لكن هذه البرامج تصبح مملة للغاية مع نمو حجم الشبكة حتى قليلاً. ماذا يستخدم الناس عادة لهذا النوع من المهام؟


إذا كان لديك اتصالات بسيطة 1: 1 أو يمكنك سرد بياناتك بهذه الطريقة ، يمكنك تجربة Cytoscape (متاح مجانًا). هناك العديد من المكونات الإضافية لتخصيص ما يدور في ذهنك من حيث التصور.


لم أجربها ، لكن إجابة StackOverflow تشير إلى أنه يمكنك استيراد شبكة GraphViz إلى OmniGraffle (لنظام التشغيل Mac) ، مما يجعل من السهل جدًا إنشاء شبكة جميلة (أسهل بكثير من Photoshop / Illustrator).


كيفية تنضيد شبكات تنظيم الجينات - علم الأحياء

أ شبكة تنظيم الجينات أو وراثي الشبكة التنظيمية (GRN) عبارة عن مجموعة من مقاطع الحمض النووي في الخلية التي تتفاعل مع بعضها البعض ومع المواد الأخرى في الخلية ، وبالتالي تتحكم في معدلات الجينات في.
المقال كامل >>>

ملخص عن الجين تنظيمي الشبكات، جزء من العلم وراء علم الجينوم: برنامج تحويل الغاز إلى سوائل. . على الأقل ، أ الجين تنظيمي شبكة الاتصال عادةً ما يحتوي على ما يلي.
المقال كامل >>>

wo الجين تنظيمي الشبكات يتم الاستدلال عليها من أنواع مختلفة من البيانات. حقيقية، الجين تنظيمي الشبكات بالمعنى الدقيق للكلمة لأنها مترابطة ،.
المقال كامل >>>

الجين تنظيمية الشبكات (GRNs): الانتهاء من تسلسل الجينوم أظهر ذلك. تنظيمية الشبكات (TRNs): على الرغم من السيطرة على الجين التعبير .
المقال كامل >>>

صفحة Klymkowsky Lab الرئيسية. فهم الجين تنظيمي الشبكات. . تشغيل الجين تنظيمي الشبكات المرتبطة بالجنين المبكر ، والأديم الظاهر العصبي و.
المقال كامل >>>

قصص إخبارية عن العلوم والتكنولوجيا تم وضع علامة عليها بالكلمة الرئيسية: الجين تنظيمي شبكة الاتصال. . يساعد الباحثون في كشف أسرار الجين تنظيمي الشبكات .
المقال كامل >>>

باسادينا ، كاليفورنيا - سلطت مجموعة رباعية من الدراسات قام بها باحثون في معهد كاليفورنيا للتكنولوجيا (Caltech) الضوء على ميزة خاصة حول الجين تنظيمي الشبكات .
المقال كامل >>>

الجين تنظيمية شبكة الاتصال. هوية. Korkut Uygun و Yinlun Huang. إطار عمل DCM لـ الجين تنظيمي شبكة الاتصال. يتم تقديم الاستدلال:.
المقال كامل >>>

. الجينات عبر الجينوم يمكن وصفه بأنه نسخ تنظيمي شبكة الاتصال. . ال شبكة الاتصال تكشف الخريطة عن ذلك الجين برامج التعبير والخلوية.
المقال كامل >>>

الجين تنظيمية الشبكات في تطوير مواد دورة MBL. تحليلات مدروسة جيدا الجين تنظيمي الشبكات (GRNs) في كل من الجنينية و.
المقال كامل >>>

يتعلم تنظيمي (نصي) الشبكات من عند الجين بيانات التعبير. تستخدم لتمثيل تنظيمي الشبكات. الجين = عقدة. الارتباط = أعلى أو أسفل التنظيم.
المقال كامل >>>

الجين تنظيمي الشبكات هي المعقد الشبكات من الجين التفاعلات التي. ال الجين تنظيمي شبكة الاتصال الذي درسه ستيرنبرغ وزملاؤه يتحكم في.
المقال كامل >>>

الجين تنظيمية الشبكات لـ 36 عائلة في TF في الإنسان والفأر والجرذان. . homeobox الجين. سلسلة HOXA و HOXB و HOXD و CHX10 و MSX1 و MSX2 و TLX1 و PBX2. اليسار.
المقال كامل >>>

سلطت مجموعة رباعية من الدراسات قام بها باحثون في معهد كاليفورنيا للتكنولوجيا (Caltech) الضوء على ميزة خاصة حول الجين تنظيمي الشبكات تم نشره مؤخرًا في.
المقال كامل >>>

الجين تنظيمي الشبكات ربما تكون أهم مستوى تنظيمي في. كل فرد لديه الجينوم الذي منه الجين تنظيمي شبكة الاتصال مشتق. .
المقال كامل >>>

. الخلايا الجذعية، شبكة الاتصال-تحديد المعرف أ الجين تنظيمي شبكة الاتصال بين 87. شبكة الاتصال- المعرف للاستدلال تنظيمي الشبكات من وقت الدورة.
المقال كامل >>>

الضوضاء الجوهرية في الجين تنظيمي الشبكات. موكوند ثاتاي وألكسندر فان. مقدمة من تنظيمي التفاعلات يخلق a الجين شبكة الاتصال مع معقدة.
المقال كامل >>>


تكامل شبكات تنظيم الجينات في فهم سلوك الحيوان

لسنوات ، عزا العلماء سلوك الحيوان إلى الأنشطة المنسقة للخلايا العصبية ودوائرها من الخلايا العصبية ، والمعروفة باسم الشبكة العصبية (NN). ومع ذلك ، فإن الباحثين يدفعون الحدود في فهم سلوك الحيوان من خلال تكامل التنظيم الجيني.

بدعم من تعاون طويل الأمد مع مدير IGB وأستاذ علم الحشرات جين روبنسون (GNDP) ، ساعد مدير IGB القادم لعلم الجينوم الحاسوبي وأستاذ علوم الكمبيوتر سوراب سينها (BSD / CABBI / GNDP / GSP) في تنظيم ورشة عمل حول "رابطة الدول المستقلة-التطور التنظيمي في التنمية والسلوك "في 2018 لدفع خط جديد في التفكير.

الشبكة العصبية (NN) - تفاعلات شبكة تنظيم الجينات (GRN). الأبعاد المكانية (الجزء السفلي): قد تُظهر الخلايا المختلفة (الخلايا العصبية) ، المتصلة بواسطة NN ، أنشطة GRN مختلفة ، على الرغم من أن GRN نفسها لم تتغير. يتضمن GRN تنشيط العلاقات (السهم الأخضر) والقمع (المطرقة الحمراء) بين الجينات (الدوائر). يشار إلى التعبير الجيني بحد أسود أو رمادي ، يمثل تعبيرًا مرتفعًا ومنخفضًا ، على التوالي. قد تؤثر الإشارات التي تحملها NN على التعبير الجيني في الخلية (السهم المسمى "الإشارات العصبية") ، وقد يؤثر نشاط GRN في خلية واحدة على التعبير الجيني في خلية أخرى ، على سبيل المثال عبر إشارات الغدد الصم العصبية. الأبعاد الزمنية (أعلى اليمين ، الأسهم السميكة تشير إلى تفاعلات أسرع): يمكن أن يؤدي إرسال الرسائل السريع (مقياس ميلي ثانية إلى ثانية) بواسطة NN ("إطلاق العصب") ، عبر الإشارات العصبية ، إلى نشاط الجينات المبكرة المباشرة (IEGs) المرتبطة مع السلوك ، مما يؤدي إلى سلسلة من التغييرات النسخية والجينية الأبطأ بوساطة GRN السلوكي (bGRN) على مقياس من الثواني إلى الأيام. قد تعود هذه التغييرات إلى NN إذا تأثرت مستويات المستقبلات العصبية أو الناقلات العصبية. في بعض الحالات ، يمكن أن تؤدي التغييرات التي تتم بوساطة bGRN إلى تغييرات تطورية ، بوساطة dGRNs ، على نطاق زمني بطيء من الأيام أو الأشهر أو حتى عبر الأجيال. قد تؤثر هذه التغييرات التنموية البطيئة على مورفولوجيا الدماغ وتسبب نمو الخلايا العصبية أو إعادة توصيلها ، وبالتالي تتغذى مرة أخرى في NN.

قال سينها: "كانت إحدى النتائج الرائعة التي توصلت إليها دراسة قادها جين ومعاونوه أن المزيد من الحشرات eusocial يبدو أن لديها شيئًا مختلفًا بشأن جينومها التنظيمي". "يبدو أن هناك نوعًا من التوقيع التطوري للسلوك الاجتماعي المعقد الذي لم نتوقعه حقًا وكان أحد تلك النتائج التي دفعتك حقًا إلى إعادة التفكير في الآثار المترتبة عليه."

جمعت ورشة العمل التي استغرقت يومين أشخاصًا من مجموعة متنوعة من مجموعات المهارات حيث تم تبادل الأفكار والتحدي خلال المناقشات حول مواضيع مختلفة. بعد ذلك بعامين ، تُوجت نتائج تلك المناقشات بمقالة منظور نُشرت في وقائع الأكاديمية الوطنية للعلوم.

قال سينها: "نقطة البداية لهذا المنظور هي أن NN هي المعيار الفعلي لفهم ما يجري في الدماغ من حيث الصلة بالسلوك". "كان هدفنا تسليط الضوء على مستوى آخر من الديناميكيات التي تصاحب السلوك وليس فقط ديناميكيات NN."

قام مؤلفو المنظور بتجميع الأدلة الحالية حول دور شبكات تنظيم الجينات (GRNs) - مجموعة من التفاعلات التنظيمية بين الجينات - في سياق سلوك الحيوان جنبًا إلى جنب مع NN. تؤثر GRNs المرتبطة بالسلوك (bGRNs) على تغييرات التعبير الجيني المرتبطة بسلوك حيواني معين بينما تؤثر GRNs التنموية (dGRNs) على تطور الخلايا والوصلات الجديدة في الدماغ. يحمل تكامل NNs و bGRNs و dGRNs عبر مقاييس متعددة إمكانية فهم كيفية عمل هذه الشبكات بالتنسيق لتنظيم سلوك الحيوان.

قال سينها: "كان هدفنا الأول ببساطة التأكيد على أهمية GRN في السياق السلوكي ، قبل التكهن بكيفية تفاعل GRN مع NN نظرًا لعدم توفر البحث الحالي". "أحد الأمثلة على التفاعل بين NN و GRN يمكن أن يكون تعديل نشاط انتقال الخلايا العصبية من خلال التحكم في التعبير البروتيني أو الببتيد بواسطة GRN."

من خلال رسم الخرائط التجريبية لهذه الشبكات ، يمكن أن تتوافق التغييرات في التعبير الجيني مع السلوكيات في أنواع الخلايا المختلفة. سوف تلعب التقنيات الناشئة دورًا رئيسيًا في هذه الجهود. قال سينها: "كان قياس التعبير الجيني في الدماغ محفوفًا بعدم تجانس الدماغ حيث يوجد العديد من أنواع الخلايا المختلفة". "حقيقة أن لدينا تقنية خلية واحدة تنطلق حقًا تعني أنه يمكننا الحصول على دقة مناسبة لشبكات GRNs في الدماغ ، وبالتالي ، فحص كيفية تفاعل شبكات GRN الخاصة بنوع الخلية مع نقل الإشارات عبر NN."

يتطرق المنظور أيضًا إلى كيفية تأثير العوامل البيئية والسلوك الاجتماعي على شبكات GRN ، والتي تستمر بعد ذلك في تعديل وظيفة وسلوك NN. قال سينها: "يمكن للبيئة إحداث تغييرات جينية وطويلة الأمد تؤدي بعد ذلك إلى أن تصبح GRN مختلفة". "إن النظر إلى وظائف الدماغ ليس فقط من خلال عدسة NN ولكن أيضًا من خلال GRNs يسمح لنا بجلب البيئة بطريقة موثوقة. فيما يتعلق بالسلوك الاجتماعي ، ربما يكون هناك اختلاف في GRN لعدد أكبر من النحل eusocial وهذه نقطة انطلاق لاحتمال مثير للاهتمام أن السلوك الاجتماعي له بعض الخصائص الفريدة في GRNs. "

مع ظهور التقنيات ، ستوفر التحليلات المستقبلية لـ bGRNs والتبادل بين bGRNs و dGRNs و NNs في سياقات سلوكية مختلفة فهمًا أعمق لسلوك الحيوان.


نتائج

صياغة نهج GRADIS

يعتمد نهج GRADIS الخاضع للإشراف لدينا على جرافتاه ديسالملف الشخصي لاستنتاج التفاعلات التنظيمية بين TFs وجميع الجينات (TF وغير المشفرة غير TF) في كائن حي محل الاهتمام. يتكون GRADIS من ثلاث خطوات رئيسية: (1) تجميع العينات ، حيث يتم أولاً تقسيم العينات التي تحتوي على ملفات تعريف تعبير مماثلة إلى ك مجموعات (على سبيل المثال ، على أساس ك- يعني خوارزمية التجميع 26) (2) إنشاء الرسم البياني الإقليدي المتري ، حيث يتم تصوير ملفات تعريف التعبير التي تم الحصول عليها من الخطوة (1) لكل زوج من الجينات TF كرسم بياني إقليدي متري كامل ، حيث يمكن للجين إما ترميز TF أو غير -TF (3) تصنيف قائم على SVM ، حيث يتم تدريب مصنف ثنائي لزوج الجينات TF-gen على أساس ملف مسافة الرسم البياني من الخطوة (2) لتمييز الهدف عن الجينات غير المستهدفة (للحصول على توضيح مرئي لـ GRADIS ، انظر رسم بياني 1). تتمثل إحدى الخطوات الرئيسية في GRADIS في إنشاء الرسم البياني الكامل للمقياس الإقليدي ، والذي يوفر الاختلاف الرئيسي في الأساليب الخاضعة للإشراف لإعادة بناء GRN. نظرًا لأن زوج الجين TF هو زوج مرتب بين الجين المنظم والجين المنظم ، يمكن اعتبار العلاقات الإحصائية المستنتجة من GRADIS على أنها موجهة.

أ تتطلب GRADIS بيانات تعبيرية ومعرفة بعامل النسخ المعروف (TF) والتفاعلات الجينية (G) كمدخلات. ب يتم تجميع العينات الموجودة في بيانات التعبير أولاً باستخدام تجميع الوسائل k ، ويتم استخدام النقط الوسطى ذات الصلة للحصول على بيانات إعلامية وغير زائدة عن الحاجة. ج ثم يتم إنشاء الميزات من مجموعات البيانات المقاسة التي تم الحصول عليها من تجميع العينة في (ب).

لتدريب مصنف ثنائي ، يجب أن تحتوي مجموعة بيانات الإدخال على مثيلات موجبة وسالبة. ومع ذلك ، توفر الشبكات المتاحة التي تم التحقق منها تجريبياً القليل من المعلومات المتعلقة بغياب اللوائح بين TF والجين. جانب آخر مميز في GRADIS هو التقنية المستخدمة لتوليد مثيلات سلبية أثناء المهمة الفرعية لتصنيف SVM. فيما يلي نقدم تفاصيل الخطوات الثلاث.

الخطوة 1: تجميع العينة

يحدد عدد العينات المستخدمة في GRADIS عدد الميزات المستخدمة في التصنيف المستند إلى SVM. لتوفير ميزات إعلامية غير زائدة عن الحاجة ، هناك حاجة إلى خطوة معالجة مسبقة لتجميع عينات البيانات في عدد أقل من المجموعات بناءً على تشابهها. تختلف هذه الخطوة عن تحديد المجموعات بناءً على الجينات المطبقة في مناهج إعادة بناء GRN الأخرى 27. تحقيقا لهذه الغاية ، توظف GRADIS ك- يعني خوارزمية التجميع ، بحيث يتم تجميع عينات البيانات الأصلية في ك عناقيد المجموعات. نحن نستخدم ك- يعني التجميع ، لأنه يسمح لنا بالتحقيق في تأثير أرقام المجموعات ، لأي عدد من العناقيد كحول أداء GRADIS. ثم يتم جمع النقط الوسطى العنقودية الناتجة في مجموعة بيانات جديدة تلخص المعلومات بشكل فعال في المجموعة الأصلية. في مجموعة البيانات المخفضة هذه ، ملف تعريف التعبير للجين ز هو ك- ناقلات الأبعاد (< mathbf> _g = ( ) ) حيث (x_g ^ i left ( right) ) هو مستوى التعبير الجيني ز في النقطه الوسطى العنقودية أنا.

الخطوة 2: إنشاء ملف تعريف مسافة الرسم البياني

لتوفير نهج عالمي خاضع للإشراف لإعادة بناء GRN ، نقوم بعد ذلك ببناء ناقل ميزة لزوج من الجينات TF استنادًا إلى ملفات تعريف التعبير المعنية. يتم الحصول على ملفات تعريف التعبير من خطوة تجميع العينة أعلاه. لحساب الاختلافات في الحجم بين مستويات النسخ لجين TF والهدف المفترض ، يتم إعادة قياس ملفات تعريف التعبير لتقع في الفاصل الزمني [0 ، 1].

زوج من تحجيم كيمكن أن تصور النواقل ذات الأبعاد ك نقطة في مربع الوحدة. باستخدام تدوين رياضي ، فإن زوج الجينات (TF ، جي) مع ملفات تعريف التعبير عن (< mathbf> _ < mathrm <>> = (س _ << mathrm>> ^ 1، x _ << mathrm>> ^ 2، ldots، x _ << mathrm>> ^ k) ) و (< mathbf> _G = (x_G ^ 1، x_G ^ 2، ldots، x_G ^ k) ) يمكن تمثيلها بواسطة ك النقاط ( اليسار ( <>>> ^ 1، x_G ^ 1> right)، left ( <>>> ^ 2، x_G ^ 2> right)، ldots، left ( <>>> ^ k، x_G ^ k> right) ) في مربع الوحدة (الشكل 2 أ ، ب).

مثال على ملفات تعريف التعبير (أ) من عامل النسخ (TF) والجين (جي) ممثلة في مربع الوحدة (ب)، و (ج) مصفوفة الجوار للرسم البياني الإقليدي المتري الكامل الذي تم الحصول عليه من (ب). يتم إعطاء ميزة أزواج الجينات TF عن طريق توجيه المثلث العلوي من المصفوفة (باستثناء القطر باعتباره غير إعلامي).

في الخطوة التالية ، نقوم بإنشاء رسم بياني كامل مرجح بالحافة لكل زوج باستخدام مجموعته المقابلة من ك نقاط كعقد (الشكل 2 ب). وزن الحافة التي تربط العقد (n_i = left ( <>>> ^ i و x_G ^ i> right) ) و (n_j = ( <>>> ^ j، x_G ^ j>) ) (أناي و 1 أنا, يك) على أنها المسافة الإقليدية بين النقطتين ، معطاة بواسطة (w ( ) = sqrt <(x _ << mathrm>> ^ i - x _ << mathrm>> ^ j) ^ 2 + (x_G ^ i - x_G ^ j) ^ 2> ). بعد تشكيل هذا الرسم البياني الموزون ، يتم بعد ذلك استخدام المثلث الأيمن العلوي لمصفوفة الجوار الموزونة ، باستثناء الأقطار ، كمتجه للميزات. حيث أن حجم مصفوفة الجوار الموزونة ك × ك، المثلث الأيمن العلوي كأنا (1 ≤ أناك) إدخالات في ملف أنايرمي. ومن ثم ، فإن ربط جميع صفوف المثلث في متجه سمة واحد يؤدي إلى مصفوفة بطول ( يسار (< تبدأ<*<20>> ك 2 نهاية> right) = mathop < sum> nolimits_^ ك < يسار ( right)> ) ، والذي يستخدم لاحقًا لتعلم المصنف الثنائي (الشكل 2 ج). يلتقط متجه الميزة هذا العلاقة الإحصائية بين العينات ، والتي لا يتم أخذها في الاعتبار في الأساليب التي تعتمد على مقاييس التشابه لتحديد العلاقات الإحصائية بين مستويات TF والجين المستهدف المفترض. لذلك ، يوفر هذا التمثيل الفريد للعلاقات بين العينات معلومات إضافية في إعادة بناء شبكات GRN بدقة. تتشكل متجهات المعالم بناءً على المسافة الإقليدية ، نظرًا لأنها مقياس مسافة طبيعي يستخدم على نطاق واسع. ومع ذلك ، لغرض المقارنة ، نطبق أيضًا مسافة مانهاتن لحساب أوزان الحافة وبناء الميزات بشكل أكبر. مسافة مانهاتن لزوج من العقد (n_i = left ( <>>> ^ i و x_G ^ i> right) ) و (n_j = ( <>>> ^ j، x_G ^ j>) ) (أناي و 1 أنا, يك) بواسطة (w_m ( ) = | <(س _ << mathrm>> ^ i - x _ << mathrm>> ^ ي)> | + | <(x_G ^ i - x_G ^ j)> | ).

الخطوة 3: تصنيف SVM

يعد SVM مصنفًا ثنائيًا معروفًا للنقاط التي تنتمي إلى الفئة الموجبة أو السالبة 28. في GRADIS ، يتم إعطاء الفئة الإيجابية من النقاط بواسطة أزواج من TF وهدف مؤكد ، بينما يتم توفير الفئة السلبية بواسطة أزواج الجينات غير المستهدفة TF. ثم يستخدم تدريب SVM نواقل الميزات التي تم الحصول عليها من الرسم البياني الإقليدي المتري لزوج TF والجين. بالإضافة إلى ذلك ، نستخدم متجهات الميزات التي تم الحصول عليها من مسافة مانهاتن لتدريب SVM ولمقارنة النتائج بين مقياسي المسافة.

عادة ، هناك القليل من المعلومات المتاحة حول عدم وجود تفاعلات تنظيم الجينات بين TFs والجينات المستهدفة في مجموعات بيانات العالم الحقيقي. وبالتالي ، ليس من السهل تدريب المصنف على هذه المشكلة المحددة بسبب نقص الحالات السلبية. للتغلب على هذه المشكلة ، تستخدم GRADIS استراتيجية وضع العلامات التالية لتحديد الأعضاء المحتملين للفئة السلبية: بطبيعة الحال ، التفاعلات الجينية السابقة التي تم تمييزها تجريبيًا لـ TF (على سبيل المثال ، عن طريق ChIP-seq وغيرها من التقنيات) ، المضمنة في شبكة قياسية ذهبية ، تشمل الفئة الإيجابية لبيانات التدريب. ثم يتم تقسيم أزواج الجينات TF غير المميزة إلى عدة مجموعات فرعية ذات حجم مساوٍ للفئة الموجبة. في كل تكرار ، يتم التعامل مع مجموعة فرعية واحدة فقط من هذه المجموعات الفرعية على أنها فئة سلبية ، والتي يتم استخدامها مع الفئة الإيجابية لتدريب SVM جديد خاص بالتكرار باستخدام التحقق المتقاطع عشرة أضعاف على الفئة الإيجابية والسلبية المحددة في التكرار. يتم التعامل مع جميع الأزواج غير المميزة في المجموعات الفرعية المتبقية بدورها على أنها بيانات اختبار في هذا التكرار ، والتي سيتم تقييمها بواسطة مصنف SVM المحدد. يتم أخيرًا تجميع هذه التقييمات الجزئية بواسطة المصنفات الفردية التي تم تدريبها في كل تكرار لاتخاذ قرار نهائي بشأن اختيارنا للحالات السلبية المحتملة.

يؤدي اعتماد استراتيجية وضع العلامات هذه إلى تدريب ما يصل إلى ( frac << left | << mathrm> ، < mathrm>> يمين | >> << يسار | << ماذرم> ، < mathrm>> right | >> ) مصنفات SVM المستقلة. في البداية ، يتم تعيين درجة صفرية لجميع أزواج الجينات TF غير المميزة. يتم تحديث النتيجة لزوج جين TF غير مميز لاحقًا في كل تكرار على النحو التالي: يصنف مصنف SVM الخاص بالتكرار المدرب كل زوج جين TF غير مميز في مجموعة الاختبار ليكون إما إيجابيًا أو سلبيًا. إذا كان توقع الزوج موجبًا ، فستزداد نتيجته بواحد وإلا ، تظل النتيجة بدون تغيير. ثم يتم تكرار هذا الإجراء في التكرار التالي عن طريق أخذ مجموعة فرعية أخرى من أزواج الجينات TF غير المميزة كمجموعة سلبية ، وتصنيف الأزواج المتبقية من هذا القبيل. في النهاية ، سينتهي كل زوج من جين TF-gen غير مميز بالحصول على درجة معينة يتم الحصول عليها من خلال هذه العملية ، والتي تعكس معقولية التفاعل الموجود بين هذه الجينات. حدسيًا ، تشير النتيجة النهائية المنخفضة لزوج الجينات TF-gene إلى احتمالية أعلى للانتماء إلى الفئة السلبية. يتم بعد ذلك تكوين الفئة السلبية لبيانات التدريب عن طريق اختيار تلك الأزواج ذات الدرجة النهائية الصفرية. عدد الحالات السلبية التي تم العثور عليها مع هذا النهج أعلى بكثير من عدد الحالات الإيجابية.

بعد الحصول على مجموعة تدريب مصنفة مرتبطة بموجهات الميزات الموضحة سابقًا ، يمكن تدريب SVM للعثور على المستوى الفائق الأمثل الذي يفصل بين الفئتين. مجموعة التدريب تتكون من ن أزواج TF- الجينات ص1, ص2,…, صن، كل منها ينتمي إلى أي من الفئتين الموجبة والسالبة ، على التوالي يرمز لهما +1 و 1. بمجرد تدريب المصنف SVM ، يمكنه التنبؤ بالعلامة (فئة) أي زوج جين TF غير مميز ص. يتم إجراء هذا التصنيف بواسطة SVM استنادًا إلى وظيفة تسجيل النقاط بالشكل (f left (p right) = mathop < sum> nolimits_^ n < alpha _iK يسار ( حق)> ). ال αأنا هي مضاعفات Lagrange ، التي تم تحسينها بواسطة SVM لفرض درجات إيجابية كبيرة لأزواج الجينات في فئة +1 والنتائج السلبية الكبيرة للأزواج في فئة −1 في مجموعة التدريب. وظيفة النواة ك(· ، ·) هو مكون أساسي لـ SVM ، والذي يوفر تخطيطًا ضمنيًا لنقاط البيانات في مساحة عالية الأبعاد ، حيث يمكن الحصول على المستوى الفائق الأمثل. في GRADIS ، يتم تدريب مصنف SVM باستخدام وظيفة نواة Gaussian (RBF). يتم تنفيذ GRADIS في Matlab R2017b ومتوفر عبر الإنترنت على https://github.com/MonaRazaghi/GRADIS. لفحص مدى تأثير اختيار خوارزمية التعلم الآلي على أداء إعادة بناء GRN ، نقوم أيضًا بتدريب RFs 29 على متجهات الميزات التي تم الحصول عليها من الرسم البياني الإقليدي المتري ومقارنة نتائجها مع نتائج SVM.

تحليل مقارن

لتقييم أداء النهج المقترح ، GRADIS ، ومقارنته مع الأساليب المتنافسة ، استخدمنا المنطقة الواقعة تحت منحنى ROC (AUC) والمنطقة الواقعة تحت منحنى الاسترجاع الدقيق (AUPR 30) التي تم الحصول عليها من العالم الاصطناعي والحقيقي مجموعات البيانات التي تتوفر لها تفاعلات قياسية من تحديات DREAM4 و DREAM5. لضمان متانة النتائج التي توصلنا إليها والحصول على مقاييس AUC و AUPR موثوقة للغاية ، يتم إجراء تحقق متقاطع عشرة أضعاف مع عشرة تكرارات للنُهج الخاضعة للإشراف (انظر الجدول التكميلي S4 لأحجام مجموعات بيانات التدريب والاختبار). كما هو موضح أعلاه ، فإن الفئتين الإيجابية والسلبية ليست متوازنة ، بمعنى أن هناك حالات سلبية أكثر بكثير من الحالات الإيجابية. قد يؤدي هذا الافتقار إلى التوازن في حجم الفصول إلى تدريب مصنف منحاز نحو الفصل الأكبر. لتجنب هذه المشكلة في GRADIS ، نضمن أن كل طية يتم تدريب مصنف SVM عليها تحتوي على نفس عدد المثيلات من كلا الفئتين. يتم تحقيق ذلك من خلال النظر في جميع الحالات الإيجابية في مجموعة التدريب المحددة (من التحقق المتقاطع عشرة أضعاف) وأخذ عينات من نفس العدد من الحالات السلبية بشكل موحد بشكل عشوائي.

آثار عدد العناقيد

تتضمن الخطوة الأولى في تطبيق GRADIS اختيار عدد المجموعات ، ك، لاستخدام العينات الأكثر إفادة فقط. لقياس اختيار قيمة مناسبة لـ ك، نحقق أولاً في تأثير هذه المعلمة على أداء GRADIS. نلاحظ أن القيم الأعلى للجامعة الأمريكية بالقاهرة ترتبط عمومًا بقيم أكبر لـ ك لجميع مجموعات البيانات الثلاثة من تحدي DREAM5 (الشكل التكميلي S1). بالإضافة إلى ذلك ، مع زيادة عدد المجموعات ، ك، اقتربت قيمة AUC من الحد الأقصى لها عند حوالي ك = 50. ومع ذلك ، زيادة أخرى في قيمة ك، فوق 50 ، لا يؤدي إلى تحسن ملحوظ في قيمة AUC (الشكل التكميلي S1).

من أجل إنصاف المقارنة ، نتأكد أيضًا من أن عدد المجموعات المستخدمة في GRADIS يضمن استخدام عدد مماثل من الميزات مثل الأساليب التي تعتمد فقط على ملفات تعريف التعبير. على وجه التحديد ، بالنسبة للبيانات التركيبية من تحدي DREAM4 ، يتم تجميع 210 عينة في ك = 30 مجموعة ، تنتج 435 ميزة لـ GRADIS. هذا مشابه لميزات 420 (= 2.210) المستخدمة من قبل الطرق الأخرى. بالإضافة إلى ذلك ، بالنسبة للبيانات التركيبية من تحدي DREAM5 ، تم تجميع 805 عينة في ك = 50 مجموعة ، تنتج 1225 ميزة لـ GRADIS.

مقارنة الأداء مع البيانات التركيبية

نقارن أولاً أداء GRADIS بأداء المنافسين الآخرين في مجموعات البيانات التركيبية التي تُعرف بها حالات التفاعلات الإيجابية والسلبية. تحقيقًا لهذه الغاية ، نستخدم ستة أساليب غير خاضعة للإشراف مستخدمة بشكل شائع ، CLR و ARACNE و GENIE3 و iRafNet و mrnet و TIGRESS ، ونهج خاضع للإشراف SIRENE ومصنف SVM قائم على التعبير. نظرًا للاستراتيجية المحلية التي تم استغلالها في SIRENE ، فإننا في هذا النهج نقوم فقط بتدريب المصنفات المحلية لكل فريق عمل ، إلى جانب القيمة المقابلة للجامعة الأمريكية بالقاهرة. أخيرًا ، نستخدم متوسط ​​AUCs في المقارنات. بالإضافة إلى ذلك ، فإننا ننظر في الجمع بين معلومات النهج غير الخاضعة للرقابة باتباع حكمة استراتيجية الحشود 6.

كما هو موضح في الجدول 1 ، يتفوق GRADIS على جميع الأساليب المتنافسة بناءً على متوسط ​​AUC ، على المصنفات المختلفة مع عدد متوازن من الحالات الإيجابية والسلبية ، عند استخدام البيانات التركيبية من تحديات DREAM4 و DREAM5. ومن المثير للاهتمام ، بالنسبة لجميع البيانات التركيبية ، باستثناء الشبكة 4 من تحدي DREAM4 ، أن أداء GRADIS أفضل من حكمة الجماهير التي تجمع بين نتائج CLR و ARACNE و GENIE3 و iRafNet و mrnet و TIGRESS. لذلك ، نستنتج أن الميزات المستخدمة في GRADIS توفر ميزة كبيرة للمناهج الحسابية الأخرى. نظرًا لأن iRafNet يعتمد على RF ، فإننا مهتمون أيضًا بالتحقيق فيما إذا كان الأداء الأفضل لـ GRADIS يرجع إلى الاختلافات بين الطرق المستخدمة لتدريب المصنفات (على سبيل المثال ، SVM مقابل RF). تحقيقًا لهذه الغاية ، نقارن أداء GRADIS بأداء مصنف SVM القائم على التعبير والذي يستخدم التعبير عن TFs والجينات المستهدفة. بالنسبة لجميع الشبكات التركيبية ، يكون متوسط ​​AUC لـ GRADIS أكبر من مُصنف SVM القائم على التعبير. علاوة على ذلك ، نلاحظ أن: (1) الحد الأعلى لفترات الثقة لـ AUC لـ GRADIS أكبر باستمرار من المصنف SVM القائم على التعبير ، و (2) الحد الأدنى لفترات الثقة لـ AUC لـ GRADIS على الأقل بحجم متوسط ​​AUC لمصنف SVM القائم على التعبير عبر الشبكات المختلفة. إجمالاً ، توضح هذه النتائج متانة الأداء الممتاز لـ GRADIS.

نتائج مماثلة تنطبق على مقارنة الأساليب على أساس إحصائية AUPR. يتفوق GRADIS على جميع المناهج المتنافسة الأخرى ومزيجها بناءً على حكمة الجماهير (الجدول التكميلي S1). بالنسبة لجميع الشبكات ، باستثناء الشبكة 2 من تحدي DREAM4 ، يتفوق GRADIS على مصنف SVM القائم على التعبير.

علاوة على ذلك ، نطبق مسافة مانهاتن لحساب أوزان الحواف في تمثيل الرسم البياني لبياناتنا ومقارنة النتائج بتلك من المسافة الإقليدية. تظهر النتائج أن معاملات الارتباط بين مسافة مانهاتن والمسافة الإقليدية تختلف من 0.96 إلى 0.99 ، بناءً على اختبار Mantel 31. يشير الارتباط العالي بين مقياسي المسافة إلى أن أداء SVM مع مسافة مانهاتن يعمل بشكل مشابه لتلك القائمة على المسافة الإقليدية (الجدول التكميلي S2). في النهاية ، لتقييم تأثير خوارزميات التصنيف ، نقوم أيضًا بتدريب مصنف الترددات الراديوية على أساس الرسم البياني الإقليدي المتري ومقارنة أدائه بأداء مصنف SVM. أظهرت النتائج أنه باستخدام الميزات المستندة إلى الرسم البياني ، يعمل مصنف SVM بشكل أفضل من الغابات العشوائية في إعادة بناء GRNs (الجدول التكميلي S3).

مقارنة الأداء ببيانات العالم الحقيقي

حفزتنا النتائج المستخلصة من مجموعات البيانات التركيبية على استكشاف أداء GRADIS على مجموعات بيانات التعبير في العالم الحقيقي من بكتريا قولونية و S. cerevisiae المقدمة في تحدي DREAM5. هنا ، نتعلم أولاً حالات التفاعل السلبي ، ونستخدمها لتدريب مصنف عالمي. وجدنا أنه بالنسبة لشبكتي العالم الحقيقي في تحدي DREAM5 ، فإن GRADIS تتفوق في الأداء على كل من الأساليب المتنافسة ، بشكل فردي بالإضافة إلى مزيجها بناءً على حكمة استراتيجية الحشود (الجدول 1). علاوة على ذلك ، يتفوق GRADIS على SVM القائم على التعبير فيما يتعلق بمتوسط ​​AUC كذلك ، ولا تتداخل فترات الثقة ، مما يعزز الادعاءات حول الأداء الأفضل لـ GRADIS. توجد نتائج مماثلة فيما يتعلق بمتوسط ​​AUPR (الجدول التكميلي S1). نلاحظ أنه لا يمكن الحصول على أي نتائج بناءً على iRafNet لأن هذا النهج يتطلب بيانات من تجارب خروج المغلوب أو بيانات تفاعل البروتين والبروتين ، والتي لم يتم توفيرها في تحدي DREAM5.

مقارنة بين النهج المحلية والعالمية

على الرغم من أن كلا من GRADIS و SIRENE يعتمدان على SVM ، إلا أنهما يعتمدان استراتيجيتين مختلفتين جوهريًا لاستدلال GRN ، وهما العالمية والمحلية ، على التوالي. ومن ثم ، لتقديم تقييم عادل ، نقارن GRADIS و SIRENE باتباع منظور مرتكز على TF (أي محلي) ومتمحور حول الشبكة (أي عالمي). يعرض الشكل التكميلي S2 النتائج المتمحورة حول الشبكة التي تم الحصول عليها من SIRENE ، المطبقة على كل مجموعة من مجموعتي بيانات العالم الحقيقي. يشير كل من منحنيات ROC و PR في الشكل التكميلي S2 إلى أن GRADIS يتفوق على SIRENE من منظور الشبكة (العالمي). لمقارنة النهجين من منظور TF الذي يركز على (محلي) ، نستخدم نتائج GRADIS لحساب AUC لكل TF فردي. نلاحظ أنه في هذا النهج ، قد لا تكون بعض TFs موجودة في مجموعة الاختبار ، وبالتالي نكرر التحليل عشر مرات. نحسب بعد ذلك توزيع قيم AUC بناءً على القيم الدنيا والحد الأقصى والمتوسط ​​من التكرارات العشر. أخيرًا ، قارنا أداء طريقتين عبر المخططات الصندوقية ، كما هو موضح في الشكل التكميلي S3. تظهر نتائج هذا التحقيق المحلي مرة أخرى أن GRADIS لديها أداء متفوق مقارنة بـ SIRENE. على سبيل المثال ، نجد أن القيم المتوسطة لتوزيعات الحد الأدنى والمتوسط ​​والحد الأقصى لقيم AUC عبر جميع TFs أكبر باستمرار لـ GRADIS في مجموعات البيانات الخاصة بـ بكتريا قولونية و S. cerevisiae.

آثار تحديد الفئة السلبية

في مخطط التسجيل المذكور أعلاه من تصنيف SVM ، تشير الدرجة الأعلى للزوج إلى مثيل فئة إيجابي ، أي للتفاعل التنظيمي. لمزيد من تقييم الإستراتيجية المقترحة لتحديد مثيلات الفئة السلبية ، يتم اختيار الأزواج غير المميزة التي تقل احتمالية أن تكون حالات سلبية ، بناءً على درجة عتبة معينة ، ويتم فحصها باستخدام قاعدة بيانات تم التحقق منها تجريبياً. على سبيل المثال ، بالنسبة لـ بكتريا قولونية مجموعة البيانات ، 80 ( يسار (<= فارك << يسار | << mathrm> ، < mathrm>> يمين | >> << يسار | << ماذرم> ، < mathrm>> right | >>> right) ) تم تدريب مصنفات SVM على تحديد الأزواج التي قد تكون بمثابة حالات سلبية. ومن المثير للاهتمام أن النتائج تظهر أن 49 زوجًا (من 223،262) زوجًا غير مميز حصلوا على أقصى درجة ممكنة وهي 80. تم اختيار الأزواج التي حصلت على درجة أعلى من 75 (7728 زوجًا) وفحصها مع RegulonDB. من 7728 زوجًا بدرجة أكبر من 75 ، نجد أن 275 يمثل تفاعلات تنظيمية جينية حقيقية. لتقييم أهمية هذه النتيجة ، أنشأنا توزيعًا فارغًا لـ 1000 مجموعة من الأزواج العشوائية غير المميزة من نفس الحجم (7728) ، وفحصنا تفاعلاتها في RegulonDB. الحد الأقصى لعدد التفاعلات التنظيمية الحقيقية بين 1000 مجموعة عشوائية هو 63 ، وهو أقل بكثير من 275. ويشير هذا أيضًا إلى أن الأزواج ذات الدرجات العالية يتم إثرائها بشكل كبير بالفعل للتفاعلات التنظيمية (ص & lt 0.001).

لتقييم أداء نظام التسجيل هذا لـ S. cerevisiae، نحن نختبر نفس الاستراتيجية على التفاعلات التنظيمية مع أدلة ربط الحمض النووي من YEASTRACT. هنا ، تظهر النتائج أن 32 (من 56،281) زوجًا غير مميز يحصلون على أقصى درجة ممكنة من 56. الحد الأقصى للتفاعل التنظيمي الحقيقي بين 1000 مجموعة عشوائية هو 29 ، مما يدعم أيضًا صحة الاستراتيجية المقترحة في توفير معلومات حول أزواج الجينات TF غير المميزة ، خاصة لأولئك الذين حصلوا على أعلى الدرجات (من 56).


المقدمة

تتكون شبكة تنظيم الجين على مستوى الجينوم (GRN) من جميع عوامل النسخ (TF) - تفاعلات الجينات المستهدفة التي تحدث في النظام البيولوجي. يمكن أن يؤثر التباين في استجابة الجين المستهدف لـ TF ، بسبب الاختلاف الجيني ، أو التغيير في البيئة ، أو مزيج منها ، على التعبير الجيني المستهدف. لذلك ، فإن التنبؤات الحسابية للتفاعلات الجينية المستهدفة لـ TF المستندة إلى بيانات التعبير الجيني (أي النسخ النصية) راسخة ومستخدمة على نطاق واسع في بيولوجيا الأنظمة الحديثة (Haury، Mordelet، Vera-Licona، & Vert، 2012 Huynh-Thu، Irrthum، Wehenkel ، & Geurts، 2009 Marbach et al.، 2012 Margolin et al.، 2006 Meyer، Kontos، Lafitte، & Bontempi، 2007 Mordelet & Vert 2008 Petralia، Wang، Yang، & Tu، 2015).

The existing approaches for reconstruction of gene regulatory interactions based on transcriptomics data can be grouped into two categories, i.e., unsupervised and supervised (Maetschke, Madhamshettiwar, Davis, & Ragan, 2014 ). Unsupervised approaches are most prominently used due to the relatively simple formulation—they rely on application of statistical approaches that make use of the transcriptomics data and thresholding techniques (Omranian, Eloundou-Mbebi, Mueller-Roeber, & Nikoloski, 2016 ), without consideration of the accumulated knowledge on experimentally verified gene regulatory interactions (Fig. 1). In contrast, supervised approaches use knowledge of known gene regulatory interactions, in addition to transcriptomics profiles, to predict new gene regulatory interactions. A comprehensive comparative study with synthetic and experimentally obtained transcriptomics data sets has indicated the superiority of supervised over unsupervised approaches for GRN reconstruction (Maetschke et al., 2014 ).

The supervised approaches are based on the idea that if one TF is known to regulate a gene, then all TF-gene pairs with similar features are likely to interact as well. Therefore, supervised approaches necessitate that the expression data profiles for a TF-gene pair be first transformed into feature vectors and then used as input to a supervised learning method. The learning method consists of training a classifier, which is employed to identify whether or not a pair of genes is involved in a regulatory interaction based on the employed features. The key challenges of supervised learning of GRNs are the construction of features used in the learning process, as well as the availability of information that a TF does not have a particular gene as a target, which cannot be readily verified experimentally.

Supervised learning approaches for GRN reconstruction can be further grouped into local and global (Vert, 2010 ). In local approaches, a classifier is built to discriminate the target of each TF separately. In contrast, global approaches use all TF-target gene pairs to learn a classifier for gene regulatory interactions. The global approaches are better suited for practical applications, since the learned classifier can be used on any TF-gene pair and does not require considerable knowledge of gene regulatory interactions for each TF.

The existing supervised approach for GRN reconstruction, called SIRENE, is local—it builds a binary classifier based on a support vector machine (SVM) which, for each TF, distinguishes target from non-target genes (Mordelet & Vert, 2008 ). SIRENE overcomes the absence of knowledge that a TF does not directly interact with a given gene roughly, by randomly selecting such pairs. In the following protocols, we describe an improved approach for generation of non-interacting TF-gene pairs that can be used in conjunction with expression-based SVM to improve the prediction accuracy of gene regulatory interactions (Razaghi-Moghadam and Nikoloski, submitted). The code for the following protocols is available at https://github.com/MonaRazaghi/GRADIS/.

1: CONSTRUCTION OF FEATURES USED IN SUPERVISED LEARNING OF GENE REGULATORY INTERACTIONS

Supervised learning of gene regulatory interactions is based on features of the TF-gene pair to be classified. To this end, gene-expression profiles provide a plethora of data based on features that can be extracted. A trivial set of features can be obtained by concatenating the gene-expression profiles of the TF and gene in a given pair (Ni et al., 2016 ). However, such a representation does not consider the relationship between the expression of the putative target and TF in a given experiment. Here, we provide the means to extract transcriptomics features representative for a TF-gene pair.

المواد

  • Expression of genes monitored over different developmental and environmental conditions (perturbation experiments) or over time (time-resolved experiments). Gene-expression values are usually represented in a table, إكسبن×ص، أين ن denotes the number of genes, ص stands for the number of experiments (e.g., conditions or time points), and the entity Expاي جاي, denotes the expression level of gene أنا in experiment ي.

1. Scale the expression profiles of TFs and genes by their respective maximum expression values (Fig. 2).

The scaled expression values provide the coordinates for a point representation of a TF-gene pair in each experiment.

The following code snippet scales the expression profile of إكسب (Equation 1):

(1)

2. Determine the Euclidean distance between every two experiments based on the point representation (Fig. 2).

The result is represented by a symmetric p × p matrix for every TF-gene pair.

3. Obtain the features of the TF-gene pair by the vectorized form of the resulting Euclidean distance matrix obtained from step 2 (Fig. 2).

Every TF-gene pair is presented by ص(ص −1)/2 features.

(2)

Steps 2 and 3 of Basic Protocol 1 are implemented in lines 98-146 of the code (https://github.com/MonaRazaghi/GRADIS/blob/master/GRADIS_neg.m). These lines determine the Euclidean distance for each TF-gene pair, and vectorize it to form the feature vector.

The number of features can be reduced by selection of representative experiments. This can be achieved by clustering the experiments and selecting the cluster representatives as those that are used in the feature extraction presented above.

2: LEARNING THE NON-INTERACTING TF-GENE PAIRS

Training a binary classifier requires access to two types of instances, called positive and negative, which in our case correspond to presence or absence of gene regulatory interactions for a given pair of TF and gene. Typically, there is little information available about the absence of gene regulatory interactions between TFs and target genes in real-world datasets. Hence, it is not straightforward to train a classifier, due to the lack of negative instances. We describe a detailed procedure for composing a list of negative instances given knowledge about positive instances, i.e., TF-target gene pairs along with their expression levels.

المواد

المعدات

The approach can be executed on any computer (e.g., i7 processor and 16 GB RAM) with Windows 7 operating system

برمجة

The only software needed to run the code is Matlab R2017b

  • Expression-based features for TF-gene pairs based on the Basic Protocol 1
  • A list of pairs of interacting TFs and their target genes. These pairs are referred to as positive instances and are obtained from experimentally verified interactions with different technologies.
    • Positive instance can be obtained from different databases: for instance, DREAM5 challenge (Marbach et al., 2012), RegulonDB (Gama-Castro et al., 2016), Yeastract (Teixeira et al., 2018), and AGRIS (Yilmaz et al., 2011).
    • If TF-target gene interactions are not verified in the organism of interest, consider transfer of interactions according to homology from model organisms.

    1. Form the class of positive instances of the training data by collecting the available experimentally verified TF-gene interactions.

    2. Consider the remaining TF-gene pairs as uncharacterized, and divide them into subsets of size (almost) equal to that of the positive class (in step 1). Assume that there are ك such subsets.

    3. Treat one of these subsets, أنا, 1 ≤ أناك, as a negative class and use it together with the positive class to train an SVM specific to subset أنا.

    4. Treat the uncharacterized TF-gene pairs in all but the أنا-th subset as test data and assess them by the built SVM classifier.

    5. Aggregate the individual classifiers for each of the ك subsets to form the set of negative instances.

    For a given uncharacterized TF-gene pair, the aggregation amounts to counting the number of classifiers that classify the pair as positive. A lower count would correspond to a higher likelihood that the TF-gene pair is negative. The class of negative instances is composed of those TF-gene pairs whose count is zero.

    The implementation for Basic Protocol 2 can be found in the lines 151-189 of the code (https://github.com/MonaRazaghi/GRADIS/blob/master/GRADIS_neg.m).

    The number of negative instances found with this approach is considerably higher than the number of positive ones, resulting in an unbalanced learning problem, to be considered in Basic Protocol 3.

    3: LEARNING A CLASSIFIER FOR GENE REGULATORY INTERACTIONS

    Having obtained a labeled training set associated with the feature vectors (see Basic Protocol 1, above), an SVM can be trained to find an optimal hyperplane that separates the two classes. The training set consists of م TF-gene pairs ص1, ص2, …, صم, each of which belong to either of the two positive and negative classes, respectively denoted by +1 and −1. Following Basic Protocol 2, the negative class of TF-gene pairs is considerably bigger than the positive. Here we describe a protocol for overcoming this challenge.

    المواد

    • Expression-based features for TF-gene pairs (see Basic Protocol 1)
    • Positive and negative classes of TF-gene pairs: the negative class is obtained based on Basic Protocol 2

    1. Form the class of positive instances of the training data by collecting the available experimentally verified TF-gene interactions.

    2. Form a class of negative instances of the same size as the class of positive instances by randomly sampling from the negative class instances provided.

    3. Train an SVM with the features and classes from steps 1 and 2.

    4. Predict the class of the uncharacterized TF-gene pairs based on the SVM.

    The implementation for Basic Protocol 3 can be found in lines 191-217 of the code (https://github.com/MonaRazaghi/GRADIS/blob/master/GRADIS_neg.m).

    Average performance and confidence intervals can be obtained by performing several samplings in step 2, above. We recommend performing at least 10 random samplings of negative instances.


    Liver gene regulatory networks: Contributing factors to nonalcoholic fatty liver disease

    Inês Cebola, Department of Metabolism, Digestion and Reproduction, Section of Genetics and Genomics, Imperial College London, London W12 0NN, UK.

    Contribution: Conceptualization, Data curation, Funding acquisition, Visualization, Writing - original draft, Writing - review & editing

    Department of Metabolism, Digestion and Reproduction, Section of Genetics and Genomics, Imperial College London, London, UK

    Inês Cebola, Department of Metabolism, Digestion and Reproduction, Section of Genetics and Genomics, Imperial College London, London W12 0NN, UK.

    Contribution: Conceptualization, Data curation, Funding acquisition, Visualization, Writing - original draft, Writing - review & editing

    Funding information: FNIH Accelerating Medicines Partnership Type 2 Diabetes, Grant/Award Number: RFP16

    الملخص

    Metabolic diseases such as nonalcoholic fatty liver disease (NAFLD) result from complex interactions between intrinsic and extrinsic factors, including genetics and exposure to obesogenic environments. These risk factors converge in aberrant gene expression patterns in the liver, which are underlined by altered رابطة الدول المستقلة-regulatory networks. In homeostasis and in disease states, liver رابطة الدول المستقلة-regulatory networks are established by coordinated action of liver-enriched transcription factors (TFs), which define enhancer landscapes, activating broad gene programs with spatiotemporal resolution. Recent advances in DNA sequencing have dramatically expanded our ability to map active transcripts, enhancers and TF cistromes, and to define the 3D chromatin topology that contains these elements. Deployment of these technologies has allowed investigation of the molecular processes that regulate liver development and metabolic homeostasis. Moreover, genomic studies of NAFLD patients and NAFLD models have demonstrated that the liver undergoes pervasive regulatory rewiring in NAFLD, which is reflected by aberrant gene expression profiles. We have therefore achieved an unprecedented level of detail in the understanding of liver رابطة الدول المستقلة-regulatory networks, particularly in physiological conditions. Future studies should aim to map active regulatory elements with added levels of resolution, addressing how the chromatin landscapes of different cell lineages contribute to and are altered in NAFLD and NAFLD-associated metabolic states. Such efforts would provide additional clues into the molecular factors that trigger this disease.

    • Biological Mechanisms > Metabolism
    • Biological Mechanisms > Regulatory Biology
    • Laboratory Methods and Technologies > Genetic/Genomic Methods

    الملخص

    Complex gene regulatory networks underlie liver homeostasis. NAFLD development is characterized by changes gene expression, which reflect pervasive rewiring of liver transcriptional networks by integration of aberrant intrinsic and extrinsic cues.


    How to typeset gene regulatory networks - Biology

    NOTE: Do not rearrange the provided files they are required to have a specific relative path to each other, so rearranging them will break the code. Feel free to place the overall folder wherever you wish however.

      : For visualizing/editting gene regulatory networks
  • Python 3.x : A python package for working in systems biology
  • Also, in order to use tellurium, you will have to have a good understanding the Antimony which is the format chemical models are passed to tellurium in.

    At the beginning of the game, players will all be given a partially complete gene regulatory network. This network includes a lot of feedback mechanisms and is heavily intertwined: gene products act as regulators on the other genes of the network. Below on the left is an example of a full network (using Biotapestry) and to the right the broken one which has a few connections missing.

    There are 5 types of regulation: Single repression, Single activation, double repression, double activation, or both a repressor AND an activator. These types of regulation follow the dynamics described in the equations below.

    In the network given to players, some of the regulators will be missing. Players will be given a set budget at the beginning of the game ($10,000 to $15,000). They will use this money to purchase experiments. It is their challenge to use this money wisely to collect the data they require to determine the missing connections in the network. Descriptions of the available experiments and their costs are given in the experiments.md file. For these experiments, players can specify both a perturbation (i.e. downregulating a specific gene) and a data collection type (i.e. collect RNA data vs protein data). This data will have noise and it will have error, as all experiments do. This data will come from the true network. Using Tellurium or some other software, students should simulate their current best guess of the true model/network and compare it with the data to try to improve it.

    Also provided is a list of assumptions the players can make about the network. The goal of the game is to guess which connections are missing as accurately as possible.

    In order to generate a model, you will run GetModel.py . I have created a helper file called make_model.py that makes this process easy. Open this file ( make_model.py ), and there will be some comments describing some options you have to set certain features of the model. When you are satisfied with these, run the script. You might have to run it multiple times to generate a model that is sufficiently interesting.

    This will create a biotapestry file and antimony file in your current working directory. Hold on to these. It will also create tmax.txt in the working directory. This file should not be edited or deleted.

    In order to break the model, i.e. remove connections, first open the BiotapestryEditor program. From there, click File > Import > Import Full Model Hierarchy from CSV and select the biotapestry CSV generated in the previous step. This will give you a visualization of the model, and from here select which connections to remove. Deleting the connections off the Biotapestry file will not work, as Biotapestry does not support this.

    As such, we have written our own code for removing/adding connections, found in change_biotapestry.py . I have written a helper file called break_model.py that includes instructions for breaking the model. This will output a new CSV of the form model_name_broken.csv , and you can view it in the BiotapestryEditor if you like.

    I recommend this to be the file you give to the students.

    Ordering Experimental Data

    To collect data orders from students, we have created a google form: BIOEN 498: Experiment Request Form.

    Update the team names on the google form if necessary, and when creating the score file (step 3 below) make sure these team names match those in the score file.

    Students can be given the following link to fill out the form. They will need to be logged into their UW Google account. For users outside UW, simply make a copy of this form and use that link instead. You will have to change the name of the form in the get_data.py file.

    1. Download csv from google forms
    2. Unzip csv into the same directory as run_experiments.py
      • لاتفعل clear the old experiment orders from the CSV, or modify it in any way. The code handles this for you. Just make sure you overwrite the old CSV.
      • if someone made a mistake ordering, simply manually refund them in the team_scores.csv that is generated. DO NOT DELETE THE OLD ORDER.
    3. Run get_data.py (make sure the parameters in this file are set before running! Descriptions in file.)
      • NOTE: the first time you run this, it will generate a CSV to keep track of how much money each team has. Open get_data.py and make sure the team names in top section match those on the google form.

    The students will then be sent an email from the email provided in get_data.py containing the data they have ordered, and an update on how much money they have remaining. If a student tries to order experiments they do not have the money for, they will receive no results. If the student does not have money for the order, it will not be carried out.

    • While playing the game, we generated a list of assumptions we had to make about the network. This list is stored in assumptions.md in the main folder. It might be worthwhile to provide this list, or a subset of it, to the students as I think it may help answer some common questions.
    • experiments.md stores the list of experiments, including their descriptions and costs.
    • The playing_game folder stores all the material we used when playing this game. This includes a lot of code we wrote for filtering through our broken model, estimating parameters, attempting to find missing connections, and whatnot. We also included a file called " what we think " where we documented our general strategy.

    Allows you to randomly generate a gene regulatory network that meets certain criteria. Has functions for converting this network to an antimony string or to a CSV format that Biotapestry can read. Returns a tuple ( antimony_string, biotapestry_string ) and can also has an option to export this information to files in the working directory Relevant functions:

    Contains the method convert_biotapestry_to_antimony which is a convenience method for converting between the two formats. Since biotapestry does not store parameter values, you must provide these manually.

    Allows you to run a model (generated using GetModel.py ) and generate noisy "experimental" data from it. There are additional outputs that are turned off by default. Relevant functions:

    Has methods for automatically adding and removing connections in a gene network from a Biotapestry CSV format. Convenient for breaking gene network, or for trying out new possible connections in attempt to fix the broken network. Relevant Functions:

    • add_biotapestry() = adds the given connections to model
    • remove_biotapestry() = removes the given connections from model

    Compares two biotapestry CSV formats and outputs their differences. Might be useful for assessing how well students captured the true network at end of quarter

    Given the csv from google forms, will parse through and run the correct experiments for each entry. Will update the team's money and send email with the csv of the experiment results to the student who filled the form.

    • assumptions.md = list of assumptions made about the true network when playing the game. We tried to capture all the information we felt the students might need to fairly play the game
    • experiments.md = list of available experiments and pertubations, as well as their costs

    Playing the Game Attempt folder

    Used to make sense of experimental data. This includes parameter estimation, and probing for possible missing connections.

    Plots current working model vs experimental data to help spot shortcomings in current model. Helps us manually decide which connections to consider, and which tests to order.

    • what we think.md = describes the strategy we used while playing the game
    • model_files = all the experimental data we bought

    توافر البيانات والمواد

    Cichlid PWMs that support the findings of this study are available in a figshare repository [85].

    Datasets relevant to network reconstruction and their outputs are also available in figshare [86,87,88].

    Original, uncropped gel images of EMSA experiments that support the findings of this study are available in figshare [89].

    Datasets that are otherwise absent from this published article are available from the corresponding authors upon request.

    The source code to run motif prediction and network reconstruction from TFBS and TF-TG co-expression is freely available to all under the Creative Commons Attribution-ShareAlike licence (CC BY-SA) and under the standard GPL 3.0 licence from Github [90].

    Otherwise, all other scripts relevant to this published article are available from the corresponding authors on request.


    معلومات الكاتب

    Present address: Genentech, South San Francisco, CA, 94080, USA

    الانتماءات

    Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Dong Won Kim, Kai Liu, Zoe Qianyi Wang, Yi Stephanie Zhang, Abhijith Bathini, Matthew P. Brown, Sonia Hao Lin, Parris Whitney Washington, Changyu Sun, Hong Wang & Seth Blackshaw

    Nina Ireland Laboratory of Developmental Neurobiology, Department of Psychiatry, UCSF Weill Institute for Neurosciences, University of California, San Francisco, CA, 94158, USA

    Susan Lindtner & John L. R. Rubenstein

    Center for Neuroscience, Korea Institute of Science and Technology (KIST), Seoul, 02792, Korea

    RIKEN Center for Brain Science, Laboratory for Molecular Mechanisms of Brain Development, 2-1 Hirosawa, Wako, Saitama, 351-0198, Japan

    Department of Ophthalmology, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Department of Neurology, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Center for Human Systems Biology, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Institute for Cell Engineering, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Kavli Neuroscience Discovery Institute, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

    مساهمات

    س. conceived the study. D.W.K., K.L. and S.B. designed experiments. D.W.K., K.L., Z.Q.W., S.Z., A.B., M.P.B., S.H.L., P.W.W. and T.S. إجراء التجارب. D.W.K., K.L., Z.Q.W., S.Z., P.W.W., C.S. and T.S. analyzed data. ب. and J.L.R. provided reagents. All authors contributed to writing the paper.

    المؤلف المراسل


    Additional file 1: Figure S1.

    A schematic illustration on identification of MA-TAM signature and master regulators. الشكل S2. MA-TAM target gene pathway enrichment. الشكل S3. Global regulatory network of MA-TAM. الشكل S4. Multi-color immunohistochemical images of MA-TAM encoding molecules. الشكل S5. Effects of MARCO and CCL7 on mesenchymal markers. الشكل S6. Effects of TAM-derived CM on GSC stemness in response to irradiation. Figure S7. Effects of anti-MARCO therapeutic antibodies. Figure S8. In vivo effects of MARCO high TAMs in PDX models. Figure S9. Clinical correlation of MA-TAM master regulators. Figure S10. Single cell analysis of MA-TAM signature. Figure S11. Transcriptome analysis of scTHI at single-cell resolution. Figure S12. Cytokine array-based characterization of MARCO high TAMs. Figure S13. Anatomical expression of MA-TAM signature.


    Supplementary Figure 1 Comparison of datasets simulated from synthetic networks by using BoolODE and GeneNetWeaver.

    Each row corresponds to the synthetic network indicated by the label on the left. (a) The network itself, with red edges representing inhibition and blue edges representing activation. (b) A 2D t-SNE visualization of one BoolODE-generated dataset for 2,000 cells. The color of each point indicates the simulation time: blue for earlier, green for intermediate, and yellow for later times. (c) Each colour corresponds to a different subset of cells obtained by using ك-means clustering of the BoolODE-generated dataset, with ك set to the number of expected steady states. (d) A 2-D t-SNE visualization of one GeneNetWeaver output.

    Supplementary Figure 2 Box plots of AUPRC values for synthetic networks.

    Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUPRC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUPRC value for a random predictor, which is equal to the network’s density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 3 Box plots of AUROC values for synthetic networks.

    Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUROC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 4 Box plots of AUPRC values for curated models.

    Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUPRC values for 10 datasets with no dropouts, a dropout rate of ف = 50, and a dropout rate of ف = 70, respectively. The gray dotted line indicates the AUPRC value for a random predictor, i.e., the network density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 5 Box plots of AUROC values for curated models.

    Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUROC values for 10 datasets with no dropouts, a dropout rate of ف = 50, and a dropout rate of ف = 70, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In all boxplots, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 6 Box plots of early precision values for curated models.

    Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to early precision values for 10 datasets with no dropouts, a dropout rate of ف = 50, and a dropout rate of ف = 70, respectively. The gray dotted line indicates the early precision value for a random predictor (network density). In each boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 7 Scalability of GRN algorithms on experimental single-cell RNA-Seq datasets.

    Variation in running time and memory usage of GRN inference algorithms with respect to number of genes for three experimental single-cell RNA-Seq datasets. Each point represents the mean running time or memory across all three datasets and the shaded regions correspond to one standard deviation around the mean. Missing values indicate that the method either did not complete after one day or gave a runtime error. We did not consider SCNS since it took over a day on the 19-gene GSD Boolean model. We obtained these results on a computer with a 32-core 2.0GHz processor and 32GB of memory running Ubuntu 18.04.

    Supplementary Figure 8 Summary of EPR values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

    Summary of EPR results for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report EPR values. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median EPR across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

    Supplementary Figure 9 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with TFs + 500 and TFs + 1000 genes.

    Summary of AUPRC ratio results for experimental single-cell RNA-seq datasets. The left half of the figure (TFs+500 genes) shows results for datasets composed of all significantly-varying TFs and the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (TFs+1000 genes) shows results for all significantly-varying TFs and the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratio across the datasets (rows) for the TFs+500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

    Supplementary Figure 10 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

    Summary of AUPRC ratio values for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratios across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.


    شاهد الفيديو: من التركيب الجيني الى التركيب الظاهري 12ع (كانون الثاني 2022).