معلومة

ترميز SNP لتحليل الارتباط


أنا أعمل في مشروع حول اكتشاف ارتباط SNP بمرض ما. كما أفهم ، فإن SNP هو تباين واحد للنيوكليوتيدات يحدث لأكثر من 1 ٪ من السكان. ومع ذلك ، لم أتمكن من ربط هذه الفكرة بمجموعة البيانات في متناول اليد. تمثل الصفوف في مجموعة البيانات الخاصة بي كل مريض وتحتوي الأعمدة على معلومات SNP. على سبيل المثال:

المعرف exm355 exm615 1 T_T A_C 2 T_T C_C 3 A_T C_C

ليس لدي أي فكرة عن سبب احتواء أعمدة SNP على 2 نيوكليوتيدات (T_T ، A_T ، A_C ، C_C). كتعريف لـ SNP ، اعتقدت أنه يجب أن يظهر فقط النوكليوتيد المتغير أم أنني أسيء فهم أي شيء؟ كيف يمكنني تفسير T_T أو C_C وكيف يمكنني معرفة أي النوكليوتيدات هو الاختلاف عن النوكليوتيدات الشائعة في المجتمع؟

شكرا لكم جميعا


كل موقع كروموسوم تم تحديده على أنه SNP هو موقع يحدث فيه أكثر من نيوكليوتيد واحد بترددات ملحوظة في عموم السكان. هذا يعني أن هناك قاعدتين أو أكثر يمكن أن تحدث هناك ، لذلك يجب أن يُظهر اختبار الشخص القواعد التي تحدث بالفعل في جينوم ذلك الشخص. نظرًا لأن الشخص لديه كروموسوم أب وأم من النوع الكروموسومي (زوج من الكروموسومات المتجانسة) ، فإن لدى الشخص مثيلين من موقع SNP وبالتالي يجب اكتشاف اثنين من النيوكليوتيدات والإبلاغ عنها. ومن ثم فإن مجموعة البيانات الخاصة بك تحتوي على اثنين من النيوكليوتيدات لكل موقع SNP لكل مريض.

فقط من القاعدة المبلغ عنها أو اسم SNP لا يمكنك معرفة أيهما أكثر تكرارا بين السكان. إذا كنت بحاجة إلى معرفة ذلك ، فيجب عليك الرجوع إلى بيانات تردد SNP من بعض قواعد البيانات الأخرى. (أسماء SNP في المثال الخاص بك ، على سبيل المثال "exm355" ليست مألوفة ؛ عادةً ما تحتوي SNPs على أسماء مثل "rs1234567".)


غير ترميز CRHR2 SNP rs255105 ، أ رابطة الدول المستقلة-EQTL لـ lincRNA AC005154.6 المصب ، يرتبط بإدمان الهيروين

إن عدم تنظيم استجابة الإجهاد متورط في إدمان المخدرات ، وبالتالي ، فإن تعدد الأشكال في الجينات المرتبطة بالإجهاد قد يكون متورطًا في هذا المرض. تم إجراء تحليل لتحديد الارتباطات بين المتغيرات في 11 جينًا مرتبطًا بالإجهاد ، تم اختيارهم بداهة، وإدمان الهيروين. تم تحليل عينتين اكتشاف لمواضيع أمريكية من أصل أوروبي (EA ، ن = 601) والأمريكيين الأفارقة (AA ، ن = 400) بشكل منفصل. تم التحقق من النسب من خلال تحليل المكون الرئيسي. تم تحليل المجموعات النهائية المكونة من 414 (EA) و 562 (AA) بعد تصفية 846 متغيرًا عالي الجودة. كانت النتيجة الرئيسية هي ارتباط SNP rs255105 غير المشفر في جين مستقبل CRH (CRF) 2 (CRHR2) ، في عينة الاكتشاف EA (صاسمى، صورى شكلى، بالاسم فقط = .00006 أو = 2.1 95٪ CI 1.4–3.1). ظلت إشارة الارتباط كبيرة بعد تصحيح الاختبار المتعدد القائم على التقليب. تم تأكيد النتيجة من خلال عينة حالة EA مستقلة (ن = 364). كشف تحليل المعلوماتية الحيوية أن SNP rs255105 مرتبط بالتعبير عن جين الحمض النووي الريبي غير المشفر (lincRNA) AC005154.6. يتم التعبير عن AC005154.6 بشكل كبير في الغدة النخامية ولكن وظائفها غير معروفة. وقد ارتبطت لينك آر إن إيه سابقًا بالسلوك التكيفي واضطراب ما بعد الصدمة وإدمان الكحول. هناك ما يبرر إجراء مزيد من الدراسات لتأكيد نتائج الارتباط ولتقييم الأهمية المحتملة لهذا lincRNA للإدمان والاضطرابات الأخرى المرتبطة بالتوتر.

الاقتباس: Levran O ، Correa da Rosa J ، Randesi M ، Rotrosen J ، Adelson M ، Kreek MJ (2018) A non-coding CRHR2 SNP rs255105 ، أ رابطة الدول المستقلة-EQTL لـ lincRNA AC005154.6 المصب ، يرتبط بإدمان الهيروين. بلوس واحد 13 (6): e0199951. https://doi.org/10.1371/journal.pone.0199951

محرر: Z. Carl Lin ، كلية الطب بجامعة هارفارد ، الولايات المتحدة

تم الاستلام: 22 مايو 2018 وافقت: 15 يونيو 2018 نشرت: 28 يونيو 2018

حقوق النشر: © 2018 Levran et al. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط ذكر المؤلف والمصدر الأصليين.

توافر البيانات: تتوفر بيانات النمط الوراثي / النمط الظاهري في dbGAP مع رقم الإدخال: phs001109.v1.p1. توجد بيانات إضافية ذات صلة في الورقة وملف المعلومات الداعمة الخاص بها.

التمويل: تم دعم هذا العمل من قبل مؤسسة الدكتورة ميريام وشيلدون ج. المنحة R01-12848 (MJK) ، والمعهد الوطني للصحة - المركز الوطني لتطوير العلوم التحويلية منحة UL1RR024143 (B. Coller). تم دعم CTN-0051 بعدة منح من المعاهد الوطنية للصحة - المعهد الوطني لتعاطي المخدرات - شبكة التجارب السريرية الوطنية لعلاج تعاطي المخدرات (CTN): U10DA013046 ، UG1 / U10DA013035 ، UG1 / U10DA013034 ، U10DA013045 ، UG1 / U10DA013720 ، UG1 / U10DA013732 و UG1 / U10DA013714 و UG1 / U10DA015831 و U10DA015833 و HHSN271201200017C و HHSN271201500065C. تم دعم مشروع التعبير الوراثي عن الأنسجة (GTEx) من قبل الصندوق المشترك لمكتب مدير المعاهد الوطنية للصحة ، ومن قبل NCI و NHGRI و NHLBI و NIDA و NIMH و NINDS. تم الحصول على البيانات المستخدمة للتحليلات الموضحة في هذه المخطوطة من بوابة GTEx في 4/10/2018. لم يكن للممولين أي دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


ترميز SNP لتحليل الارتباط - علم الأحياء

يتم توفير جميع المقالات المنشورة بواسطة MDPI على الفور في جميع أنحاء العالم بموجب ترخيص وصول مفتوح. لا يلزم الحصول على إذن خاص لإعادة استخدام كل أو جزء من المقالة المنشورة بواسطة MDPI ، بما في ذلك الأشكال والجداول. بالنسبة للمقالات المنشورة بموجب ترخيص Creative Common CC BY ذي الوصول المفتوح ، يمكن إعادة استخدام أي جزء من المقالة دون إذن بشرط الاستشهاد بالمقال الأصلي بوضوح.

تمثل الأوراق الرئيسية أكثر الأبحاث تقدمًا مع إمكانات كبيرة للتأثير الكبير في هذا المجال. يتم تقديم الأوراق الرئيسية بناءً على دعوة فردية أو توصية من المحررين العلميين وتخضع لمراجعة الأقران قبل النشر.

يمكن أن تكون ورقة الميزات إما مقالة بحثية أصلية ، أو دراسة بحثية جديدة جوهرية غالبًا ما تتضمن العديد من التقنيات أو المناهج ، أو ورقة مراجعة شاملة مع تحديثات موجزة ودقيقة عن آخر التقدم في المجال الذي يراجع بشكل منهجي التطورات الأكثر إثارة في العلم. المؤلفات. يوفر هذا النوع من الأوراق نظرة عامة على الاتجاهات المستقبلية للبحث أو التطبيقات الممكنة.

تستند مقالات اختيار المحرر على توصيات المحررين العلميين لمجلات MDPI من جميع أنحاء العالم. يختار المحررون عددًا صغيرًا من المقالات المنشورة مؤخرًا في المجلة ويعتقدون أنها ستكون مثيرة للاهتمام بشكل خاص للمؤلفين أو مهمة في هذا المجال. الهدف هو تقديم لمحة سريعة عن بعض الأعمال الأكثر إثارة المنشورة في مجالات البحث المختلفة بالمجلة.


في تحليل Silico للترميز / غير المشفر SNPs للإنسان RETN الجينات وتوصيف تأثيرها على استقرار المقاوم والبنية

ريسيستين (RETN) هو ترميز جيني للأديبوكين المنبه للالتهابات يسمى resistin الذي تفرزه الضامة في البشر. تعدد أشكال النوكليوتيدات المفردة (SNPs) في RETN ترتبط السمنة ومقاومة الأنسولين في مختلف السكان. باستخدام dbSNP ، تم استرداد 78 SNPs غير مترادفة (nsSNPs) واختبارها على خادم PredictSNP 1.0 megaserver. من بين هؤلاء ، تم التنبؤ بـ 15 nsSNPs على أنها ضارة للغاية وبالتالي خضعت لمزيد من التحليلات ، مثل الحفظ ، والتعديلات اللاحقة للنسخ ، والاستقرار. تم إنشاء البنية ثلاثية الأبعاد للمقاومة البشرية عن طريق نمذجة التماثل باستخدام النموذج السويسري. تم تقدير انحراف الجذر التربيعي (RMSD) ، والروابط الهيدروجينية (روابط h) ، والتفاعلات. علاوة على ذلك ، عمل UTRscan على تحديد تعدد الأشكال الوظيفية لـ UTR. من بين 15 nsSNPs الأكثر ضررًا ، تم توقع 13 الحفاظ عليها بدرجة عالية بما في ذلك المتغيرات في مواقع التعديل بعد الترجمة. توقع تحليل الاستقرار 9 nsNPs (I32S و C51Y و G58E و G58R و C78S و G79C و W98C و C103G و C104Y) والتي يمكن أن تقلل من استقرار البروتين بثلاثة من الخوارزميات الأربعة المستخدمة في هذه الدراسة على الأقل. تم اختيار هذه nsSNPs للتحليل الهيكلي. أظهر كلا المتغيرين C51Y و C104Y أعلى انحرافات RMS (1.137 Å و 1.308 Å ، على التوالي) والتي تم تأكيدها من خلال الانخفاض المهم في إجمالي روابط h. أظهر تحليل التفاعلات الكارهة للماء والماء اختلافات مهمة بين البروتين الأصلي والطفرات التسعة ، خاصة I32S و G79C و C104Y. ستة SNPs في 3

تم توقع أن يكون UTR (rs920569876 ، rs74176247 ، rs1447199134 ، rs943234785 ، rs76346269 ، و rs78048640) متورطًا في إشارة polyadenylation. كشفت هذه الدراسة عن 9 تعدد الأشكال شديدة الخطورة الموجودة في الإنسان RETN منطقة ترميز الجينات و 6 SNPs داخل UTR 3 والتي قد تغير بنية البروتين. ومن المثير للاهتمام ، أن هذه النيوكلوتايد تستحق التحليل في دراسات وظيفية لتوضيح تأثيرها على حدوث النمط الظاهري الأيضي.

1 المقدمة

يعد فهم التباين الجينومي أحد التحديات الرئيسية في مجال أبحاث الجينوميات الحالية ، نظرًا للعدد الهائل من الاختلافات الجينية في الجينوم البشري. تمثل الأشكال المتعددة للنيوكليوتيدات المفردة (SNPs) أكثر الاختلافات الجينية وفرة في جميع أنحاء الجينوم البشري والتي تتراوح بين 3 و 5 ملايين في كل فرد [1]. في الغالب ، تعد أشكال النيوكليوتيدات SNPs محايدة ، ولكن بعضها يساهم في الاستعداد للمرض عن طريق تعديل وظيفة البروتين أو كواسمات جينية من أجل العثور على الطفرات القريبة المسببة للمرض من خلال دراسات الارتباط الجيني والدراسات الأسرية [2]. يعتقد العلماء أن هذه المتغيرات قد تؤثر أيضًا على الاستجابة لبعض الأدوية [3].

تسمى SNPs التي تغير الأحماض الأمينية المشفرة تعدد أشكال النوكليوتيدات الأحادية غير المجهولة (nsSNPs). يمكن أن تؤثر أشكال SNPs غير المترادفة ، التي تشكل حوالي نصف جميع التغيرات الجينية المتعلقة بالأمراض البشرية ، على بنية البروتين الناتجة و / أو وظيفتها إما بتأثيرات محايدة أو ضارة [4 ، 5].

علاوة على ذلك ، تعد دراسة الحمض النووي غير المشفر مهمة أيضًا لأنها تحتوي على غالبية SNPs المبلغ عنها في الجينوم البشري. تعد الأشكال المتعددة في 5 و 3 مناطق غير مترجمة (UTRs) ذات أهمية كبيرة لأنها يمكن أن تؤثر على التعبير الجيني وأنشطة ما بعد الترجمة وما بعد الترجمة وبالتالي تكون ذات صلة وظيفية [6 ، 7].

Resistin هو أديبوكين مسبب للالتهاب ينتمي إلى بروتينات المجال الطرفي C الغنية بالسيستين والتي تسمى الجزيئات الشبيهة بالريزيستين (RELMs) وتفرز بشكل أساسي بواسطة الخلايا الشحمية في القوارض والضامة في البشر [8 ، 9]. ترميز الجين resistin (RETN) موجود على الكروموسوم 19p13.2. ثبت أن مادة resistin مرتبطة بالعديد من الاضطرابات الالتهابية بما في ذلك السمنة ومرض السكري من النوع 2 وأمراض القلب والأوعية الدموية والربو [10-13]. هذا البروتين له تأثيرات معاكسة لعمل الأنسولين. أظهرت بعض الدراسات أن مادة resistin تؤثر على نقل الجلوكوز وتتسبب في تحلل ركيزة مستقبلات الأنسولين 1 (IRS-1) مما يؤدي إلى تحريض مقاومة الأنسولين [14-16]. تم الإبلاغ عن زيادة مستويات الريسيستين المنتشرة بشكل ملحوظ في الفئران البدينة وراثيًا والناجم عن النظام الغذائي وانخفضت مع إعطاء الدواء المضاد لمرض السكر Rosiglitazone [8].

علاوة على ذلك ، أظهرت دراسة الحالات والشواهد على مرضى السكري من النوع الأول أن الجمع بين الأنسولين والروزيجليتازون يقلل من مستويات الريسيستين واللبتين بشكل ملحوظ [17]. المتغيرات الجينية في RETN أظهر ارتباطًا كبيرًا بمستويات الريسيستين المنتشرة. بيكرز وآخرون. حدد أول طفرة مغلوطة C78S في المقاوم في بروبر السمنة المفرطة وأمه البدينة. تشجع هذه النتيجة دراسة المتغيرات في RETN منطقة ترميز الجينات لتوضيح مشاركتها في التسبب في المرض [18]. تشير التقديرات إلى أن العوامل الوراثية يمكن أن تفسر ما يصل إلى 70٪ من التباين في مستويات الريزستين المنتشرة [19]. ومع ذلك ، فإن تحليلات الارتباط بين SNPs لـ RETN كشفت المتغيرات الجينية والقياسية البشرية والتغيرات المتعلقة بالسمنة عن نتائج غير متسقة [10 ، 20-23].

بناءً على أهمية RETN الجين في الأمراض الالتهابية المتعددة ، وخاصة التشوهات الأيضية ، أجرينا تحليلًا حسابيًا باستخدام تنبئ تأثير nsSNP مثل SIFT و PolyPhen و PANTHER و PhD-SNP و PredictSNP. تم تحليل معظم nsSNPs الضارة من خلال أدوات الحفظ والاستقرار. أخيرًا ، تم إجراء تحليل هيكلي من أجل تحديد SNPs الأكثر ضررًا وظيفيًا في مناطق الترميز وغير المترجمة.

2. المواد والطرق

2.1. مجموعة البيانات

معلومات SNP الخاصة بـ RETN تم جمع الجين من dbSNP (//www.ncbi.nlm.nih.gov/snp/). تم استرداد تسلسل الأحماض الأمينية للبروتين (انضمام NCBI: NP_001180303) من قاعدة بيانات البروتين NCBI (//www.ncbi.nlm.nih.gov/protein). تم التخلي عن التركيب النظري للمقاوم (PDB ID: 1LV6) لأنه لم يكن متوافقًا مع الهيكل البلوري المتاح لمقاومة الفأر الآن.

2.2. توقع nsSNPs الضارة

تم استخدام PredictSNP1.0 (http://loschmidt.chemi.muni.cz/predictsnp1/) [24] كمتنبئ لتأثير SNP على وظيفة البروتين. هذا المورد هو مصنف إجماعي يتيح الوصول إلى أفضل تسعة أدوات تنبؤ أداءً: SIFT و PolyPhen-1 و PolyPhen-2 و MAPP و PhD-SNP و SNAP و PANTHER و PredictSNP و nsSNPAnalyzer.

يتنبأ SIFT (الفرز غير المتسامح من التسامح) ما إذا كان استبدال الأحماض الأمينية يؤثر على وظيفة البروتين بناءً على التناظر التسلسلي والخصائص الفيزيائية للأحماض الأمينية [25]. يأخذ SIFT تسلسل استعلام ويستخدم معلومات محاذاة متعددة للتنبؤ بالبدائل المسموح بها والضارة في كل موضع في تسلسل الاستعلام. يستخدم PolyPhen-1 مجموعة خبراء من القواعد التجريبية للتنبؤ بالتأثير المحتمل لبدائل الأحماض الأمينية ، بينما يتنبأ PolyPhen-2 (النمط الظاهري متعدد الأشكال v2) بالتأثير المحتمل لاستبدال الأحماض الأمينية على بنية ووظيفة البروتين البشري باستخدام محاذاة تسلسل متعدد و المعلومات الهيكلية. MAPP (التحليل متعدد المتغيرات لتعدد أشكال البروتين) يحلل التباين الفيزيائي الكيميائي الموجود في كل عمود من محاذاة تسلسل البروتين ويتنبأ بتأثير بدائل الأحماض الأمينية على وظيفة البروتين [26]. PhD-SNP (متنبئ بتعدد أشكال النوكليوتيدات المفردة البشرية الضارة) عبارة عن متنبئ يعتمد على آلة ناقلات الدعم (SVM-) يستخدم لتصنيف nsSNPs إلى الطفرات الجينية البشرية المسببة للأمراض أو الطفرات الحميدة [27]. SNAP (فحص الأشكال غير المقبولة) هي طريقة قائمة على الشبكة العصبية تستخدم للتنبؤ بالتأثيرات الوظيفية للنيوكلوتايد غير المرادف باستخدام معلومات البروتين المشتقة من السيليكو [28]. يقدر PANTHER (تحليل البروتين من خلال العلاقات التطورية) احتمالية أن يتسبب nsSNP معين في إحداث تأثير وظيفي على البروتين باستخدام الحفاظ التطوري الخاص بالموضع [29]. يستخدم nsSNPAnalyzer طريقة تعلم الآلة تسمى الغابة العشوائية للتنبؤ بما إذا كان لـ nsSNP تأثير النمط الظاهري [30] بناءً على محاذاة التسلسل المتعدد ومعلومات الهيكل ثلاثي الأبعاد. أخيرًا ، يعرض PredictSNP1.0 درجات الثقة الناتجة عن كل أداة والتنبؤ بالإجماع كنسب مئوية باستخدام قيم الدقة المرصودة لتبسيط المقارنات [24].

2.3 حفظ التسلسل

تم استخدام خادم الويب ConSurf (http://consurf.tau.ac.il/) لتحليل حفظ تسلسل الأحماض الأمينية. تتنبأ هذه الخوارزمية المستندة إلى الويب بالمناطق الوظيفية الحاسمة للبروتين عن طريق تقدير درجة حفظ الأحماض الأمينية بناءً على محاذاة التسلسل المتعدد. نطاق الدرجات من 1 إلى 9 يقدر مدى حفظ الأحماض الأمينية طوال التطور. لذلك ، يمثل الصف 9 البقايا الأكثر حفظًا ، وتنخفض الأرقام إلى 1 التي تمثل المنطقة الأقل حفظًا. تحلل هذه الأداة الحفظ على مستويات النيوكليوتيدات والأحماض الأمينية.

2.4 توقع مواقع التعديل ما بعد الترجمة

تم استخدام خادم الويب ModPred (http://www.modpred.org/) للتنبؤ بمواقع التعديل اللاحق للترجمة (PTM) ، ويتكون الخادم من مجموعة من نماذج الانحدار اللوجستي التمهيدية لكل نوع من أنواع PTM ، تم استرجاعها من 126،036 موقعًا تم التحقق منه من مواقع PTM غير المكررة تجريبيا ، والأدب ، ومن قواعد البيانات [31]. يتم إعطاء النتائج على أنها بقايا وتعديل ودرجة وثقة وملاحظات. في هذه الدراسة ، تم أخذ PTMs متوسطة وعالية الثقة فقط في الاعتبار.

2.5 توقع التغيير في استقرار البروتين

تم توقع التغيير في استقرار البروتين بسبب nsSNPs باستخدام I-Mutant2.0 (http://folding.biofold.org/cgi-bin/i-mutant2.0) ، وهي آلة متجه دعم (SVM) تعتمد على الويب أداة تستخدم للتنبؤ التلقائي بالتغيرات في استقرار البروتين بسبب SNP. يوفر قيمة تغير الطاقة الحرة المتوقعة (DDG) وعلامة التنبؤ كزيادة أو نقصان. يتم حساب قيمة DDG من قيمة الطاقة الحرة لـ Gibbs التي تتكشف للبروتين المتحور مطروحًا منها قيمة الطاقة الحرة لـ Gibbs للنوع البري في kcal / mol.

يعني أن استقرار البروتين زاد ، و

يعني أن استقرار البروتين انخفض [32].

تم فحص الاستقرار أيضًا بواسطة أداة MUpro (http://mupro.proteomics.ics.uci.edu/). يعتمد هذا الخادم على طريقتين للتعلم الآلي: دعم أجهزة التوجيه والشبكات العصبية. تم تدريب كلاهما على مجموعة بيانات طفرة كبيرة وأظهرت دقة أعلى من 84 ٪.

يحسب هذا البروتين درجة بين -1 و 1 كثقة في التنبؤ. الثقة

يشير إلى أن الطفرة تقلل من استقرار البروتين ، في حين أن الثقة تعني أن الطفرة تزيد من استقرار البروتين [33].

2.6. مسح UTR SNPs في موقع UTR

تلعب المناطق غير المترجمة 5 و 3 (UTRs) أدوارًا حاسمة في تدهور وترجمة وتوطين الرنا المرسال بالإضافة إلى تنظيم تفاعل البروتين والبروتين. استخدمنا خادم الويب UTRscan http://itbtools.ba.itb.cnr.it/utrscan للتنبؤ بأشكال SNPs الوظيفية في UTRs 5 و 3. تسمح أداة UTRscan للمستفسر بالبحث في التسلسلات التي يرسلها المستخدم عن أي من الأشكال الموجودة في موقع UTRsite. تستمد UTRsite البيانات من UTRdb ، وهي قاعدة بيانات منظمة تقوم بتحديث مجموعات بيانات UTR من خلال التنقيب عن البيانات الأولية والتحقق التجريبي [7 ، 34]. لإجراء هذا التحليل ، تم تقديم بيانات تنسيق FASTA الأولية وتم عرض النتائج في شكل أسماء إشارات ومواقعها في النص.

2.7. تحليل هيكلي
2.7.1. نمذجة البنية الأصلية والمتحولة

تم استخدام النص مع التسلسل المرجعي NP_001180303.1 لنمذجة التماثل. اخترنا البنية البلورية للأشعة السينية لمقاومة Mus musculus resistin من بنك بيانات البروتين (PDB) برمز PDB 1RGX [9] كقالب لتوليد مقاومة بشرية عن طريق نمذجة التماثل باستخدام منصة النموذج السويسري (https: // swissmodel. expasy.org). النموذج لديه QMEAN من -1.83 وهوية تسلسل 55.56٪ (الشكل 1).

تم استخدام UCSF Chimera لتأكيد المواضع المقابلة لـ SNPs ولإنشاء 15 نموذج متحولة [35]. إنه برنامج قابل للتوسعة للغاية تم تطويره بواسطة Resource for Biocomputing و Visualization و Informatics في جامعة كاليفورنيا ، سان فرانسيسكو ، للتصور التفاعلي وتحليل الهياكل الجزيئية والبيانات ذات الصلة.

تم إجراء تقليل الطاقة من النوع البري والهياكل المتحولة بواسطة خادم NOMAD-Ref القائم على Gromacs كحقل قوة افتراضي استخدمنا طريقة التدرج المترافق لتحسين الهيكل ثلاثي الأبعاد [36].

2.7.2. RMSD والتنبؤ الكلي برابطة الهيدروجين

خدم UCSF Chimera مرة أخرى للتحقق من انحراف RMS من خلال تراكب كل من الهياكل الأصلية والمتحولة. بالإضافة إلى ذلك ، عملت هذه الأداة على حساب إجمالي قيم الرابطة h لكل هيكل.

2.7.3. تحليل التفاعل

COCOMAPS (bioCOmplexes COntact MAPS) هو تطبيق ويب لتحليل وتصور الواجهة بشكل فعال في مجمعات البروتين-البروتين البيولوجي من خلال الاستفادة من خرائط الاتصال بين الجزيئات. كان ملف الإدخال هو نموذج التماثل المقاوم في تنسيق PDB. في دراستنا ، استخدمنا COCOMAPS لتحليل التفاعل بين المونومرات الثلاثة لبروتين المقاوم [37]. لتحقيق ذلك ، قمنا بتحميل ملف PDB الخاص بمُقطع المقاوم (A و B و C كمعرفات متسلسلة لكل مونومر) ثم قمنا بمقارنة واجهات التفاعل بين السلسلتين A و B باعتبارهما جزيء 1 يتفاعل مع السلسلة الثالثة C تعتبر جزيء 2 (تشمل التفاعلات مخلفات من السلسلة A ومن السلسلة B معًا تتفاعل مع السلسلة C).

2.7.4. توقع تفاعلات البروتين والبروتين

STRING (أداة البحث لاسترداد الجينات / البروتينات المتفاعلة ، المتوفرة على http://string-db.org) هي قاعدة بيانات لتفاعلات البروتين المعروفة والمتوقعة ، والتي تغطي حاليًا 9643.763 بروتينًا من 2031 كائنًا. توفر قاعدة البيانات هذه تقييمًا دقيقًا وتكاملًا لتفاعلات البروتين البروتين بما في ذلك الارتباطات المباشرة (الفيزيائية) وغير المباشرة (الوظيفية) [38].

3. النتائج

3.1. مجموعات بيانات SNP

ال RETN تم استرداد بيانات SNP التي تم التحقيق فيها في هذا العمل في أوائل أكتوبر 2018 من قاعدة بيانات dbSNP (http://www.ncbi.nlm.nih.gov/snp/؟term=RETN). كان يحتوي على إجمالي 1075 تعدد الأشكال. من بينها ، 78 من SNPs ، 35 كانت ترميز SNPs مترادفة ، 339 كانت موجودة في المنطقة غير المشفرة ، والتي تضم 18 SNPs في 5 UTR ، 35 SNPs كانت في 3 UTR ، و 287 كانت في المنطقة intronic.

3.2 توقع nsSNPs الضارة

تم اختيار ما مجموعه 78 nsNPs لتحقيقنا. تم تحليل مجموعة SNP هذه باستخدام أدوات التنبؤ بالسيليكو المختلفة لقياس آثارها على الإمراضية ومعرفة تعدد الأشكال المرتبط بالأمراض. تم تحميل جميع nsSNPs التي تم الحصول عليها من قاعدة بيانات SNP إلى PredictSNP1.0 ، وتم اختيار جميع الأدوات المتكاملة المتاحة للتنبؤ. تم التنبؤ بخمسة عشر nsSNPs على أنها ضارة من قبل جميع الأدوات المتكاملة ، باستثناء nsSNPAnalyzer و PANTHER التي لم تقدم أي تنبؤ لأي طفرة. وفقًا لـ SNAP ، تم توقع ما مجموعه 38 nsSNPs من أصل 54 لتكون ضارة (70.37٪) ، تليها MAPP مع 37 nsSNPs الضارة (68.51٪) ، PolyPhen-2 مع 31 nsSNPs (57.40٪) ، PolyPhen-1 مع 25 nsSNPs (46.29٪) ، SIFT مع 26 nsNPs (48.15٪) ، PhD-SNP مع 18 nsSNPs (33.33٪). يتم سرد nsSNPs التي تم توقعها على أنها ضارة في الجدول 1 بالدقة المتوقعة ويتم اختيارها لمزيد من التحليل (الجدول 1).

3.3 تحليل الحفظ

أظهرت نتائج تحليل ConSurf أن هناك 13 تعددًا خاطئًا للنيوكلوتايد يقع في مناطق محمية للغاية ، وتتراوح قيم الحفظ بين 7 و 9 ، مما يشير إلى أن هذه المواقف مهمة لسلامة المقاومة. من بين هؤلاء ، تم التنبؤ بثلاث بقايا لتكون مكشوفة وعملية ، وخمسة أخرى من المتوقع أن يتم دفنها وتركيبها ، واثنين من البقايا المدفونة وواحدة مكشوفة. في المناطق المحمية للغاية "، لأننا ذكرنا بعد ذلك مباشرة أن قيم الحفظ تتراوح بين 7 و 9 ، لذلك استبعدنا G71 (الدرجة: 4) و R84 (الدرجة: 6). تم توقع الموقع 84 على أنه محفوظ بشكل معتدل ، والموقع تم توقع 71 كمخلفات متغيرة لذلك ، لم يتم اختيارهم للتحليل الهيكلي.

3.4. توقع مواقع التعديل ما بعد الترجمة

تم استخدام ModPred للتنبؤ بمواقع التعديل بعد الترجمة الموجودة داخل بروتين المقاوم البشري. تمت مناقشة PTMs ذات الثقة العالية أو المتوسطة فقط. في البروتين الأصلي ، تم توقع الموضع R84 كموقع لربط ADP-ribosylation ، W98 كموقع للارتباط بالجليكوزيل المرتبط بـ C أو الانقسام المحلل للبروتين ، و C103 و C104 كمواقع ارتباط ثنائي كبريتيد. بعد الطفرات ، ظهر C51 كموقع وسط مع تغيير Cys إلى Tyr ، بينما تغير الموضع W98 إلى موقع ارتباط ثاني كبريتيد مع تغيير Trp إلى Cys. فيما يتعلق بالموضع C104 ، كان من المتوقع أن يؤدي تغيير Cys إلى Tyr إلى منح موقع وسط بثقة عالية. يتم عرض نتائج ModPred في الجدول 2.

3.5 تأثير الطفرات الضارة المتوقعة على استقرار بروتين الريزستين

قمنا بتحليل 13 بديلاً خطأً تم توقعها على أنها ضارة من الخطوات السابقة باستخدام I-Mutant2.0. وخادم الويب MUpro. تم توقع nsSNPs لتقليل الاستقرار مع تم اختيار كلتا الأداتين لمزيد من التحليل الهيكلي. النتائج موضحة في الجدول 3.

3.6 تحليل هيكلي
3.6.1. نمذجة هيكل المقاوم البشري

باستخدام البنية البلورية للأشعة السينية (1rgx) كقالب ، قمنا بتصميم نموذج ثلاثي الأبعاد للمقاومة البشرية الأصلية باستخدام خادم الويب النموذجي السويسري. أظهر الشكل 2 النموذج الذي تم إنشاؤه كمقطع مع ثلاثة مونومرات (A و B و C). تم استخدام أداة القطع هذه لبناء 9 نماذج متحولة من المقاومة البشرية.

3.6.2. فرق RMSD وإجمالي روابط الهيدروجين

يتم إعطاء قيم RMSD المرتبطة بالطفرات التسعة في الجدول 4. مع زيادة قيمة RMSD ، سيكون الانحراف بين الهياكل من النوع الأصلي والمتحول أعلى وبالتالي قد يؤدي إلى حدوث تغيير في نشاط البروتين. أظهرت طفرات C51Y و C104Y المعدلة أعلى نتائج RMSD موضحة في الشكلين 2 (أ) و 2 (ب). بالإضافة إلى ذلك ، تم حساب مجموع روابط h لتقييم مساهمتها في استقرار وطي البروتين الأصلي. كشفت جميع الهياكل الطافرة عن تغيير في إجمالي روابط h مقارنةً بالمقاوم الأصلي ، لكن متحولة C104Y أظهرت انخفاضًا ملحوظًا في تكوين 254 h-bond بينما تشكل الهيكل الأصلي 291. علاوة على ذلك ، أظهر تصور البنية الأصلية أن C51 و C104 متبقيات تشكل رابطة ثاني كبريتيد مع بعضها البعض (الشكل 2 (د)) يؤدي تغيير السيستين الذي يتم حمله على اللولب ألفا في هذه المواضع إلى كسر جسر ثاني كبريتيد (الشكلان 2 (ج) و 2 (هـ)) الذي قد يزعج البروتين بنية.

3.6.3. تحليل التفاعل

تمت دراسة اتصالات السطح البيني بين الأحماض الأمينية الموجودة داخل قاطع المقاوم باستخدام COCOMAPS. لوحظ تباين في عدد الأنواع المختلفة من التفاعلات بين الطفرات الأصلية و 9 طفرات مقاومة ، وترد النتائج في الجدول 5.

فيما يتعلق بعدد التفاعلات المحبة للماء ، شارك المجمع الأصلي بـ 262 تفاعلًا محبًا للماء. أظهرت المجمعات الطافرة I32S و C51Y و G79C و C104Y زيادة كبيرة في عدد التفاعلات المحبة للماء مع 286 و 266 و 277 و 266 تفاعلًا ، على التوالي ، مما يشير إلى انخفاض في كره الماء لهذه القواطع الطافرة. بالإضافة إلى ذلك ، أظهر المركب الطافر C103G زيادة كبيرة في عدد التفاعلات الكارهة للماء مما يشير إلى زيادة كره للماء.

علاوة على ذلك ، وجدنا أن أداة القطع المتحولة C51Y تتفاعل مع 75 بقايا فقط من السلسلة C التي تشكل مجمع التشذيب بينما في المجمع الأصلي ، تتفاعل السلسلة C مع 78 من البقايا. قد يؤدي هذا الانحراف الصغير إلى تعطيل تكوين قاطع المقاومة.

3.6.4. توقع تأثير تعدد الأشكال الموجود في UTR بواسطة خادم UTRscan

تم استخدام خادم UTRscan للتنبؤ بتأثير UTR SNPs على عزر النسخ. تم توقع وجود ستة SNPs في UTR 3 ، وهي rs920569876 و rs74176247 و rs1447199134 و rs943234785 و rs76346269 و rs78048640 ، في مواقع تعدد الأدينيل وبالتالي قد تكون مسؤولة عن الأنماط الظاهرية المرضية. النتائج معطاة في الجدول 6.


النتائج

دراسة الحالة

لتوضيح أداء snpXplorer، استكشفنا أحدث مجموعة من تعدد الأشكال الشائعة المرتبطة بمرض الزهايمر المتأخر (AD ، ن = 83 SNPs ، الجدول التكميلي S1) (43). باستخدام مجموعة البيانات هذه كدراسة حالة ، نعرض فوائد الاستخدام snpXplorer في سيناريو نموذجي. باختصار ، الزهايمر هو النوع الأكثر انتشارًا من الخرف في سن الشيخوخة ، ويرتبط بالفقدان التدريجي للوظائف الإدراكية ، مما يؤدي في النهاية إلى الوفاة. في شكله الأكثر شيوعًا (بداية مرض الزهايمر المتأخر ، مع تقدم العمر في البداية نموذجيًا & gt65 عامًا) ، يُقدر أن المرض يمكن توريثه بنسبة 60-80٪. مع وجود خطر منسوب إلى 30٪ ، فإن المتغيرات الجينية في APOE يمثل الجين أكبر عامل خطر وراثي مشترك للإصابة بمرض الزهايمر. بالإضافة إلى APOE، فإن المشهد الجيني لمرض الزهايمر يضم الآن 83 متغيرًا شائعًا يرتبط بتعديل طفيف لخطر الإصابة بمرض الزهايمر. إن فهم الجينات التي يُرجح أن تشارك في التسبب في مرض الزهايمر بالإضافة إلى المسارات البيولوجية الحاسمة له ما يبرره لتطوير استراتيجيات علاجية جديدة لمرضى الزهايمر.

استرجعنا قائمة المتغيرات الجينية المرتبطة بمرض الزهايمر في الجدول 1 للطباعة المسبقة من Bellenguez et al. (43). تمثل هذه الدراسة أكبر GWAS على AD تم إجراؤه حتى الآن ، وأسفرت عن 42 تعدد أشكال تعدد الأشكال الجديدة التي وصلت إلى دليل على نطاق الجينوم على الارتباط بمرض الزهايمر. قسم الاستكشاف snpXplorer يمكن استخدامها أولاً لفحص إحصائيات الارتباط الخاصة بجمعيات SNP الجديدة في الدراسات السابقة لنفس السمة (أي. مشروع الجينوم الدولي لمرض الزهايمر (IGAP) والتاريخ العائلي لمرض الزهايمر (proxy_AD)). على وجه التحديد ، من المتوقع العثور على درجة موحية من الارتباط في هذه المناطق في الدراسات السابقة. كما هو متوقع ، لوحظت بالفعل إشارات ارتباط موحية لـ SNPs الجديدة ، مما يزيد من احتمالية أن تكون هذه الأشكال الجديدة من SNP ارتباطات حقيقية (الشكل التكميلي S1).

بعد التحليل الاستكشافي الأول ، قمنا بلصق معرفات المتغيرات (rsIDs) في قسم التعليقات التوضيحية في snpXplorer، وتحديد rsid كنوع إدخال ، وعلم الوجود الجيني و Reactome كمجموعات جينية لتحليل التخصيب ، والدم كنسيج GTEx لـ eQTL (أي. القيمة الافتراضية). ال ن = 83 متغيرًا تم ربطها بما مجموعه 162 جينًا ، مع ن = 54 متغيرًا يرسم خريطة لجين واحد ، ن = 12 متغيرًا يرسم خرائط لجينين ، ن = 7 متغيرات ترسم خرائط لثلاثة جينات ، ن = متغيرين يرسمان أربعة جينات ، ن = تعيين متغير واحد لخمس جينات ، ن = 4 متغيرات ترسم لأربعة جينات ، و ن = تعيين متغير واحد لـ 7 و 8 و 11 جينًا (الشكل التكميلي S2). ن = تم العثور على 10 متغيرات لتكون متغيرات ترميز ، ن = 31 تم العثور على متغيرات لتكون eQTL و ن = 42 متغيرًا تم شرحه بناءً على موضعهم الجينومي. يتم إرجاع هذه النتائج إلى المستخدم في شكل جدول (يمكن قراءته بواسطة الإنسان والآلة) ، ولكن أيضًا في شكل مخطط ملخص (الشكل 2 أ والشكل التكميلي S2). لا تُعلم هذه الرسوم البيانية المستخدم فقط بتأثير تعدد الأشكال محل الاهتمام (على سبيل المثال ، نتيجة مباشرة على تسلسل البروتين في حالة ترميز تعدد الأشكال ، أو التأثير التنظيمي في حالة eQTLs أو تعدد الأشكال بين الجينات) ، ولكنها تشير أيضًا إلى وجود من المناطق الأكثر تعقيدًا: على سبيل المثال ، يشير الشكل التكميلي S2B إلى عدد الجينات المرتبطة بكل SNP ، والتي تزداد عادةً في المناطق المعقدة كثيفة الجينات مثل منطقة HLA أو منطقة IGH.

نتائج الشرح الوظيفي لـ ن = 83 من المتغيرات المرتبطة بمرض الزهايمر (AD). (أ) يوضح الشكل الملخص الدائري نوع التعليق التوضيحي لكل متغير وراثي يستخدم كمدخل (ترميز ، eQTL أو مشروح من خلال مواضعهم) بالإضافة إلى تردد كل متغير ثانوي وتوزيع الكروموسومات. (ب) مؤامرة REVIGO ، تُظهر شروط GO المتبقية بعد إزالة التكرار بناءً على مقياس التشابه الدلالي. لون كل نقطة رموز للدلالة (أغمق ، أكثر أهمية) ، في حين أن حجم رموز النقاط لعدد المصطلحات المماثلة التي تمت إزالتها من REVIGO. (ج) نتائج نهجنا التجميعي المستند إلى المصطلحات. استخدمنا Lin كمقياس تشابه دلالي لحساب التشابه بين جميع مصطلحات GO. ثم استخدمنا Ward-d2 كخوارزمية تجميع ، وخوارزمية شجرة مقطوعة ديناميكية لتسليط الضوء على المجموعات. أخيرًا ، قمنا بإنشاء سحابات كلمات لكل مجموعة من الكلمات الأكثر شيوعًا التي تصف كل مجموعة.

نتائج الشرح الوظيفي لـ ن = 83 من المتغيرات المرتبطة بمرض الزهايمر (AD). (أ) يوضح الشكل الملخص الدائري نوع التعليق التوضيحي لكل متغير جيني يستخدم كمدخل (ترميز ، eQTL أو مشروح من خلال مواضعهم) بالإضافة إلى تردد كل متغير ثانوي وتوزيع الكروموسومات. (ب) مؤامرة REVIGO ، تُظهر شروط GO المتبقية بعد إزالة التكرار بناءً على مقياس التشابه الدلالي. لون كل نقطة رموز للدلالة (أغمق ، أكثر أهمية) ، في حين أن حجم رموز النقاط لعدد المصطلحات المماثلة التي تمت إزالتها من REVIGO. (ج) نتائج نهجنا التجميعي المستند إلى المصطلحات. استخدمنا Lin كمقياس تشابه دلالي لحساب التشابه بين جميع مصطلحات GO. ثم استخدمنا Ward-d2 كخوارزمية تجميع ، وخوارزمية شجرة مقطوعة ديناميكية لتسليط الضوء على المجموعات. أخيرًا ، قمنا بإنشاء سحابات كلمات لكل مجموعة من الكلمات الأكثر شيوعًا التي تصف كل مجموعة.

من أجل تحديد أولويات الجينات المرشحة ، تم دمج مؤلفي المنشور الأصلي (أنا) تحليلات eQTLs و colocalization (eQTL coloc) جنبًا إلى جنب مع دراسات الارتباط على مستوى نسخة التعبير (eTWAS) في مناطق الدماغ ذات الصلة بـ AD (ثانيا) الربط بين تحليلات مواضع السمات الكمية (sQTLs) و Colocalization (sQTL coloc) جنبًا إلى جنب مع دراسات الارتباط على مستوى النسخ (sTWAS) في مناطق الدماغ ذات الصلة بـ AD (ثالثا) مثيلة مدفوعة وراثيًا كوسيط بيولوجي للإشارات الجينية في الدم (MetaMeth) (43). من أجل مقارنة التعليق التوضيحي لجين SNP للدراسة الأصلية بتلك الخاصة بـ snpXplorer، قمنا بحساب العدد الإجمالي للجينات الفريدة المرتبطة بـ SNPs (أنا) in the original study (ن = 97), (ثانيا) using our annotation procedure (ن = 136) and (ثالثا) the intersection between these gene sets (ن = 79). When doing so, we excluded regions mapping to the HLA-gene cluster and IGH-gene clusters (three SNPs in total) as the original study did not report gene names but rather HLA-cluster and IGH-cluster. Nevertheless, our annotation procedure correctly assigned HLA-related genes and IGH-related genes with these SNPs. The number of intersecting genes was significantly higher than what could be expected by chance (ص = 0.03, based on one-tail P-value of binomial test, Supplementary Table S2 ). For six SNPs, the gene annotated by our procedure did not match the gene assigned in the original study. Specifically, for 4/6 of these SNPs, we found significant eQTLs in blood (rs60755019 with ADCY10P1, rs7384878 with PILRB, STAG3L5P, PMS2P1, GIGYF1 و EPHB4 genes, rs56407236 with FAM157C gene, and rs2526377 with TRIM37 gene), while the original study reported the closest genes as most likely gene (rs60755019 with TREML2 gene, rs7384878 with SPDYE3 gene, rs56407236 with PRDM7 gene and rs2526377 with TSOAP1 gene). In addition, we annotated SNPs rs76928645 and rs139643391 to SEC61G و WDR12 genes (closest genes), while the original study, using eQTL and TWAS in AD-relevant brain regions, annotated these SNPs to EGFR و ICA1L/CARF genes. While the latter two SNPs were likely mis-annotated in our procedure (due to specific datasets used for the annotation), our annotation of the former four SNPs seemed robust, and further studies will have to clarify the annotation of these SNPs.

With the resulting list of input SNPs and (likely) associated genes, we probed the GWAS-Catalog and the datasets of structural variations for previously reported associations. We found a marked enrichment in the GWAS-Catalog for Alzheimer's disease, family history of Alzheimer's disease, and lipoprotein measurement ( Supplementary Figure S3 , Supplementary Table S3 and S4 ). The results of this analysis are relevant to the user as they indicate other traits that were previously associated with the input SNPs. As such, they may suggest relationships between different traits, for example in our case study they suggest the involvement of cholesterol and lipid metabolism in AD, a known relationship ( 44). Next, we searched for all structural variations in a region of 10kb surrounding the input SNPs, and we found that for 39/83 SNPs, a larger structural variations was present in the vicinity ( Supplementary Table S5 ), including the known VNTR (variable number of tandem repeats) in ABCA7 gene ( 45), and the known CNV (copy number variation) in CR1, HLA-DRA و PICALM genes ( Supplementary Table S5 ) ( 46–48). This information may be particularly interesting for experimental researchers investigating the functional effect of SVs, and could be used to prioritize certain genomic regions. Because of the complex nature of large SVs, these regions have been largely unexplored, however technological improvements now make it possible to accurately measure SV alleles.

We then performed our (sampling-based) gene-set enrichment analysis using Gene Ontology Biological Processes (GO:BP, default setting) and Reactome as gene-set sources, and Blood as tissue for the eQTL analysis. After averaging ص-values across the number of iterations, we found N = 132 significant pathways from Gene Ontology (FDR<1%) and ن = 4 significant pathways from Reactome (FDR <10%) ( Supplementary Figure S4 and Supplementary Table S6 ). To facilitate the interpretation of the gene-set enrichment results, we clustered the significantly enriched terms from Gene Ontology based on a semantic similarity measure using REVIGO (Figure 2B) and our term-based clustering approach (Figure 2C). Both methods are useful as they provide an overview of the most relevant biological processes associated with the input SNPs. Our clustering approach found five main clusters of GO terms (Figure 2C and Supplementary Figure S5 ). We generated wordclouds to guide the interpretation of the set of GO terms of each cluster (Figure 2C). The five clusters were characterized by (i) trafficking and migration at the level of immune cells (ثانيا), activation of immune response (ثالثا), organization and metabolic processes (رابعا), beta-amyloid metabolism and (الخامس ) amyloid and neurofibrillary tangles formation and clearance (Figure 2C). All these processes are known to occur in the pathogenesis of Alzheimer's disease from other previous studies ( 43, 44, 49, 50). We observed that clusters generated by REVIGO are more conservative (أي. only terms with a high similarity degree were merged) as compared to our term-based clustering which generates a higher-level overview. In the original study ( Supplementary Table S15 from ( 43)), the most significant gene sets related to amyloid and tau metabolism, lipid metabolism and immunity. In order to calculate the extent of term overlap between results from the original study and our approach, we calculated semantic similarity between all pairs of significantly enriched terms in both studies. In addition to showing pairwise similarities between all terms, this analysis also shows how the enriched terms in the original study relate to the clusters found using our term-based approach. We observed patterns of high similarity between the significant terms in both studies ( Supplementary Figure S6 ). For example, terms in the ‘Activation of immune system’ and the ‘Beta-amyloid metabolism’ clusters (defined with our term-based approach), reported high similarities with specific subsets of terms from the original study. This was expected as these clusters represent the most established biological pathways associated with AD. The cluster ‘Trafficking of immune cells’ had high similarity with a specific subset of terms from the original study, yet we also observed similarities with the ‘Activation of immune system’ cluster, in agreement with the fact that these clusters were relatively close also in tree structure (Figure 2C). Similarly, high similarities were observed between the ’Beta-amyloid metabolism’ and the ‘Amyloid formation and clearance’ clusters. Finally, the ‘Metabolic processes’ had high degree of similarity with a specific subset of terms, but also with terms related to ‘Activation of immune system’ cluster. Altogether, we showed that (i) enriched terms from the original study and our study had a high degree of similarity, and (ثانيا) that the enriched terms of the original study resembled the structure of our clustering approach. The complete analysis of 83 genetic variants took about 30 minutes to complete.


استنتاج

In summary, we uncover a hidden layer of human A-to-I editing SNP loci that are of functional importance, enriched in GWAS signals for autoimmune diseases, and subject to balancing selection. Various types of RNA editing, including A-to-I editing, alter sequence relative to the genome at the RNA level, thus providing a rich resource of RNA variants that potentially produce functionally altered genes. For some of the RNA variants that are beneficial under certain conditions, once the same type of mutation occurs at the DNA level, it may be selectively maintained and become the target of balancing selection. Therefore, we hypothesized that RNA editing, as exemplified in this study with A-to-I editing, may be an unrecognized type of the common target of balancing selection in various species.


OPINION article

Long non-coding RNAs (LncRNAs) are RNAs with more than 200 nucleotides and are mostly transcribed by RNA polymerase II from different regions across the genome. They are currently known as key regulators of cellular function through different mechanisms such as epigenetic regulation, miRNA sponging, and modulating of proteins and enzyme cofactors (Kurokawa, 2011 Nie et al., 2012 Flynn and Chang, 2014 Birgani et al., 2017 Marchese et al., 2017). By this way, they are implicated in development pathways (Amaral and Mattick, 2008). Different lncRNAs such as HOTAIR can play their important roles by changing the chromatin states of the genome (Mercer and Mattick, 2013). Rinn et al. introduced this RNA as a spliced and polyadenylated RNA with 2,158 nucleotides (Hajjari et al., 2013). HOTAIR, as one of the featured lncRNAs, is located between HOXC11 و HOXC12 on chromosome 12q13.3. HOTAIR forms stem-loop structures which bind to histone modification complexes lysine-specific demethylase 1 (LSD1) and Polycomb Repressive Complex2 (PRC2) in order to recruit them on specific target genes. This RNA interacts with Polycomb repressive Complex2 (PRC2) and has a lot of targets such as HOXD. By this way, PRC2 can repress the desired genes leading into increased growth, proliferation, survival, metastasis, invasion, and drug resistance in some cancer cells (Rinn et al., 2007 He et al., 2011 Davidovich et al., 2013 Hajjari et al., 2014 Martens-Uzunova et al., 2014 Zhao et al., 2014). So, different studies have indicated the dysregulation of HOTAIR in different types of cancers in recent years (Gupta et al., 2010 Kogo et al., 2011 Yang et al., 2011 Niinuma et al., 2012 Hajjari et al., 2013 Kim et al., 2013 Li et al., 2013).

In recent studies, there are some reports indicating the role of HOTAIR SNPs which make it a significant cancer susceptibility locus and provide high risk for some cancers (Qi et al., 2016), like breast (Bayram et al., 2015, 2016 Yan et al., 2015), gastric (Pan et al., 2016 Tian et al., 2016), cervical (Guo et al., 2016 Qiu et al., 2016), papillary thyroid carcinoma (Zhu et al., 2016), osteosarcoma (Zhou et al., 2016), prostate (Taheri et al., 2017), ovarian (Wu et al., 2016 Qiu et al., 2017), and colorectal cancers (Xue et al., 2014). This is an interesting point because these SNPs may have effect on gene expression, function, and regulators of epigenome (Hajjari and Rahnama, 2017). Therefore, we think that more studies on these SNPs can reveal the potential of these SNPs for considering them as markers of progression and diagnosis of different cancers.

Figure 1 shows the locations of these SNPs within HOTAIR gene. Herein, we present different SNPs to highlight their potential for further studies.

شكل 1. Locations of different SNPs within HOTAIR gene and their association with different types of cancer (E: Exon, exons of HOTAIR, and HOXC12 are shown by green and red boxes). Genomic positions are based on the UCSC Genome browser on Human Dec. 2013 (GRCh38/hg38) assembly.

There are some reports indicating the association between HOTAIR rs12826786 SNP which is located between HOTAIR و HOXC12. The increased risk for some cancers such as breast (BC) (Bayram et al., 2016), gastric adenocarcinoma (GCA) (Guo et al., 2015), prostate cancer (PC), and benign prostate hyperplasia (BPH) (Taheri et al., 2017) has been reported. For instance, women who are carriers of this polymorphism, have an increased risk of BC in both codominant and recessive inheritance models (Bayram et al., 2016). With regard to the location of this SNP, it seems that this SNP has effect on the regulation of HOTAIR gene in the cell. So, the analysis of HOTAIR dysregulation and its correlation with this SNP can be proposed in different types of cancers in different population.

rs920778 is another polymorphism which is located in the intronic enhancer of HOTAIR gene. TT genotype of this SNP has been found to affect the gene expression and make the risk for various cancers (Bayram et al., 2015) such as gastric (Pan et al., 2016), esophageal squamous cell carcinoma (Zhang et al., 2014), cervical (Qiu et al., 2016), and papillary thyroid carcinoma (Zhu et al., 2016). In addition, CC genotype of this SNP might be a cause of breast cancer in both codominant and recessive inheritance genetic models (Bayram et al., 2015).

There are some studies reporting the association between the dysregulation of HOTAIR and rs920778. HOTAIR up-regulation has been suggested as a result of rs920778 in gastric cancer (Xu et al., 2013 Pan et al., 2016). Also, the aberrant expression of HOTAIR in esophageal squamous cell carcinoma seems to be the result of a specific allele of rs920778 (Gupta et al., 2010 Zhang et al., 2014 Dai et al., 2017). Furthermore, there is higher expression of HOTAIR in female papillary thyroid carcinoma tissues because of a specific genetic polymorphism of this gene (Zhu et al., 2016).

Another SNP annotated as rs4759314 is also located in a promoter region in one of the introns of HOTAIR. It is of noted that AG/GG genotypes of the rs4759314 were associated with gastric cancer risk. The expression effects of heterozygotes individuals with G allele were more than homozygotes in the patients in co-dominant models (Du et al., 2015). However, in a controversial report, the HOTAIR gene expression found to be higher in ovarian cancer patients with AG/AA genotypes of rs4759314 (Wu et al., 2016).

Another SNP located in the intronic region of HOTAIR is rs1899663. Due to its location in a putative regulatory element, it seems that this SNP can affect gene expression and regulation. There are some association between HOTAIR rs1899663 T allele and BPH (Benign prostate hyperplasia) patients. Also, The rs1899663 is associated with prostate cancer risk in co-dominant, dominant and recessive inheritance models. Researchers have reported that this SNP changes the affinity for binding of PAX-4, SPZ1, and ZFP281 transcription factors which can alter the HOTAIR gene expression level (Taheri et al., 2017).

Among the SNPs in HOTAIR gene, one named “rs7958904” is an exonic polymorphism. So, it seems that HOTAIR rs7958904 polymorphism can affect the secondary structure of HOTAIR.

It is of noted that CC genotypes of HOTAIR rs7958904 has been reported to be associated with decreased osteosarcoma (Zhou et al., 2016), EOC (Wu et al., 2016), and colorectal cancers risk (Xue et al., 2014). In an study on osteosarcoma patients classified by age, gender, and tumor locations, it was shown that CC genotypes of the HOTAIR rs7958904 can reduce osteosarcoma risk as well as HOTAIR expression level (Zhou et al., 2016). However, cervical cancer patients with CC genotypes of this SNP had higher HOTAIR expression (Jin et al., 2017). Furthermore, with regard to the up-regulation of HOTAIR in lung cancer (Jiang et al., 2017) the SNP has been reported as a region to be associated with chemotherapy response in lung cancer patients through effect on HOTAIR function or expression (Xue et al., 2014 Gong et al., 2016).

HOTAIR have abnormal expression in the different human cancers. Different studies have revealed the cellular and molecular mechanisms in which HOTAIR is involved (Hajjari and Salavaty, 2015 Gong et al., 2016). Recently, some studies indicating the potential role of SNPs of HOTAIR in cancer susceptibility have been published. However, these studies are mostly derived from Asian population. Also, there are some controversial results on this field of study. With regard to the importance of HOTAIR regulation and function, more experiments on different populations, and ethnics are expected to reveal the importance of HOTAIR polymorphisms. Other polymorphisms in HOTAIR gene such Indel and CNV may be considered in future. However, the association between these SNPs and regulation/structure of HOTAIR has to be checked in various cancers. Also, we believe that whole genome sequencing projects can help to find the relation between the SNPs of this RNA with other SNPs in different cancers in future.


Hotelling's T(2) multilocus association test

IMPORTANT This command has been temporarily disabled

For disease-traits, PLINK provides support for a multilocus, genotype-based test using Hotelling's T2 (T-squared) statistic. ال --set option should be used to specify which SNPs are to be grouped, as follows:

Plink --file data --set mydata.set --T2

أين mydata.set defines which SNPs are in which set (see this section for more information on defining sets).

This command will generate a file which contains the fields

HINT استخدم ال --genedrop permutation to perform a family-based application of the Hotelling's T2 test. This command can be used with all permutation methods (label-swapping or gene-dropping, adaptive or max(T)). In fact, the permutation test is based on 1-p in order to make the between set comparisons for the max(T) statistic more meaningful (as different sized sets would have F-statistics with different degrees of freedom otherwise). Using permutation will generate one of the following files: which contain the fields or, if --mperm was used, which contain the fields Note that this test uses a simple approach to missing data: rather than case-wise deletion (removing an individual if they have at least one missing observation) we impute the mean allelic value. Although this retains power under most scenarios, it can also cause some bias when there are lots of missing data points. Using permutation is a good way around this issue.


أساليب

Study populations

Two independent Australian Caucasian breast cancer case populations were available for our study: The Genomics Research Centre Breast Cancer (GRC-BC) population and part of the Griffith University-Cancer Council Queensland Breast Cancer Biobank (GU-CCQ BB). We conducted single nucleotide polymorphism genotyping in the GRC-BC population initially. This consisted of DNA samples from 173 breast cancer patients from South East Queensland and DNA samples from 187 healthy age and sex matched females with no personal and/or familial history of breast, ovarian or any other type of cancer collected at the Genomics Research Centre Clinic, Southport, with research approved by Griffith University’s Human Ethics Committee (Approval: MSC/07/08/HREC and PSY/01/11/HREC) and the Queensland University of Technology Human Research Ethics Committee (Approval: 1400000104). Breast cancer samples comprised prevalent breast cancer cases diagnosed previous to their inclusion in this study. All participants supplied informed written consent. Average age of test population was 57.52 years and 57 years for cases and controls respectively.

Further validation of genotyping results was performed on a subset of the GU-CCQ BB population. 679 DNA samples from breast cancer patients residing in Queensland with a diagnosis of invasive breast cancer confirmed histologically were used to validate genotyping of miR-SNPs. Patient samples had been collected by the Genomics Research Centre in collaboration with the Cancer Council of Queensland as part of a 5-year population-based longitudinal study since January 2010. Patients included in this study were between 33 and 80 years of age, with an average age of 60.16 and they were screened for personal and/or familial history of breast, ovarian or any other type of cancer. Control population for the GU-CCQ BB was established from 2 sources: The control group for this cohort was comprised of genotyping result data taken from 201 healthy females belonging to the phase 1 European population from the 1000Genomes project. Efforts were made to select a subgroup of individuals that were comparable to the case group in terms of age, ethnicity and sex [34].

Genomic DNA sample preparation from whole human blood

Genomic DNA was extracted from whole blood samples using a modified salting out method described previously [35, 36]. DNA samples were evaluated by spectrophotometry using the Thermo Scientific NanoDrop™ 8000 UV-Vis Spectrophotometer (Thermo Fisher Scientific Inc., Wilmington, DE. USA) to determine DNA yield and 260/280 ratios [37–39]. Samples with a reading below 1.7 for their 260/280 ratio were purified using an ethanol precipitation protocol to guarantee DNA sample purity [40].

MiRNA SNP selection

Figure 1 shows the selection process we followed to determine miRNA SNPs (miR-SNPs) that could be included in our study. Two datasets, “The whole miRNA-disease association data” and “The miRNA function set data” from the human miRNA disease database (HMMDD) created by Lu et al. [41] and updated in January 2012, were used to select 8 diseases and/or pathological characteristics and 24 biological and/or cellular functions related to breast cancer (See Table 1). As shown in Fig. 1, we picked the 50 miRNA genes from each dataset that were present in the majority of selected features for inclusion in the following steps. This list was narrowed down to the 25 miRNA genes on each dataset with the strongest evidence in order to maximise the potential for identification of biologically relevant molecules using two main criteria: miRNAs involved in the largest number of selected features from each group followed by a literature search to confirm the number of publications showing significant relationships to cancer biology or the possession of known functional effects of polymorphisms within the miRNA itself. Following this, we chose 10 miRNA genes from the 25 genes on both lists, again prioritising by number of functions and publications, and conducted a search to identify SNPs using both dbSNP database from The National Center for Biotechnology Information (NCBI) [42] and 1000 Genomes project browser [43]. Final selection of SNPs was done using this algorithm: All microRNA-SNPs located inside the pre-miRNA gene were automatically included in the SNP selection. However, SNPs located outside of the pre-miRNA gene were assessed using the following criteria: miR-SNPs located up to 500bp upstream or downstream from pre-miRNA were automatically included in the SNP selection. On the other hand, SNPs located more than 500bp from the 3’ or 5’ end were chosen only if they had a previously reported minor allele frequency higher than 5% in Caucasian populations. As a result 56 microRNA SNPs were identified in this preliminary selection (Data not shown) (See Fig. 1).

MicroRNA SNP (miR-SNP) selection algorithm using the Human miRNA Disease Database (HMDD). This flow chart shows workflow for selection of preliminary miR-SNPs included in genotyping study. Abbreviations: dbSNP, single nucleotide polymorphism database MAF, minor allele frequency miRNA, microRNA NCBI National Center for Biotechnology Information SNP, Single nucleotide polymorphisms

Primer design

Using the MassARRAY® Assay Design Suite v1.0 software (SEQUENOM Inc., San Diego, CA, USA) we were able to create a single multiplex PCR genotyping assay containing 24 miR-SNPs from our preliminary selection (See Table 2). We designed forward and reverse PCR primers and one iPLEX® (extension) primer and verified that the mass of extension primers differed by at least 30 Da among different SNPs and by 5 Da between alternative alleles of the same marker to achieve successful marker and allele identification by mass spectrometry analysis. Primers were manufactured by Integrated DNA Technologies (IDT®) Pte. Ltd. (Baulkham Hills, NSW 2153, Australia) and primer information is shown in Table 3.

Primary multiplex PCR

Genotyping was undertaken following the iPLEX™ GOLD genotyping protocol using the iPLEX® Gold Reagent Kit (SEQUENOM Inc., San Diego, CA, USA). Primer extension reactions were performed according to the instructions for the SEQUENOM linear adjustment method included in the iPLEX™ GOLD genotyping protocol (SEQUENOM Inc., San Diego, CA, USA). All reactions were performed using Applied Biosystems® MicroAmp® EnduraPlate™ Optical 96-Well Clear Reaction Plates with Barcode (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia) and an Applied Biosystems® Veriti® 96-Well Thermal Cycler (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia).

MALDI-TOF MS analysis and data analysis

A total of 12-16 nl of each iPLEX® reaction product were transferred onto a SpectroCHIP® II G96 (SEQUENOM Inc., San Diego, CA, USA) using SEQUENOM® MassARRAY® Nanodispenser (SEQUENOM Inc., San Diego, CA, USA). SpectroCHIP® analysis was carried out by SEQUENOM® MassArray® Analyzer 4 and the SpectroAcquire software Version 4.0 (SEQUENOM Inc., San Diego, CA, USA). Finally data analysis for genotype determination was done using the MassARRAY® Typer software version 4.0 (SEQUENOM Inc., San Diego, CA, USA). In order to confirm the genotypes obtained, randomly selected samples (5 each for case and control cohorts) from each genotype (ن = 240) were validated by Sanger Sequencing to ensure accuracy of genotyping results. In all cases, the Sanger Sequencing confirmed the genotyping obtained using MassARRAY.

Statistical analysis

Statistical analysis of genotypes and alleles was conducted using Plink software version 1.07 (http://pngu.mgh.harvard.edu/purcell/plink/) [44]. The α for p-values was set at 0.05 to determine statistically significant association with breast cancer. Genotype and allele frequencies for each miRNA SNP in our case and control populations were established and we used Hardy-Weinberg equilibrium (HWE) to evaluate deviation between observed and expected frequencies for identification of unexpected population or genotyping biases [45, 46]. We performed Chi square analysis to evaluate differences in genotype and allele frequencies between cases and controls for each independent population [47]. Finally we calculated odds ratio (OR) and obtained 95% confidence interval (CI) 95% to assess disease risk.


معلومات الكاتب

الانتماءات

International Institute of Tropical Agriculture (IITA), Ibadan, 200001, Oyo State, Nigeria

Ismail Yusuf Rabbi, Siraj Ismail Kayondo, Muyideen Yusuf, Cynthia Idhigu Aghogho, Kayode Ogunpaimo, Ruth Uwugiaren, Ikpan Andrew Smith, Prasad Peteti, Afolabi Agbona, Elizabeth Parkes, Chiedozie Egesi & Peter Kulakow

Boyce Thompson Institute, Ithaca, NY, 14853, USA

National Root Crops Research Institute (NRCRI), PMB 7006, Umudike, 440221, Nigeria

Ezenwaka Lydia & Chiedozie Egesi

Global Development Department, College of Agriculture and Life Sciences, Cornell University, Ithaca, NY, 14850, USA

Section on Plant Breeding and Genetics, School of Integrative Plant Sciences, Cornell University, Ithaca, NY, 14850, USA

Marnin Wolfe & Jean-Luc Jannink

United States Department of Agriculture - Agriculture Research Service, Ithaca, NY, 14850, USA

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

مساهمات

IYR, CE, JLJ, and PK conceived and designed the study IYR, SIK, GB, AA, and MY performed analyses and wrote the manuscript CE, EL, EP, MW, JLJ, and PK edited the manuscript CA, KO, RU, ASI, and PP Implemented field trials, generated and curated data and PK Provided overall coordination and leadership.

المؤلف المراسل


شاهد الفيديو: معامل الإرتباط بيرسونspss v24 (كانون الثاني 2022).