学在加拿大
400-609-1118

留学加拿大纽芬兰纪念大学建立识别细菌启动子的新通用型方法

发布时间: 2021-12-10 18:45:08
摘要:
留学加拿大纽芬兰纪念大学建立识别细菌启动子的新通用型方法 启动子一般位于转录起始位点的上游,是RNA聚合酶(RNAP)识别、结合和开始转录的一段DNA序列。原核生物的启动子主要由两个分散的保守序列组...

留学加拿大纽芬兰纪念大学建立识别细菌启动子的新通用型方法

启动子一般位于转录起始位点的上游,是RNA聚合酶(RNAP)识别、结合和开始转录的一段DNA序列。原核生物的启动子主要由两个分散的保守序列组成:Pribnow盒/TATA盒(又称-10区),位于转录起始位点上游5-10bp,一般由6~8个碱基组成,富含A和T;-35区,位于转录起始位点上游35bp,一般由10个碱基组成。σ因子是细菌的DNA结合调控蛋白,介导了RNAP和启动子的特异性结合。在过去的几十年中,细菌启动子的计算机预测方法层出不穷,如bTSSfinder、BPROM、G4PromFinder、PePPER、PromPredict、MULTiPly、SELECTOR、iPromoter-BnCNN、IBPP、iPromoter-2L和iPro70-FMWin等。但是,这些预测方法大都是针对大肠杆菌E.coli或有限的几个菌种设计的,从而限制了它们的通用性。另外,这些方法只能对几百核苷酸序列,而不是在基因组水平上进行预测。

2021年11月17日,Genome Biology在线发表了加拿大纽芬兰纪念大学Lourdes Peña-Castillo团队题为“Promotech:a general tool for bacterial promoter recognition”的方法论文。该研究建立了识别细菌启动子的新通用型方法Promotech,它可以有效地预测各种细菌的启动子;通过和其他5个预测方法进行比较,研究人员发现Promotech的表现更加优异。

启动子通常位于转录起始位点(TSS)的上游。利用已发表的TSS图谱,该研究收集了各种细菌的27,766个启动子序列进行机器学习训练,并使用11,615个启动子序列进行检测。研究人员进一步利用随机森林(random forest,RF)和循环神经网络(Recurrent Neural Networks,RNN)算法分别建立了多个Promotech模型(Figure 1)。AUPRC和AUROC数值表明,RF-HOT模型最优。学在加拿大

该研究进一步利用TSS上游-39至0位置的序列,对RF-HOT模型分别进行了以杂质和排列为基础的特征重要性分析,结果显示TSS上游-8至-12位置的A和T核苷酸对启动子的识别尤其重要;表明RF-HOT模型已获得正确识别启动子Pribnow盒(TATAAT)序列的能力(Figure 2)。另外,在基因组水平上,RF-HOT模型同样表现优异。

Figure 2.RF-HOT模型以杂质(上)和排列(下)为基础的特征重要性显示的核苷酸在TSS上游位置的数值

最后,该研究比较了Promotech和其他方法(bTSSFinder,G4PromFinder,BPROM,MULTiPly和iPro70-FMWin)在多菌种启动子预测方面的表现;结果显示,Promotech的RF模型表现最好。另外,该研究显示,即使和E.coli启动子的专用预测方法相比,Promotech的RF-HOT模型也不输。这些结果表明,Promotech可以预测各种细菌的启动子。留学加拿大

结论

该研究利用机器学习建立了一种可以预测各种细菌启动子的新通用型方法Promotech,并且它可以直接在基因组水平上进行预测,无需分割成序列小片段。但是,对于E.coli,研究人员仍推荐使用E.coli启动子的专用预测方法。同时,欢迎大家在研究其他菌种的时候使用Promotech。

 

更多留学干货内容,欢迎继续关注学在加拿大官网及美国留学网

更多留学规划问题欢迎免费咨询学在加拿大

更多留学干货内容,欢迎关注学在加拿大官方微信号或者小助手

微信小助手

微信企业号

更多留学申请规划问题欢迎扫码联系小助手免费咨询获取干货资料包

>>手机用户,可以直接点我进行微信在线咨询
在线报名

学在加拿大官方咨询热线

400-609-1118