启动子是DNA序列的重要组成元素,通常位于基因转录起始点的附近区域。启动子也是RNA聚合酶转录IgE-mediated allergic inflammation特定基因的起点,因此对基Vorinostat IC50因的转录调控起着至关重要的作用。启动子还与许多人类疾病相关联,可能是诱发疾病的主要原因。它在分子生物学和遗传学上的重要性引起了研究者们的研究兴趣。此外,了解增强子-启动子相互作用(Enhancer-Promoter Interactions,EPIs)对细胞中特定基因表达的调控作用有助于人们理解基因调控、细胞分化等方面。随着高通量测序技术的快速发展,人们可获得的DNA序列呈爆发性增长趋势,使用传统的生物学方法和湿实验方法识别启动子以及EPIs已不能满足需求。因此,本文基于生物序列信息和机器学习方法针对大肠杆菌启动子以及六种人类细胞系的EPIs展开了研究,主要的研究内容如下:(1)针对大肠杆菌启动子的预测问题,本文基于自然语言处理领域的Longformer预训练模型提出了一种更先进的预测selleck Naporafenib模型iProL。iProL不需要依赖生物学上的先验知识,仅通过DNA序列就可以识别启动子。此外,它还结合了卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM),用于提取DNA序列的局部特征和全局特征。实验结果表明,iProL相比于目前最新发表的方法,在Sp、Acc、MCC和AUC上取得了最高分,分别是86.61%、85.62%、0.7130和0.9211。因此,iProL的预测性能更加优越并且拥有对正负样本更均衡的识别能力,这为检测新的启动子提供了可能性。(2)针对6种人类细胞系的EPIs的预测问题,本文基于堆叠式集成学习策略设计了一种预测性能更好训练速度更快的针对特定细胞系的EPIs预测方法,称为StackEPI。具体地说,该方法通过组合不同的特征编码方法和机器学习方法全面而又多方位地提取特定细胞系的增强子、启动子基因序列的有效信息,对EPIs做出精准识别。比较结果表明,本文模型在特定细胞系的EPIs的识别问题上能够表现出更好的性能,相比于其他最先进的模型具有更大的优越性。此外,本文模型对比其他方法也拥有更高效率的计算速度。