> > >
>
启动子是一段位于目标基因转录区上游、能与RNA聚合酶结合从而实现转录起始的DNA序列。启动子元件决定了其下游目标基因的表达强度,因此它也成为了驱动基因表达、调控基因线路、构建人工细胞工厂的合成生物学核心元件。
> > >
>
启动子工程主要聚焦于对天然启动子序列进行随机突变或者基于功能模块的组合进行筛选,以获得新的、满足需要的新启动子元件。然而,启动子工程面临巨大挑战。启动子突变的潜在序列随着序列长度的增加呈指数增长,工作量巨大。50个碱基长度的DNA序列,其潜在碱基组合为450,即存在约1030种潜在的待测序列,远超出目前任何实验文库(约106~8复杂度)的筛选能力。
> > >
>
近年来,人工智能技术的迅猛发展为启动子序列的设计提供了新的机遇。由于生物数据本身的高维特性以及数据中隐含模式的复杂性,深度学习算法在挖掘重要生物学特征、探求特征之间隐含的复杂关系等方面表现出了独特的优势。随着各类生物大数据(如组学数据)的不断积累,人工智能技术在代谢工程与合成生物学领域展现出广阔的应用前景。
> > >
>
本项目以重要工业微生物枯草芽孢杆菌为底盘,利用人工智能的深度学习技术,以转录组测序数据和文献发表的枯草芽孢杆菌启动子文库数据作为训练样本,通过“设计-构建-测试-学习”研究模式,构建了启动子预测模型与启动子生成模型,进行启动子结构基本规律解析、序列识别、强度预测与人工智能从头设计