概述
以重要工业微生物枯草芽孢杆菌为底盘,比较和筛选常用的启动子序列预测软件的结果作为天然启动子参考序列,以转录组数据和一致化的文献枯草芽孢杆菌启动子强度数据作为序列强度训练样本,利用人工智能的深度学习技术,构建人工启动子序列的生成模型与启动子活性的强度预测模型,研发枯草芽孢杆菌从头合成启动子的序列设计与强度预测系统。
图1 项目的研究思路
构建机器学习样本数据库
枯草芽孢杆菌启动子训练样本数据库包含用于强度预测的序列-强度数据库以及用于启动子生成的天然启动子序列数据库。其中天然启动子序列数据库利用当前常用的启动子序列预测软件对枯草芽孢杆菌基因上游序列的预测结果集成获取。而序列-强度数据库包含由转录组测序数据结合启动子预测识别而获得的序列-转录强度数据库,以及由实验构建绿色荧光蛋白为报告基因的不同启动子表达载体,对通过文献收集的所有启动子强度进行一致化处理而获得的启动子序列-荧光强度数据库。由于对启动子强度量化指标不同,启动子序列-转录强度数据库与启动子序列-荧光强度数据库分别用于预测模型的训练,优选合适的训练数据集。天然启动子序列用于生成模型的训练。
为了训练强度预测模型,我们分别构建了两个启动子序列-强度数据库,这两个数据库有着不同的强度量化指标:以转录组测序结果表示的转录强度,和使用绿色荧光蛋白表征的荧光强度。
>> 机器学习样本数据库的构建方法 详见 方案页面
图2 机器学习样本数据库的构建方法
构建启动子序列生成模型
基于生物界的“淘汰与进化”的思想,分别利用深度学习的生成算法—变分自动解码器(Variational Autoencoder,VAE) 以及基于自然选择的—遗传算法(Genetic Algorithm,GA)来构建启动子的生成模型。通过模型的迭代训练学习,从天然启动子中提取特征,最终生成大量的可模拟天然启动子关键特征的人工启动子。模拟到的关键特征包括启动子-10区和-35区的保守基序、k-mer频率、间隔区长度以及其他潜在的序列特征。最终,将模型生成的启动子与天然启动子进行特征比对,并通过实验验证人工启动子的活性以验证生成模型性能。
>> 启动子序列生成模型的构建方法 详见 模型页面
图3 启动子序列生成模型的构建方法
构建启动子强度预测模型
针对启动子序列,构建强度定量预测模型用于从生成模型产生的大量人工启动子中筛选出符合目标强度的启动子。分别以启动子序列-转录强度数据库与启动子序列-荧光强度数据库作为训练样本集,通过构建包括循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network, CNN)、支持向量机(Support Vector Machine,SVM)、XGBoost算法(eXtreme Gradient Boosting)等多种回归模型,从中优选性能最佳的模型与训练集的组合。最后,对构建的启动子强度预测模型的预测性能进行评估。
>> 启动子强度预测模型的构建方法 详见 模型页面