团队初步创建。组建了一支由来自天津大学化工学院生物工程、合成生物学、化学工程专业,智能与计算学部计算机科学与技术和软件工程专业、共五个专业的九名本科生组成的多学科交叉团队。 01
团队第一次组会,确定了项目主题:基于AI的枯草芽孢杆菌启动子设计与分析 02
收集在枯草芽孢杆菌中构建合成启动子文库的相关文献 03
进行算法方面的文献调研04
1. 对文献数据进行初步整理 05
2. 其他工作继续进行 06
开展组会,明确项目整体框架:
1. 通过序列生成-强度预测两个模型结合的方式实现特定强度启动子的生成
2. 训练数据方面,构建两个数据库:通过启动子预测和转录组测序得到枯草芽孢杆菌全基因组范围的启动子序列-强度数据;通过调研文献得到经过实验表征的启动子序列-荧光数据
07
制定具体的时间计划表,明确了团队分工 08
1. 野生型枯草芽孢杆菌转录组的测序完成送样09
2. 制定了文献数据一致化所需要表征的启动子列表,及其进行荧光蛋白表征分析的具体实验方案 10
针对算法方面展开具体的构思和讨论,初步确定构建WGAN作为序列生成模型 11
构建CNN作为强度预测模型 12
构建用于荧光数据均一化的质粒 13
11.21
下午 制备感受态大肠杆菌细胞
晚上 订购引物
11.22
晚上 pAD123质粒和pbad-gfp质粒大肠菌株复苏
11.23
上午 pAD123质粒和pbad-gfp质粒大肠菌液平板划线并提取质粒
11.25
上午 以pAD123质粒为模板,以pAD-F/R引物扩增得到线性化载体pAD123。以pbad-gfp质粒为模板,以G-F/R为引物扩增得到gfp片段。
晚上 将片段转化进入大肠杆菌中
11.26
上午 对重组大肠菌株进行单菌P验证,条带正确,送测序列正确;
晚上 接取重组大肠菌体进行培养
11.27
上午 从重组大肠菌液中提取质粒,得到pAD-gfp空白质粒,经测序列正确;
1. 初步构建基于WGAN的启动子生成模型
2. 寻找适用于枯草芽孢杆菌的启动子预测软件
3. 12个待表征启动子中,完成了其中4个的质粒构建和测序,其余8个完成构建
14
1. 对预测软件进行测试,选出结果最优的3种并设计投票规则,进行全基因组范围的启动子预测
2. 完成生成模型结果评估部分的代码编写,尝试生成模型优化
3. 初步构建强度预测模型
4. 获得转录组数据,完成序列-转录强度数据库的构建
5. 继续进行实验菌株的构建;进行荧光和OD600的测试并修改了计算公式
15
12.3
上午 以pAD-gfp质粒为模板,用1、2、4、5号引物进行PCR
下午 对PCR产物进行消化、电泳、胶收,均成功
晚上 将1、2、4、5号胶收产物转化进入大肠
12.4
上午 对1、2、4、5号大肠菌落进行单菌P验证,均正确
12.8
晚上 接取1、2、4、5号大肠菌体进行培养
12.9
上午 从1、2、4、5号菌液中提取质粒并送测,测序结果正常
下午+晚上 将1、2、4、5号质粒转化进入枯草芽孢杆菌
12.10
上午 对1、2、4、5号进行菌P验证(枯草芽孢杆菌),均正确
下午 对1、2、4、5号枯草存菌
12.11
晚上 接取空白质粒大肠菌株进行培养
12.12
上午 从空白质粒大肠菌液中提取质粒
12.13
上午 以pAD-gfp质粒为模板,用Pvegi、3、6、7、8、9、10、11、12号引物进行PCR
下午 对PCR产物进行消化、电泳、胶收(Pvegi、3、6号未成功)
晚上 将7、8、9、10、11、12号胶收产物转化进入大肠
12.14
上午 对7、8、9、10、11、12号进行大肠菌P,条带正确;以pAD-gfp质粒为模板,用Pvegi、3、6号引物进行PCR
下午 对Pvegi、3、6号PCR产物进行消化、电泳、胶收(6号未成功)
晚上 Pvegi、3号胶收产物转化进大肠;接取7、8、9、10、11、12号大肠菌体
12.15
上午 对3号、Pvegi进行大肠菌P,条带正确;从7、8、9、10、11、12号大肠菌液中提取质粒,并送测,经测序序列正确;
下午+晚上 将7、8、9、10、11、12号质粒转化进入枯草芽孢杆菌
12.16
上午 对7、8、9、10、11、12号枯草菌株进行单菌P验证,条带均正确;
下午 对7、8、9、10、11、12号枯草菌株进行存菌
12.17
上午 以pAD-gfp质粒为模板,用6号引物进行PCR
下午 对6号PCR产物进行消化、电泳、胶收
晚上 6号胶收产物转化进大肠
12.18
上午 对6号进行大肠菌P,条带正确
下午 准备发酵摇瓶、配置并分装培养基
晚上 接取7、8、9、10、11、12号枯草菌株
12.19
上午 测定7、8、9、10、11、12号枯草菌液OD,并进行发酵培养
晚上 测定7、8、9、10、11、12号枯草菌液荧光表达强度
12.20
晚上 接取3、6号、Pvegi、空白质粒大肠菌体进行培养
12.21
上午 从3、6号、Pvegi、空白质粒大肠菌液中提取质粒并送测,测序结果正确
下午+晚上 将3、6号、Pvegi、空白质粒转化进入枯草芽孢杆菌
12.22
上午 对3、6号、Pvegi枯草菌体进行单菌P验证,条带正确
下午 对3、6号、Pvegi枯草菌株进行存菌
12.23
上午 准备发酵摇瓶、配置并分装培养基
晚上 接取全部枯草菌株
12.24
上午 测定全部枯草菌液OD,并进行发酵培养
晚上 测定全部枯草菌液荧光表达强度
1. 由于GAN训练不稳定,尝试改为VAE进行启动子生成,并决定同时编写遗传算法进行序列生成
2. 发现数据上的问题:强度预测模型在序列-转录强度数据库上过拟合严重,尝试多种方法未解决;尝试使用序列-荧光强度数据库和其他数据库中的数据训练预测模型,结果较优
3. 顺利得到一致化后的序列-荧光强度数据库
16
1. 优化遗传算法并对其结果进行分析
2. 完成VAE的构建
3. 通过加入Embeding层、Dropout层、LSTM层等方式对预测模型进行优化,并进行参数调整
4. 构建SVM、XGBoost作为强度预测模型,进行实验结果的比较
5. 着手wiki文案(实验设计、notebook、protocol、元件)编写以及图片的绘制
17
1. 构建包括TextCNN、Vgg16在内的更复杂的预测模型,分析产生问题的原因
2. 将已构建的模型整合起来,从AI生成启动子与天然启动子的对比、启动子序列与强度的关系两方面对结果进行分析
18
开展组会,主要进行赛事事宜的讨论,分配整理材料的任务 19