蛋白质稳定性预测工具-Rosetta ddg_monomer

 

Rosetta_ddg_monomer操作入门,看BioEngX如何玩转模型分析软件!...





蛋白质由于其来自于生命体的本质,在工业环境下通常是不稳定的。暂不提高温高压或者含有有机溶剂的极端环境,就是在室温下亦或保存在4度的冰箱中,很多蛋白质都会很快的发生聚集、失活。

稳定蛋白质的方法有很多种,包括蛋白质工程,固定化,添加稳定剂等。蛋白质工程指的是对蛋白质进行基因改造,通过改变其结构来获得对包括pH,温度,有机溶剂等环境的耐受性。蛋白质工程通常可以采用三种策略,一种是定向进化,即在基因中随机引入突变,而后进行大规模的筛选,从而获得有益突变株。另一种策略是理性设计,即根据已知的蛋白质的结构与功能之间的关系,设计突变位点,而后通过定点突变的方式引入。最后一种策略,叫作计算机辅助设计。

顾名思义,计算机辅助设计主要依赖于计算机的计算。将蛋白质的三维结构作为输入,通过计算野生型与突变型的吉布斯自由能变的差值来判断突变型是否稳定。预测突变体是否稳定的软件有很多种[1],包括CUPSAT、Dmutant、FoldX、I-Mutant、Eris[2]、Rosetta ddg_monomer [3]等。最近有研究者对这些方法的预测准确率进行了比较,发现Rosetta ddg_monomer,FoldX等的准确率要高于其他的软件[4]。

ddg_monomer已经成功的应用于包括柠檬烯环氧化物水解酶、卤代烷烃脱卤酶在内的多个蛋白质的稳定性工程化过程中。最近,我们也应用这个软件提高了大肠杆菌转酮醇酶的热稳定性,并对其预测准确率进行了评估,最后发现,其准确率可以达到65%[5]。面对着低效率的着定向进化,低成功率的理性设计,具有65%准确率的ddg_monomer无疑是蛋白质工程学家的一个有力工具。由于本软件相关的中文资料并不多,BioEngX小编这里总结一下ddg_monomer的用法与操作步骤。

获取与安装
ddg_monomer程序是Rosetta软件内的一个应用。Rosetta软件最早是在华盛顿大学DavidBaker教授实验室开发的,目前软件内有多个应用可供用户使用,常用的应用程序有同源建模(comparativemodelling)、短片段模拟与重建(Loopmodelling and rebuilding)、蛋白质设计(protein design)、蛋白质与蛋白质对接(Protein-proteindocking)、蛋白质配体对接(Protein-liganddocking)等。下载安装Rosetta软件后,这些程序就都可以应用了。

Rosetta软件对于学术界用户是免费的,只需要申请获得一个许可证,就可以从Rosetta的官网中下载软件了。详细的安装过程,大家可以从下面的链接中获悉:

https://www.rosettacommons.org/demos/latest/tutorials/install_build/install_build

需要注意的是,Rosetta软件目前只能安装在Linux系统或苹果Mac系统中。安装好Rosetta后可以在下面的目录中找到ddg_monomer应用程序rosetta/rosetta_source/src/apps/public/ddg/ddg_monomer.cc。
输入文件准备
有两种方式可以用来运行ddg_monomer程序:一种是高分辨,一种是低分辨率。高分辨率的方式允许蛋白质的骨架(backbone)进行一定的运动,而低分辨率的方式只允许蛋白质侧链运动。根据文献的报道,高分辨率方式的准确率要比低分辨率方式高一些。本文主要介绍高分辨率方式运行ddg_monomer。

为了顺利以高分辨方式运行ddg_monomer 程序,我们需要准备以下文件:

  • 对氨基酸进行重新排序的蛋白质PDB结构
  • 距离限制文件
  • Mutfile文件,该文件内用来指明需要突变的位点以及目标氨基酸


下面我们逐一介绍如何获得这三个文件以及每个文件的用途。

处理PDB文件

为了应用Rosetta软件,野生型蛋白的结构必须是已知的。从PDB数据中直接下载的PDB文件需要经过处理后,才能够应用于Rosetta程序。处理的过程其实就是对PDB中的残基进行重新排序。由于蛋白质内某些氨基酸灵活度比较高,比如N,C两端的氨基酸或某些无规则结构内氨基酸,在结构解析时这些残基经常会被漏掉,也就是说PDB文件内通常没有这些氨基酸的结构坐标。

Rosetta要求所有输入的结构文件,第一个残基都要被标识为残基1,而且整个结构内氨基酸排序不能有断点,所以大多数的PDB文件都需要进行处理,对氨基酸进行重新排序。Rosetta内提供了一个小的脚本程序,能够对PDB文件进行处理。可以通过下面的命令,运行这个程序

Python  /usr/local/rosetta/tools/protein_tools/scripts/clean_pdb.py1QGD AB > cleanpdb.log

上面的命令中,clean_pdb.py 是我们要调用的程序;1QGD是pdb文件的文件名;AB表示的是蛋白质的两条链,如果你的蛋白质中只有一条链,这里输入A就可以;cleanpdb.log是本次程序运行的记录文件。

获取距离限制文件

高分辨率允许蛋白质骨架进行一定程度的运动。但为了防止骨架运动的幅度过大,严重偏离初始构象,需要对骨架的alpha C原子的位置进行一定的限制。距离限制也很简单,就是保证相邻的alphaC原子之间的距离在9Å之间。Rosetta提供一个脚本,用来生成距离限制文件,可以采用下面的命令调用脚本:

tcsh/usr/local/rosetta/main/source/src/apps/public/ddg/convert_to_cst_file.shmincst.log > input.cst

上面的命令中convert_to_cst_file.sh是我们的目标脚本,input.cst是本步骤生成的限制文件,mincst.log是下一步能量最小化过程生成的log文件。

编写mutfile文件

Mutfile文件内需要标注清楚待突变氨基酸的位置以及目的氨基酸的种类。有关该文件的语法,感兴趣的同学可以从下面的网页中了解

https://www.rosettacommons.org/manuals/archive/rosetta3.4_user_guide/d1/d97/resfiles.html

小编在这里提供一个简单的例子。在一个txt的文件内输入下面的内容,而后将其扩展名更改为.mutfile,即获得了一个mutfile文件:
G 1 A
上面的内容表示,将PDB结构内的第一个氨基酸G突变成A。
能量最小化
野生型的三级结构需要进行能量最小化,而后才能用于ddg_monomer 的运算。Rosetta提供了用于对PDB结构进行能量最小化的程序,其执行命令为:

/path/to/minimize_with_cst.linuxgccrelease-in:file:l lst  -in:file:fullatom-ignore_unrecognized_res -fa_max_dis 9.0 -database /path/to/rosetta_database/-ddg::harmonic_ca_tether 0.5 -score:weights standard -ddg::constraint_weight1.0 -ddg::out_pdb_prefix min_cst_0.5 -ddg::sc_min_only false -score:patchrosetta_database/scoring/weights/score12.wts_patch > mincst.log

上面的命令可以对一系列PDB文件进行能量最小化,-in:file:l  lst 用来指示需要进行能量最小化的文件,lst文件内标注待输入文件的文件名,可以是一个也可以是多个。这里需要强调的是,能量最小化输入的文件就是上一步处理过的PDB文件。Mincst.log文件是该命令的执行过程生成的log文件,这个文件可以通过脚本
convert_to_cst_file.sh
被转换为距离限制文件。
执行ddg_monomer
准备好输入文件后就可以正式执行ddg_monomer程序了。其执行命令如下:

/path/to/ddg_monomer.linuxgccrelease

-in:file:s WT.pdb

-ddg::mut_fileH192P.mutfile

-ddg:weight_filesoft_rep_design

-database/usr/local/rosetta/main/database/

-fa_max_dis 9.0

 -ddg:minimization_scorefunction talaris2013

-ddg::iterations 50

-ddg::dump_pdbs true

-ignore_unrecognized_res

-ddg::local_opt_onlyfalse

-ddg::min_cst true

-constraints::cst_fileinput.cst

-ddg::suppress_checkpointingtrue

 -in::file::fullatom -ddg::mean false

-ddg::min true

-ddg::sc_min_onlyfalse 

-ddg::ramp_repulsivetrue

 -unmute core.optimization.LineMinimizer

-ddg::output_silent

在上面的命令中,这三行指代输入文件:

-in:file:s WT.pdb  指的是能量最小化后的野生型的PDB结构,将WT换成你的文件名即可。

-ddg::mut_fileH192P.mutfile  指的是mutfile文件,将H192P换成你的文件名即可。

constraints::cst_fileinput.cst  指的是距离限制文件的输入。

程序运行过程中,Rosetta软件会首先计算野生型的吉布斯自由能,而后计算突变型的吉布斯自由能,这个过程会持续50个循环。程序运行结束后,我们能够获得包括ddg_prediction.out在内的一系列文件。ddg_prediction.out这个文件是最重要的,因为里面有我们需要的ΔΔG数据,也就是野生型吉布斯自由能与突变性吉布斯自由能的差值。如果ΔΔG数值为负,即突变性的自由能低于野生型的能量,那么说明Rosetta软件预测该突变型是有效的,能够提高野生型的稳定性。

上面我们介绍了如何运行ddg_monomer来预测单个点突变的稳定性。尽管小编认为整个过程已经介绍的很详细了,但在真正的执行过程中,通常还会遇到这样那样的问题。遇到问题怎么办呢?首先可以查看Rosetta提供的用户指南,查看这个链接https://www.rosettacommons.org/manuals/archive/rosetta3.4_user_guide/d3/d28/ddg_monomer_application.html,或参考文献[3]。

其次就是加入到我们BioEngX的大家庭,与其他同行交流讨论。感兴趣的小伙伴可以添加管理员微信号bioengxadmin,加入到BioEngX-分子动力学模拟讨论群中。
References
[1] Khan S, VihinenM. Performance of protein stability predictors[J]. Human mutation, 2010, 31(6):675-684.

[2] Yin S, Ding F, DokholyanN V. Modeling backbone flexibility improves protein stability estimation[J].Structure, 2007, 15(12): 1567-1576.

[3] Kellogg E H, Leaver‐Fay A, Baker D. Role of conformational samplingin computing mutation‐inducedchanges in protein structure and stability[J]. Proteins: Structure, Function,and Bioinformatics, 2011, 79(3): 830-838.

[4] Thiltgen G, Goldstein RA. Assessing predictors of changes in protein stability upon mutation usingself-consistency[J]. PloS one, 2012, 7(10): e46084.

[5] Yu H, Yan Y, Zhang C, etal. Two strategies to engineer flexible loops for improved enzymethermostability[J]. Scientific Reports, 2017, 7.

更多精彩内容,点击阅读原文,访问我们的官网,http://www.bioengx.com
  历史文章    
点击==>,浏览历史好评文章~~


  • 全看懂证明你是猴子请来的生物学霸!==>
  • 类病毒颗粒—HPV疫苗背后的它 ==>
  • 纳尼!啤酒与生物工艺也能扯上关系? ==>
  • 同样都是动物,为啥会有红肉和白肉之分?  ==>
  • 多吃糖真的会得糖尿病吗? ==>
  • 卖肾换iphone或将被终结!  ==>
  • 新药发现史之天花疫苗  ==>
  • 锅里加点盐真的能加速煮沸水吗? ==>
  • 癌症为何难以根治? ==>
  • 等你老了,估计可以少担心一种疾病的发生了~ ==>
  • 晒被子后的“太阳味”是螨虫被烤死的味道? ==>
  • 喝酒脸红的人, 酒量到底能不能练出来 ==>
  • 简单聊聊合成生物学发展到哪儿啦! ==>
  • 表达蛋白,你用什么系统?==>
  • 提取质粒DNA和基因组DNA的区别  ==>
  • Km, Kcat 傻傻分不清楚 ==>
  • Western Blot 常见问题和处理方法 ==>
  • 米氏常数测定方法详细比较==>
  • 一张图,掌握Western Blot中的化学发光法! ==>
  • 蛋白质结构PDB文件详细解释==>
  • 分子生物学实验室内常见有毒物质及防护措施 ==>
  • 提纯你的DNA样本,很急、很关键! ==>
  • GelRed和EtBr ==>
  • 利用Photoshop为免疫印迹做图技巧 ==>
  • 你知道为什么DNA 比RNA 稳定吗?==>
  • 大肠杆菌的转化简说 ==>


BioEngX

BioEngX---活跃在移动端的无国界学术圈持续推送生化工程领域科普文章、科研动态、实验技术及海外名校本科研究生课程安排、博士/博士后职位信息等。

http://www.bioengx.com/

    


    关注 BioEngX生化工程实验室


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册