本文使用深度神经网络完成计算蛋白质设计去预测20种氨基酸概率。
Introduction
针对特定结构和功能的蛋白质进行工程和设计,不仅加深了对蛋白质序列结构关系的理解,而且在化学、生物学和医学等领域都有广泛的应用。在过去的三十年里,蛋白质设计取得了显著的成功,其中一些设计是由计算方法指导的。最近一些成功的计算蛋白设计的例子包括新折叠,酶设计,疫苗,抗体,新的蛋白质组装,配体结合蛋白和膜蛋白。
Results
Networks architecture, input, and training
数据集:数据集来源于PDB且具有如下特征:
(1)用x射线晶体学确定结构;
(2)分辨率优于$$2 r A $$;
(3)链长大于50;
(4)结构没有任何DNA/RNA分子。
移除同源蛋白质后分为三个数据集非别是30%、50%、90%(SI30,SI50,SI90)
输入:对于每个数据集,提取每个残基及其基于Cα-Cα距离的N(N=10、15、20、25、30)最近邻残基为聚类。
过程:目标残基及其领域的残基的特征作为一个input输入到残基概率网络得到目标残基的概率(图A),同时也将input输入到权重网络中得到一个权重输出(图B)。残差概率网路和权重网络本文模型架构的子网络,将这两个输出concat后输入到后续网络最终输出概率。
训练:线性层ReLU作为所有层的激活函数。训练采用交叉熵(categorical cross entropy )作为损失函数,采用随机梯度下降法进行优化,学习率为0.01,批处理大小为40,000,epoch是1000。
Overall and amino acid specific accuracy
表 神经网络在不同邻域残基的不同数据集上的交叉验证的总体精度
Indentity cutoff
|
N=10
|
N=15
|
N=20
|
N=25
|
N=30
|
30%
|
0.329
$$(0.001)^*$$
|
0.340
$$mathbf{(0.005)} $$
|
0.333
$$(0.009)$$
|
0.331
$$(0.006)$$
|
0.321
$$(0.015)$$
|
50%
|
0.353
$$(0.003) $$
|
0.364
$$mathbf{(0.005)} $$
|
0.358
$$(0.005) $$
|
0.359
$$(0.006) $$
|
0.342
$$(0.007) $$
|
90%
|
0.367
$$(0.001) $$
|
0.383
$$mathbf{(0.004)} $$
|
0.382
$$(0.006) $$
|
0.379
$$(0.007) $$
|
0.352
$$(0.013) $$
|
*括号中为标准差
正如预期的那样,由于更多的数据样本和样本之间的相似性,具有更高蛋白质确定率的数据集显示出更好的准确性。但从SI30到SI90数据集的数据样本数量几乎翻了一番,精度的提高并不显著。N=15时准确性最好,小于15时较少的相邻残基可能不足以代表目标残基的环境,而大于15时包含太多的领域残基会在输入中产生噪声。