生物背景与主要方法
蛋白表面:包含几何特征与化学特征在内的连续表面
分子表面数据在测地空间中描述:这意味着两点之间的距离对应于沿着表面的两点之间的“行走”距离。在高度不规则的蛋白质表面(例如口袋),测地距离可能远大于欧几里得距离。
作者的中心假设:没有序列同源性且经历相似的生物分子相互作用的蛋白质可能显示相似的模式(这里的模式是指深度特征)。无需明确考虑潜在的蛋白质序列或结构折叠。
采样方法:首先,MaSIF将表面分解为具有固定测地半径的重叠径向小块(图1a,b)。小块中的每个点都分配有一系列几何和化学输入特征。以每个点为中心,取测地半径为9埃或12埃作为测地半径(由于内存限制,采用较小的)
所采用的特征:1、形状指数(shape index):取-1到1之间的值,可以直观映射到颜色来反映表面形状。比如,一个地方是平的,就是白,突出是蓝色,凹进去是红色。 2、距离依赖的曲率分布(distance-dependent curvature):对于提取的小块中的每个顶点,距离相关曲率的计算范围为[-0.7,0.7],该值描述了到中心的距离与每个点和中心点的表面法线之间的关系。以上为几何特征,下面为化学特征。3、亲水指数、连续性静电以及自由电子和质子供体的位置
为小块内的顶点分配了测地极坐标、径向坐标(代表到小块中心的测地距离)和角坐标(相对于从小块中心的随机方向计算)。通过几何特征(形状指数和与距离相关的曲率)和测地极坐标隐式描述了表面的几何结构(例如表面凹穴的“深度”)。
模型核心:该体系结构的关键组件是测地卷积,将经典卷积推广到曲面并实现为对局部面的操作。在极坐标中,研究者构造了一个在局部测地极坐标系统中定义的高斯核系统,且参数是可学习的。可学习高斯内核局部平均顶点方向的小块特征并产生固定尺寸的输出,该输出与一组可学习的过滤相关。研究者将此可学习的高斯核族称为学习的软极坐标网格。然后将具有一组过滤的卷积层应用于软极坐标网格层的输出。由于角坐标是相对于随机方向计算的,因此必须计算对于不同方向不变的信息。为此,研究者对小块执行K旋转,并计算所有旋转的最大值,从而生成小块位置的测地卷积输出。对不同小块位置重复此过程,类似于在图像上进行滑动窗口操作,以矢量的形式在每个点生成表面指纹描述符,该矢量嵌入有关中心点及其邻域的表面图案信息。学习过程包括就特定于应用程序的训练数据和代价函数,最小化局部内核的参数集和过滤器权重。因此,参数集特定于此处介绍的每个应用程序。
使用的方法与背景
分子表面计算:数据集中的所有蛋白质均使用Reduce质子化(Reduce可以给PDB文件中加上残缺的氢原子Reduce是一个将氢添加到蛋白质数据库(PDB)分子结构文件的程序。氢以标准的几何结构添加,并优化了OH、SH、NH3+、Met甲基、Asn和Gln侧链酰胺以及His环的方向。蛋白质和核酸都可以加工。只要提供原子连接性,工具链接:http://kinemage.biochem.duke.edu/software/reduce/),并使用MSMS进行三角剖分(MSMS本身是一个生成蛋白表面的工具,https://ccsb.scripps.edu/msms/),之所以进行三角剖分是由于mesh生成的需要。并使用pymesh进行蛋白表面mesh的生成,然后对蛋白质网格进行下采样,并将其分辨率调整为1Å。几何和化学特征直接在蛋白质网格上进行计算,但距离相关的曲率除外,后者是根据每个小块中顶点的表面法线在每个小块上计算。
蛋白质分解为重叠的放射状小块和特征计算:对于离散化蛋白质表面网格中的每个点,提取了一个测地半径为9或12Å的径向小块,以对小块的表面特征进行分析。半径的选择是经验性的,主要由性能和内存限制决定。对于MaSIF-search选择12Å,因为研究人员发现这对于覆盖许多PPI的掩埋表面积是一个不错的选择,此小块大小已重新用于MaSIF-ligand。为MaSIF-site选择了9Å的小块,因为较小的小块使研究人员可以在可用的内存资源中进行多个卷积层,这对于该应用程序至关重要。在没有内存限制的情况下,大于12Å的小块将是理想的,因为MaSIF的几何深度学习体系结构能够为不同的测地群集内核分配不同的权重。
形状索引(shape index):描述相对于局部曲率表面上每个点周围的形状。值的范围是-1到+1
距离相关曲率:对于提取的小块中的每个顶点,距离相关曲率的计算范围为[-0.7,0.7],该值描述了到中心的距离与每个点和中心点的表面法线之间的关系。虽然主要曲率分量描述了完整蛋白质中每个顶点周围的形状,但研究者发现使用小块的中心作为参考来计算每个小块内的曲率也是有益的。
Poisson-Boltzmann连续静电:PDB2PQR用于蛋白质的静电计算,而APBS用于计算每种蛋白质的Poisson-Boltzmann静电。使用APBS提供的Multivalue分配了网格化曲面的每个顶点处的相应电荷。高于+30和低于-30的电荷值被限制,然后将值归一化为-1和1之间。
自由电子和质子供体:使用氢键电势作为参考来计算分子表面中自由电子和氢键供体的位置。分子表面中最接近原子的是极性氢,氮或氧的顶点被认为是氢键的潜在供体或受体。然后,根据重原子之间的方向,将高斯分布的值分配给每个顶点。这些值的范围是从-1(氢键受体的最佳位置)到+1(氢键供体的最佳位置)
亲水性:根据最接近该顶点的原子的氨基酸身份的Kyte和Doolittle标度,为每个顶点分配亲水性标量值。这些值的原始范围为-4.5(亲水)至+4.5(最疏水),然后将其标准化为-1到1。
测地极坐标计算:从蛋白质提表面取小块后,MaSIF将使用测地极坐标系来映射顶点在径向(即距中心的测地距离)和角坐标(即相对于随机方向的角度)中的位置。相对于小块中心(图1c),这些坐标将有关特征之间的空间关系的信息添加到学习方法中。
测地距离(geodesic distance):在连续的表面上,测地线是在表面上“行走”时连接两个点的最短路径(曲线)。两点之间的测地线距离是两点之间的测地线长度。在网格上,测地线是两个顶点之间最短的多段线。在图上,测地线是连接两个顶点的相邻图边的集合。网格上测地线的计算可以使用快速前进方法精确地或近似地计算。为了提高计算效率,研究者使用带测边的图测地线作为真实测地线的近似值。
径向坐标:描述点到小块中心的测地距离。由于速度快,研究者使用了在MATLAB中实现的Dijkstra算法来计算真实测地距离的近似值。因此,现实中测地线距离是连接表面网格图上定义的节点的边长之和。
角坐标:使用在MATLAB中实现的经典多维比例缩放算法,根据Dijkstra逼近所有顶点之间的成对测地距离,将小块展平到平面中。由于分子表面小块没有规范取向,因此选择计算平面中的随机方向作为参考,并将每个顶点与平面中该参考的角度设置为角坐标。
基于学习软极网格进行几何深度学习:几何深度学习能够将基于图像的深度神经网络架构应用于几何数据。可以将图像分析中使用的传统CNN视为在图像中滑动窗口。在窗口的每个位置,都会提取像素块。然后,将每个像素乘以相应的可学习过滤值,然后将结果相加。蛋白质分子表面上没有规则的网格,因此将其替换为在局部测地极坐标系中定义为“软像素”的高斯核系统。高斯的参数是可以自己学习的。因此,将此高斯核系统称为学习型软极网格。
测试任务
测试任务一:配体位点预测和分类(MaSIF-ligand)
数据集:从PDB下载了与所选辅因子(ADP,COA,FAD,HEM,NAD,NAP或SAM )结合的蛋白,并使用SBI构建了它们的生物分子组装体。从一个结合口袋中随机采样32个小块。每个小块都用作网络中的输入,并映射到具有16个角形仓和五个径向形仓的学习型软网格。每种特征类型都通过单独的神经网络通道运行,在此通道中,学习型软网格层后面是带过滤的卷积层,具有16个旋转角的最大池化层,整流线性和完全连接层。然后,一个完全连接层将每个通道的输出合并,并输出到80维指纹。将所得的32个指纹相乘生成80×80协方差矩阵。将协方差矩阵展平并首先馈入经过整流线性激活的64个单元的全连接层,然后馈送到具有线性激活的7个单元的全连接层,其次是softmax交叉熵损失。使用Adam优化器对网络进行了20,000次迭代训练,学习速率为1×10-4。每个时期评估验证错误,并根据该值选择最佳网络。出于以下三个原因,最初选择随机采样32个小块:(1)每个小块覆盖12Å半径,因此,有32个小块很可能覆盖整个凹坑的表面;(2)数量足够少,以至于所有配体类型都至少与许多小块中心接触;(3)由于内存限制,因为大量小块超出了研究人员图形处理单元(GPU)的存储能力。为了获得更稳定的预测,对每个样腔进行了100次采样,并将得到的100个预测取平均值,以获得最终预测。
蛋白质和代谢物之间的相互作用在细胞稳态中起着基本作用,但是对这些相互作用的了解却极为有限。研究者建议以蛋白质表面的相互作用指纹为信息,破译蛋白质口袋的代谢物结合偏好。为了检验该假设,开发了MaSIF-ligand,该分类器可根据表面特征预测口袋的代谢物结合偏好(图2a)。
研究者在大量辅助因子结合蛋白上训练了MaSIF-ligand,其中将序列聚类以从训练和测试集中消除冗余。独立测试的平衡精度用于衡量MaSIF-ligand的分类能力。在这种情况下,如果使用7个辅助因子,则随机分类器的预期平衡精度为0.14。首先训练了具有所有特征(几何和化学)的MaSIF-ligand,获得了0.78的准确度和0.73的平衡准确度。为了研究特征的重要性,将特征集限制为几何或化学特征,这将平衡精度分别降低到0.55和0.65(图2c)。
测试任务二:蛋白结合位点预测(MaSIF-site,特指PPI)
PPI对取自PRISM非冗余蛋白列表,ZDock基准,PDBBind和SabDab。使用CD-HIT进行序列分离,并使用TM-align进行结构分离。。具有三个卷积层的神经网络用于此应用程序。网络将输入的完整蛋白质分解为半径9Å的重叠表面小块作为输入。选择较小的小块半径是因为减少了内存需求,从而允许更多的卷积层。将小块映射到具有三个径向单元和四个角单元的学习网格上。网络的输出是每个小块中心点在0到1之间的接触得分。在训练过程中,批次大小由单个蛋白质组成,并且使用Adam优化器对S型交叉熵损失函数进行了网络优化。由于非界面点的数量通常比界面点的数量大得多,因此选择了一个非界面点的随机子集来训练相等数量的正样本和负样本。只要验证集的ROC AUC比以前的模型有所改善,就会保存最佳模型。
受先前关于PPI预测的工作启发,研究者开发了MaSIF-site,该分类器接收蛋白质表面作为输入,并输出每个表面顶点参与PPI可能性的预测得分(图3a)。MaSIF-site在蛋白质结构的大型数据集上进行了训练和测试,这些蛋白质结构在整体状态下的共结晶分离为单体亚基。训练和测试集根据序列和结构进行划分。该任务极大地利用了深度学习方法的潜力,因为多层可以产生更好的预测(图3b)。使用测地卷积层MaSIF-site的ROC AUC达到0.77,而三层将ROC AUC提升到0.86。
测试任务三:基于相互作用指纹的超快速扫描预测蛋白-蛋白复合物(MaSIF-search)
研究者展示了将指纹嵌入为向量化描述符以预测蛋白质之间的特定相互作用。这种嵌入是受GIF描述符早期工作的启发,因为一旦对描述符进行了预先计算,最近邻技术便可以每秒扫描数十亿个描述符。引入了MaSIF-search一种基于表面指纹快速搜索蛋白质结合伴侣的方法。然后,MaSIF-search通过表面对齐和重新排序阶进行补充,以生成质量提高的对接复合物。
MaSIF-search学会识别两个表面小块相互作用的图案。假设蛋白质通过具有互补几何和化学特征(互补指纹)的表面小块相互作用。为了验证假设,将一个蛋白质伴侣的数值特征反转(乘以-1)。最终目标是MaSIF-search将为成对的交互小块生成相似的描述符,为非交互的小块生成不同的描述符(图5a)。因此,识别潜在的结合伴侣简化为数值向量的比较。
将具有标签、结合、靶标和随机小块的三组蛋白质表面小块送入MaSIF-search网络。神经网络训练的同时,尽量减少指纹描述符之间的欧几里得距离,同时最大限度地提高靶标和随机对象之间的不同之处。
测试集上的性能表明,用于交互表面小块的描述符欧几里德距离远低于非交互小块的欧几里得距离。MaSIF-search在形状互补性PPI上具有优异的性能,因为对具有较低形状互补性的相互作用小块进行训练/测试会导致较低的性能。
接下来,使用MaSIF-search通过表面指纹搜索,然后进行表面小块的结构比对,来预测已知蛋白-蛋白复合物的结构。简而言之,MaSIF-search工作流程包括两个阶段:I)扫描大型的潜在结合物描述符数据库,并通过描述符相似度选择前K个PPI;II)利用周围点的指纹描述符对复合物进行排列,然后根据指纹描述符对预测值进行重新排序。