Abstract
深度学习在过去的几十年取得了巨大的成功,但在药物相关的应用还比较有限。在本文中作者对图卷积神经网络及其在药物工作和分子信息学相关的应用进行回顾,主要着眼于:
- 分子性质和活动预测
- 交互性预测(药物-药物,药物-蛋白)
- 分子结构创新
- 合成反应产物预测
Introduction
由于我们早期的一些机器学习工具只能接收固定大小的输入,我们一般使用特征工程对我们的分子数据等进行处理以进行输入。常见的表示方法包括:
- molecular fingerprints:分子指纹,主要是利用二进制对分子子结构进行表示(比如常见的是哈希方法)
- 经过人工处理的物理化学和微分拓扑表示方法
- SMILES:分子的一种线性结构表示方法
作者认为,之前的一些深度学习结果存在着局限性,主要原因是以下两点
- 很多的模型在训练的时候还是使用一些经过人工预处理的数据或者表示方式,这阻止了我们的网络从原始数据中学到一些deep features。
- 现有的一些模型并不是很适合我们这里分子的结构化数据
于是这里作者就引出了GCN的想法,GCN是一种应用于非欧图上的有效结构化算法。他的出现解决了上面说的局限性问题,因为我们这里可以直接将原始数据进行输入而不需要转为另外的形式。剩下的部分,作者主要讨论的是GCN的基本思想,GCN在药物发现中的应用,相关的数据集,及一些讨论
Principles of graph convolution
这里作者讨论了现在比较流行的两种GCN的实现思路。一种称为Spatial convolution(空域卷积),另一种称为Spectral convolution(谱域卷积)。由于作者在这一块介绍的比较简单,这里对其内容作一个简单的扩展
Spectral convolution
谱域卷积,这种思路希望能够借助图谱的理论来实现我们拓扑图上的卷积操作。其实也就是说我们希望借助于图的拉普拉斯矩阵的特征值和特征向量来研究图的性质。
补充:拉普拉斯矩阵(Laplacian matrix)
对于图 G=(V,E),其Laplacian 矩阵的定义为 L=D-A,其中 L 是Laplacian 矩阵, D=diag(d)是顶点的度矩阵(对角矩阵),d=rowSum(A),对角线上元素依次为各个顶点的度, A 是图的邻接矩阵。注意:频域卷积的应用只能是无向图,后面介绍的空域卷积可以克服这一问题,下面是一个拉普拉斯矩阵的例子。
下面是两种不同的拉普拉斯矩阵的形式:
一种是对称归一化的拉普拉斯矩阵
另一种是随机游走归一化拉普拉斯矩阵
拉普拉斯矩阵的性质
- 拉普拉斯矩阵是半正定矩阵。(最小特征值大于等于0)
- 特征值中0出现的次数就是图连通区域的个数
- 最小特征值是0,因为拉普拉斯矩阵(普通形式:L=D−A)每一行的和均为0,并且最小特征值对应的特征向量是每个值全为1的向量
- 最小非零特征值是图的代数连通度
有了拉普拉斯矩阵,首先我们可以进行特征分解(谱分解),第二,由于卷积在傅里叶域的计算相对简单,为了在graph上做傅里叶变换,需要找到graph的连续的正交基对应于傅里叶变换的基,因此要使用拉普拉斯矩阵的特征向量。
Graph fourier transform(图傅立叶变换)
首先我们知道傅立叶变换实质上就是不同空间上的映射关系。那么,把传统的傅里叶变换以及卷积迁移到Graph上来,核心工作其实就是把拉普拉斯算子的特征函数e−iωt 变为Graph对应的拉普拉斯矩阵的特征向量。傅立叶变换与拉普拉斯矩阵的关系:传统傅立叶变换的基,就是拉普拉斯矩阵的一组特征向量。
之后我们就可以用卷积定理的类比将卷积运算推广到Graph上。
卷积定理:函数卷积的傅里叶变换是函数傅立叶变换的乘积,即对于函数f与g两者的卷积是其函数傅立叶变换乘积的逆变换
于是我们的卷积公式就写成下面的形式,其中⊙ 表示hadamard product(哈达马积),对于两个向量,就是进行内积运算;对于维度相同的两个矩阵,就是对应元素的乘积运算。
Spatial convolution
空域卷积,大致的思想是我们根据传统CNN在图像上的卷积操作,基于空间的GNN基于一个节点的空间关系定义图卷积算子。将图像看作特殊图形式,每个像素代表一个节点,每个像素与附近的像素直接相连,如果用一个3×3窗口取块,每个节点的邻居节点就是其周围的八个像素,将滤波器作用于3×3块,则每个通道中心像素的值就是3×3块内像素的加权平均值。由于相邻结点有固定的顺序,所以可训练权重能够在不同的局部空间共享。对于一般图结构,中心结点的表示也是根据其邻居结点的聚合结果表示。
从另一个角度来看,基于空间的ConvGNNs与RecGNNs共享相同的信息传播/消息传递思想。空间图卷积运算实质上是沿着边缘传播节点信息。
Application of GCN on drug discovery
在这一部分中,作者列举了GCN在药物发现工程中的一些主要应用
Quantitative Structure Activity/Property Relationship Prediction
QSAR是指定量的构效关系,是使用数学模型来描述分子结构和分子的某种生物活性之间的关系。其基本假设是化合物的分子结构包含了决定其物理,化学及生物等方面的性质信息,而这些理化性质则进一步决定了该化合物的生物活性。进而,化合物的分子结构性质数据与其生物活性也应该存在某种程度上的相关
在大部分工具中,一个基本的问题是输入的表达方式问题。下面会介绍几种GCN在药物开发各相关环节的应用方法
Biological property and activity
这里我们首先从分子指纹入手。作者在文中提到,我们可以使用卷积神经网络对其生成进行改进,得到神经指纹。通过对相应paper的阅读,得出大致思想如下:
这种端到端的网络允许输入是任意尺寸和形状的分子图,是一种基于环形指纹分子特征提取方法的推广,用一个可微的神经网络替换了底层用来把分子图转换为分子指纹的函数。通过这种方法得到的神经图指纹相比传统的固定指纹(fixed fingerprints)具有更好的预测表现,简约性,以及可解释性。目前流行的环形指纹通过在上一层的邻域连接特征上应用一个固定的哈希函数产生当前层的特征,最终结果处理为整型指数,其中1代表所给分子图的特征向量中的节点。环形指纹与神经网络具有一定的相似性
作者在环形指纹的基础上,将环形指纹中以下几个离散操作替换成了可微的类似操作,推广设计出了一种可微的环形指纹。
1、哈希函数:将单独层的哈希函数替换为可微的光滑函数。
2、索引:用softmax操作来作为索引操作的可微替换
3、规范性:环形指纹中无论每个邻域中原子顺序如何,总是产生相同的指纹。规范化的另一种方法是应用置换不变函数(permutation-invariant function),例如求和。
当然这种方法也有局限性,需要更加高昂的运算代价,并且无法区别同分异构体
之后作者提到,边信息也可以使用图卷积进行编码,提到了这篇paper
https://www.onacademic.com/detail/journal_1000039531668010_8969.html
要使用这种方法需要有以下前提:
- 操作本身对节点顺序不敏感
- 向量不会随着原子顺序的变化而变化
- 无向图
核心要点其实就是这个:(A→P) 与 (P→A)
即定义了GCN如何做消息传递。之前看到的GCN都是只有atom间的消息传递,并没有包含边的信息,而本文包含了边的特征,那如何做边的信息传递则需要去考虑。作者提出的两个操作,(P → A) 实现了atom的信息传递,(A → P)实现了pair的信息传递。
传递到atom a的消息聚合方式是对连接atom a的各个pair的特征经过非线性变换后的求和。
一些研究致力于在已有的图神经网络上进行改进,增强图神经网络在分子数据上的表示和学习能力,如这篇paper:https://arxiv.org/abs/1709.03741
他们的研究工作注意到了图卷积神经网络在全局性特征上的缺陷,在图神经网络的基础上引入了“超级虚拟节点”,从而在不影响局部特征学习的情况下编码能够表征分子性质的全局特征。
以上的工具都是基于空域GCN,其实谱域GCN在类似的QSAR问题上用的不多,一方面是由于分子的拓扑结构多变,并且可迁移性较弱。但是仍然有一些关于谱域GCN的研究。
paper:https://arxiv.org/abs/1801.03226
在这篇文章中,作者提出了一个灵活输入的GCN。首先我们知道,一般的GCN需要共享卷积核。为了保证层输出统一的维数,必须调整输入的大小。然而,这种对图数据的预处理可能会破坏信息的完整性。为此在这篇paper中,作者有以下创新点:
- 构建独有的图Laplacian:构建并学习batch中每个独立样本独有的残差Laplacian 矩阵,学习到的残差图Laplacian 将会被加到初始图中(聚类得到的或固有图)
- 学习图更新的距离度量:通过学习数据共享的最优距离度量参数,随着预测网络的训练,拓扑结构被更新。
- 卷积中的特征嵌入:结点特征的转换是在卷积连接intra-(类内)和inter-(类间)结点特征之前完成的
- 接受灵活的图输入:本网络可以输入不同的图结构和尺寸,解锁了图的度。
除了顶点特征,我们还应该考虑到边特征。在这篇paper中http://arxiv.org/pdf/1802.04944
作者提出了一个针对多关系图的注意力方法,所谓的多关系图指的是两个节点间的边上可能存在着多种特征
我们知道,同样的原子在不同的化学环境中会表现出不同的性质。但是之前的一些方法没有考虑到这一点,于是作者在这里提到可以使用注意力机制(GAT)来解决这个问题
Quantum mechanical property
除了上面的生物性质外,我们还可以从量子力学,或者说分子力学的角度来进行考虑。由于传统的密度泛函理论方法代价高昂,需要相关工具来进行替代分析
https://arxiv.org/abs/1704.01212
在这篇文章中,作者将现有模型抽象其共性并提出成MPNN框架,并用此在分子分类预测中取得了不错的成绩。在前向传递过程中,分为了两个阶段,分别是消息传递阶段和读出阶段。消息函数的更新方式如下:
在读出阶段使用一个读出函数R来计算整张图的特征向量
同时注意到,这里作者在没有连接到节点添加了一个虚拟的边,使消息具有了更长的传播 距离。并且也用到了主节点(master node),这个节点可以通过特殊的边来连接到图中任意一个节点。主节点充当了一个全局的暂存空间,每个节点都会在消息传递过程中通过主节点进行读取和写入。同时允许主节点具有自己的节点维度,以及内部更新函数(GRU)的单独权重。其目的同样是为了在传播阶段传播很长的距离。
由于我们的原子间距离是离散的,所以我们的滤波器也是离散的。这让我们无法捕捉到原子位置的微小变化。在这篇paper中http://www.researchgate.net/publication/317954658_MolecuLeNet_A_continuous-filter_convolutional_neural_network_for_modeling_quantum_interactions。
作者提出了一个带有连续滤波器的图卷积。他将一个位置映射到一个空间上的新表示。权重在原子之间共享,交互层则根据原子的距离不断更新原子的表示。在交互层中还使用了残差连接。
Incorporate GCN with other learning architecture
作者在这一部分介绍了几种辅助处理方法
paper:http://jmlr.org/proceedings/papers/v48/niepert16.pdf
这篇paper中主要谈到的是CNN在图上的应用主要做了三个事情:1. 选出合适的nodes;2. 为每一个node建立一个邻域;3. 建立graph表示到 vector表示的单一映射,保证具有相似的结构特征的node可以被映射到vector当中相近的位置。算法具体分为4个步骤:
- 图当中顶点的选择Node Sequence Selection
- 找到Node的领域Neighborhood Assembly
- 图规范化过程Graph Normalization
- 卷积网络结构Convolutional Architecture
还有的思路是利用记忆化的思想:http://arxiv.org/abs/1801.02622
。整体来讲是以下过程:
- 建立一个memory,memory中为每一个node提供一个存储空间,用来存储该node的表达,也可以叫embedding;
- 使用一个controller(本文使用RNN作为controller),controller首先读入一个query表示接收一个预测任务,然后读入memory中所有的信息进行编码(通过加权求和的方式综合每一个node的内容);
- 对于每一个node所对应的存储单元,controller结合已编码的信息,该node对应存储单元的当前信息,以及node邻接nodes所对应存储单元的信息,来共同决定如何更新memory内容,并写入memory,作为一次read和write操作;
- 迭代地进行多次read和write操作,然后做一个预测任务的输出(在这里,输出使用了一个二分类,表示active和inactive)
- 训练的过程只需要反复执行2-4步,每次执行做一次参数的更新即可。
最后一个思路是考虑到我们的样本问题。因为很多时候我们的样本量不足或者是正负样本量相差的比较多。这里使用One-shot Learning的方式https://pubs.acs.org/doi/full/10.1021/acscentsci.6b00367
作者在此文中利用不同组别间的表征相似性,从而构造一个强分类器。同时还应用了LSTM进行嵌入。但是作者也提到,这样训练的模型迁移性较差。
Interaction prediction
在现代药物设计中我们主要关注以下几点:
- 配体和蛋白(靶点)的交互作用
- 蛋白-蛋白交互作用(通路调控中定位交互域)
- 药物-药物相互作用(副作用及新用途开发)
内容补充:配体:在受体介导的内吞中, 与细胞质膜受体蛋白结合, 最后被吞入细胞的即是配体。根据配体的性质以及被细胞内吞后的作用, 将配体分为四大类:Ⅰ.营养物, 如转铁蛋白、低密度脂蛋白(LDL)等; Ⅱ.有害物质, 如某些细菌; Ⅲ.免疫物质, 如免疫球蛋白、抗原等; Ⅳ.信号物质, 如胰岛素等多种肽类激素等。
Ligand–protein (drug–target) interaction
药物-蛋白相互作用关系是药物发现的基础。但是传统方法存在着诸多问题,比如说靶点蛋白从未在训练集中出现等等。
为了解决问题,首先在这篇paper中http://www.ncbi.nlm.nih.gov/pubmed/28264154
提出了一个可以预测得到实值交互强度的模型。文章中作者使用GCN,并且在药物的表示上使用了分子结构等作为输入特征。
接下来作者提到了一篇之前我也看到过的paper:http://www.researchgate.net/publication/326203623_Interpretable_Drug_Target_Prediction_Using_Deep_Neural_Representation
这篇文章使用了端到端的神经网络,使用LSTM对蛋白序列进行处理,使用GCN获得神经分子指纹。并且还在合并嵌入的时候加上了注意力机制。
在实际中由于我们不同的数据集来源可靠性不同,这篇paper:http://arxiv.org/pdf/1812.00279
使用了注意力机制来帮助我们对不同来源的数据进行一个可靠性加权区分
Protein–protein interaction
虽然说蛋白-靶点的交互与药物开发没有直接的联系,但是也为一些特定的蛋白质药物提供了信息。这篇paper中:http://papers.nips.cc/paper/7231-protein-interface-prediction-using-graph-convolutional-networks
,作者对蛋白原子数据进行手工嵌入,利用两层网络进行预测,最后得到两个蛋白中对应原子的交互关系。
Drug–drug interaction
在联合治疗中,药物-药物交互作用信息有着重要的地位。在下面这篇paper中http://www.ncbi.nlm.nih.gov/pmc/articles/PMC6022705/
作者提出了一个基于GCN并在多药副作用的基础上进一步预测相互作用的模型。在这个Decagon框架中有一个图形卷积编码器和一个张量分解解码器。编码器将药物,蛋白,和三类交互作用方式编入图中并且遵循空域GCN的使用方法。也就是说在这个过程中编码器将每个点嵌入到图中,解码器使用张量因子分解法从学习到的表示方式中重建他们之间的边。
另外在这篇文章中http://arxiv.org/abs/1804.10850
采用的多视角注意力GCN也有不错的效果
同时,结构数据也可以考虑与其他形式的数据结合来提高精度。http://arxiv.org/pdf/1805.05593
从药物相关的描述文本中提取信息。将结构的GCN信息和文本的CNN信息同时嵌入后再使用分类器进行分类。
Synthesis prediction
反应结果预测是设计产生特定目标分子的反应序列的基本步骤,包含候选生成和筛选两个步骤。传统方式是使用基于手工制作的模版,当然这种方式的局限性很大。在这篇paper中http://arxiv.org/abs/1709.04555
,作者提出了一种基于GNN的无模版预测方式。利用GCN,可以通过预测反应物分子中每个原子对的反应得分来识别反应中心,得分最高的原子用来生成候选产物,然后再用另一个网络来找到真正的生成物。
在化学中,逆合成是设计化合物的标准方法,也就是不断分解直到得到基本组分。由于这个逆向的过程中选择过多,导致我们的传统方法效果欠佳,于是我们用一个计算机辅助规划的来做这个事。http://www.nature.com/articles/nature25978
,在这篇文章中作者用蒙特卡洛搜索树来实现这个过程,并在其中利用了深度学习中的强化学习思想,得到了较好的效果
De novo molecular design
巨大的搜索域给我们的药物设计带来了不少的麻烦。创新分子结构设计旨在利用计算方法自动化分子生成过程,传统的方法(比如利用SMILE等)效果不佳,于是我们这里一般考虑基于GCN的分子图方法
http://link.springer.com/chapter/10.1007%2F978-3-030-01418-6_41
在这篇文章中提出了一个用于生成小分子的图生成网络。编码器的输入是图的邻接矩阵、边缘特征张量和节点特征。采用边缘条件卷积作为编码器。解码器在预先确定的节点数上输出一个概率全连通图,从中提取离散样本。通过最小化负对数似然上界对模型进行训练。通过近似图匹配,保证生成图形的真实性。
http://arxiv.org/abs/1803.03324
在这篇文章中把图的生成过程视为一系列决策过程。具体是,通过联合训练的一堆神经网络来学习是否要添加新的节点、新的边以及下次迭代中应该关注哪些节点。决策过程中的概率基于GCN。
使用原子方式来生成的一个问题是中间可能会有一些低质量的中间产物https://arxiv.org/abs/1802.04364
,。这篇文章中生成分子分为两个步骤,第一步是在化学子结构上生成树状结构支架,第二步是使用图消息传递网络来生成分子。大致过程如下:
- 先将分子转为分子图
- 将分子图拆分为连接树
- 将图和树分别嵌入
- 解码阶段首先重建连接树,再进一步回推
同时作者用到了三种评估方式:
- 分子重构和有效性分析
- 贝叶斯优化
- 约束分子优化
Databases for drug discovery and molecular bioinformatics
这一部分,作者列举了上面提到的几个方向的一些相关数据库
Molecular property and activity
Biological property and activity
PubChem:https://pubchem.ncbi.nlm.nih.gov
,是有机小分子生物活性数据库。包含三个子数据库:PubChem BioAssay 库用于存储生化实验数据,实验数据主要来自高通量筛选实验和科技文献; PubChem Compound 库用于存储整理后的化合物化学结构信息; PubChem Substance 用于存储机构和个人上传的化合物原始数据。同时PubChem中化合物的ID在很多数据库中都是通用的
The Maximum Unbiased Validation(MUV) http://www.pharmchem.tu-bs.de/lehre/baumann/MUV.html
:是PCBA的一个子集,最大无偏数据集。但是作为人工构建的配体集,会受到明显和隐藏的化学偏差的影响。
ChEMBL:https://www.ebi.ac.uk/chembl/
,靶点与生物活性数据库。它包含了分子化合物的结合、功能和ADMET(吸收、分布、代谢、排泄和毒性)信息。该数据库共收集了9414个靶点,156.6万个化合物,共有1200万条生物活性信息。通过该数据库,用户可以快速查询到某个靶点目前以报道的化合物及其活性信息,也可以查询某个化合物在哪些靶点做个生物活性测试及其数据。这些数据都来源于各种已报道的文献,数据较为可靠,且能够溯源,查询到数据的出处。
ZINK:https://zinc.docking.org
一个专门为虚拟筛选而准备的商业化化合物的数据集。它提供了来自20多种分子相关信息,如化学结构、生物活性和靶点信息。它包含超过2亿个现成的3D格式的化合物
NCI:https://cactus.nci.nih.gov/download/nci/
化合物对抗癌症活性数据库。其中也包含HIV的数据库,评估结果分为:确认有效、确认无效和确认中度活跃
Tox21、ToxCast、ClinTox:https://ntp.niehs.nih.gov/results/tox21/index.html https://www.epa.gov/chemical-research/toxicityforecasting
分子毒性数据库。Tox21包含12个生物靶点的定性毒性测量,包括核受体和应激反应途径。ToxCast是由环境保护署提供的一个数据集,用于开发有效的方法来确定优先次序,筛选和评估化学品。它包含了1800种化学品的毒理学数据,这些数据使用高通量筛选方法和计算毒理学方法。ClinTox是MolecleNet数据的一部分,该数据包括因毒性原因而未能通过临床试验的药物化合物和FDA批准的化合物。它包含了1491个药物化合物的两个分类任务。
FreeSolv:https://escholarship.org/uc/item/6sd403pz
是一个实验和计算的小分子在水中的水合自由能的数据库。这些数值是通过使用分子动力学计算得出的。它目前包含643个分子的分子性质数据及其化学结构。ESOL是另一个包含数千种低分子量化合物溶解度数据的数据集。
Quantum chemical propety
量子化学性质的相关数据库如下:
The Clean Energy Project Database(CEPDB)http://www.molecularspace.org/explore/
该项目是一项虚拟的高通量筛选计划,旨在确定碳基太阳能电池材料的潜在候选材料。该项目建立了一个自动化的硅框架来研究有机光伏的潜在候选结构。该数据库提供了从DFT模拟中获得的信息,包括230万个候选分子基序,包括已知的和虚拟的化合物。
Quantum Machine (QM)http://quantum-machine.org/datasets/
是一个包含分子及其量子力学性质的数据库。它包括来自多个来源的数据,目的是加速开发一种能快速准确地从第一原理模拟量子化学系统的机器。自2013年起发布了QM7、QM8、QM9和MD数据集。
Interaction database
下面是交互关系相关的一些数据库
The Side Effect Resource (SIDER):http://sideeffects.embl.de/
包含有关上市药品及其记录的不良反应(ADR)的信息。这些信息是从公共文档和软件包说明书中提取的。目前,共有1430种药物和5868种副作用,还提供了药物适应症数据集以减少假阳性
The Off-label Side Effect (OFFSIDES):http://tatonettilab.org/resources/tatonetti-stm.html
是1332种药物和1097例不良事件的438801个标签外副作用的数据库,这些信息是通过不良事件报告系统收集患者、医生和公司的报告来采集的。TWOSIDES(http://tatonettilab.org/resources/):
同一个实验室的多药副作用资源,包含由药物联合作用引起的副作用
Search Tool for Interacting Chemicals (STITCH):http://stitch.embl.de
,STITCH数据库是一个用于检索已知的以及被预测的化合物和蛋白质之间互作关系的平台,化合物与蛋白质之间的互作关系通过实验验证,数据库,以及文献中的研究被证实。STITCH数据库中包含超过30,000的小分子化合物以及来自1133个物种的260万个蛋白质之间的互作关系,STITCH数据库从分布在文献和多种生物学途径、药物靶点关系和结合亲和力的数据库整合了小分子和蛋白质的相互作用,相互关系合并自BindingDB, PharmGKB 和the Comparative Toxicogenomics数据库
DrugBank:https://www.drugbank.ca/
,其将药物分子(包括生物技术药物)的结构和药理数据与其药物靶点的蛋白序列,结构和作用模式相结合,同时整合了药物的化学结构,药理作用,作用蛋白靶点,作用的生理通路,药物间相互作用等信息并链接PDB数据库和KEGG数据库来分析药物的详细信息。DrugBank提供了很详细的搜索界面,支持小分子相似性检索靶点,根据靶点序列搜索药物小分子,同时还有药物所属的药品分类信息
Therapeutic Target Database (TTD):http://bidd.nus.edu.sg/group/cjttd/
,治疗靶点数据库,此数据库提供了已知或正在探索的可用作治疗的蛋白质靶点和核苷酸靶点的信息,以及与这些靶点对应的靶疾病 ,靶通路和相应的药物/配体信息。也包含这些靶点在其他数据库中的相关链接,包括靶点的功能,序列,3D结构,配体结合性质,酶的命名以及相关文献等信息的链接。目前,此数据库中包含1174个靶点以及1251个药物/配体.
Docking Benchmark Database (DBD5):https://zlab.umassmed.edu/zdock/benchmark.shtml
是一个基准数据库,它包括单独结晶的受体和配体pdb以及用于测试蛋白质对接算法的共结晶复合pdb
BindingDB:https://www.bindingdb.org/bind/index.jsp
:是一个关于药物靶蛋白和小类药物分子相互作用结合亲和力程度的数据库。数据库包含1454892个结合数据,有7082个蛋白质靶点和652068个小分子。
Synthesis database
USPTO:https://bitbucket.org/dan2097/patent-reaction-extraction
:是一个包含化学反应物反应信息的数据库。这些反应是从美国专利商标局(USPTO)的专利申请中提取的,共提取出424621个精确的原子映射反应,并将其纳入数据库。
Integrated benchmark database
这一部分是一些基准数据集
MoleculeNet:http://moleculenet.ai/datasets-1
,分子机器学习基准数据库。它建立在多个公共数据库上,覆盖了超过70万种不同性质的化合物。这些数据集分为四类:生理学、生物物理学、物理化学和量子力学。它包含上述数据库的子集合,包括QM、毒性数据集(Tox21、ToxCast)。ClinTox)、生物活性数据集(PCBA、MUV、HIV)、生物特性数据集(ESOL、FreeSolv)和交互作用数据集(SIDER)。它还包含其他数据集,如BBBP,血脑屏障穿透的二元标记;亲脂性,辛醇/水分配系数的实验结果;BACE,人类β-分泌酶抑制剂的结合结果;以及PDBbind,生物分子复合物的结合亲和力。
Decagon:http://snap.stanford.edu/decagon/
,提供了蛋白质靶标和药物分子及其相互作用的预处理数据。 该网络由DTI,PPI和DDI组成,这些DTI,PPI和DDI来自多个数据源。 通常,DTI是从STITCH数据库中提取的; DDI来自TWOSIDES数据库; PPI是通过人工PPI网络和STRING数据库进行集成的。 还包括SIDER和OFFSIDES的药物副作用。
对于De novo molecular design相关的问题,GuacaMol(http://arxiv.org/pdf/1811.09621)
这篇文章中作者引入了一套标准评估框架,并且有python第三方库
MOSES(https://github.com/molecularsets/)
,它实现了几种流行的分子生成模型,并包括一组评估所生成分子的多样性和质量的指标
Discussion
作者在这里总结了一下现在阶段的四大挑战和机遇
Database challenges and opportunities
数据对于深度学习来说至关重要,但是存在以下问题:
- 现有的数据集较为分散,亟需一个统一的大型数据集
- 现有数据大部分都是正样本,缺少负样本(比如哪些不是交互对?)这对我们的学习非常不利
- 数据库的信息不够详细,比如交互可能是不同的交互(拮抗或协同)在有些任务中这样的信息是很有必要的
Methodology challenges and opportunities
这里谈到的是具体模型中的方法问题,存在的问题或可改进的地方有:
- 现有的模型主要关注2D问题,可以考虑考虑3D结构
- motif-based的GCN是一个不错的考虑方向
- 对于某些关系还可以形成超图,如不同的药物可能共享相同的ADR,目标或适应症,可以转换成超图。
Network design challenges and opportunities
现在有两种GCN。一种,每个数据点都表示为一个图,其中预测发生在图级别,例如分子性质和活性预测。第二种,仅呈现一个图形,并且每个数据点表示图形中的一个节点,例如药物-靶点相互作用网络。
我们可以考虑结合这两个方案,利用低级结构信息和全局网络结构信息来构建端到端框架。但是,图表示对于现有数据而言并不总是明确的。例如,分子可以自然地成为图形,而病历则不是。在用于药物发现的多模型网络的情况下,具有三种或更多类型的实体通常更复杂,因此设计适当的图以应用卷积框架至关重要。
Interpretability challenges and opportunities
由于神经网络的黑盒特性让我们不知道里面发生了什么。但是在生物信息领域,对内部模式架构的解释与评估又是非常重要的。我们需要引入某些机制来提高学习模型的可解释性。