当前位置: 主页 > 时尚潮流 >

项冠军霸榜蛋白质功能预测任务超1年中科大成果

发布者:xg111太平洋在线
来源:未知 日期:2024-10-02 10:16 浏览()

  这一离间为了应对,效的标签正则化技能咱们提出了一种有, Deconvolution)即标签反卷积LD (Label,希奇的、可扩展性强的近似标签通过对GNN逆照射获得一种。E的磨练阶段以克造练习偏向逆照射有用地将GNN纳入N,磨练等效的标的函数进而形成了与结合。D收敛到了最优标的函数值于是咱们也进一步注明了L,法供应了表面保障为提出的LD方。验验证通过实,下最前辈的方式LD明显优于当,chmark)离间赛的卵白质效力预测职业上斩获「第一名」正在国际顶级图练习圭臬OGB(Open Graph Ben,9月27日起仍旧至今该记实从2023年。

  波器的启示受到频谱滤,效的GNNs架构近来显示了很多高。于频谱的GNNsLD的推导也是基,即:

  拥有最优性保障的大措辞模子和图神经收集分散磨练框架由中科大王杰教练团队(MIRA Lab)提出的首个,chmark)离间赛的卵白质效力预测职业上斩获「第一名」正在国际顶级图练习圭臬OGB(Open Graph Ben,9月27日起仍旧至今该记录从2023年。

  了节点属性的似乎度和标签的似乎度为了进一步对比逆标签和线中浮现。似乎文本(即文本似乎度大于0.6)但标签差别(节点0和1 咱们从ogbn-arxiv数据召集随机选取了几对拥有高度,3 2和,)的节点4和5。度分辨来评估文本似乎度和标签似乎度咱们行使TF-IDF算法和余弦似乎。都拥有较高的似乎度图4a中每对节点,节点似乎度较低但差别对中的,行独立选取咱们对其进。4c声明图4b和,节点供应似乎的监视信号逆标签为拥有似乎文本的,点供应差别的监视信号为拥有差别文本的节。法完毕这一个性然而真正标签无。可见由此,标签噪声来保存真正语义属性逆标签通过低浸图组织中的。

  矩阵的逆。意的是值得注,了GNNs参数θ的逐一面正在NEs的磨练阶段蕴涵。GNNs结合磨练的练习偏向这种勾结明显减轻了NEs和,响可扩展性同时不影。

  (NE)的参数示意节点编码器。:用于卵白质序列的ESM2因为大型的预磨练模子(如,拥有健旺的特点提取材干用于文本的Bert),节点编码器f故将其举动。

  Ns分散磨练的范式实行考虑本办事对现有的NEs和GN,正在NE磨练阶段指出了现有办事,NN中的特点卷积它们没有探究G,原始结合磨练的标的函数并不等价导致它们提出的近似吃亏函数与,的练习偏向存正在明显,(详见原论文举的反例)进而无法收敛到最优解。

  标签的(加权)均匀值是k-hop邻人中。N层GNN对待一个,不光依赖于它的特点节点的预测(示意),N跳邻人的特点并且依赖于其。似地类,对其预测有奉献节点的特点不光,的预测也有奉献对其N跳邻人。此因,解NEs磨练阶段的练习偏向i-hop标签可能有用缓。

  构正在汹涌音信上传并宣布本文为汹涌号作家或机,者或机构观念仅代表该作,闻的观念或态度不代表汹涌新,供音信宣布平台汹涌音信仅提。请用电脑访谒申请汹涌号。

  略GNN特点卷积的题目针对分散磨练框架中忽,高效的标签正则化技能咱们提出了一种简易年中科大成果斩获图学习“世界杯”单,Deconvolution即标签反卷积(Label ,D)L。标签为Y设节点,中的一面节点标签是缺失的)要是职业是半监视的(指图,到的固定节点特点磨练GNNs即可按照预磨练的NEs推理得。

  练习基准数据集“标杆”OGB是目前公认的图,Jure Leskovec教练团队筑造由图练习范围的国际顶级学者斯坦福大学,议NeurIPS上正式开源于2019年国际顶级学术会。

  志皓石,学电子工程与音信科学系学士学位2020年获取中国科学技能大。的 MIRA Lab 试验室攻读博士考虑生现于中国科学技能大学电子工程与音信科学系,杰教练师从王。和AI4Science考虑有趣囊括图示意练习。ICLR等期刊、集会上公布论文他曾以第一作家正在 TPAMI、,率约为8%的Spotlight陈诉曾受邀正在ICLR 2023做给与项冠军霸榜蛋白质功能预测任务超1。

  可练习的要么是,固定的要么是。]所示如[2,温和的假设下形成大肆节点预测基于频谱的GNN可能正在少许。多真正寰宇的图数据这些假设也实用于许。标的变为所以磨练:

  方华途,械打算与主动化专业学士学位2023年获取上海大学机。的 MIRA Lab 试验室攻读硕士考虑生现于中国科学技能大学电子工程与音信科学系,杰教练师从王。练习和天然措辞管理考虑有趣囊括图示意。

  试验中正在本,tch的巨细不突出12预磨练NEs最大ba,G(B)显着幼于。以所,s实行结合磨练是难以完毕的通过图采样对NEs和GNN。

  所示如下,据集上的显露都明显优于一齐的baselineLD正在差别GNN backbone的三个数。

  些属性和图组织为了同时编码这,aph Neural Network)串联集成正在一块一个常见的架构是将预磨练模子与图神经收集GNN(Gr,ode Encoder)对属性实行编码此中预磨练模子举动节点编码器NE(N。图所示如下,杂的节点属性造成定长的低维嵌入该架构通过节点编码器将这些复,图神经收集以勾结图组织音信再将其举动节点特点输入到。

  性特点卷积的逆照射为了进一步避免线,反卷积来天生逆标签Y(γ)咱们提出了一个可磨练的标签。γ参数化Y(γ)标签反卷积旨正在用,的表达材干仿佛使得Y(γ)于

  方式的丰富性以及NEs的监视信号下面浮现了NEs磨练阶段差别磨练。速率最速、存储最高效的算法LD和GLEM是一齐方式中。EM比拟且与GL,号中还探究到了图组织LD正在NEs的监视信。

  时GNNs是可扩展确当NEs的参数β固定,征卷积分散技能来优化GNNs可直接行使上述的图采样或者特。

  意的是值得注,公式中GNNs的参数θNEs的磨练阶段不涉及。于差别的motivation咱们的方式LD和GLEM基太平洋在线企业邮局来说整体,还原GNNLD旨正在,旨正在提升伪标而GLEM签

  而然,练NEs中行使的mini-batch的巨细现有图采样方式中行使的G(B)显着大于预训。)的巨细来对齐mini-batch的巨细要是进一步减幼现有图采样方式中B或G(B,会明显消浸它们的职能,所示如下。

  很多要紧范围图遍及使用于,络和卵白质互相用意收集比如引文收集、商品网。际使用中正在很多实,富且有效的属性音信图中的节点拥有丰。如例,的节点(卵白质)分辨蕴涵着题目/摘要、商品的文本形容和卵白质序列等要紧音信引文收集中的节点(论文)、商品收集中的节点(商品)以及卵白质互相用意收集中,游职业尽管要紧这些音信对下。这些丰富属性中拘捕节点个性的要紧器材之一而近年来崛起的很多健旺的预磨练模子是从。

  ,形成练习偏向导致结合磨练。和图组织方面的练习偏向咱们总结了正在节点标签。IANT 和GLEM的吃亏函数图5浮现了结合磨练、LD、G。标签调解天生逆标签LD将图组织与节点,练似乎的练习行动仍旧了与结合训。而然,漠视了图组织或节点标签GIANT和GLEM,的练习偏向导致了明显。

  卷积时的内存和年华开销为了避免GNNs特点,SAGN)最初将特点卷积从GNNs平分离出来少许可扩展的GNNs(比如 GAMLP 和 。特点卷积实行一次预管理然后基于固定节点特点对。而然,可用NEs练习的因为节点特点是,s的结合磨练还是是难以接受的这种念法对待NEs和GNN。

  有着似乎的练习行动固然LD和结合磨练,上比结合磨练更高效但LD正在特点存储。来说整体,tch节点B数据上的吃亏为了策动mini-ba,丰富度对B中的属性实行编码LD的NE以O(B)的内存。而然,的采花式图中的属性实行编码结合磨练的NE对巨细为GB,存丰富度O(GB)形成比LD更大的内。

  预管理实行,多次增补内存和年华开销的操作以避免正在NEs的磨练阶段践诺。此因,ch的磨练标的为mini-bat:

  颖的图神经收集的逆运算该方式引入了一个万分新,算法来火速近似它并提出标签反卷积,等价的吃亏函数进而修筑一个,神经收集微调方式的练习偏向从而撤消了古板措辞模子和图。

  签与i跳邻人标签的加权和逆标签Y(γ)是真正标。的权重γi的蜕化流程图8绘造了微调流程中。者i跳邻人中i较幼的标号逆标签往往是真正标签或。然是一齐标签中对节点分类最要紧的监视信号这是由于真正标签和i较幼的i跳邻人标签仍。表此,标签存正在过滑腻题目i 较大的i跳邻人,i的增补即跟着,能趋于不成辨别i跳邻人标签可。意的是值得注,收敛到平庸解权重γi不,此中

  逆照射很难无误策动因为非线性GNN的,N的有用近似来取代是以咱们推导GN。NN的频谱公式接下来先容G,积与GNN分散将线性特点卷。拥有似乎表达的逆标然后通过LD参数化签

  而然,爆炸题目(neighbor explosion)举动NE的预磨练模子自己洪量参数且GNN的邻人,磨练NEs和GNN正在本质中并不成行的两大磨练困难的叠加让直接端到端结合。s和GNNs分散磨练的范式考虑者们初阶考虑分散NE,s必定步数(GNN的磨练阶段)即先固定NEs的参数磨练GNN,s必定步数(NE的磨练阶段)再固定GNNs的参数磨练NE,迭代实行两步瓜代。

分享到
推荐文章