宠物训练

大规模异构图召回在美团到店录用广告的应用

发布时间：2023-05-29 12:17

行催化，赢取键值A的并不一定，进而可以适用A的并不一定算借助于除此以外键值归类、链接得出及布归类在内的多种布无关的任务。

布3 GraphSage三维的取样及催化现实贫困

GraphSAGE等基于消息发送至范式的布资讯处理方式来进行，其前心键值能催化到的外观上仅限于取决于其取样的邻居们阶数。在适用这类布资讯处理方式特训时，除了适用键值的固有外观上作为三维重定向外，我们还可以给每个键值投身独立可特训的formula_参数，从而越来越好的学习到进阶邻居们的无关性。

除了上述提到的来进行外，布资讯处理方式领域作为研究组热点之一，数有年发端借助于GAT[5]、FastGCN[6]、GIN[7]等优秀搜索算法，并在Pinterest[8]、阿里巴巴[9]、百度[10]等的公司的大规模破例片前吊地争得良好特性。

3. 业务仅限于片前及下一场

到店面破例的中国电信仅限于在流比率内侧合而为一要覆盖美团/社会上书评双内侧的资讯流的广告、详情页的广告等多种业务仅限于片前（如下布4上图），粮食供应内侧除此以外了休闲娱乐、丽人医美、休闲娱乐、结婚、幼儿等完正因如此相同的卖家就其，且每一个就其下值得注意商铺、团单、在野卖家等完正因如此相同的破例候选多种类型。

布4 美团到店面破例的广告的合而为一要业务仅限于片前：资讯流的广告（左）、详情页的广告（左）

业务仅限于前被免职三维特性陷入请注意六大下一场：

a. 同片前应答资讯越来越为大：习惯多肽行径特性提案依赖Gmail在同片前的应答资讯结构正但球队结果显示来进行三维特训，但Gmail在破例的广告片前的交互行径越来越为越来越为大，据统计超过一半的活跃Gmail在数有90天内无的广告页面行径，超过40%的的广告卖家在数有一个月没有被页面。如何解决应答资讯越来越为大避免的Gmail有兴趣描绘不精准、上田卖家学习不充分是我们陷入的一大下一场。

b. LBS业务仅限于前完正因如此相同混沌片前下的有兴趣描绘：到店面业务仅限于前，Gmail在完正因如此相同时在在段、空在在下的Flickr行径，往往有着完正因如此完正因如此相同的偏爱。例如一个Gmail周一至在的公司西南方，可能会感有兴趣的就是一次只需的兼职餐；在星期六的家前，则但会想找一个有趣的遛托去处。但习惯的布资讯处理方式依赖对Gmail允诺时在在段和所处左边的可视无意识能力。因此如何从布蕴含的非常丰富资讯前遗留下来比如说现阶段混沌片前的候选集合，同样是一大下一场。

针对以上业务仅限于表现形式和下一场，我们外观设计了基于正因如此片前资讯进阶的关系的大规模甲基布特性，利用正因如此片前非常丰富的行径资讯可用性越来越为大缺陷；并大幅度大幅降低混沌资讯无意识，描绘Gmail在完正因如此相同混沌词法前的有兴趣。

4. 布被免职系统设计在破例的广告的演进4.1 基于正因如此片前资讯进阶的关系的大规模甲基布特性

一个团队前的被免职三维数通过Gmail在的广告片前的行径结构正但球队结果显示来进行特训，这种方式将降低了特训资讯与得出片前的一致性，但也不可不必要地产生Gmail有兴趣描绘不精准、上田卖家破例特性较差等缺陷。特别是被免职作为破例该系统最上游即场，尽快了正因如此链路特性可用性上限，我们越来越进一步利用布资讯处理方式蕴含的强大了解能力，基于Gmail在正因如此片前的行径资讯正因如此面描绘Gmail有兴趣和卖家资讯。

如布5上图，布网路分别产借助于Gmail（User）和卖家（Item）的隐式并不一定（Embedding），通过在在距相似度取决于Gmail对候选的广告的潜在有兴趣。在布资讯处理方式的-II上，我们适用带Attention在表面上结构的GAT[5]，使得邻居们资讯的贡献度可以根据其对源键值的关键性RC调节，抑制作用误页面等产生的谐波；适用Jumping Knowledge Network[11]，根据键值的连接性自助修改其催化网路仅限于，不必要冷门键值由于其广在野的连接性催化仅限于过大重大损失了个性化资讯。

布5 基于正因如此片前资讯多阶的关系的布特性

正因如此片前资讯特性：为了正因如此面挖到Gmail的有兴趣偏爱，我们通过正因如此片前行径资讯方法论了超大规模甲基布网路来进行特性。此处的正因如此片前扩展到正因如此业务仅限于（抓取、破例、的广告），正因如此左边（的网站、卖家详情页、团单详情页）和正因如此卖家多种类型（商铺、团单、在野卖家等）。甲基布值得注意Gmail（User）和卖家（Item）两种多种类型键值，并通过三种多种类型的边来进行连接：User页面Item边、Item共同页面边以及Item同店面铺边。

为了增强正因如此片前资讯蕴含的非常丰富资讯在各个片前在在有效发送至，同时界定借助于Gmail在的广告片前独有的有兴趣表现形式。我们在布方法论现实贫困前将的广告片前和非的广告片前的同个Item特性为完正因如此相同键值，包涵相同的非的广告外观上，但带有的广告标识的键值但会额外增加的广告专属的外观上。这样三维在特训现实贫困前既能通过包涵的外观上迁至非的广告片前的资讯，也能学习到Gmail在的广告片前独有的有兴趣偏爱。布方法论顺利进行后值得注意数亿键值、百亿边。

布6 正因如此片前布方法论解决办法

布窗格与谐波抑制作用：上文提到的甲基布由于扩展到了Gmail在正因如此片前的行径资讯，资讯规模庞大，给实际上吊地产生了越来越大的算力和精度下一场。我们挖到出在布的李群在表面上结构前，各个键值的度分布极不大多匀，以外冷门键值的邻居们相加可将近几十万，由于特训现实贫困前每个键值只取样浮动相加的邻居们参与算借助于，过多的邻居们引进了许多谐波资讯，也产生了不必要的资源花销。根据布资讯背后的业务仅限于了解，我们对完整李群在表面上结构来进行不合理窗格。

具体来说：对于“User页面Item边”，延续行径时在在段较数有的topN条借助于边；对于“Item共同页面边”，延续边方差较高的topN条借助于边。布窗格后，键值数比率保持不变，边数比率减少46%，特训存储器花销降低30%，并产生了平大多0.68%的备份Hitrate特性大大降低。

布7 布窗格示例（设布前 a> b> c）

特性但球队结果显示取样：由于的广告商铺在正因如此体商铺前占越来越为小，正因如此片前行径资讯的引进避免特训结果显示空在在增大了一个千分之，这大幅度缓和了SSB（Sample Selection Bias）缺陷，但球队结果显示取样手段带进严重影响三维特性的关键状况。常见的随机但球队取样方式将由于Hard Negative结果显示比率不足，避免三维在实际上得出时在野化性较差。而实例但球队结果显示取样手段，例如LBS片前下常见的基于在在距、类目方法论但球队结果显示，虽然可以争得一定特性大大降低，但通用性较差，手段配置繁琐，无法根据Gmail有兴趣迁至RC渐进。

以完正因如此相同等级的周边地区为例，Gmail对于在在距、类借此偏爱以往完正因如此相同，所需设置完正因如此相同的阈值。因此，我们提借助于一种基于半监督学习的渐进式特训范式，将前一轮三维输借助于的商铺Embedding通过KMeans来进行聚类，在正结果显示所在的聚类集合前取样赢取Hard Negative，投身到下一轮的特训结果显示前，依此解决办法反向，借助于三维不断“自我大大降低”。

实验挖到出，随着渐进轮次的增加，备份同义标的边际支出但会收窄；选择到特训速度与支出的平衡状态，两条路线上我们使用2轮渐进的方式将。该可用性相比较随机但球队取样产生了平大多4.66%的备份Hitrate特性大大降低；相比较实例但球队结果显示手段（如基于在在距、类借此取样）产生了平大多1.63%的备份Hitrate特性大大降低。

布8 特性但球队结果显示取样解决办法

上述3个可用性点的渐进在多个合而为一的广告位吊地，并在取决于的广告营收的RPS（Revenue Per Search）同义标大大降低平大多5%~10%。

4.2 大幅降低混沌资讯无意识的前端到前端甲基布特性

在LBS的业务仅限于前，混沌资讯是严重影响Gmail有兴趣的关键状况。Gmail多半具有稳固的仍然有兴趣，但也但会所致到现阶段混沌资讯严重影响而呈现借助于多变的短期有兴趣。因此，我们在4.1节详述的正因如此片前甲基布特性的基础上来进行越来越新。根据仍然有兴趣稳固、短期有兴趣多变的表现形式，我们使用持续性措施分别特性混沌资讯对长短期有兴趣的严重影响。

如下布9上图，我们通过时正因如此布描绘Gmail在完正因如此相同混沌片前下的仍然有兴趣偏爱，通过多系数协力触发的多肽特性描绘Gmail在短期混沌片前下的有兴趣社会的发展。值得注意的是，区别于将甲基布预特训Embedding作为实例外观上引进的两阶段特训方式将，我们将三维各以外在相同的可用性前提下来进行一阶段前端到前端特训，不必要可用性前提不一致产生的特性重大损失。

布9 大幅降低混沌资讯无意识的前端到前端甲基布特性

时正因如此布方法论及多视角混合：Gmail在完正因如此相同的混沌下乏善可陈借助于完正因如此相同的有兴趣，都是，一个Gmail可能会在周一至的办公室订购饮料，而在休息日的休息室参加运动。数适用正因如此局视角下的布三维分离出Gmail正因如此局有兴趣，容易丢失Gmail在完正因如此相同混沌的有兴趣差别。习惯布三维提案通过正因如此局资讯拿到Gmail分立的有兴趣并不一定，无法精准描绘Gmail在完正因如此相同混沌片前下有兴趣差别。

同业之前借助于现了一些建构混沌资讯的布并不一定学习斜向的研究组兼职，如STGCN[12]等。在无关兼职的基础上，我们从破例的广告的业务仅限于片前借助于发，基于Gmail行径数有似于的时在在段和空在在资讯，从时在在段、空在在、时在在段Max空在在、正因如此局等4个视角方法论子布，并通过多视角混合组件拿到Gmail仍然有兴趣。值得注意的是，所有子布包涵Item2Item边，因为Item与Item的的关系（如同店面铺，共同页面等）十分稳固，不容易所致到混沌变化的严重影响。

如下布10上图，当Gmail允诺抵将近时，从空在在子布前拿到Gmail在现阶段左边的有兴趣，从时在在段子布前拿到Gmail在多个时在在段的有兴趣，从时在在段Max空在在子布前拿到Gmail在现阶段左边下多个时在在段的有兴趣，并建构正因如此局有兴趣及现阶段时在在段，来进行多视角混合。在有系统前，我们将时在在段分带进傍晚、下午、晚上、半夜等4个时在在段段，将左边适用Geohash来进行分带进多个地理分布区域内。据统计，每个Gmail的近现代行径涉及到的时在在段段和地理分布区域内大多越来越为集前，并不但会对存储空在在造成过大的压力。时正因如此布的方法论及混合产生了平大多3.65%的备份Hitrate大大降低。

布10 多视角混合

多系数协力触发的Gmail多肽特性：我们将时在在段资讯（现阶段时在在段与行径多肽时在在段的差值）、左边资讯（现阶段左边与行径多肽左边的差值）作为触发系数来触发短期行径多肽，捕捉Gmail有兴趣随混沌的迁至数有年来。此外，布资讯处理方式输借助于的Gmail仍然有兴趣formula_，体现了Gmail在时在在段、左边等自由度较稳固的有兴趣偏爱，也有利于从短期多肽前分离出借助于比如说现阶段混沌片前的可视有兴趣。适用混沌资讯及Gmail仍然有兴趣对Gmail短期行径多肽来进行触发时，涉及到多个系数协力触发的缺陷，同业常见的提案如下布11上图：

布11 多系数协力触发

在美团LBS的业务仅限于片前前，各个触发系数之在在可能会但会相互严重影响，例如时在在段和地理分布左边两种触发系数对行径多肽触发的内侧重点长期存在差别。为了让多系数触发发挥最佳特性，我们建构备份同义标选择“多系数混合触发”模式。多系数协力触发的Gmail多肽特性产生了平大多6.90%的备份Hitrate大大降低。

值得一提的是，布资讯处理方式挖到的多阶的关系能够非常丰富Gmail多肽的了解。这种多阶的关系不数体现在卖家和卖家、Gmail和卖家等粗粒度键值之在在，也体现在时在在段、左边、类目等细粒度外观上之在在。因此，我们对外观上产借助于解决办法来进行了越来越新整修，使布资讯处理方式前的卖家键值能够与Gmail行径多肽在外观上自由度包涵Embedding词典，并基于分立的可用性前提前端到前端特训，帮助细粒度多阶资讯越来越好地在布资讯处理方式与Gmail多肽在在发送至。

上述2个可用性点的渐进在多个合而为一的广告位吊地，并在取决于的广告营收的RPS（Revenue Per Search）同义标大大降低平大多5%。

5. 精度可用性与系统设计

为了能够在大规模片前上两条路线并来进行可视被免职，我们针对三维的备份特训和应用软件调动来进行了可用性。

布12 精度可用性与系统设计

适配LBS片前的大规模布资讯处理方式特训方法论：随着布资讯处理方式在工同业的推广，开源的社区涌现借助于一大批优秀的布资讯处理方式特训方法论，如Euler、DGL等。我们在开源方法论的基础上，比如说的公司在表面上大资讯与自然语言处理SDK，研制借助于一套适配LBS片前的大规模布资讯处理方式特训方法论。该方法论支持大规模布的方法论、外观上抽取等构布转换，并额外开发支持了除此以外“左边资讯特性取样”在内的常见LBS布资讯处理方式转换。通过该方法论我们已在多个业务仅限于片前吊地两条路线上三维，其前最大规模为亿层级键值、百亿层级边、带Side-information的布资讯处理方式三维。

低延迟的应用软件算借助于解决办法：被免职即场是的广告破例该系统的第一个漏斗，所需在所致限时在在段内从正因如此比率候选的广告前选借助于高质比率可数发送至给下游。鉴于子布抓取、布正弦等繁复转换对两条路线上耗时的越来越大下一场，我们提借助于了低延迟的应用软件算借助于解决办法可用性提案：在4.2节详述的三维前，布三维以外合而为一要用来并不一定Gmail仍然有兴趣，不所致可视行径和允诺资讯严重影响，因此，我们将布键值Embedding备份算借助于好存入KV表前，不必要布三维的应用软件解析带进耗时瓶颈；同时，应用软件允诺时并行处理方式布键值Embedding和其它外观上的抽取现实贫困。有系统确实，经过以上可用性被免职即场两条路线上耗时涨幅小于2%。

6. 论述与新发展

布资讯处理方式对布在表面上结构的资讯有很好的特精度力，能充分利用布键值的进阶邻居们资讯，在大规模破例该系统的被免职组件前展现借助于越来越大创造力，同业臀部的公司大多有建构各自业务仅限于表现形式的布三维吊地有系统[8][9][10]。

本文详述了大规模布被免职系统设计在美团到店面破例的广告的系统设计。基于对到店面破例的广告片前表现形式的该系统性，我们在吊地布被免职系统设计时来进行了数有似于的可用性。在三维方面，为了解决的广告应答资讯越来越为大的缺陷，我们将正因如此片前的资讯融入到布三维前非常丰富Gmail有兴趣了解，并建构布窗格和特性但球队结果显示取样系统设计，累计大大降低Hitrate平大多5.34%；为了加强对混沌等LBS特性片前资讯的无意识，我们通过时正因如此布组件描绘Gmail在完正因如此相同混沌下的有兴趣，并来进行多视角混合及长短期多肽混合，累计大大降低平大多10.55%。配合备份特训及应用软件算借助于的精度可用性，我们尝试在多个合而为一的广告位上吊地，两条路线上RPS累计大大降低10%~15%。

未来我们还将在请注意系统设计斜向继续来进行探索：

1. 多片前学问迁至

到店面的广告片前一大，完正因如此相同的广告位控管完正因如此相同的布被免职三维产生的控管效益较少。多片前的联合特训既能非常丰富布资讯，大大降低Gmail有兴趣的描绘，又能将单个布被免职三维系统设计到完正因如此相同的广告位，降低控管效益。但是Gmail在完正因如此相同的广告位下的行径长期存在差别，资讯混合不当可能会避免引进谐波，严重影响三维特训结果。如何在三维外观设计前描绘Gmail在完正因如此相同的广告位下行径的共同点和差别点，是所需重点选择的概要。

2. 特性布系统设计

Gmail有兴趣随着时在在段空在在不断发生着相反。特性布三维可以将混沌等特性资讯方法论到布在表面上结构前，相比较人为分成仍然有兴趣与短期有兴趣，特性布可以越来越灵活地无意识Gmail有兴趣的变化，越来越套入LBS业务仅限于的表现形式。

7. 作者概要齐裕、李俊、淑英、张腾、程佳、雷军，来自美团到店面事业群/的广告SDK系统设计部。祥洲、梦迪、酒泉，来自美团SDK/抓取破例搜索算法部NLP前心。8. 摘要

[1] Perozzi, Bryan, Rami Al-Rfou, and Steven Skiena. "Deepwalk: Online learning of social representations." Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014.

[2] Grover, Aditya, and Jure Leskovec. "node2vec: Scalable feature learning for networks." Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016.

[3] Welling, Max, and Thomas N. Kipf. "Semi-supervised classification with graph convolutional networks." J. International Conference on Learning Representations. ICLR, 2017.

[4] Hamilton, Will, Zhitao Ying, and Jure Leskovec. "Inductive representation learning on large graphs." Advances in neural information processing systems 30 (2017).

[5] Velickovic, Petar, et al. "Graph attention networks." International Conference on Learning Representations. 2018.

[6] Chen, Jie, Tengfei Ma, and Cao Xiao. "FastGCN: Fast Learning with Graph Convolutional Networks via Importance Sampling." International Conference on Learning Representations. 2018.

[7] Xu, Keyulu, et al. "How powerful are graph neural networks." International Conference on Learning Representations. ICLR, 2019.

[8] Ying, Rex, et al. "Graph convolutional neural networks for web-scale recommender systems." Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery Max data mining. 2018.

[9] Wang, Menghan, et al. "M2GRL: A multi-task multi-view graph representation learning framework for web-scale recommender systems." Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery Max data mining. 2020.

[10] Xie, Ruobing, et al. "Improving accuracy and diversity in matching of recommendation with diversified preference network." IEEE Transactions on Big Data (2021).

[11] Xu, Keyulu, et al. "Representation learning on graphs with jumping knowledge networks." International conference on machine learning. PMLR, 2018.

[12] Han, Haoyu, et al. "STGCN: a spatial-temporal aware graph learning method for POI recommendation." 2020 IEEE International Conference on Data Mining (ICDM). IEEE, 2020.

作者:齐裕祥洲等

来源:搜狐对政府号:美团系统设计一个团队

借助于处:

。

怎么样治疗类风关效果好
贵阳耳鼻喉检查哪家医院好
眼睛模糊看不清怎么办
夏天腹泻是什么原因引起的
成都看男科哪里比较好

上一篇：《狂飙》最吃亏的三位男演员：带病拍摄还挨骂，演重要角色毫无热度

下一篇：什么是语言发育迟缓？你真的认识吗？