Q&A特辑|剪得断，理不乱，一场直播解开关联网络与反团伙欺诈谜团

admin • 2022-11-16 19:52 • 人工智能

11月 10 日下午15:00 第九期《关联网络技术在业务安全中的应用》正式开讲。顶象数据科学家翼龙详尽的介绍了关联网络在反团伙欺诈中的作用，深度剖析了关联网络的技术框架、关联网络的图谱构建以及关联网络的复杂算法，为反团伙欺诈提供了重要的参考。

直播过程中也吸引了不少粉丝前来围观，就关联网络的技术难点提出了自己的疑问。现将部分问题整理出来，供大家参考。

Q1：关联网络的可解释性怎么样？

翼龙：可解释性是一个很大的话题。我们说可解释性的时候，往往指的是模型的可解释性。可解释性的含义是模型在给出预测结果同时给出决策的依据，以及决策的过程是否透明。

在常见的机器学习算法中，决策树、评分卡（线性模型）具有良好的可解释性；而神经网络则是一个黑盒，可解释性较差。

在一些业务场景，特别是金融、保险相关的，由于合规要求和风控要求，对模型的可解释性要求较高，所以在这类业务场景中倾向于使用决策树、评分卡等可解释性较高的模型。

一般来说，关联网络技术的可解释性较好，体现在：

1.复杂网络算法通常有明确的计算过程，例如标签传播算法、PageRank等，有明确的计算公式，然后不断地迭代；

2.可以通过关联指标（拓扑结构、社区指标等）对风险预测的结果提供证据支撑；

3.可以通过图谱展示工具进行查询、探索，验证结果。

基于关联网络的解决方案中往往还会将模型和关联网络技术结合（例如信用卡养卡套现的反欺诈方案），为了满足可解释性，往往也会使用树模型等。

Q2：最后是以机器学习平台来演示关联网络的技术方案的，那么顶象有自己单独的关联网络平台吗？

翼龙：曾经有，现在和机器学习平台合并了。有两个出发点：

1.关联网络的解决方案中往往会同时使用到图算法和机器学习算法（例如信用卡养卡套现的反欺诈方案），为了便于数据的共享，在一个平台中实现更为便捷。

2.要实际落地解决业务问题，基于关联网络的解决方案就不仅仅是算法问题，而是工程化的问题，需要将复杂的流程自动化运行。机器学习平台提供了“调度任务”的功能，能很便捷地解决工程化落地的问题。

其实关联网络也好，模型也好，甚至是统计报表，都可以视为是数据的应用。只要是数据应用，都需要平台工具提供对数据同步、数据存储、数据管理、数据加工、数据展示、数据输出到下游业务系统等功能的支持。正因为需要很多通用的功能，所以才有必要合并。顶象的机器学习平台不仅是一个建模平台，更是一个数据调度中心。

Q3：如何更好掌握关联网络？有什么好的学习途径吗？

翼龙：首先，关联网络技术其实覆盖了很多内容，其中主要涉及到图谱的构建和复杂网络算

法的应用，所以可以重点学习一下知识图谱相关和图数据挖掘的相关内容。直播中也提到，斯坦福大学的《图机器学习》是很不错的教程，值得深入学习。

其次，关联网络技术是解决具体业务问题的解决方案，因此建议多了解相关的案例，并学会举一反三，针对一个业务问题的解决思路往往可以应用到别的场景中去。本次直播中分享了三个基于关联网络的解决方案，可以说是干货满满，希望大家多总结、多思考。

Q4：关联网络技术有什么局限性？

翼龙：我认为有两点：

1、效率问题

当网络中节点和边比较多的时候，不管是构建图谱还是运用图算法，都非常耗时。

2、实时性

也正是因为效率问题，通常以离线T-1的方式构建图谱，意思是线上使用的图谱，是由昨天及昨天之前的数据构建而成的，无法做到实时更新图谱。

弥补方式：风控策略中需要用到的风险关联性指标通过流计算直接得到。

Q5：信用卡养卡套现的案例中，在使用标签传播算法之前，为何采用卡与POS机的二部图，而不进一步抽象为只有卡的同构网络？

翼龙：在二部图中使用标签传播算法时，可以理解为拆分成了计算卡和计算POS机的风险概率两部分交替进行（即风险只能从卡传播到POS机或从POS机到卡）。

实际情况是卡的数量远远多于POS机的数量，如果利用隐含关系直接从二部图中抽取卡的同构网络，边的数目会远远多于点的数目，会大大提高计算的复杂度。

在直播的案例分享中，我们还介绍了一个变体，就是通过时序关系构建卡的时序关联网络，其本质就是简化了上述卡的同构网络。

Q6：超级节点如何处理？

翼龙：首先判断这个超级节点是否是具有特殊业务属性的，评估该节点的风险程度。比如在交易网络中，可能存在支付宝之类的中间平台，它们就是超级节点，有非常多的交易与之相关。在信息有限的情况下，简单的处理方式就是从网络中去掉这个节点。如果有额外的信息，比如知道一笔交易关联了支付宝上的哪家商户，那么就可以把商户加入到网络中来，取代那个超级节点。

Q7：超级节点跟普通节点之间过度比较平滑，怎么处理那种又像超级节点，又像个中介节点的呢？

翼龙：具体可能还得结合业务和场景去分析。以下思路仅供参考：

1、核心问题是这个节点的边太多了，那就看有没有一些不重要的边可以剔除。

2、在做分割的时候，先把这个节点和边去掉，在分割后的子图中，看这个节点跟哪个子图联系更紧密。如果存在多个联系紧密的子图，就在这些子图中都添加这个节点。

Q8：子图分割有什么好的依据？

翼龙：这个问题和解释性有关。可以用模块度等的指标来证明分割后的子图的聚集性高。子图分割如果是指社区发现的话，其实在运用算法之前会删除一些关系比较弱的边；社区发现之后，也会进一步计算一些社区的拓扑结构和业务相关的指标，来表明社区的风险程度。可解释性不仅体现在存在决策的依据，也体现在决策的过程，只要过程是明确的、透明的，就有一定的可解释性。

最后再给大家简单介绍下顶象业务安全大讲堂。

顶象业务安全大讲堂汇集了业内大咖，分享万亿级业务安全攻防经验，打造时下最专业的业务安全直播课，通过“技术+方案+实践”三大核心专题，带您全面了解金融、互联网、航旅出行、跨境电商以及目前大热的NFT等各类业务风险及防范手段，深入解析背后的产品技术，抽丝剥茧攻防实战，助您打造零风险的数字业务。

下期将由顶象人工智能专家&研发总监无常带来主题为《业务安全平台核心模块解析——智能模型平台》，敬请期待！

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

安全智能风控移动安全网络网络安全

二维码

对抗生成网络GAN系列——GANomaly原理及源码解析

< <上一篇

PyTorch搭建卷积神经网络（CNN）进行视频行为识别（附源码和数据集）

下一篇>>

搜索内容