防治“虚假种草”,小红书技术团队干了这几件大事
财经
财经 > 商讯 > 正文

防治“虚假种草”,小红书技术团队干了这几件大事

本文主要聚焦社区及电商风控在小红书的最佳实践领域——刷量治理。

作为一个内容社区,小红书月活用户数自2021年10月突破2亿后一直稳步增长。围绕不断累积的UGC内容资产,小红书正在成为越来越多用户的多元生活方式聚集地。这些都让小红书成为了刷量黑产的目标。

从用户维度来看,安全在内容平台上要解决两个问题:保证用户的信息在网络上是安全的,以及保障用户在网络上获取的信息是真实的。

刷量,作为社区及交易中常见的作弊手段,会导致用户获取的信息不真实。通过刷量这种方式所获得的无论是笔记阅读、点赞、评论等社区流量,或是商品浏览、销量等电商数据,都会瓦解我们的内容安全,影响用户对平台的信赖。

一、走进黑产了解刷量的实现

1.1 什么是刷量?

初级的理解,刷量可以理解为数据造假,例如使用作弊手段获得虚假的点赞、收藏等数据,以此来谋得更高的商业价值。在电商场景中的刷量更多集中在商家维度,例如聘请刷单用户并利用虚假物流构造交易,虚构高GMV。

为了深入了解刷量的本质,我们探访了一批专门从事刷量产业链的公司,下面是对其中三家及实现手段的介绍:

1.1.1 群控刷量公司

这家公司是做刷量服务的,主要基于机器的群控设备去刷量,包含越狱机和正常iPhone。他们利用了苹果的安全机制,比如苹果手机的镜像打包:把整个手机中包含用户登陆态的客户端进行打包后存储成一个文件,再把这些文件存储在沙箱环境里。基于此方法,利用单台手机还原出批量沙箱环境和帐号,实现不错的群控效果。

1.1.2 养号引流公司

这是一家通过引流售卖高仿衣服的电商公司。主要的做法是通过虚拟的厅卡注册账号后养号。当使用的账号被标黑后,它需要打通附近线下二手手机店,以较低的价格(5-10元)进行标黑手机的置换。在拿到全新的设备后,雇佣一批真人,注册账号后持续做内容的发布和运营。最后做品牌导流并获取报酬。据了解,一个号可以引流几十万的gmv,考虑到号的数量,这家公司的收益相当可观。

1.1.3 众包刷量公司

众包黑产通常有专业的机构,在各大平台上寻找任务并招揽人力做兼职,兼职人员用自己的账号完成任务即可获取报酬。

1.2 刷量的重新定义

刷粉刷赞就是刷量吗?是,但并不完全,我们要从更高的角度理解刷量。

在小红书的社区环境中,我们把用户分为两类:内容发布者和内容消费者。内容发布者负责生产,向消费者提供优质的内容。而内容消费者,相对地,支付时间成本、机会成本、信息成本、情感成本以及所浏览内容中包含的信息价值。换言之,发布者和消费者实际上是在做一种类交易行为,内容平台就是一个市场经济平台。有了市场,就要有流通的货币。在内容社区中,货币就是阅读量、点赞、收藏、评论数等这些可以被衡量的单位。

在这样的类比下,刷量相当于做假币的行为,虚假内容发布类比于假货,会导致整体市场的通货膨胀。这些代币虽然存在于二级市场(社区),但最终会和一级市场做交易(电商,广告),实现流量变现。对小红书来说,刷量等同于假币,需要不遗余力的治理。

二、风控面临的挑战

既然已经定性为假币,为何刷量仍然长期存在呢?这里就必须要提到反作弊面临的几个挑战:识别难、治理难、巩固难。

2.1 识别难

识别难可以总结为三个部分:终端不可控、AI对AI、真人对真人。

2.1.1 终端不可控

在社区刷量的场景当中,终端实际上是不可控的,对抗人员很难去判断客户端到底是一个正常用户还是一个黑产。理论上讲,通信方式不可信,就没有办法做到可信。

我们曾经尝试逆向了某个接口协议攻击的工具,拆解了里面的代码,通过破解签名算法伪装成我们的客户端向服务器发送请求。这是目前最容易的一种,其他方式更加难以管控。

(*协议攻击)

2.1.2 AI对AI

尽管风控在不断的提升且已大规模地使用AI 计算的方式来进行对抗,但我们的对手也在不断攻破升级。

以黑灰产的群控手段为例。利用三方授权的漏洞,在公共平台生成批量三方帐号,利用三方账号完成小红书帐号的注册。再通过UI的自动脚本点击工具去控制点击和按键,在手机上进行操作,来批量刷赞藏粉。目前盛行的手段是用4G手机/EC20的芯片,做混杂攻击来规避我们对于黑IP的识别。

AI智能化在风控中的推动速度是缓慢的。原因是AI算法擅长解决的是一阶问题,例如一个图片是否包含支付二维码。然而实际场景中,我们要判断的是这个聊天内容是否带有风险。站在人的角度,经常联系的好友间发出的支付二维码没有风险,但是刚聊天不久的陌生人之间发送支付二维码就是高风险的行为。这里的风险取决于支付二维码+陌生人聊天这两阶信息的聚合。相对人,AI很难自动的判断这两阶维度的聚合识别,所以需要人的大量介入。

2.1.3 真人对真人

通过线上群聊、线下小任务、甚至通过正规的招聘渠道招募人员,这些人混迹在真实用户中且存在真实的正常行为。到了某个时间会收钱做刷量的事情,这让整个识别变得异常复杂。

2.2 治理难

在小红书平台上,内容社区分K(博主),B(品牌/商家),MCN机构(中介),C端(普通用户)。长久困扰我们的问题是,到底是谁为了利益去做了刷量这个行为,是K端、B端、MCN端还是C端?而这个人在当下的行为是好的还是坏的?在治理的同时,又该如何去避免误伤?

真实的情况是,每个端都有可能参与刷量。品牌发布营销的需求后,MCN接受任务并分发给各大平台的K,让K发布相关笔记吸引用户,最后达到营销推广的目的。这个流程中,MCN为了完成品牌侧的曝光要求获得盈利,有动力刷量。相同地,K为了完成MCN发布的任务,弥补自身流量不足的问题,也有动力刷量。品牌侧不同角色例如运营侧,为了完成公司的任务,也可能刷量。而部分竞对,为了陷害同行,也会聚集C端用户到笔记下刷量,导致风控判罚博主和笔记。

更麻烦的是,大量的真人会混杂在整个群体内,很难准确的区分刷量行为。即便可以辨别,如何判断这个人当下的行为是否正常?这里面会有召回和误伤的问题,既要保障完整的召回,又不能误伤批量的用户,影响业务的顺利运行。

同时平台的冷启动也是一个需要解决的问题。例如新的小商家为何刷量,因为初期小商家在物流,货品质量和价格的把控上本身就劣于大商家。即便用户偶然搜到新商家的商品,销量为0,买家不信任,最后仍然失去成交机会。这也是小商家产生了刷量需求。

2.3 巩固难

任何安全的运营,最终都会落入到投入产出比的问题。在内容刷量的场景中,由于没有直接的收益计算,较难衡量风控投入的ROI收益。

第二个难点是防控效果的衡量。前面我们讲到了CTR,那是否CTR的值足以判断风控的效果?答案是否定的。防控的结果会涉及多个维度。在我们治理的刷量案例中,有很多一部分的作弊刷量来自于真人众包,是以用户的维度还是异常行为的数量来评判防控的效果?刷量的治理,是人与人的对抗,风控限制和治理一种方式之后,对手又会用新的手段和技术开启下一轮的攻击,所以防控的效果是在不断波动的,我们需要持续去进行对抗。

三、小红书的治理实践

小红书是一个真诚分享、友好互动的平台。对我们来说,比技术能力更为重要的是平台的态度。这也代表了我们对刷量行为的态度是严厉打击零容忍的。

在安全技术部内部,我们提出了三个解决方向,分别是:风控基础设施引擎化,风控对抗流程化,和风控识别智能化。

3.1 风控基础设施引擎化

国内统计的黑产从业人员有150万,远远超出我们风控技术团队,如何以小规模对抗整个产业链呢?我们提出的方案快速迭代易试错,风控基础设施引擎化,将工程引擎与整个前后上下游链路打通,提高整体的风控对抗效率。这里的风控引擎,不单指在一个独立的节点部署策略,还包括整个链路的信息接入,并利用上下游信息识别风险。

以近线平台为例,我们将现有的准实时任务进行了高度的抽象化,使用户能在短时间通过组装任务的方式快速上线规则,进而提高效率。该平台的引擎能力能够在后台结合多数据源和历史数据在相对准实时的情况下给出风控识别结果,同时结合行为序列分析、图分析和算法模型,提升风控能力实效性。

近线平台补足了单条规则识别的局限性,与原风控实时体系融合,同时又是其他防控手段的有效补充。近线平台支持综合处理数据、事件的能力,也支持多源数据接入,具备灵活的数据处理能力,更为重要的是提供可支持算法、策略同学自定义数据处理逻辑的功能。在流程工程化的同时,释放人力、提高准确性。

下图为近线系统的整体体系及架构:

从设备激活->账号注册登录-> 笔记/商城浏览 ->交互->内容发布/购买商品等,目前我们已覆盖了用户全场景行为,在获取业务数据后,将实时请求、准实时流式、及离线数据接入风控引擎,实现多场景层面联防联,对所取到的身份特征、网络环境、时序特征、累计因子等做加工挖掘,输入至决策分析层。除此之外,实现识别能力的迁移,将新识别到的风险点沉淀后复用至其他风险场景。

除了风控引擎,通用业务网关侧(edith2.0)也做了统一, 整体提高新业务的接入效率和稳定性,实现业务的分钟级接入。

3.2 风控对抗流程化

业务风控最大的难点是对抗,无论作弊变成何种形式,唯一不变且一直存在的就是对抗。一个标准化的流程也许并不能保障立刻得到最优方案,但是可以帮助我们分析问题、暴露问题,建立起有反馈的正向迭代链路,提高我们的效率。

由情报技术所驱动的运营沉淀能力在小红书风控团队中已逐渐形成一个可行的流程体系在不断运作。整个流程可以分为五个步骤:风险感知、能力建设、风险识别、风险处置、效果评估。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载