Chinaunix首页 | 论坛 | 博客
  • 博客访问: 901047
  • 博文数量: 122
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1960
  • 用 户 组: 普通用户
  • 注册时间: 2019-01-07 13:17
个人简介

蚂蚁金服技术团队

文章分类

全部博文(122)

文章存档

2020年(16)

2019年(106)

我的朋友

分类: IT业界

2019-02-23 20:37:32

摘要:以“数字金融新原力(The New Force of Digital Finance)”为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。财富管理专场上,蚂蚁金服财富事业群高级技术专家陆鑫做了主题为《运营科技的创新和探索》的精彩分享。

演讲中,陆鑫分别从数据协作,智能营销和运营分析等几三个方面介绍了运营科技如何助力运营“自动运营”,蚂蚁金服希望未来几年将运营往自动化方向引进,减少运营工作压力,节省成本。

陆鑫 蚂蚁金服财富事业群高级技术专家

本次直播视频精彩回顾,戳这里!

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下四个方面:

一、背景简介

二、数据协作

三、智能营销

四、运营分析

一、背景简介

作为工程师,要对接的对象是运营同学。运营同学每天都非常忙,他们每天有各种方案需要汇报,各种的设计稿需要修改,以各种预算需要去申请。工程师思想通常是把复杂事件用简单的技术方法解决。所以蚂蚁金服希望用运营科技去助力运营,通过技术方法自动的帮助运营省去很多繁琐的工作。

通常来说,自动运营分为三个方面。做自动的运营首先需要有数据,数据目前蚂蚁金服依赖机构的数据和蚂蚁内部数据。那如何对两部分的数据做更好的协作,并且帮助机构描述更好的用户画像以及更好的用户的事件?第二个是智能营销,即如何借助人工智能的技术给用户更适合的图文物料和更合适的文案,以及如何确定红包的大小?第三个是运营分析,只有顺利得到线上用户的反馈,才能更好的让运营系统更好的迭代优化。

 

二、数据协作

1. 数据协作是机构和平台联合运营用户的基础

金融学领域经常会抽象这个世界。作为运营工作,蚂蚁金服与金额机构进行了很多运营方面的讨论和金融技术的讨论。运营中有三个实体。一个是什么样的人,要针对什么样的人做这个事情。第二个是发生了什么事情,比如说用户购买了第一笔基金,做了定投,登登录支付宝等等都是用户发生的一个事件。第三个用户在某个时间点做了一件什么样的事情(action)。

如下图,横坐标描绘了一个用户的成长路径。成长路径是指新用户成长为成熟用户的过程。蚂蚁接触了大量的小白用户,他们一穷二白,可能有钱,但是无法知道在它们理财领域有什么样的知识。另外一端是成熟用户,通常做资产配置,做组合或者做定投的用户可以认为是理财成熟用户。蚂蚁金服希望将小白用户逐渐推进到成熟用户。通过定义事件,描述用户发生了什么事情。首先将蚂蚁平台的数据和机构数据融合起来,完善用户画像。第二个,对平台做结构化抽取,并让机构定义自己的事件。比如,有一个用户在蚂蚁或者在机构清仓了,那么蚂蚁需要挽回这个用户,在用户下一次登陆支付宝时,给他发送陪伴的文章或者红包,让用户意识到还有一个这样的机构在陪伴他。蚂蚁一直尝试在持仓页面陪伴用户。比如市场上发生了大的波动,很多小白用户很容易清仓或者抛售,这时蚂蚁在持仓页面上推送一些陪伴的文章,告诉用户市场上发生的事情只是短期波动而非长期。通过数据协作试图将机构数据和蚂蚁平台数据进行融合,准确描述用户的成长路径。

2. 数据流通释放数据价值

数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属,质量,合规性,安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。

a. 数据质量

数据流通首选需要解决数据资源在符合使用方质量要求的前提下的高效流动。高效流动需要数据资源标准化,产品化,数据资源实时在线可按需查询,数据资源覆盖度能满足需方业务需求,以及相同需求的数据资源具备多个数据源可供应。目前,因为数据需求方的个性化需求,导致实际流通数据多以单一供应方按需定制加工方式处理,对需方来说,不能获得持续,多源的,标准化的数据资源,阻碍了数据流通效率的提升。同时,数据质量评估也是数据流通需要解决的重要问题。由于数据资源的特殊性,很多情况下必须在实际使用后才可验证数据质量,质量评估检验的难度较大。加之不同数据源的数据质量参次不齐,质量衡量标准不一,质量评估体系不完备等问题逐渐显露,使需求方较难在流通之前评估供应源的数据质量,是困扰大数据产业与行业应用的发展的难点问题之一。

b. 数据安全与隐私保护

如何确保数据流通的过程的安全,合法是数据大数据行业发展中遇到的另一个难点问题,尤其在保护个人隐私信息方面是必须解决的问题。现有法律法规的约束使得大数据产业在其发展中仍存在着诸多 不确定因素和法律风险。如不当收集,使用或滥用个人信息,有可能被利用以实施各种犯罪,流通过程中的数据监听,截获隐患,超出初始收集目的和业务范畴的再使用,包括提供给合同之外的第三方的使用(即流通)等,都会危害到公民的人身和财产利益。同时,流通中的数据资源也需考虑可流通范围,流通对象合法性,流通过程的安全保障,使用授权等一系列安全问题。

c. 数据流通基础设施

数据作为流通商品的定价问题也日益成为关注的焦点。由于数据具有质量,覆盖度,及时性和准确性等多重影响价格的因素,使得目前还未能形成一套通用的数据定价策略。一般来说,供方倾向使用数据加工成本的计算方式评估数据资源价格,而需方则希望按数据使用获得的价值的比例与供方协商价格,最终无法形成统一认可的市场价格体系。

3. 数据流通技术需求

在过去一年,蚂蚁金服一直在尝试用技术手段解决这些业务问题。

a. 个人信息保护

个人信息保护是数据流通的前提。根据《中国人民共和国网络安全法》规定:“未经被收集者同意,不得向他人提供个人信息。但是, 经过处理无法识别特定个人且不能复原的除外”。 对此,个人信息保护可以从信息处理和个人授权两个方面解决。但是,去除个人信息的处理加工方式必然伴随着信息的流失导致信息使用价值降低。因此,如何同时保证信息完整不缺失和保护被收集者个人信息成为迫切需求。

* 数据标识加密技术

* 加密后的数据标识可进行关联技术

* 个人信息被流通前的有效授权技术

差分隐私,同态加密等加密技术都可以实现对个人数据信息保护的前提下,实现数据计算任务。

b. 权益分配

权益分配是数据流通的基本动力。对权益进行合理分配才能促进数据不断流通。必须保证数据拥有者,数据持有者,数据开发者都能够得到合理分配的权益。权益分配策略必须在技术上简单高效可行。技术要能够满足以下需求: 一是权益分配方案必须为各方所共同接受。必须按照各方贡献价值大小进行分配。二是必须能够快速高效计算各方贡献价值,保证各方贡献价值真实有效。其中,区块链技术可以实现高效安全的多方利益分配机制,做到去中心化,信息可追溯,并且提供可信的多方计算环境。

c. 数据安全保障

安全保障是数据流通的关键屏障。必须通过技术手段保障流通数据安全与用户安全。 一是对流通的数据应采用加密手段处理,保证数据在传输过程中的安全。二是在上传数据前必须明确告知被收集者,禁止在未经被收集者同意情况下采用技术手段直接上传数据。三是禁止流通任何危害国家安全社会稳定,侵犯他人权利,涉及商业机密的数据。技术上能够做到对这些数据检索识别,追踪数据上传源头。四是数据必须在一定范围内使用,符合有限使用原则。技术上能对数据使用范围做出检测,警告超出合理使用范围的数据应用。 其中,安全多方计算技术,可以确保在保护数据提供方数据的前提下,实现多方安全协同计算,并确保各参与方得到正确的数据结果反馈。

d. 追溯审计

追溯审计是数据流通的坚实后盾。对已经流通的数据建立完善的 追溯审计体制,使违规侵权行为被及时追踪发现。技术要能够满足以下需求: 一是对参与数据流通各方实体的行为做到透明日志记录,方便数据拥有者查阅其数据使用记录。二是能够及时检测日志中出现的异常 行为并快速定位异常情况,追溯到行为源头。 其中,区块链技术天然具备透明日志记录以及可追溯,不可篡改的特性,非常适合做安全,透明的追溯审计。

4. 用户的安全求交

用户的安全求交是多方安全计算典型的例子。比如机构想在支付宝端给直销用户,其他用户或者第三方公开用户发送红包。机构知道用户身份证号,手机号,但机构不想将这些信息共享给蚂蚁。蚂蚁有用户支付宝ID与身份证号的对应关系,但蚂蚁也不想把这些数据共享给机构。双方在互相不泄露信息的情况下如何求共同用户的交集并实现红包的发放?技术人员通常会想到两边加哈希。但是哈希已被破解,而且通过穷举哈希也可以碰撞出相应的身份证号,哈希方法非常不安全。蚂蚁现在采用DH算法,先做哈希再做两边加密。如下图右边,假设A方是蚂蚁,B方是机构,双方都有自己的乱序ID集合。机构方生成自己的密钥,蚂蚁也生成密钥,双方分别加密,将加密之后的信息交换,再用自己的密钥加密。这时便得到了两组内容,一组用XY顺序加密,另外一组用YX加密,找到两个加密函数,与原来数据集做对比就可以得到交集。

安全求交的方式解决了大量的机构数据和蚂蚁数据相互碰撞的问题。同时,用户安全求交也可以扩展到很多场景。蚂蚁金服也在与很多政府机构进行合作,由于政府机构不能够将用户的信息泄露给第三方商业机构,所以蚂蚁金服也使用了安全求交的方式实现了这个目的。按用户的安全求交的方式原始数据没有出机构运营,也没有出蚂蚁运营,出来的集合只是经过加密的残缺数据,每方密钥只有自己密钥,且无法穷举,只能还原交集的原始ID。

三、智能营销

有了数据之后需要做营销,营销主要是围绕人做,大数据可以很好的识人懂人聚人。那理解了用户之后如何做触达分发?触发分发分为触达,触动和触发。触达指是将图片和物料曝光给用户,这是非常粗糙非常基本的触达,比如弹屏或者发消息。第二个是触动,做市场营销需要知道哪个时间点对用户有吸引力,在最具吸引力的时间点去打动用户。第三个是触发,触发是指用户真正触发的动作,是真正达成目的的时候,这时蚂蚁可以发红包或者推送做push文章做催化剂,之后做转化。其中,如何才能触动用户,发送的图片文案怎么样才能打动用户?第二个是红包大小问题。

1. 智能定价

蚂蚁金服做了很多智能定价尝试,其目的只有两个,提高转化和节省成本。如下图左上角,展示了营销费用与用户转化概率的关系。大体上,营销费用与用户转化概率是正相关的,中间有很多波动点,说明至少在局部区域有非常好的优化空间。在此基础之上,粗略的分析各个用户的状态。分别从两个维度来分析,一是拿到红包的次数,即核销多少优惠。二是交易频次是上升还是下降。如下图,第一组用户:“核销了很多优惠,但交易频次下降了”,这类用户基本可以判断为是薅羊毛的用户,所以拒绝对这类用户再发红包。第二个用户:“核销了较少优惠,但交易频次上升了”,这类用户对红包不敏感,他们有自己的决策逻辑,可能对平台很忠诚或者有自己的交易理论,所以对这类用户也不需要再发红包,因为他们根本不受红包的影响。第三组用户:“核销了较少优惠,但交易频次下降了”,这类用户非常危险,他们甚至对红包都不感兴趣。这类用户非常容易流失,所以会建议花更多的钱将他们拉回平台。第四组用户:“核销了很多优惠,但交易频次上升了”,这类用户是平台喜欢的用户,他们对营销非常敏感,所以应该投入更多的钱使第四类用户提高交易。经过以上对定价策略的分析,基本策略是从下到上,依次重视不同的用户。下图右边是利用模型和数据提高转化,节省成本。首先做对数据做特征工程,可以使用用户的自然属性数据(男女,家庭住址,触摸商圈,或者经常看什么样的理财文章)。用户在各个营销场景的数据(各类奖品发放数据,核销统计)。交易数据(淘宝交易或者线下交易,以及钱包场景数据)。蚂蚁考虑了各种各样的场景,并在模型方法上进行了很多尝试,如逻辑回归,GBDT,随机森林,DNN等。还有尝试了如计算广告学中的各种CTR模型。最终,蚂蚁在前两个月实现的结果是从整体上可以提高了30%的转化率,这个结果是对整个营销工作具有非常大的帮助。另外,蚂蚁金服在之前的工作中做了非常多的摸索,很奇妙的现象是1.9红包效果通常不如1.8红包的效果。发现只要优化了红包尾数,成本不仅可以下降,而且转化率反而可以提高。通过尾数位数金额优化,蚂蚁金服节省了5%的成本。

 

2. 智能图文

由于非常多的机构提议说做banner图片成本太高。所以蚂蚁金服提供了合成图文的功能,开放出来让机构使用。2018年蚂蚁在合成图文领域有很大的进步,目前可以生成成千上万张图。生成的图放在线上让用户点击反馈,筛选出最适合用户的图片。智能图文功能可以节省成本,提高效率,方便用户。因为技术的发展,用户只需在图中划几条线,就可以将图中人物扣出来。

3. 智能触达

目前文章推荐和投放的技术都已经非常成熟。在2018年,蚂蚁尝试了一个新的领域,在手机客户端做用户的点击预测。其初衷非常简单,假设在打游戏或者手机没有电时,系统发送一个push信息,这使得用户体验非常差。手机端上很多实时的状态是之前被忽略或者没有被捕捉的。用户手机端上的状态是否可以捕获到,是否涉及到用户隐私问题?这是用户的点击预测挑战所在。由于支付宝客户端并不能将所有用户端上的信息拿到,然后放在服务端做模型的构建以及点击预测,所以需要在手机客户端上进行模型构建来做点击预测。这会涉及到数据协作,即在支付宝内部有客户端和服务端协作的问题,由于隐私保护不能将数据直接给支付宝服务端进行落户,所以通过手机客户端上的实时状况的捕获,提供push效率。目前支付宝的push的打开率提高了20%。

四、运营分析

在刚开始很多金融机构还没有运营经验,蚂蚁金服希望把平台经验以及系统的数据分析能力开放给用户。运营分析与数据分析类似,基本分为以下三个步骤,发现问题,分析问题和解决问题。发现问题指的是做报表或者做看板,通过可视化方法看到数据的上升或下降,可以发现问题。分析问题通常需要细分问题,假设有指标异常,只从单个指标找问题或者靠猜想是无法分析的,需要对异常相关的各个因子做分析,才可以逐渐分析出问题所在。在解决问题部分并没有很多智能化手段,幸运的蚂蚁金服有非常多的互联网运营经验的沉淀,在解决问题这一块,可以理解为有多少智能就代表着背后有多少人工存在。

1. 流量解决方案-不知所措

由于流量波动难以定位,入口非常多,而且外部影响也很多。一天内支付宝会在各个不同的地方做活动,即使发现了异常也很难定位问题。

蚂蚁开发了一套系统,采用迭代优化的方案逐步解决流量难以定位的问题。Step1. 特征化数据。特征化简是指用什么指标代替流量。比如,一篇文章一般会用一个词或者句子来代替这篇文章,这个过程就可以称为特征化。特征化并没有很深奥,特征化一篇文章一般选择最长的句子作为特征代表这篇文章。流量问题自然也涉及到非常多的特征化工作,首先,迭代优化需要在基础数据这一步将流量特征化。

Step2. 异常检测。每秒的流量都在变化,流量是时序数据,可以采用ETS时序算法描述时序数据。ETS时序算法通常用在信息处理领域,用它的信号描述数据的模型并预测流量的大小。假设当天的流量偏离了预测值,就认为检测到了异常。异动的归因,即细分问题。这一步主要分析什么原因导致了变动。在Step1中,特征化基础数据得到了特征因子,通过查看各个特征因子的贡献度,如异动变化的相对值在绝对值以上,就可以发现哪些因子贡献了变动。

Step3. 归因决策。在前面几步的基础上,归因决策主要确定要做什么样的决策(action),蚂蚁金服主要做了一个决策引擎来支持归因决策。

Step4. 服务输出。结果导读,优化开导。

2. 活动解决方案-专人专项,各个击破

蚂蚁金服之前做过很多活动,都是以完全开放式的方式。事实上,大部分机构花费了很高的成本而并没有得到很好的效果。蚂蚁金服总结了一个活动解决方案,按专人专项的方式,使不同用户迅速知道应该怎么做。用户分成三个等级,新用户,体验型用户和流失用户。针对三种用户分别做不同的数据分析以及活动。这个解决方案可以让机构更快更方便的去操作。对不同人群用不同的活动和不同的物料,覆盖更多的用户。

3. 活动解决方案-司南在手,三步搞定

最后是蚂蚁金服的目标方案。蚂蚁希望智能运营参谋“司南”可以根据机构不同机构的问题,推荐人群,发现哪些人群出现了问题。推荐权益方案,如定多少规则和使用哪些算法。给出预测的预期,即所需要的成本和能够实现的效果。最后进行投放。

4. 自动化运营设想

蚂蚁金服试图在近两年内将运营往自动化方向引进。运营中有非常多的事件,人群和运营工具,所以蚂蚁金服希望制定出一些自动化运营的方案,比如下图中,用户进来之后给他做一个投教,通过自定义的分支自动化的运营用户。自动化运营可以回应前面提到的运营同学很忙的问题。假设运营往自动化运营方向逐渐推进引进,运营工作就可以变得更加轻松。


点击,查看更多详情
阅读(2081) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~