WOT2018】如何利用数据训练人工智能？三位大咖教你挖掘数据价值-youlan878-ChinaUnix博客

江湖懒人linux

首页　| 　博文目录　| 　关于我

youlan878

博客访问： 1306874
博文数量： 1096
博客积分： 0
博客等级：民兵
技术积分： 11060
用户组：普通用户
注册时间： 2018-03-07 15:17

个人简介

linux工程师，RHCE

文章分类

全部博文（1096）

未分配的博文（1096）

文章存档

2023年（84）

2022年（314）

2021年（251）

2020年（244）

2019年（176）

2018年（27）

我的朋友

相关博文

WOT2018】如何利用数据训练人工智能？三位大咖教你挖掘数据价值

分类：网络与安全

2018-12-17 20:12:01

【51CTO.com原创稿件】2018年11月30日-12月1日，WOT2018全球人工智能技术峰会在北京·粤财JW万豪酒店盛大召开。60+国内外人工智能一线精英大咖与千余名业界专业人士齐聚现场，分享人工智能的平台工具、算法模型、语音视觉等技术内容，探讨人工智能如何赋予行业新的活力。两天会议涵盖通用技术、应用领域、行业赋能三大章节，开设13大技术专场，如机器学习、数据处理、AI平台与工具、推荐搜索、业务实践、优化硬件等，堪称人工智能技术盛会。

大量的数据可以提供训练学习算法所需，如何利用数据来培训人工智能，使其获得更精准的结果？针对这个问题，本届WOT2018峰会特别设置了《数据处理》分论坛。来自VIPKID、易观智库、BBAE Holdings的三位大咖围绕“聚焦数据处理，挖掘数据价值”进行了主题分享。

智能匹配在在线教育行业的应用

VIPKID是一家在线少儿英语教育公司。VIPKID供需优化技术负责人沈亮主要负责供给侧优化、需求匹配、课程质量方面的工作，此次演讲他详细介绍了智能匹配在在线教育行业中的应用。

VIPKID供需优化技术负责人沈亮

在线教育行业是典型的双边市场，双边市场的概念是指2组参与者通过中间平台进行交易，并且一方的收益决定另一方参与者的数量。在VIPKID快速发展的过程中，随着用户规模的变大，传统抢单模式的弊端慢慢暴露出来。比如：用户无法挑选到合适的老师；用户选择其他用户喜好的老师；以及平台马太效应愈发严重。和外卖、快递、出行等行业的发展轨迹一样，VIPKID慢慢从抢单过度到智能派单，能够有效地提升平台的整体效率，同时，提升用户的产品满意度。

那么，整个双边市场的匹配是一个怎么样的AI问题呢？沈亮认为，可以把它分为3个层次，从不同的建设周期来考虑。最长周期是生态规划的基础建设，比如：根据需求侧的发展来预测一定时间内老师的招募，司机，配送小哥的招募。第二个层次是市场调节，可以通过经济手段来调节，比如：高峰期的司机补贴、乘客加价，乘客优惠券的发放，老师长期的加薪周期，开课激励等。第三个层次是单次用户需求的满足，通过实时的派单产品、以及用户抢单产品来实现。

谈到如何构建在线教育行业的智能匹配模型，沈亮表示，VIPKID将模型区分为两个阶段，第一阶段是用户找到合适供给的阶段，我们构建了个性化的匹配机制。第二阶段是用户找到了合适的供给以后，我们通过约课机制来保障用户需求能够持续得到满足。

VIPKID在优化整体的学习目标时，也是在不断变化的，每个阶段的思考点是不同的。一开始VIPKID按照Feed流产品的思路，用列表页点击来做为机器学习的正样本。其中核心问题是，从Feed流到真正产生交易的概率低，不能代表用户的核心诉求。第二步，优化用户约课动作发生，从约课到上课有2周左右的周期，并且用户对陌生老师的再复约率不到40%。所以有了第三点目标的变化，用户重复约课的老师是正样本，用户约课后不满意为负样本。这一步主要的问题是1、不满意的用户不表达，2、平台不好约还是用户不满意区分度不强。最终，VIPKID选择了上课质量做为机器学习的优化目标。

海豚系统是VIPKID的一整套在线视频的解决方案。以课程质量分析模块为例，它主要是通过从语音、图像、交互角度上来分析老师／学生的课堂表现，评估每堂课的教学／学习质量。其中图像部分主要进行人脸识别／检测、手势识别（TPR教学方法）、表情识别（笑脸）、语音方面则包括老师语音识别、语音情感识别、噪音识别。通过这些课堂的特征来构建课堂质量评估模型，VIPKID通过专家标注＋数据挖掘的方式来区分好课和差课。

有了课堂质量分的概念，对于一个陌生老师，VIPKID则会提取该老师最近上课视频中的语音、图像相关的特征，学生喜欢的老师图像、语音相关特征，以及老师／学生的一部分结构化数据，进行特征挖掘、交叉和离散化从而构建不同的模型，然后发布到线上A/B测试来监控质量、以及核心指标的变化。

在市场机制、规则设计上，VIPKID推出了专属外教产品，能够让用户通过简单的一步即可和自己喜欢的老师长期上课。专属外教的产品逻辑是这样的，首先，用户设置自己喜欢的老师和上课时间，第二步，系统会在所有的规则集合内进行系统派单，从数学角度上来看，这是一个简单的2分加权图的分配问题。VIPKID用了传统的KM （Kuhn-Munkres）算法了解决，也取得了不错的效果。

VIPKID通过构建基于课程质量的智能匹配模型，完善了师生稳定上课阶段的派单引擎；另外，VIPKID在供给侧采用了相对隔离，以及师生匹配的预分配。上线前后最大的变化就是，它让用户更快地选择到适合自己的老师，可以从两方面衡量，第一，用户找到合适老师的成本（课节数）下降40%；其次，用户找到合适老师的时间下降了33%。

另外，智能匹配也使得用户不需要抢课，有了更好的约课体验；从数据上有两点明显改进，第一，周一高峰期来抢课的用户群体下降幅度高达42%。第二，系统派单的占比持续提升，4个月时间，提升比例高达85%。

基于IOTA架构的实时数据引擎

易观智库CTO郭炜分享了题为《IOTA 数据架构——基于边缘计算的适用于大数据和人工智能新一代计算架构》的主题演讲，详细讲解了基于IOTA数据河的计算引擎的实现思路，以及数据河的基本理念。

易观智库CTO 郭炜

郭炜指出，现代大部分企业都在面临大数据困境，存在大数据“大而不强”，人工智能 “人工”而不“智能”的问题。企业在应用大数据的过程中，无论是大数据部门的研发、总监还是架构师都会面临四大挑战：

随着大数据、人工智能的火爆，相关人才严重不足；

IoT正在让数据量持续爆发，移动互联网数据将会增长十倍，乃至几十倍，大数据存储永远不够，并且企业并不知道这些数据如何利用；

业务分析多变难以满足：业务部门希望通过选择维度或者拖拽的方式，能够尽可能快的展现出结果。随着数据量越来越大，定义指标、预定维度正在变得越来越困难；

IoT，移动端，CRM数据正在变得越来越多，越来越复杂，格式也不统一。

他认为，要解决企业的这些问题，就需要使用新一代的数据计算架构IOTA架构——基于边缘计算的适用于大数据和人工智能新一代计算架构。它将数据和AI模型，从中央集中计算放到边缘进行计算，最终形成企业数据的业务闭环，提高企业运行效率。IOTA架构扩展到整个企业就形成了数据水系的理论，数据河补全了数据湖的流动性问题，将IOTA架构扩展到整个企业，从而改善整个企业大数据和人工智能与业务的交互效率以及自身技术的发展速度。

IOTA数据架构具有四大优势：

去ETL （（Extract-Transform-Load））化架构：过去企业都在做ETL，每次都要进行各种各样的数据处理，而IOTA架构则不再使用ETL，所有数据产生的时候就已经处理好，可以直接放到云端，进行数据查询；

非结构化实时结构化为SQL数据存储：大量事件都是非结构化数据，企业所要做的是把其实时转化为结构化数据进行存储。

支持IoT设备与现有移动端数据融合：企业常常会遇到Web端和Android端的用户如何打通的问题，需要花费企业很多精力，搭建平台进行分层，而现在就可以直接进行数据的融合。

支持边缘AI实时反馈：一方面，企业可以把数据直接存储在云端，很快的查询到边缘的数据。另一方面，在一些简单的数据模型中，企业可以把参数下放到SDK中，让SDK进行集成。而不再需要每次都在云端进行大量计算，直接在边缘端进行计算即可。

IOTA的整体技术结构分为几部分：

核心模型Common Data Model：始终贯穿IOTA架构的数据模型，需要SDK、Cache、历史数据、查询引擎保持一致。对于用户数据分析来讲，可以定义为“主-谓-宾”或者“对象-事件”这样的抽象模型来满足各种各样的查询。以APP用户模型为例，用“主-谓-宾”模型描述就是“X用户 – 事件1 – A页面(2018/4/11 20:00) ”。

核心组件Edge SDK：不仅仅是过去的简单的SDK，在复杂的计算情况下，会赋予SDK更复杂的计算，在设备端就转化为形成统一的数据模型来进行传送。例如，对于智能Wi-Fi采集的数据，从AC端就变为“X用户的MAC 地址-出现- A楼层(2018/4/11 18:00)”这种主-谓-宾结构，对于摄像头会通过Edge AI Server，转化成为“X的Face特征- 进入- A火车站(2018/4/11 20:00)”，对于智能音箱就会变为“X用户-启动-Y设备（2018/4/11 20:00）”。

与此同时，企业如何利用数据产生价值呢？郭炜给出的答案是企业需要打造一个数据驱动的中台。很多企业认为，数据中台就是把各种数据组件打包、把大数据存储好即可。但是随着时间积累，数据中台就会从数据湖变成数据沼泽。由此，易观提出了数据河的概念，中国有句俗话叫“流水不腐，户枢不蠹”，也就是数据一定要像河水一样流动起来，才不会产生瘀泥。具体来说，数据河就是，从数据产生端直接通过IOTA架构数据河实时流向数据使用者，而不再需要像过去一样层层加工之后才能使用，其好处就在于如果遇到数据质量发生问题，不用等到数据加工完几天甚至是一个月之后才发现，而是在最早的时间，数据的发生者和使用者就能够很快的发现问题，从而驱动解决问题。

阅读(1551) | 评论(0) | 转发(0) |

上一篇：我的Linux系统九阴真经

下一篇：超级流量来了！第一批开发者已从百度小程序获益

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6