分类: 网络与安全
2017-01-04 17:02:47
直播作为近来新兴的互动形态和今年阿里巴巴双十一的一大亮点,其内容风险监控是一个全新的课题,技术的挑战非常大,管控难点主要包括业界缺乏成熟方案和标准、主播行为、直播内容不可控、峰值期间数千路高并发处理、对算法的高实时响应要求等等。
阿里巴巴集团安全部今年在直播管控中的特色在于大量采用人工智能和深度学习等技术,配合优化后的高性能多媒体计算集群,大幅度降低人工审核成本的同时,提升了对内容风险的防控能力。系统在峰值期间成功处理5400路直播视频,以及共计25万场粉丝连连看游戏,对违规内容进行警告或阻断。主要技术体现在直播内容实时过滤以及多媒体处理集群的优化上。
在直播过程中一些主播为了达到吸引眼球,或者推销商品的目的而做出违规的事情。另外,本次双十一引入了买家之间的互动游戏:连连看,玩法是系统随机抽取两个游戏参与者,调起手机前置摄像头拍摄视频传递到对方手机展示。游戏双方比赛干瞪眼、不许笑等动作。游戏的参与者并不会进行实人认证,需要对内容做实时的管控。双十一期间预估高峰期会有5400路直播同时在线,而一个审核人员的极限承受能力大约是60路,需要大约90个审核人员同时在线审核,很浪费人力,并会因为人工因精力不集中而漏过风险内容,这就得靠人工智能技术来全面防控风险。
那么,直播中有哪些风险呢?
我们分析了淘宝直播开播以来的所有处罚记录,以及在互联网抓取的外部直播数据,发现恶性违规集中在色情低俗,以及敏感人物肖像两个方面。因此,我们在对画面内容做风险判断时调用了两个算法服务:视频鉴黄和敏感人脸检测。由此,实现99%的自动审核,只有约1%的视频会流入到人工审核。
智能鉴黄,就是输入一张图片或视频,算法模型返回一个0-100之间的分值。这个分值非线性地标示图片含色情内容的概率:得分99及以上的图片几乎可以肯定是色情图,可以机器自动处理;得分50-99的需要人工审核;得分50以下的认为是正常图,因为50分及以上可以覆盖>99%的色情图片。智能鉴黄还有两个特性:1)将60%以上的色情图片集中在99及以上的分数段,也即机器可以自动处理掉大多数色情风险;2)需要人工审核的图片占比非常低,在淘宝直播场景大约为0.1%。
智能鉴黄的原理是什么呢?
智能鉴黄是一个色情图像智能识别引擎,为不同的场景和用户提供了个性化的多尺度识别能力,识别准确率高达99.6%, 极大地降低了图片内容管控的成本。我们基于深度学习算法构建了多层视觉感知机,采用改进的Inception神经网络层以及多模型级联,实现了快速地识别多尺度色情内容。智能鉴黄的生成具体步骤如下图所示。
智能鉴黄模型生成步骤
1.1.1 明确分类标准
上面这张图的步骤里,制定标准与标注数据的难度比训练模型更大一些。因为现实世界是复杂的,不同的人对同一张图片的认识往往不一样。为了制定标准,运营与算法同学一起讨论修订了数次才有了初版,并且在后续打标过程中根据遇到的问题进行了几次增补,标准才稳定下来。