视频负反馈评测

2018-05-14   出处:腾讯移动品质中心TMQ  作/译者:tango  

背景


QQ浏览器的feeds视频每天有数亿的播放量,视频的质量会影响用户使用QB的体验。如何在海量的视频库中发现劣质视频,一直是视频运营的重要关注点。常用的方式是,给视频加一个举报按钮,让用户来举报,这是一个直接且有效的方式。


                      图:视频的举报功能


但是鉴于举报的按钮不明显,用户不知道举报功能等原因,依然有大量的劣质视频没有被发现。通过观察发现,劣质的视频通常会有大量的用户在评论里面吐槽。

图:用户在评论里面吐槽标题党


因此想到通过评论内容判断视频的质量,实践中使用了 tensorflow 训练模型。当前会将评论分为标题不符,广告宣传,内容重复过时等类别。


评论模型训练


1、评论收集  


要训练模型,必须要有相应的训练集和验证集,视频评论有 8 个分类每个分类都需要大量的数据。首先在视频后台的播放记录中获取播放量比较大的视频 vid,然后通过视频的http接口,通过 vid 获取评论。通过这种方式每天能拿到上百万的评论,但是这些评论大部分都是用户正常的评论。


QQ 浏览器资讯之前已经做过类似的模型,资讯包含了一个情感分类(正面,负面)的模型,吐槽的内容一般都是在负面评论里面。所以前期会将所有的评论使用情感分析,得到大量的负反馈评论。通过这个步骤可以从百万级别的评论中筛选出十万级别的负面评论。


2、评论标注


已经有了十多万的负面评论,但是这些数据依然不能用于训练,需要标注分类后才能用于训练。评论的标注是在企鹅众测(https://wetask.qq.com/tasks?type=0)上完成的,企鹅众测上有多种类型的数据标注,不同的用户有不同的擅长领域。因此前期组内选出了 60 个标注的测试题,放在众测上做用户的测试和筛选,选出成绩比较高的众测用户作为之后的核心视频评论标注用户。


核心用户选择完成后就能发布标注任务了,任务包含说明,需要标注的评论内容等信息。众测用户收到任务后,就可以在手机 APP 上进行标注了。


                 图:众测用户标注界面


众测的后台会将同一个题目随机分给 3 个不同的众测用户标注,然后将 3 个标注结果进行统计,如果某个分类结果有 2 个以上的用户标注,则为有效的评论标注,否则该评论不使用。


图:标注结果统计(绿色为有效标注,红色为无效标注)


3、开始训练


有了标注的数据,就可以训练模型了。视频的评论使用工具是tensorflow,网络是CNN,速度比RNN快很多。具体是训练文章网络上已经有很多,可以网上搜索“文本分类 tensorflow”参考。



视频评测


1、获取视频vid


评测的模型训练完成后,就可以用来评测线上的数据了。线上数据的获取,视频这边是从播放记录拿的数据。使用 QQ 浏览器每播放完一个视频,就会将视频的播放记录上报到后台,其中就有 vid 字段。在数据工厂[一个数据平台] 建立每日任务,统计每天播放量比较大的 vid,然后将 vid 导入到 mdb[一个数据库平台] 数据库。

2、获取视频评论


将评测的脚本放到公司的 Docker上,评测脚本每天定时执行。执行时从 mdb 获取 vid,然后脚本根据 vid 获取视频的评论。

3、开始评测


将一个视频的所有评论使用模型评测,如果评论结果为问题视频(根据负面视频的占比),还会将该 vid 对应的信息补全(视频标题,封面图等信息)方面后期运营同学处理评测结果。

结果处理


1、人工下线视频


模型评测出的视频,不会是 100% 的问题视频,总会有失误的情况。因此将评测出的视频放到了一个 mdb 的表里面,由运营同学再次人工审核下线,而不是直接下线。运营的前端同学做了前端页面,从数据库读取视频,然后执行下线操作。


                       图:负反馈视频操作页面


2、加入黑名单


运营同学点击删除按钮后,该视频的 vid 就会进入视频系统的黑名单。进入黑名单的视频不仅不会得到相关视频的推荐,并且无法直接播放,访问时会直接提示已经删除。


3、模型结果和优化


当前的的评测模型每天能识别出 100 多个问题视频,经过人工确认的视频有 40-80 个,占比 70% 左右。运营同学手工确认的问题视频,后台也会收集用来优化模型。

图:每日视频处理情况的统计


最后放一张负反馈流程的全图:



欢迎给测试窝投稿或参与内容翻译工作,请邮件至editors@testwo.com。也欢迎大家通过新浪微博(@测试窝)或微信公众号(测试窝)关注我们,并与我们的编辑和其他窝友交流。
190°|1905 人阅读|0 条评论

登录 后发表评论
最新文章