虎牙直播在AI实时剪辑技术上的创新实践

7a8fdb8c469a4ccb222cd475e5cb5328.gif 点击上方“LiveVideoStack”关注我们

bad40df6abf45ce674ef807fe4e09f73.png

▲扫描图中二维码或点击阅读原文

了解音视频技术大会更多信息

1

背景介绍

虎牙平台直播内容日益丰富,不少用户会对直播中的精彩镜头更加关注,如何让用户快速甚至实时地回顾到直播中的精彩镜头成了我们关注的问题。直接的人工剪辑需要耗费大量人力,我们希望通过设计算法来自动剪辑,将好看的精彩镜头实时呈现给观众,同时精彩镜头作为直播过程中沉淀下来的优质内容,也能够在后续不同的产品形态上发挥作用。

1.1 什么是AI实时剪辑 

所谓AI实时剪辑,主要是通过AI识别技术实时分析直播视频流内容,自动捕捉直播过程中的精彩高能看点,通过一定的剪辑规则,实时剪辑出精彩视频片段入库,通过建立直播到视频的自动化生产能力,达到实时沉淀直播平台高价值内容的目的。直播过程虽然可以产生大量的录像内容,但由于直播时间长,导致直播录像中冗余内容较多,精彩看点分布比较稀疏,不足以吸引眼球,相较于短视频存在较大劣势,无法直接产生沉淀或分发价值。AI实时剪辑相当于把直播过程中的精彩内容实时沉淀为看点稠密的短视频内容,提升存量内容的价值。

00488acd28105f45d45fe920ab15c351.png

图1 直播内容实时沉淀

1.2 有哪些应用场景

剪辑片段作为平台沉淀下来的优质内容,可以直接分发推荐或者二次加工,以不同的产品形态,助力内容生产。

1)直播间推荐。实时看点内容,可满足用户实时回顾精彩看点的需求,提升用户的观看体验。如图2所示,在王者荣耀主播直播间,实时推荐主播在直播过程中展示的精彩操作或游戏内容片段,用户可以选择性地在直播间切换直播和精彩点播内容,加强了用户在直播间的内容互动。这些精彩看点的实时呈现,从平台内容生态来说,在某种程度上是对直播内容的补充,同时精彩看点产量也是对主播输出的一种隐式激励,激励主播持续产出高质量的直播内容,形成良性循环。

08d401469e5919c85815911e414369c7.png

图2 直播间实时推荐

2)二次加工内容生产。一方面,AI剪辑内容作为短视频生产的优质素材渠道,可通过二次加工做站内投放,助力视频内容生产。比如“王者TOP10”,视频后台自动将王者荣耀热门直播间中发生的Top高能片段(加转场动画)整合成视频集锦。另一方面,直播到视频的自动化生产能力,可极大提升运营类素材内容的获取效率和实时性。素材生产的流水线作业不仅提供了更加丰富的素材来源,也极大地减少了人力物力的投入,达到为平台降本增效的目的。 

2

AI剪辑技术实践

主要的实践难点和挑战来自两个方面,1)如何搭建直播到视频的自动化生产流程,2)如何实现精彩识别和剪辑算法。

2.1 直播到视频自动化生产流程

首先需要建立一套完备的直播到视频的实时生产通道,保证多品类剪辑在工程上的可扩展性。如图3所示,涉及到三个环节。1)音视频环节拉取CDN录制流并完成解码;2)AI算法,对视频流进行精彩识别分析和剪辑信息结构化生成;3)视频后台入库,基于剪辑结构化信息,调用CDN裁剪接口,生成精彩视频片段并存入至视频库。视频后台和音视频均拉取CDN录制流,保证了时间戳与视频内容的统一对齐。AI算法将剪辑与识别分离,识别能力统一分发调度,做无状态任务处理,保证识别结果简单通用。剪辑逻辑统一后置,按品类生成精彩片段和标签,统一协议输出至视频后台。生产流程可快速支持新品类上线,在协议完备的前提下,音视频和视频后台的上下游接口无需做任何变动。

030564f17bc3c00e9f0db780f6d9b425.png

图3 直播到视频自动化生产流程

2.2 多品类精彩识别与剪辑算法 

由于直播内容的差异性,精彩识别算法是分品类进行的,我们将重点介绍王者荣耀、斯诺克赛事和足球赛事。

2.2.1 游戏品类:王者荣耀

预定义精彩片段类型20多种,主要为王者游戏中的高能事件(比如三连决胜/高能团战/残血反杀等)。对于游戏直播而言,精彩片段是相对于玩家视角来讲的,只有玩家视角的内容才能体现在直播视频流中,因此,核心的挑战点是要获得玩家视角下的精彩片段。

识别阶段,识别框架融合了包括特征匹配、图像分类、目标检测、OCR在内的多种视觉技术(图4),识别出包括玩家英雄、击杀双方英雄、英雄阵营、英雄位置、播报文本等在内的多种对局基础信息。核心点在于:1)预处理模块,布局分析获取游戏区域,确保游戏画面的一致性,排除直播模板情况下非游戏区域的噪声干扰。2)技能区域分支,通过技能图标特征确定玩家英雄,过滤所有非玩家视角的事件。3)播报区域分支,通过攻防双方的英雄头像特征获得英雄类型和所属阵营,播报文本由OCR识别。4)血条检测分支,通过血条的位置和颜色可以确定英雄位置和阵营,左右颜色统计确定大致血量(满血还是残血),为场上局势提供更丰富的语义。

346f41458dc998a708f1e3f7afabf790.png

图4 王者基础识别项生产

剪辑阶段如图5所示,通过识别项的逻辑组合推导出精彩事件,同时获取事件相关联的英雄、局势、事件起止时间点等信息,比如“高能团战”事件,业务定义是“画面至少出现3V3,且5s内主播击杀”,算法则需要综合以下信息进行逻辑推导:a)画面中敌我英雄人数信息;b)击杀事件信息;c)击杀方是否为主播玩家英雄。新生产的事件会送至各自队列缓存,缓存区上可利用时序上的上下文信息确定片段起止时间点,以及进行英雄等附属标签的纠错,提升精彩事件内容的精度。

48afb456846b7556a4e81c67e470e7c6.png

图5 识别项生成精彩片段

2.2.2 体育品类:斯诺克赛事

对于斯诺克赛事,我们预定义了6种精彩事件类别,主要为斯诺克赛事中发生的不同击球和进球方式,具体包括白球进袋、扎杆、翻袋、解球、长台进球以及其他进球,这些均为斯诺克赛事专用术语,这里不再一一解释。核心目标是对这些特定类型的击球或进球片段在直播视频流中进行定位和标签识别,首先想到的是尝试通过视频分类模型来进行建模,做逐个视频片段的7分类任务(6种事件+其他类别)。但从结果上来看,在保证一定精度的前提下,直接视频分类的结果对各类精彩事件的召回非常低,原因在于斯诺克球在直播画面上的占比非常小,直接使用视频分类模型很难捕捉到不同击球或进球方式的视觉特征差异。

90b07daa34b34288be040060de86e181.png

图6 斯诺克赛事及转场动画示例

为了提升对精彩事件的召回,我们观察了各类斯诺克赛事视频,发现精彩事件通常会伴随着如图6所示的转场动画,也就是导播会对斯诺克赛事中的关键事件做一个视频回放,统计发现这种回放片段可以定位出绝大部分精彩事件。转场动画过后的视频回放过程中导播会拉近镜头与球台的距离,让整个回放画面更加聚焦在选手的击球方式和球的运行轨迹上。基于这种先验信息,我们设计了如图7所示的两阶段的算法来提升对精彩事件的召回。第一阶段,通过特征模型建立动画库,通过匹配视频片段特征来粗定位精彩事件的位置,通常由于单一赛事的动画一致性较好,动画匹配的精度较高,这一阶段相当于通过高精度的匹配方案过滤了绝大部分的非精彩事件片段;第二阶段基于动画定位结果获取回放视频片段的起止时间点,利用回放视频片段数据训练视频分类模型,为回放片段打上不同类别的细分标签。第一阶段的匹配过程过滤了大部分噪声,相当于简化了第二阶段对细分类别的识别难度。

7d96d8e02056ff3d92823c673e80847b.png

图7 两阶段精彩识别算法

通过上述两阶段识别算法可以获得回放片段的事件类别,但是如果要输出一个完整的视频内容片段,需要找到真实内容的起止时间点。我们设计了一套如图8所示的流程,通过引入镜头切分模块来保证视频内容的完整性,图示中蓝圈和红圈分别代表回放内容的起始点和结束点,蓝色三角形为镜头切分点。剪辑模块实时获取动画打点模块、细分标签模块和镜头切分模块的结果,来确定目标片段的起止点。具体来说,将回放内容的结束点作为目标片段的结束点,结合预定义的各类型片段的期望时长,按期望时长往前回溯粗定位一个起始点,比如回溯20s,然后再从20s的位置再往前找到最近的一个镜头切分点,将这个镜头切分点作为事件内容的起始点,在一定程度上保证了精彩片段内容在镜头维度的完整性。

4904415009ef9d4546a589244828c1d6.png

图8 斯诺克精彩识别与剪辑

2.2.3 体育品类:足球赛事 

对于足球赛事,我们预定义了如图9所示的17种精彩事件类型。主要识别难点包括:1)细粒度的问题:黄牌红牌,关键信息视觉区域小,颜色也容易跟球场上其他物体撞色;依靠检测费时费力费标注,也很难收集到非常多的样本;2)视觉区分度的问题:部分事件有较为复杂的判断逻辑,甚至球迷仅凭画面信息也很难分辨,需要借助更多模态的能力来识别;3)视角差异:实际赛事直播中会放置多个相机,导播会根据赛事情况进行切换,因此直播画面包括了不同视角的画面,算法需要能做到对不同视角均有较好的识别能力。

a934c9f570943c062ed32e591c6a521f.png

图9 足球赛事精彩事件17种类型

为了降低打点算法的识别难度,整个算法过程分成两个阶段:特征模型和打点模型(图10)。第一个阶段的目标是提取更好的多模态特征,第二个阶段是依赖于提取到的特征,进行打点模型的学习。特征模型阶段,使用足球赛事数据对特征模型分别进行精调,使提取出的特征更加适应到足球的场景。特征模型的选取上,充分利用差异化的预训练和架构的原则,提取尽可能丰富的多模态特征。打点模型阶段,采用三层Transformer编码器对输入的多模态特征进行时序建模,做18类的分类预测(17种事件+一种背景)。

bbbe0d614d1f9a9681aa465725a31944.png

图10 两阶段事件打点框架

除了基本的事件打点模型之外,两方面的辅助技术可进一步提升事件的准召。1)模板匹配。对于一些特殊的事件,直播画面中会在固定位置出现固定模式的展示信息。例如,黄/红牌会出现“Yellow Card”/ “Dismissal”,换人会出现特定的logo。对于前者,采用OCR技术识别特定字符,并通过模糊匹配减缓错符漏符的负面影响。对于后者,采用模板匹配技术,模板与特定位置的图像块进行互相关系数计算来确定是否匹配成功。2)语音识别(ASR)。利用足球赛事直播过程中伴随的主播解说语音,通过ASR技术,将语音信号转化为文本,通过设置事件关键词列表来进行匹配,得到基于ASR技术的事件打点结果。例如,对于“解围”事件,采用关键词“解围”、“成功破坏”、“防守成功”等关键词来进行匹配。图11展示了上述打点模型和辅助技术的融合,针对不同事件,使用不同的融合方案。拿到精彩事件的打点结果之后,为保证剪辑片段的完整性,同样采用类似斯诺克赛事的剪辑方案,结合镜头切分和各类型片段的期望时长来确定最终剪辑片段起止时间点,这里不再赘述。

6679847f01d566b22e8b41e695599cd0.png

图11 辅助技术融合

3

总结展望

基于虎牙在实时内容创作技术领域的持续创新,AI剪辑实现了直播内容的二次创作,已累计沉淀了数百万的原始视频素材。未来考虑从两个方面去拓宽AI剪辑的业务影响,一方面,我们可以将成熟的AI剪辑能力开放给主播,将原本PGC工具以某种低成本的方式延伸至UGC,提升平台主播的创作效率和积极性,加强平台内容的丰富度。另一方面,我们希望补齐短视频自动化加工能力,包括自动生成标题和自动配乐等,通过自动化剪辑和加工能力整合形成AIGC短视频内容生产闭环,在未来的内容生产上发挥更大的价值。


3e912aa9731d72643cf6f6fcfacfc768.png

喜欢我们的内容就点个“在看”吧!dea752a0327a01149d73581c7c0b9b9b.gif

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码

)">
< <上一篇
下一篇>>