我们已经准备好了,你呢?

2024我们与您携手共赢,为您的企业形象保驾护航!

腾讯云视频点播_腾讯云视频点播服务_腾讯云视频点播接入教程

受访对象|张献国

策划、编辑 |

再次见到张先国时,他依然停留在我们之前采访的印象中,每当谈及科技圈的话题时,他总是滔滔不绝。

近日,Pro的发布点燃了新时代空间计算的热潮。作为腾讯云架构平台部香农实验室(以下简称香农实验室)技术负责人,张先国与我们分享了香农实验室在视频编解码和空间媒体处理能力方面的最新进展和布局。

“在空间媒体处理方面,香农实验室是业内最早布局空间视频8KHDR、MV-HEVC等编码能力的公司之一。”张先国介绍,例如早在Pro发布之前,香农实验室就已经针对广电大屏领域,采用软件编码的方式,搭建了一套8K、HDR、422格式、高压缩比码率传输的实时转码系统。在相关项目招标中,腾讯云是唯一一家能够基于这套系统满足转码客观质量指标的公司。

同样,早在苹果公开支持之前,香农实验室就在探索MV-HEVC硬件编码在裸眼3D系统中的使用体验,各类实验结果表明,在关键帧间隔较大的互联网应用中,MV-HEVC可以进一步节省20%的3D视频传输带宽。

张先国从事视频编码行业十余年,他指出,视频编码领域最吸引他的一点是,这是一个不断追求完美的领域,有非常完善的评价体系,连一个小小的优化都能看得出来;其次,它与每个人的生活息息相关,做好视频编码能给大家带来实实在在的体验提升。

对于张先国来说,视频编码一直是一个可以充分追求技术和工作价值的领域。

在腾讯的这些年,张先国对技术的理解也在发生变化,最初张先国认为,做技术,就要做行业的领头羊。

但如今,随着技术研发与业务部门的深度融合,张先国开始意识到,技术发展的正确方向,绝非单方面追求“行业顶尖”。

“在比赛中夺得第一是一个维度,能帮助业务解决问题是另一个维度。”张先国说,技术能否找到业务真正的痛点,是张先国和整个团队最关心、最重要的问题。

正如张先国所说:“不要绑定业务,要解决痛点。”

以下是我们近期与张先国的精彩对话,应受访者要求进行了编辑和剪辑:

腾讯云视频点播服务_腾讯云视频点播接入教程_腾讯云视频点播

01

实现进展和现状

:我非常关注香农实验室的最新动态,无论是团队还是腾讯自研编解码器的进展,比如腾讯V265最近的进展,能否和我们介绍一下?如果关注最新动态,能否和我们讲讲背后团队做出的努力?

张先国:香农实验室从 2017 年起就与兄弟团队合作主导研发了 V265 服务端与终端编码、TXAV1 编解码器、HEVC 沧海芯片等,支撑了腾讯云 MPS 点播、直播、RTC 等业务的快速发展。近期,香农实验室在解决后面提到的五大技术难点上也取得了一些进展:

超高清方面,腾讯V265/TXAV1已支持8K@10bit@422@级别1U服务器端实时转码;在满足低延时实时直播需求的同时,压缩率仍可保持较x265低10%;在超真实3D应用方面,腾讯V265首次支持Pro级硬解MV-HEVC编码,相比双视点独立编码可节省20%以上码率;

超低时延方面,我们通过优化沧海芯片的码率控制,实现了高质量的零延迟转码,提升云游戏等对时延要求较高的场景的体验;

在超实时交互方面,香农实验室研发了高性能高压缩的终端编码软件,可以满足各类终端RTC应用的实时性要求,同时节省25%以上的码率;

在超高压缩率方面,我们不仅继续优化V265/TXAV1和沧海的压缩率,还针对视频和图片的长期存储开发了私有格式TVC,希望通过无损压缩或者浅压缩的方式,节省海量视频存储成本,也可以用在其他需要高压缩率,又能接受软件解码的业务场景。

问:今年上半年您和您的团队将把更多的精力和注意力放在哪些方面?例如编码器的实现?

张先国:我们的工作重点分为两个方向,一个是业务实现,一个是新技术规划。

今年团队的第一大重点确实是编码器的落地,包括在公司内部和外部业务中推广新一代的 TXAV1 视频和图片编解码器,以及在各类 SDK 云销售场景中实现 V265 编码,满足业务直播、点播、RTC 能力。后者还不错,因为 H.265 生态很健全,只要需求明确,通过团队成员的协作贡献,是可以按时完成的。TXAV1 业务落地还需要更多的投入。

问:接下来我想请您谈谈TXAV1的实施情况以及最近您关注的新技术。

张先国:第一个要求就是压缩率,相较于用户升级到的265编码,TXAV1在各个场景下都要有明显的压缩率节省,尤其是在直播场景下。香农实验室经过一年多的加速,才让TXAV1在直播能力上超越V265。在远高于MSU比赛30fps要求的实际直播场景下,TXAV1相较V265也能实现10%的码率节省。

第二是编解码生态,我们欣喜地看到AV1的解码份额正在快速提升,2021年以后出货的MTK大部分芯片、2023年发布的高通旗舰芯片、2022年以后的三星旗舰芯片都已经支持AV1硬件解码,浏览器内核对AV1图片和视频的软解码系统支持也已经全面铺开。

但目前比较现实的是,系统原生的软件解码能力还不完善,iOS也只能支持AV1实时工具下的视频软件解码,因此需要我们在编解码器协同优化上投入更多,提供解码速度更快、CPU消耗更低的软件解码库,TXAV1在线播放覆盖率越高,客户升级的动力就越大。

经过长期努力,TXAV1解码已经达到媲美265软件解码的性能,并通过与播放器APP协同优化,支持多个播放核心的流畅播放。近半年来,已有十多家企业通过腾讯云MPS接入了我们自研的AV1视频和AVIF图片编解码器,我们还在继续努力。

另外,当前行业的新趋势,以Pro为代表的空间多媒体处理与视频编码技术的结合,也是我们正在逐步探索的方向。

腾讯云视频点播接入教程_腾讯云视频点播_腾讯云视频点播服务

: 到目前为止,您和您的团队发现需要解决哪些技术难题?目前正在尝试解决哪些技术难题?

张先国:从编解码的角度来说,我们其实一直在研究这五个技术目标——超高清、超真实、超低延时、超实时交互、超高压缩率。

广电、VR等超高清业务需要自研的服务端编码器具备8K+HDR+高码率+非分布式服务器实时+高压缩率的实时低延时编码能力。在压缩广电视频源时,将卫星信息实时高质量压缩为低损视频源,供互联网分发。在VR 4k/8k直播时,编码器要保证在网络可承受的10-40m码率范​​围内,视频质量依然高保真。

3D视频等现实应用需要自研编码器支持MV-HEVC/3D-HEVC/等现实扩展格式,并具备声音和高压缩编码能力,以及声音转码链路。

云游戏、RTC等超低时延业务需要自研编码芯片具备低时延、高并发和高压缩率码控能力,要求自研RTC终端编码器具备更高清晰度的实时能力、更高压缩率的格式支持和高级码率控制能力。

长短视频的大容量、高压缩点播应用,需要能够支持高压缩感知编码能力的处理和编码方案结合,要求编码芯片兼具低成本和高压缩的特性,同时也需要提前研究商用编码器的容量极限并在闭环编解码业务中使用自研编解码器来实现更高的压缩率。

这些技术需要有充足的技术准备才能大规模部署新的应用,这对编码团队的研发提出了很大的挑战。我们的重点也是提高这些场景的商业化能力。

:在当前的行业背景下,编码解码团队的发展路径和思路是怎样的?

张先国:我们会从以下三个角度继续为团队发展注入动力。

首先,要长期坚持、分组协作、夯实基础:我们会共同努力夯实各标准的编码基础,按照不同的研究方向通过小组协作兼顾多个优化目标,并在行业竞争和业务打磨中总结对基础编码能力的经验和反馈。

其次,紧跟业务的定制化优化:编解码如今已经进入到不再单纯基于大测试集客观结果评价编码器的阶段,而是进入基于多个垂直领域的主客观因素评价视频处理能力的阶段。因此,编码团队需要具备处理编码协同能力、围绕编码器的CAE能力、以及针对主观评价指标的定制化优化能力,并细分典型垂直场景如屏幕分享、带货直播、游戏、新闻短视频等内容进行定制化的主客观优化。

三是与其他技术形成协同,打造口碑产品:要形成竞争优势,充分发挥编解码器的能力,需要综合考虑端到端系统、安全服务、传输加速和画质增强等。以3D视频服务为例,整个3D逼真内容处理包括画质增强、视差生成、HDR色彩校正、直播点播转码优化、3D编码码率控制及标准支持、解码渲染等复杂环节。这些环节相互依存,无法孤立存在。

随着行业竞争加剧,包括空间计算在内的音视频新业务机会开始涌现,腾讯云将整合包括香农实验室编解码在内的各类媒体处理能力,提供腾讯一站式边缘安全加速服务等高性能解决方案,从而赋能整个行业。在整体难以销售的海外市场,编解码团队将结合腾讯云MPS SDK的组件授权服务,扩大营收,摆脱内部竞争。市场规模越大,技术优化和人才吸引的空间就越大。

02

“不明智”的船长也需要带领船员看到希望

:我相信今年你们团队对腾讯内部事业群团队做出了新的目标和规划,以继续巩固腾讯云自研编解码器在业界的领先地位。如果把目标分解开来,具体是什么?

张先国:上面说的五大优化目标可能有点大,具体来说主要包括:V265/TXAV1编码在公有云点播、私有SDK等领域的持续优化,V265/TXAV1在各类直播垂直场景的深度优化,沧海芯片在云游戏、直播等领域的规模落地,8K\3D等扩展场景的技术储备,下一代私有格式编解码复杂度的优化,在更高清晰度、AV1等新编码格式方面的终端编码能力拓展。

: 到目前为止,您认为香农实验室在视频编码优化方面还有多少工作要做?最优的视频压缩标准是否已经实现?

张先国:其实还有很长的路要走。首先,现有的标准服务器和终端编码软件V265/TXAV1的压缩率一直在不断提升。以TXAV1为例,虽然AV1在直播业务上已经全面领先于V265,但还有提升的空间;另外在终端软件编码上还需要对AV1进行长期的优化,充分发挥AV1标准在压缩率、屏幕视频编码、可变分辨率预测等功能上的优势。

其次,我们仍在致力于下一代编码芯片产品的协同开发:在新产品上,我们会进一步增强HEVC能力,同时加大投入支持下一代AV1、VVC标准和各类VPU能力,以支持更高的压缩率和定制化的、丰富的多媒体转码服务。

以我们最新披露的TVC私有编码格式为例,私有格式的应用场景比较有限,整个解码复杂度必须在可控范围内,因此TVC在解码端并没有采用高消耗的智能编码工具,在迭代过程中极其关注软件解码复杂度。TVC充分吸收了团队六年来在V265、TXAV1研发中的成功经验,在充分调研MPEG、AOM等最新标准组织新技术的基础上,吸收了智能编码、浅层压缩等新标准的低解码消耗优化经验,基于软件解码复杂度而非硬件解码复杂度设计了优化工具,实现了编码压缩率和软件编解码复杂度的平衡。虽然目前该格式的理论复杂度控制在AV1标准的两倍以内,但软件解码的优化还需要时间,编码压缩率还有很大的提升空间,距离正式商用还很遥远。

:针对“超高清、超真实3D、超低延时、超真实交互、超高压缩率”这五大目标,香农实验室是否有一套研究路径或者通过实践总结出来的方法论?

张先国:其实不同的团队在追求这五个技术目标上有不同的路线。由于香农实验室是隐藏在各大业务团队背后的团队,所以技术路线会更加长远。我们会尽量提前做好准备,打好基础,再接受业务的磨练和优化。

因此对于每一代标准,我们普遍以超高压缩率为目标,优化离线编码场景的压缩率,加强离线编码下的多线程设计、汇编、数据结构访问、码率控制、预解析处理以及高性价比的快速算法;然后,在离线编码基础上,通过快速算法迭代、实时编码架构兼容、并行架构优化、工具添加等方式,支持同一套代码下的实时编码,并延伸到8K\HDR\屏幕视频压缩\3D编码等超高清、超逼真的实时场景;

同样基于离线编码,我们将构建编码芯片的算法原型,包括定义芯片规范和流水线架构、重新设计硬件快速算法、基于硬件的预分析处理和码率控制实现等,以达到压缩率和芯片能力之间的平衡。

在实时编码的基础上,我们会选择合适的时机启动终端编码。由于终端编码所需的复杂度远高于服务端编码,我们会建立新的代码仓库,精简服务端编码中不必要的功能,重构数据结构。在支持终端编码新需求的同时,我们会小步迭代,实现数倍加速,最终实现终端设备的高覆盖。

经过这样的实践,大概三年左右的时间,我们就可以完成对一个新标准从离线编码、实时编码到芯片编码、终端编码所有场景的全面支持。但支持只是一个方面,要实现行业的领先,还需要不断完善这些编码器的转速档位、码率控制、数据结构等,实现压缩率、速度、能力支持等方面的持续提升。

:你们团队的研究灵感来自哪里?动机是什么?

张先国:团队的研发分为新领域研究和业务技术优化两个方面,在新领域研究层面,学术文献一直是重要的灵感来源。

在业务技术优化方面,实验分析和团队内部的交流是我们主要的灵感来源。通过在代码中加入大量的测试分析逻辑,我们可以根据这些实验数据不断产生新的思路和方法,最终在实施过程中明辨真伪。此外,业务发展需求、行业峰会等也会给我们很多启发,这也是我们每年参加 MSU 和 的原因。通过这些方法,我们可以一窥豹子之长,及时发现新的技术方向,实施并突破。

Lab 从成立至今,团队特别稳定,最主要的是因为大家有同一个核心动力和集体荣誉——提供业界领先的视频编解码服务,有了这个动力,大家才能齐心协力做好几类编解码服务。

腾讯云视频点播接入教程_腾讯云视频点播服务_腾讯云视频点播

香农实验室团队成员

:苹果i7 Pro的推出,标志着空间计算新时代的正式到来,相信苹果的影响也启发了您的思考,那么您认为香农实验室到现在还需要积累哪些空间媒体处理能力呢?

张先国:我相信我们团队在空间媒体处理方面,对空间视频8KHDR、MV-HEVC等编码能力已经做了前期的准备。

比如8K极速高清实时编码能力。早在Pro发布之前,我们就已经面向广电超大屏领域,采用软件编码的方式,搭建了8K、HDR、422格式、高压缩率码率传输的实时转码系统。该系统仅使用一台1U服务器搭建,没有采用基于多台服务器的分布式转码,保证了转码系统的低转码时延和低部署成本。在相关项目招标中,腾讯云也是唯一一家能够基于此系统满足转码客观质量指标的公司。随着空间计算的到来,该系统将有更广阔的应用空间,我们也会根据具体的空间计算能力需求,对8K极速高清产品能力进行优化,以适应更多的业务。

再比如对MV-HEVC编码的支持,Pro对MV-HEVC解码的支持其实是硬解码,理论上只要在芯片层支持参考帧替换就可以完成MV-HEVC码流的解码,这就是MV-HEVC标准设计的巧妙之处。

早在苹果公开支持MV-HEVC硬件解码之前,香农实验室就在裸眼3D系统中探索MV-HEVC软件编解码的支持,旨在提升裸眼3D会议体验。随着空间的出现,我们及时在基于V265的服务端转码系统中加入了MV-HEVC的支持,进一步满足3D视频内容点播和直播的需求。实验结果表明,在关键帧间隔较大的互联网应用中,MV-HEVC可以进一步节省20%的3D视频传输带宽。接下来,我们会从码率控制、率失真优化等多个角度对这些核心能力进行优化。

还在致力于空间视频生成和处理能力的研究,比如对输入的 8K 视频进行修复和画质提升,对 3D 立体视频进行视觉校正等。这些对空间视频的高质量处理不仅对最终的画质呈现有益,也与最终的编码压缩率息息相关。我们还需要继续学习,补齐短板。

腾讯云视频点播接入教程_腾讯云视频点播_腾讯云视频点播服务

03

演进升级

Q:您如何看待视频编码技术在应用场景上的演进?比如浅层压缩?

张先国:总体上,我们要相信视频编码技术的应用场景一定会朝着更高清晰度、更强真实感、更低时延、更实时交互、更低码率的方向发展,但过程中会有一些曲折。比如从去年降本增效开始,很多业务都降低了视频的传输分辨率。这不仅涉及到低分辨率高清晰度的技术优化,也涉及到每个业务的成本节约考量。

但根本原因是移动设备上现有的视频应用中,并没有明显的8K/3D应用需求。从广播、互联网电视、长视频APP到短视频,视频应用经历了几个阶段,而应用的演进必然伴随着终端设备和通信技术的变革。如果空间计算设备能够出现,相信还会有新的应用场景,这五个方向对视频编码技术都会提出更高的要求。

其次,浅层压缩其实也是细分化的表现,在大部分标准都在追求通用码率段内更高的压缩率、更高的画质的同时,浅层压缩却提出单独针对高保真画质区间进行压缩率优化。因此,针对垂直领域、特定分辨率、画质区间优化的研究也是视频编码技术的重要发展方向。

:您如何预测从图像编码到视频编码的端到端 AI 编码和解码的未来?

张先国:香农实验室从2020年起也在做一些端到端的编码研究,在GPU能力的支持下,我们早在2021年就构建了超低码率的“非保真”AI人脸视频编解码原型,支持720p,码率是传统编码的1/10。

最近香农实验室还开发了多摄像头裸眼3D会议直播编码,给用户超逼真的会议体验。再比如我们的私有编解码器TVC,也是应用低复杂度AI能力的端到端编码,满足公司闭环视频和图片存储成本节省的需求。这些都是端到端AI编码的一些应用方向,在新产品应用中无疑有很多可能性。

腾讯云视频点播_腾讯云视频点播服务_腾讯云视频点播接入教程

但我们要意识到,端到端的AI编解码其实有一个基本前提——端到端的算力。如果要做基于AI的端到端视音频编码,必须进行细致、细致的场景评估。在终端解码能力有限、生态尚未闭环的体系下,传统非端到端编码具有算力消耗低、设备兼容性强的优势,依然是我们应该重点推进的方向。

:是否有可能创建一个革命性的视频编码框架?

张先国:没有什么是不可能的,我认为革命性的视频编码最先突破会在某个特定的领域,比如基于专用设备的会议场景,或者可以用于高帧率监控的脉冲视频编码。

必须看到视频场景复杂多变,现有的视频编码框架既衍生出基于卫星信号、机顶盒、电视等设备的广播视频1.0版本,也适用于终端能力受限、基于低带宽桌面网络的长视频点播的2.0版本,以及基于移动终端、4G及更高带宽的直播、短视频的3.0版本。

但在接下来的4.0时代,新的设备和网络能力、新的视频拍摄和显示条件可能会刺激新的编码框架的诞生,脉冲相机、VR头戴设备、点云视频等都可能是诱因。

:随着人工智能技术日趋成熟,未来音视频技术将会如何发展?

张先国:很明显,人工智能的发展必将推动音视频技术从行业应用到优化技术等各个维度的提升。人工智能技术的发展将大幅提升视频业务的体量,推动更多音视频应用的诞生。比如AIGC能力的提升将催生更多自媒体内容,大模型能力的提升将推动自动驾驶、机器视觉、人机交互等视频相关应用的发展。

我不敢妄谈整个音视频技术的发展方向,但至少在编解码领域,更多的视频带宽、更多的视频应用肯定会对视频编解码、处理效率提出更高的要求。另外,编码的信息将不仅限于视频纹理,还会包括视频深度信息、空间信息、特征信息等,这些信息也会与视频纹理相结合,在追求更高压缩率的同时,也追求更高的真实感。

需要压缩的视频数量会越来越多,需要压缩的单个视频信息量也会越来越大,这必将给我们从业者带来新的机会。

04

仍然对科技充满敬畏

Q:您从事视频编码研发多少年了?对现在的工作满意吗?

张先国:从2007年进入研究生院到现在已经17年了,不能说很满足,但庆幸自己从未懈怠,坚持在这个领域十余年。目前在香农实验室我能找到几十位志同道合的同学,都在视频编解码领域不断努力,在取得一定成果的同时,还能和业界的同事们一起把中国的商用编码器能力优化到国际领先水平。短短几十年人生,能不负青春,在工作中造福行业,也值得学校、老师和前辈们的栽培。

Q:在腾讯的职业生涯中,从工作本身来说,您觉得最有成就感的事情是什么?

Zhang :如果我要指出一件事,我认为我们不仅要在技术领域领先,而且要追求技术的受益者,这不仅是腾讯和云客户。 Enses,改善各种主观体验,包括流利性和图像质量,并在日常生活的各个方面保存公司的运营成本,例如在线教育,视频会议以及电影和电视娱乐活动。

腾讯云视频点播服务_腾讯云视频点播接入教程_腾讯云视频点播

问:您的团队招募人才的标准是什么?

Zhang :智慧,责任感是校园招聘的三个主要要求,而不是在学校中所学的知识。

我不敢说需要什么能力才能参与整个音频和视频技术,而是要建立一个领先的编码团队,对于从社会和团队成员招募的学生是有必要的,他们接受了两到三年的培训,以在一个或多个方面具有出色的特征标准工具,非标准压缩率改进算法,编解码器芯片架构设计,编解码器芯片实施,解码器设计和优化,终端编程开发能力,业务和转码系统构建功能,质量评估和主观优化技术以及机器学习工具的灵活应用。

:如果您有另一个机会,您还会选择这个专业吗?

Zhang :专业和行业通常会选择不同的行业,例如计算机,生物制药,电池技术等,但是当涉及到大专业时,这通常是我选择您在视频编码和解码方面的专业人士,这是我在专业界的兴奋剂。因此,当我进入2006年初的大三时进行研究时,我选择了建筑实验室,这是中国从事自我开发的CPU芯片的早期团队,因为CPU芯片中的多媒体过程也是偶然的组成部分,我的第一个项目是一个重要的组成部分。

当我发现我更适合这个后端细节优化的技术方向时,我决心巩固自己的基础,并加入了由北京大学的院士Gao Wen建立的数字视频编解码器,成为Gao教授的第一位专业人士,我相信您是否有足够的机会。有责任,学习能力和辛勤工作的机会。

在讨论结束时,张对非专业领域的“技术爆炸”深深地感动了。短暂,有必要投资积累更多的新技术,以继续保持领先地位。

同时,他以这句话结尾:

“技术通常是瞬间的突破,因此我们必须始终对技术敬畏,并给予足够的关注我们的竞争对手。”

嗨,LVS最近重新考虑了未来的原始内容列,我们希望发现多媒体生态学,痛点以及如何通过此专栏促进行业的持续繁荣和发展的新变化,并将产生更多原始的在深入的报告文章。

如果您对多媒体行业感到好奇,或者在行业发展的前线工作,并愿意分享您的见解和想法,尤其是如果您有线索或寻求覆盖范围,请与作者联系。

电子邮件:

二维码
扫一扫在手机端查看

本文链接:https://by928.com/2931.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线