-->
为五月的纽约流媒体保留座位吧. 现在注册!

实现视频和音频的零延迟是一个零和游戏

文章特色图片

作为一个行业, 我们提出了很多理由,为什么视频不能以及时的方式和未压缩的质量交付.

其中很多都是合理的, 以网络容量或间歇性为中心的, 向外扩展低延迟解决方案的成本, 甚至是现有处理器在实时处理4K超高清或高动态范围(HDR)内容方面的限制.

但从根本上说,这个问题比上述任何问题都要深刻, 再看看编解码器本身,以及围绕可扩展流媒体视频出现的包装和分割, 这两种方法都会增加固有的延迟. 自从HDS、HLS甚至DASH出现以来,我们中的一些人一直在抱怨这些延迟. 向OTT直播的转变带来了这些延迟或同步性, 正如一位业内同事在2019年东流媒体大会上提到的那样,延迟问题成为最重要的问题.

以更好地解决流媒体的延迟, 让我们利用这篇文章来探索如何将视频和音频传递给玩家, 现在肯定得去那里(套用曾经流行的联邦快递口号).

这不是一个理论练习, 这一点可以从InfoComm等展会上的对话中得到证明, 公司和礼拜堂都希望在本地(通过使用图像放大, 或IMAG),绝对没有延迟和远程(跨校园或远程学习的学生). 这些知识渊博的用户, 出于操作复杂性和成本效益的原因, 不想部署两个解决方案, 一个用于本地传递的零延迟,一个用于期望与演示者及其本地观众交互的远程用户的极低延迟.

编解码器是否可用?

在零延迟本地交付用例中, 标准的分段打包流方法失败得很惨, 但问题早在包装步骤之前就开始了, 流媒体的核心:编码器.

这不仅仅是编码器的问题, 虽然, 随着时间的推移,它们中的许多已经被优化以压缩我们的行业标准编解码器. 问题的主要部分在于编解码器本身, 以及零延迟编码和传输的总体缺陷.

关于直播编码和交付的讨论通常包括一个经典的三脚凳插图, 或者我们的一位受访者在本文中所说的决策“编解码器三角”. 三条“腿”或三角形“边”必须保持平衡,才能使流解决方案发挥作用. 这三个方面是速度、质量和带宽. 有些人用“成本”来代替“带宽”,,但两者都强调这样一个事实:带宽越高, 消费者和企业的消费成本越高.

大规模的流式传输是以节省带宽为前提的. 像这样, 对于点播内容, 重点放在速度和质量的交叉点上,以保持带宽. 在最低的带宽下保持最好的质量, 视频点播编码器被允许花费比资产长度更多的时间.g., 2小时来编码一个1小时的视频文件)在给定的带宽和给定的编解码器下创建一个看起来最好的最终产品.

在这个编解码器三角形中说明了质量、延迟和带宽的竞争需求. 而HEVC降低了带宽, 这样做的代价是质量和延迟, 因此,大多数零帧延迟解决方案都选择更高带宽的帧内(i帧)选项,如基于标准的Motion JPEG或SDVoE中专用的压缩编解码器. (图片由SDVoE联盟提供.)

在有限的带宽上实现高质量, 流媒体行业大量使用帧间压缩, 其中一组图片(GoP)被聚合在一起并随时间压缩, 只有GoP中相邻图像之间的差异被编码. These less-than-total-image frames are referred to as P or B frames; the initial frame in every GoP is called a keyframe or I-frame.

几乎所有的帧间压缩解决方案,包括H.264 (AVC)和H.265 (HEVC),使用IPB方法,在节省带宽方面的结果令人印象深刻. 在很多情况下, 使用P和B帧, 与仅使用i帧的方法相比,在30-60帧的单个GoP中可以节省70%以上的聚合带宽.

然而对于直播交付来说, 使用P和B框架有可能造成重大破坏. 回到三脚凳,重点转移到及时编码和传递. 在直播场景中,速度是最重要的,质量和带宽是次要的.

事实上, 为了在零延迟下实现真正的实时编码(我们稍后会定义这个术语),计时窗口非常短:在摄像机上以60帧/秒的速度拍摄实时内容.g.(1080p60或4K60)要求每0压缩一个帧并传送一个帧.016秒,或每16毫秒(ms).

这还不是故事的全部:虽然每16毫秒必须显示一个帧, 传播过程也需要时间, 包装过程也是如此, 将编码的视频移动到以太网数据包中,以便通过IP网络传输. 这意味着一帧视频的编码通常必须在传送的一半时间内完成.e.如果视频要以零延迟传输,大约在8毫秒范围内).

这将我们带回到帧间流媒体视频的致命弱点:P帧和B帧. 因为编码器需要在GoP内比较多个帧以节省带宽, 使用这些P或B帧会增加额外的延迟.

那么,如何平衡速度、质量和带宽(成本)呢?? 去思考可能会发生什么, 让我们首先检查一个可能需要零延迟的典型用例.

“零延迟”

在现场直播环境中,任何延迟都足以引起视觉不适. 我们可能都经历过这种视觉上的不适,在某些情况下,演讲者可能就在观众面前, 同时也被投影到同一个房间的大屏幕上.

如果演讲者举手, 编码器甚至需要十几个或更多的额外帧来编码, 结果将是密西西比一票, 她的动作和投影屏幕上出现的画面之间有两个密西西比的延迟.

更糟糕的是, 如果演示者使用的是投影在大屏幕上的电脑, 如果演示者试图在大屏幕上使用电脑鼠标进行交互,则会在大约三帧的延迟时间内出现视觉不适.

所以如果这让当地的观众和主持人感到不安, 为什么要使用压缩呢?

这是视听(AV)行业在过去十年中提出的观点,因为它试图达到技术进步允许视频信号在IP上以零延迟发送的程度. 对零延迟的需求也是几乎所有IMAG解决方案都安装在大型演讲厅里的原因, 体育场馆, 音乐场所仍然主要使用非包装音乐, 点对点的解决方案.

AV行业和流媒体行业都使用“延迟”一词来描述延迟. 但流媒体行业用“低延迟”或“超低延迟”来形容, 分别, 最多延迟5秒,最多延迟1秒, AV行业一开始就提出了一个更大胆的主张:零延迟.

像SDVoE这样的AV-over-IP解决方案允许同步视频数据的多播传输, 它可以与基于硬件的窗口和缩放单元结合使用,以创建跨多个同类高清电视的单个大型视频图像的效果. 不像传统的视频墙缩放, AV-over-IP解决方案除了端点缩放器外,不需要昂贵的矩阵开关. (图片由SDVoE联盟提供.)

在某些方面, 这种“零延迟”的参考是必要的, 作为多输入多, 多输出视频开关-称为矩阵开关, 虽然有点类似于老式的电话交换机,但能够将输入矩阵传递到一个或多个输出, 配置多达128个同时输出, 延迟率小于1毫秒.

切换交换机

这些点对点解决方案最早出现在20世纪90年代,当时使用的是五线RGBHV电缆,该电缆可以单独传输三种颜色(红色), 绿色, 蓝色)和两种图像同步类型(水平和垂直同步). 电缆很贵(每英尺几美元), 终端是笨拙的BNC连接器. 即使是一个简单的16输入, 16输出(16x16)矩阵开关将需要160个BNC连接器, 这些设备的配置范围达到128x128(很容易达到标准冰箱的大小),可以容纳1台以上的冰箱,250个单独的BNC连接器.

这些RGBHV(以及随后的HDMI)矩阵交换机的好处是,交错的内容可以通过电缆在绝对没有延迟的情况下复制. 在本质上, 矩阵开关只是一个非常昂贵的信号增强器和分配放大器的组合,它位于一根长视频电缆的中间,可以用来将信号发送到100英尺的地方,而不会出现信号衰减.

这里有一个简短的旁注:从RGBHV到HDMI电缆的切换增加了一点扭曲, 因为HDMI内容主要是渐进格式(帧作为单个图像呈现)而不是交错格式(图像是一系列交错的奇偶线). 虽然HDMI可以支持1080i和1080p,但RGBHV布线只能支持1080i. 对渐进式内容的权衡(例如.g., 720p, 1080p, 2160p)意味着术语需要从零延迟转变为零帧延迟. 而一些解决方案仍然声称零延迟, 任何渐进式内容都需要传输整帧而不是帧的一部分.

一旦信号需要转移到演讲厅之外, 虽然, 甚至标准的RGBHV或HDMI视频电缆也不起作用——在某些情况下, 比如100多英尺的HDMI线, 不存在——所以需要一个新的解决方案. 几年前, 交付形式从端点到矩阵由昂贵转变而来, 专用视频布线到成本更低的结构化布线. 通常, 这些都很便宜, 非屏蔽四对Cat5e或Cat6线缆,端接RJ-45或以太网连接器(或非屏蔽双绞线), 或UTP)能够提供基带视频信号高达100米(米)或330英尺.

在视频矩阵上切换到UTP输入和输出允许AV集成商在建筑物中使用现有的铜Cat5e和Cat6布线, 即使电缆没有传输IP信号, 但即使是铜线也被限制在100米的传输距离内. 这种使用UTP布线, 虽然, 开启了从多个教室收集视频到集中矩阵开关的可能性. 然而,基本前提保持不变:点对点输入和输出到非ip视频矩阵交换机.

作为IT专业人士,向UTP的转变导致了一些有意的营销混乱(如AV-over-Cat5或HDBaseT), 查看布线, 可能会认为这是标准的基于ip的视频传输. 这种混乱也导致了几年的意外事故, 例如,当AV-overCat5e电缆具有非标准电源引脚时,通常会发生这种情况, 与传统的以太网供电(PoE)引脚相比,是无意中插入的, 最终炸开, it部门的以太网交换机.

“HDBaseT不是满足流媒体需求的解决方案,”中兴总裁保罗•舒(Paul Shu)表示 , 一家为医疗保健行业生产工业计算解决方案的公司, 热情好客, 以及其他关键任务垂直市场. “HDBaseT旨在解决一些专业AV应用程序遇到的距离挑战, 这是一种超越HDMI的解决方案.”

贾斯丁·肯宁顿,美国 软件定义以太网视频(SDVoE)联盟, 解释了这些RGBHV电缆对子帧交付时间的期望是多么严格, 晚些时候, 第5e类或第6类的结构化布线:“我们不能让行业脱离舒适, 熟悉的矩阵开关,直到有技术可以真正复制它的性能.肯宁顿说, “HDBaseT矩阵交换机在几十微秒内(传送视频), 远低于人类感知的门槛.”

SDVoE的零帧延迟编码器可以缩小输入的视频图像, 允许多个编码器的视频图像出现在一个屏幕上. 称为多视图合成, 这种多对一显示方案利用以太网传输来消除对昂贵的矩阵交换机的需要. (图片由SDVoE联盟提供.)

AV产业正在尝试, 这是十年来第三次了, 将矩阵交换机更换为以太网交换机. 根据肯宁顿的说法, 财务状况将推动这一举措——他估计一台48端口10G以太网交换机的成本约为5美元,而48x48视频矩阵开关的价格约为59美元,000 -只要基于ip的技术能够满足UTP或HDMI布线相同的零帧要求.

FPGA拯救世界

这是AV行业关注的解决方案之一, 至少3年之后,流媒体行业才会开始考虑它的好处, 是使用现场可编程门阵列(FPGA)提供大规模并行编码. AptoVision, 一家专门从事FPGA和以太网物理组件(网络和芯片制造术语中的“物理”)封装的公司。, 开发了编码技术,现在在AV市场上被称为SDVoE.

流媒体覆盖
免费的
合资格订户
现在就订阅 最新一期 过去的问题
相关文章

对速度的需求:对低延迟流媒体的需求很高

低延迟视频流媒体是每个人的心头好, 但是找出项目所需的延迟——以及如何获得它——可能是一个缓慢的过程. 让这篇文章成为你的指南.

流媒体视频延迟:当前情况

NGCodec首席执行官、创始人 & 总裁Oliver Gunasekara在2019年流媒体东部的直播峰会小组中分析了低延迟的分发情况.

2019年WebRTC和低延迟流媒体的现状

它还不是一个标准,但这可能会改变. 以下是对WebRTC状态的详细介绍, 这个项目最终可以大规模地提供即时视频流.

Akamai宣布支持超低延迟CMAF

将HTTP自适应流媒体视频的延迟减少到3秒或更少是可能的, 但这需要一个复杂的工作流程.

微软加入SRT联盟推广低延迟解决方案

在微软的支持下,海视科技希望在全球范围内扩大对该标准的支持. SRT联盟现在有140多个成员公司.