降维的语义通信和升维的生成式AI,是拯救运营商管道的良药吗?

您所在的位置:网站首页 运营商的前景如何 降维的语义通信和升维的生成式AI,是拯救运营商管道的良药吗?

降维的语义通信和升维的生成式AI,是拯救运营商管道的良药吗?

2024-07-13 13:24| 来源: 网络整理| 查看: 265

当摩尔定律逐渐失效时,在供给侧如何高效撑大管道?当杀手级应用迟迟无法到来时,在需求侧如何高效填充管道?本文分析探讨了语义通信和生产式AI对运营商管道的可能影响。

自从通信成为一个行业以来,这个领域的所有研究大概就聚焦在一个点:如何准确地、有效地将信息从发送端传递到接收端。香农把这种信息熵的传输定义为语法通信,而随着编码技术的发展,系统传输容量逐渐逼近极限,接下来行业还要怎么发展?实际上通信还有另外一个层次,叫语义通信(依然是香农老先生,和另外一个科学家韦弗定义的)。区别于传统语法通信将熵(或信息)的准确传输作为目标,语义通信可以忽略熵交互的正确性,而力求实现语义信息的准确交互。似乎在不需要革命性提升硬件能力的情况下,仅通过软的能力提升,就能把运营商网络容量成倍提升。那么语义通信是否是做大管道的捷径?

同时,在5G和5.5G时代,三维视频似乎是能填充运营商管道的希望。但问题是三维内容的制作成本太高,更需要专业的能力。LTE时代,一个网红在手机前挠首弄姿一分钟,就能产生60秒的短视频内容。但要产生一段几秒钟的3D视频,可能得劳烦一个专业团队忙活一整天。那么,2023年初火热登场的生成式AI技术,能否突破从二维升到三维的瓶颈,从而改变当前的运营商管道需求增长乏力的困局?

从“信”降维成“达”,或将改变网络传递信息的使命

不算心灵感应,人的感官就只有听觉、视觉、味觉、触觉、和重力这五个感官维度,它们的集合定义了人类通信需求的上限。而这种通信正在逐渐升维:从最早的报文消息(第一个电报“What hath God wrought”;第一个互联网消息”Lo”)到语音(第一个语音电话“沃森先生,快来帮我”),再到图像和视频,进而到AR/VR的三维视频+语音,最终会实现夹杂全部感官的交感通信。随着信息的升维,人对信息精确度的要求反而会逐渐降低,但对大脑的处理能力要求会逐步升高。以上是对未来通信需求的基本判断。

回想一下:当我们接收到一条短消息时,这条消息的每一个字符都经过二进制的编解码,确保信息的精确无误。这样信息的读取相当容易,我们也可能只需要一个IQ75的大脑,允许我们在苦思五分钟后回复一条消息。

而当我们进行语音对话时,语音可能夹带有些杂音,但我们能忍受,而可能需要一个IQ80-100的“正常”大脑,做到“实时对话”且能感知对话背后的“潜台词”。

最终,当我们进行终极视频通信时,各种声音、影像、味道、触觉信息交织在一起五“感”杂陈,来势汹涌,这时每个比特是否正确传递已经不重要了;而我们再聪明的大脑,在忙乱中,可能也需要一个额外的AI来辅助我们分析和纪录对话的过程,提醒我们可能遗漏的重要细节。

这些人类对通信最本源的需求,反映到对电信网络的要求上,则让网络出现分化。分化的网络要处理不同的应用场景:

第一,不排除少量场景依然需要精准信息传递,因此传输熵信息的传统网络依然要保留。第二,但当网络要传递的主要信息从一维的消息和文本信息,升维到二维的图像和视频,再进化到三维的全息图像甚至更高维度时,网络的主要使命,或许将从信息传递的"信"变成“达”。也就是说,网络没有必要精准传递每个比特信息,而只需要精准传递语义即可,因为信息传递的准确度要求降低了:“达即可”,传递语义即可,传递的信息可以降维。

让我们来重建一个典型的应用场景:3D视频会议。试想一下,把网络能力做到人均10G比特(相当于莎士比亚全集的16,000倍)每秒,来支撑一个3D或更高维度通信的应用,是不是有必要?实际上,3D视频会议需要语法通信进行精准传递的包括:语音、白板、PPT等二维信息;而对于参会者面部微表情、动作、会议背景等三维信息,传递其语义即可。这样的通信,更高效、更“个性化”。

一个技术和一个应用,生成式AI带来的信息升维

在配备高清摄像头的智能手机加持下,普通视频的易拍摄、易编辑、易发布是MBB时代PUGC模式成功的关键。海量长短视频在这个模式下被源源不断生产出来,汇聚到Youtube和TikTok后,又浩浩汤汤通过运营商管道,回流到普罗大众的智能手机。在这个过程中,OTT赚得盆满钵满,运营商也获取到不菲利润。过去十年,整个行业皆受益于此。

现在我们进入5G时代,不久的将来还将迎来5.5G,运营商管道被十倍、百倍地拓宽。当供给端的能力被空前释放,需求端却突然出现了点问题。二维视频带来流量增长,靠的是用户数增长、用户日均视频观看时长更长、和视频清晰度提升。而这三个因素,在LTE时代就似乎已经触及到天花板,已经很难获得可持续增长。

那么从根本上说,当下和未来运营商的管道流量增长,还能憋出哪些“大招”?

我预测未来填充运营商太平洋一般宽阔管道的,不仅仅来自于人类的直接感官需求,更有AI触发和生成的需求。MIT把“制作图像的AI”列为2023年十大突破新技术,这是从一维文本到二维图形的升维,但它还远远不够,我们期待的是行业能出现进一步的升维繁荣:从文本(语义)到三维视频的升维!而2023年的第一个月,我们看到了一个图形技术的成熟、和一个AI应用的诞生。

神经渲染图形技术

神经渲染(Neural Rendering)是计算机图形学的一个创新技术,最早由DeepMind的几个科学家在一篇重磅论文“Neural scene representation and rendering” (2018年6月的《科学》杂志[3])中提出。此外,他们还提出了一个基于神经渲染的的机器学习架构:生成查询网络(GQN)。GQN可以将从不同视点拍摄的场景图像作为输入,构建(或预测)一个以前未观察到的视点外观。这篇论文有两个贡献意义重大:

一方面,GQN对图像实现了“升维”:相当于AI具备了从少量二维图形(稀疏样本)生产完整三维图形的能力。仅仅通过一段完整或并不完整、环绕拍摄的视频,或几张照片,就可以生产一个三维模型!

另一方面, GQN 给我们展示了一个无需人类标签或领域知识的表征学习方法,为自主学习理解周围世界的机器铺平了道路。GQN的场景表征可以将视觉感官数据转化为简明描述的过程。稍微畅想一下,把这个过程逆向应用,通过简明的描述过程,即可生成视觉感官数据:这就是我们梦想的,通过语义或文本生成视频!突然之间,AI为低成本生成海量三维内容打开了一扇大门。

基于神经渲染技术,一个叫NeRF(神经辐射场)的实现方法很快发展起来。这个方法通过使用一组稀疏的输入视图(就是有限的图片和视频)优化底层连续空间场景函数,从而获得用于合成复杂场景的全新视图,这个方式可以用下面的公式来表示:

(x,y,z,θ,φ )→ F→ (RGB,σ)

据说每增加一个公式,一篇文章的读者就会减少一半。希望我的一半读者不要被这个公式吓到,它其实很简单。左侧五个参数代表被观察点的位置和被观察的方向(空间位置 (x, y, z) 和观察方向 (θ, φ));右边的RGB代表观察到的颜色,σ代表观察到的纹理;中间的F代表左右两边的对应关系,也就是观察者和被观察物所处的空间场景,这个场景由一个神经网络来描述。而这个神经网络的参数,是由输入的视图训练出来的。

一句话:我看了人群中的你一眼,感觉到你的颜色和质感。

LUMA AI 应用APP

2023年1月9日,苹果上架了一款叫Luma AI的软件,它能把手机拍摄的普通视频和照片,快速转化为三维模型和三维视频。Luma AI就是用NeRF方法实现的APP应用,一个可以做到亚实时的3D图像/视频生产工具。这个用AI低成本生成3D内容的模式,我可以暂时称它为用户生成3D内容(UG3DC)。最终获取 3D 模型有可能像挥舞手机一样简单。

降维与升维,对运营商管道的影响 语义通信尚是“远山”

参照Turbo码的应用历史:大家知道因为Turbo编译码器中存在交织器,所以它的编码距离在数学上是无法精确表征的。但这并不妨碍我们在通信中广泛使用它,并获得几乎接近香农理论极限的性能。目前语义通信面临同样的问题。相对于语法通信,语义通信缺失严谨的数学表征:香农用一个简单的对数公式就把信息(熵)明确定义出来;用香农公式把语法通信的信道容量边界也划定了,但语义通信在这两个基本问题上都没有理论依据:

一是语义“信息”缺乏的明确定义;

二是语义通信的信道容量边界到底在哪里,也没有明确数学表征。

现在有人希望使用AI来帮助语义通信走向实用,比如用深度学习来拟合语义的特征。在实现上可以用深度学习训练一个神经网络来获得信源的语义特征参数,再传递这个特征到网络另一端,就能把信息大致恢复出来。但目前还没有任何语义通信在电信网络的落地实践。

生成式AI已成“近峰”

生成式AI则在短期内可能释放巨大生产力,依然以Luma AI为例。

首先,我要承认当前Luma AI对算力和能耗要求还是很高的,仅靠终端算力无法应对普通的应用,主要是渲染耗时太长,并会消耗终端大量电力。比如在本地用10秒视频作为输入生成一个3D模型,仅这个简单的过程就消耗了iPad mini6 30%-35%的电量,即整整2000mA电能,整个建模和渲染用时更是超过30分钟。使用这个应用1个小时,iPad就仅剩25%的电量!不过,这个应用还提供了线上功能。当我选择在线上渲染时,原始数据上传2-3秒(9Mbyte视频数据用于训练),建模+渲染总用时10秒,比本地渲染效率提升180倍,而且几乎零耗能。

其次,Luma AI即将开放语义或文本描述生成视频的功能。这将是一个类似百度AI文本生成图片的内容生产能力,只不过生成图片将变成生成三维视频。如果未来能实现“即拍即得”、“一键生成三维视频”、“从文本生成三维视频”,那么PUG3DC的时代就会到来。

生成式AI是填充运营商管道的推动力

总的来说,我们无法期望语义通信短期内能带来实际收益,因此还是要在传统语法通信上持续深耕。但生成式AI,特别是用通过语义生成3维内容则非常值得期待。我们能预感到AI填充运营商管道的巨大潜力,也已经看到了一丝曙光:生成式AI让3D内容爆发或许就在眼前。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3