加拿大工程院士梅涛:多模态的AIGC有三大挑战

您所在的位置:网站首页 prefer的三单和过去式 加拿大工程院士梅涛:多模态的AIGC有三大挑战

加拿大工程院士梅涛:多模态的AIGC有三大挑战

#加拿大工程院士梅涛:多模态的AIGC有三大挑战| 来源: 网络整理| 查看: 265

腾讯科技讯 7月7日,在“2023世界人工智能大会丨聚焦·大模型时代AIGC新浪潮论坛“上,加拿大工程院外籍院士、HiDream.ai创始人兼CEO 梅涛表示我们的人工智能已经从过去的判别式的升级为了现在生成式的,从单模态变成了多模态,正重塑着我们的生活,也重塑着各个行业和产业的现状。梅涛认为,对于多模态的AIGC来说的话有三个大挑战:

标记化,有没有一种比较好的集合,能够把文本、视觉、语音等等各种信息包括在一起。

解码,大语言模型中用的最多的、最好的框架并没有在我们的图像视频里面得到了很好的应用。

对齐(Alignment),我们能不能做不同模态之间的交叉相关性的这种Alignment。

以下为演讲实录:

非常荣幸参加信通院的大模型时代的新浪潮的论坛,我是梅涛,那么今天演讲的题目主要是生成式人工智能:从单模态迈向多模态。我们讲到人工智能,我们以前更多的讲的是希望让机器具有人的看、说、听、写的能力。现在我们所讲的通用人工智能的话,是希望我们的机器具有更多的人的思考学习和行动的能力。

今天我们讲人工智能主要是讲到我们人工智能的技术,从一个判别式的人工智能进化到另外一种生成式的人工智能,那么这两种人工智能的话实际上是有很大的区别,那么在我们以前的判别式人工智能时代,我们追求的是一种任务的准确性。这种时代的人工智能,它有一个问题,即在我们面向千行百业的时候,往往面临着碎片化的要求、碎片化的模型、碎片化的应用。

而生成式人工智能,它面向主要是容错性比较高的一些行业,特别是关于我们的数字内容的创造、创作力,特别是提高我们人类的创作力和生产力这些。

生成式人工智能确实毫无疑问已经成了现在产业界的一个非常火的话题。那么各种工业界的这个知名人士都在讲,人工智能的新的一场革命是代表了一种未来的新的工业革命。ChatGPT刚才很多嘉宾也讲过了,那么它是通过大数据大力强算法形成今天的大模型,那么它是代表了一种通用的生产力工具,也是代表了一种人和 agi交流的一种语言。

那么其实我们回头想一想,我们人类和人类之间的交流其实并不是文字的这种单一模态,那么今天我们想一想,我们人跟人的交流其实天然是一种动模态的,我们可能会通过文字,也可能会同时通过spoken language,甚至我们也可能通过图像、视频、语音等等进行各种交流,所以所谓的大语言模型它本质上来说是应该就是一个天然的多模态的模型。

那么多模态模型的话,其实早在去年五六月份的时候就引起大家的关注了。比方说这边有一张画,全球有一家知名的时尚杂志,那么它当年有一期完全用AI生成的图片作为它的杂志封面,那么这张图片的话它显示的是在浩瀚的宇宙中,有一位女性的宇航员在火星上昂首阔步的走向广角镜头,那么这样的一个图片基本上完美的展现了所有的语义相关的细节。

那么另外一个例子就是说现在在去年的5月份,那么一张用人工智能生成的图片,拿到了全美的某个州的美术比赛的大奖。

今天我们讲到多模态大语言模型,其实是希望有一个 unify的框架,能够处理文字、图片、音频、视频、3d等等各种模态的信息,能够通过一个统一的大模型的框架,能够实现不同的种类的任务,包括从文字到图像,文字到视频图像到视频,文字到3D等等,那么这里面就有很多的挑战,那么最大的一个挑战就是我们的对齐,那么今天我们用了很多的不管是业界所看到的GPT还是nerve或者是division model,那么其实今天来说一个最大的挑战是没有一个模型能够真正的把不同模态的 Information能够include在一起。

那么这里面我讲到的是三个grandd Challenge,对于多模态的aigc来说的话有三个grandd Challenge,那么第一个就是tokenization,也就是说刚才我讲到的有没有一种比较好的 include,能够把文本、视觉、语音等等各种信息能够在include一起。那么今天大家看到的不管是openai的GPT,还是我们做图像的 division mode,或者我们做3D的nerve,那么其实今天来说我们其实缺乏一种真正的powerfull的 include的能够做很好的tokenization。

那么打个比方来说的话,今天如果我们把图像的每个pixcle作为一个token的话,那么这个token的话可能它的size可能是文字的大概是1000倍,那么如果我们要算token跟token之间的关系的话,可能就是一个millon,那意味着就是说如果今天我们要把一个图像或者一个视频里面pixcle作为我们一个token的话,那么我们今天需要的可能是需要一百万倍于ChatGPT所用的GPU,那么基本上我们现在把所有全球上的GPU加在一起都不足以去做这件事情。

那么第二个challenges就是Decoder,那么大家知道我们大语言模型用的最多的最好的框架就是96层的一个transform的架构,那么这个架构其实并没有在我们的图像视频里面得到了很好的应用。那么今天我们用到的decoder在视频里面、图像里面、视觉里面用得最多的还是diffusion model,而这个mode的天花板是蛮低的,那么在垂直领域的话基本上是在几十亿级别的。

当然第三个就是对齐,就是我们能不能做不同模态之间的 cross relevance的这种alignment。

那么今天因为这样的一个grand Challenge,今天我们可以看到这张图其实是我们对多模态的一种认知,那么左边的蓝色的话,大家可以看到大语言模型,不管从GBT1.0~2.0到现在的4,随着它的模型的数据量的不断的提升,那么这个模型的能力是不断的推向一个边界的。

那么有一种说法是当 GPT这个模型把我们现在互联网上所有的高质量的文本都能够读完的话,基本上这个模型的能力到达了一定的边界。那么反过来我们看一看我们的多模态的另外一面,视觉模态的话,目前来看不管是最好的模型,不管是哪里to,s Emin或者是Stepp defusing,那么这样的一个视觉模型的话,它的模型的能力边界基本上就在20亿-30亿左右。

那么其实我们想做的一件事情就是我们想问问自己到底我们有没有可能把现在视觉的多模态的这种基础模型,他的能力从现在对标的gpt2.0的时代,我们走向gpt3.0的时代,当然这也是我们HiDream的一个初心。

那么现在的话刚才讲到我们的key就是一个alignment,不管是多模态还是视觉模态,那么它其中中间的一个很重要的部分就是alignment,那么这个alignment包括技术上的比如说以文字为中心的这种动模态之间的alignment,当然也包含我们所谓的价值观的alignment,我们的合规的alignment。

那么这里面举几个例子,我们在生成人像的时候,其实不管是人脸的细节,手指的话都是还有细节没有解决,不管是人像也好,还是一些其他的物体也好,如果我们look into details,其实我们会发现我们还有很多工作需要做,那么当然还有一些semantic就是我们的我们的prompt,文字图片之间的相关性的问题,当然还有一次性的问题,那么一致性的话,目前来说对我们多模态来说是一个很大的挑战。

我们能不能保证我们的sku,保证我们的IP在我们的生存内容里面饱含了它的一致性,那么这是我们还HiDream的一个框架,我们是想做一个 multimodality foundation modle,我们会通过我们自己的vision,trasform的encode,以及unified的multimode的 foundation,以及我们的mogan tation,能够使得我们目前的difussion的框架能够从几十亿突破到几百亿,那么这是我们一个很重要的初心,那上面我们会支持一系列应用,包括图像生成和视频的生成。

任何一个初创公司的话,如果它需要取得市场领先,它是一定要需要双轮驱动:一个算法,一个是数据。

那么后面的话我们是会大家介绍一些目前的最新的生成的结果,包含了我们目前来说可能我们可以做图片的生成,包括我们可以做品牌的调性,版权图片,素材的特写,模装、模特的换装,商品的摄影等等。

那么这些都是我们Hidream做了一些最新的结果,我们可以通过一些文字生成高质量的人像的图片,包括一些游戏的IP的特别高质量的 IP的形象,包含了一些我们可以做营销的电商的一些场景。

那么这是另外一个杯子的样子,那么这里面的光影景深它都是非常逼真的,那么当然我们还可以做一些确定性的,刚才我讲到一个确定性的问题,那么今天我们当生成拿到一个sku,或者是拿到一个商品的sku的图片或者是一个IP的话,我们希望东西能够确定性的100%的完全的嵌入在一个非常自然的场景中。

那么这些是另外一些例子,我们可以给固定的角色更换服装,给固定的游戏的IP,去把换它的故事的背景,或者是更换它的刀具的一些细节,那么这些都是我们HiDream最新产生的一些结果,同时我们也可以做一些用户的交互,通过用户的交互能够让图片的细节得到一些修正。

更有意思的是我们不仅做图片的生成,我们也在做一些视频的生成,包括从单张的图片生成一段一个很短的clip,那么从一个文字生成视频,那么目前我们在视频的生成领域的话,现在基本上做到了业界的领先,我们可以做到3~5秒钟的短视频的生成,没有任何的抖动。包括视频的编辑,我们可以给另一个视频可以把它放在春夏秋冬不同的季节。

从学术界来说,我们是希望从技术界来说,我们是希望能够做agi路上的实践者,我们坚持做视觉的多模态的探索,我们希望能够通过我们的视觉的基础模型,能够解决人类的创造力,提高我们的生产力。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3