用AI文生图时,该如何提问

您所在的位置:网站首页 该怎么画小人图片 用AI文生图时,该如何提问

用AI文生图时,该如何提问

#用AI文生图时,该如何提问| 来源: 网络整理| 查看: 265

不会提问的人,要怎么用AI?

撰文 | 林秋艺

编辑 | 龚   正

常用ChatGPT、或国内文心一言、文心一格办公的朋友知道,向AI提问,时下正成为一个颇有点门槛、且非常必需的技术活。

如果不掌握这门提问的技术,就难以使用这些AI工具,生成满意的文章和图片。比如,你想用AI画个月亮,输入“一轮明月”这样泛化的Prompt(中文名:提示词),可能并不如输入“一个月亮”生成的效果好。

那么该如何掌握好向AI提问的方法呢?《真故研究室》对话了百度文生图项目负责人施瑞峰。以文心一格的Prompt(提示词)的撰写技巧、未来发展趋势等做了讨论。

Q1:我们应该输入怎样的Prompt(提示词),才能让AI更了解我们想要的东西?

A1:以使用文心一格作画为例,有这样的两套逻辑(或者说输入提问的语序)可以应用。

一是先后输入:作品类型—作画主题—细节描述—作画色调—作画风格。

二是先后输入:Content(画面主体内容)—Detail(细节词)—Style(风格修饰词)—Perspective(画面视角)。

在掌握这个提问顺序之后,其次就要注意在输入词语时,要力求简洁、便于AI理解。

比如我们输入“一轮明月”,它生成的结果可能不是我们想得到的,那就可以换成“一个月亮”,AI就可以更好地理解这个词汇。

通过注意以上这些提示语的输入逻辑和用词,AI生成的结果能够大致满足我们的需求。如果还有一些差距时,就可以用第三个技巧:在已有的Prompt(提示词)上不断用确切的词语进行微调。

我们可以输入“人物的服饰充满了科技感、充满了机械感”这类词,但是不能用“这个人很酷、很美”这样非常泛化的词去指代。因为每个人对于美和酷的理解可能有出入,何况AI。所以在用泛化词去描述的时候,生成的结果就会不那么准确。

Q2:海外公司Scale AI(提供数据标注服务的公司,创始人为华裔Alexandr Wang ,位于旧金山,估值已达73亿美元)已经推出Spell Book(魔法书)这样的业务,可以存储、管理、推荐提示词,百度会不会也推出类似的应用?

A2:提示词工程在整个文生图工作流程中确实非常重要,大家最近也都集中在Prompt(提示词)这点上去做功课。

Midioureny(2022年3月面世的AI绘画工具)的做法是提供一个社区,用户可以在社区里分享画作链接,其他用户也可以点击链接查看这幅画作是由怎样的Prompt(提示词)生成的,算是提供了一个万能版本,向大家展示了怎样的Promp(提示词)会生成怎样的风格和作品。

回到百度本身,目前文心一格(2022年8月百度推出的AI文生图工具)有推出非常多的公开课或者文章教学,让大家去做低门槛的一些操作。但至于未来产品上面相关的计划,目前还是以现有的大家能感受到的形式为主。

Q3:文心一格何时能实现像文心一言那样,通过多轮对来生成符合用户预期的画作?

A3:我的判断,未来文生图大的发展方向就是语言式的交互操作台,但这需要建立在把所有的产品功能全部做成熟之后。

可能第一次生成一张图,第二次交互就让它改动,第三次交互可能是细节调优,目前整个文生图的市场可控性还没能做到百分之百,这样的多轮对话式操作还需在每一个功能去做迭代和攻克。

现在文心一格想解决可控性的问题,主要是通过先生成一张图,然后放到涂抹编辑里去涂抹,也可以放到图片叠加里把这几张图片融合到一起。

目前文心一格还没有形成多轮对话式这样的操作台,但这确实是以后发展的一个方向。

Q4:在短视频时代,用短视频的逻辑把所有爆款文章做一遍,出来的视频还是爆款;到了AIGC时代,用AIGC的逻辑去做爆款视频,还能再做出爆款吗?

A4:其实现在不管是百度体系内部的产品,还是大家按照商业做的产品,都是基于AIGC的逻辑去包装的玩法,可能大家去年的时候看到的是一些漫改,今年文心一言发布后的这段时间大家玩的更多的是梗图。

关于AIGC的玩法,大家可以还是可以按照传统的逻辑去包装,只不过这个点要多去做尝试,多多发掘,一旦热点过了可能就不热了,大家在实际使用的过程中尽可能地去体验,其实还会发掘出更多好玩的方法和逻辑。

Q5:在大模型这样复杂的商用场景中,百度和客户的合作是怎样的形式?使用了AIGC后效率如何?

A5:我们与合作伙伴之间的合作一般是双方默许之后才会发出来的,比如前段时间与京东618的合作,在制作周期和制作效率上,我们也做了大概测算。

原来周级别的制作周期,通过AIGC现在已经压缩到日级别。原本的制作成本是万元,现在基本上压缩到千元,甚至一部分素材是百元级别,所以有60-80%的成本节省。

Q6:百度的文心一格在AIGC运用方面的优势是什么?

A6:首先这是一个技术驱动的领域,百度在大模型上有非常强的优势,从目前公开的评估结果以及人工的评估结果里面,我们相比于Stable Diffusion、DALL-E,我们的FID效果(注:Frechet Inception Distance score是评估生成模型的指标)其实是远远超过它们的,在底层模型就占据了领先地位。

其次,在文心一格官网上面可以看到,有些风格方面做得比全球领先的一些头部公司还要好,比较有代表性的就是二次元和国风。

第三个就是平台上的功能,很多国外的产品,可能有一部分出图细节还不错,但是功能做得很少,像刚才提到的:未来文生图要解决百分之百可控的问题,一定是多轮交互的工作台。如果未来没有一些功能扶持的话,就没有办法做到一句话就能百分之百生图,因为自然语言的信息含量永远没办法达到百分之百,最后还是要去做调整。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3