用AI文生图时，该如何提问

您所在的位置：网站首页 › 该怎么画小人图片 › 用AI文生图时，该如何提问

用AI文生图时，该如何提问

#用AI文生图时，该如何提问| 来源: 网络整理| 查看: 265

不会提问的人，要怎么用AI？

撰文 | 林秋艺

编辑 | 龚正

常用ChatGPT、或国内文心一言、文心一格办公的朋友知道，向AI提问，时下正成为一个颇有点门槛、且非常必需的技术活。

如果不掌握这门提问的技术，就难以使用这些AI工具，生成满意的文章和图片。比如，你想用AI画个月亮，输入“一轮明月”这样泛化的Prompt（中文名：提示词），可能并不如输入“一个月亮”生成的效果好。

那么该如何掌握好向AI提问的方法呢？《真故研究室》对话了百度文生图项目负责人施瑞峰。以文心一格的Prompt（提示词）的撰写技巧、未来发展趋势等做了讨论。

Q1：我们应该输入怎样的Prompt（提示词），才能让AI更了解我们想要的东西？

A1：以使用文心一格作画为例，有这样的两套逻辑（或者说输入提问的语序）可以应用。

一是先后输入：作品类型—作画主题—细节描述—作画色调—作画风格。

二是先后输入：Content（画面主体内容）—Detail（细节词）—Style（风格修饰词）—Perspective（画面视角）。

在掌握这个提问顺序之后，其次就要注意在输入词语时，要力求简洁、便于AI理解。

比如我们输入“一轮明月”，它生成的结果可能不是我们想得到的，那就可以换成“一个月亮”，AI就可以更好地理解这个词汇。

通过注意以上这些提示语的输入逻辑和用词，AI生成的结果能够大致满足我们的需求。如果还有一些差距时，就可以用第三个技巧：在已有的Prompt（提示词）上不断用确切的词语进行微调。

我们可以输入“人物的服饰充满了科技感、充满了机械感”这类词，但是不能用“这个人很酷、很美”这样非常泛化的词去指代。因为每个人对于美和酷的理解可能有出入，何况AI。所以在用泛化词去描述的时候，生成的结果就会不那么准确。

Q2：海外公司Scale AI（提供数据标注服务的公司，创始人为华裔Alexandr Wang ，位于旧金山，估值已达73亿美元）已经推出Spell Book（魔法书）这样的业务，可以存储、管理、推荐提示词，百度会不会也推出类似的应用？

A2：提示词工程在整个文生图工作流程中确实非常重要，大家最近也都集中在Prompt（提示词）这点上去做功课。

Midioureny（2022年3月面世的AI绘画工具）的做法是提供一个社区，用户可以在社区里分享画作链接，其他用户也可以点击链接查看这幅画作是由怎样的Prompt（提示词）生成的，算是提供了一个万能版本，向大家展示了怎样的Promp（提示词）会生成怎样的风格和作品。

回到百度本身，目前文心一格（2022年8月百度推出的AI文生图工具）有推出非常多的公开课或者文章教学，让大家去做低门槛的一些操作。但至于未来产品上面相关的计划，目前还是以现有的大家能感受到的形式为主。

Q3：文心一格何时能实现像文心一言那样，通过多轮对来生成符合用户预期的画作？

A3：我的判断，未来文生图大的发展方向就是语言式的交互操作台，但这需要建立在把所有的产品功能全部做成熟之后。

可能第一次生成一张图，第二次交互就让它改动，第三次交互可能是细节调优，目前整个文生图的市场可控性还没能做到百分之百，这样的多轮对话式操作还需在每一个功能去做迭代和攻克。

现在文心一格想解决可控性的问题，主要是通过先生成一张图，然后放到涂抹编辑里去涂抹，也可以放到图片叠加里把这几张图片融合到一起。

目前文心一格还没有形成多轮对话式这样的操作台，但这确实是以后发展的一个方向。

Q4：在短视频时代，用短视频的逻辑把所有爆款文章做一遍，出来的视频还是爆款；到了AIGC时代，用AIGC的逻辑去做爆款视频，还能再做出爆款吗？

A4：其实现在不管是百度体系内部的产品，还是大家按照商业做的产品，都是基于AIGC的逻辑去包装的玩法，可能大家去年的时候看到的是一些漫改，今年文心一言发布后的这段时间大家玩的更多的是梗图。

关于AIGC的玩法，大家可以还是可以按照传统的逻辑去包装，只不过这个点要多去做尝试，多多发掘，一旦热点过了可能就不热了，大家在实际使用的过程中尽可能地去体验，其实还会发掘出更多好玩的方法和逻辑。

Q5：在大模型这样复杂的商用场景中，百度和客户的合作是怎样的形式？使用了AIGC后效率如何？

A5：我们与合作伙伴之间的合作一般是双方默许之后才会发出来的，比如前段时间与京东618的合作，在制作周期和制作效率上，我们也做了大概测算。

原来周级别的制作周期，通过AIGC现在已经压缩到日级别。原本的制作成本是万元，现在基本上压缩到千元，甚至一部分素材是百元级别，所以有60-80%的成本节省。

Q6：百度的文心一格在AIGC运用方面的优势是什么？

A6：首先这是一个技术驱动的领域，百度在大模型上有非常强的优势，从目前公开的评估结果以及人工的评估结果里面，我们相比于Stable Diffusion、DALL-E，我们的FID效果（注：Frechet Inception Distance score是评估生成模型的指标）其实是远远超过它们的，在底层模型就占据了领先地位。

其次，在文心一格官网上面可以看到，有些风格方面做得比全球领先的一些头部公司还要好，比较有代表性的就是二次元和国风。

第三个就是平台上的功能，很多国外的产品，可能有一部分出图细节还不错，但是功能做得很少，像刚才提到的：未来文生图要解决百分之百可控的问题，一定是多轮交互的工作台。如果未来没有一些功能扶持的话，就没有办法做到一句话就能百分之百生图，因为自然语言的信息含量永远没办法达到百分之百，最后还是要去做调整。

【本文地址】

用AI文生图时，该如何提问

用AI文生图时，该如何提问

今日新闻

推荐新闻