AI生成PPT的流程详解以及关键细节

Detailed AI generate PPT procedure

Posted by Di Chen on March 20, 2025

最近朋友圈的AI玩家们有点”卷”:江树用Claude 3.7生成SVG矢量图做PPT,汗青直接让Claude 3.7吐出HTML代码并自动排版。

云中江树用AI生成SVG做的PPT示例

但当我真正尝试用大模型批量生成258张企业级PPT时,发现那些看似优雅的教程里藏着些没说透的细节:

  • 为什么同样是16:9的SVG图片在PPT里会突然字体爆炸
  • 为什么某些模型生成的图形永远带着2003年Office的审美
  • 为什么我的 claude 3.7 写出来的 SVG 总有元素重叠?

Image

我意识到:用大模型做PPT本质上需要三个隐藏元素的组合(模型选择×提示词工程×流程优化),而我遇到的坑其实都有标准解法。

让我先把具体操作流程跟大家分享一下,然后再来看这中间的坑。

三步搞定PPT生成

好,先说说具体怎么操作。整个流程其实就三步,但每一步都有些关键细节:

  1. 让模型生成SVG代码
  2. 在 SVG 预览器里确认效果
  3. 复制svg文件,粘贴导入PPT并转换为原生形状

Image

听起来简单,但魔鬼藏在细节里。我先拿一个真实案例说明 —— 上周我接到一个任务,要给一套大模型Agent的课程做PPT。以前这种活儿找设计师至少要三天,现在我直接让 Claude 3.7 出手。

模型吐出SVG代码后,我会复制到 svgviewer.dev 预览,也可以直接下载 svg 文件后打开预览。这一步很关键 —— 因为有时候模型生成的代码看着没问题,但预览时可能会发现字体重叠或者元素错位的问题(甲乙方的友谊小船,可能就翻在这些细节里)。

确认基本没问题后,就可以下载 SVG 文件,然后把SVG文件拖进PPT,右键选择”转换为形状”。这时候PPT会把SVG转成原生元素,你就能随便编辑了。整个过程可能就一两分钟。

不过说实话,我第一次尝试的时候可没这么顺利。当时用了1600x900的尺寸,结果导入PPT的时候还没问题,转为形状之后后字体莫名其妙变得超大,元素也各种重叠,搞得我还以为是PowerPoint出问题了。后来才发现这是因为PPT和SVG的画布尺寸不匹配导致的缩放问题。

看到这里,你可能会问:”这么多AI模型,到底该选哪个?总不能都像你一样用Claude 3.7吧?” 就算能用,它也贵呀

只有两个王者

说实话,我也是被各种模型坑过才总结出这个排名的:Claude 3.7 > DeepSeek-v3 > Claude 3.5。其他模型?emmm…我还是放几个实际案例给大家感受下吧(毕竟不能只有我一个人被伤害眼睛)。

有一次我用某知名旗舰模型生成了一页PPT,结果那个配色和排版,活脱脱一个上世纪网吧门口的招牌 —— 荧光绿配深蓝,再来个红色描边,生怕别人看不出这是AI生成的。我当时就想给这个模型提个bug:”审美也是capability好吗?”

我测试下来,目前就Claude 3.7的表现最靠谱,基本上给它一个简单提示词就能出个不错的效果。DeepSeek-v3也还可以,虽然细节不如 Claude 3.7 ,但至少不会犯那些低级错误。Claude 3.5的话,就需要在提示词上多花点功夫,给点示例,不然容易翻车。

Image

但问题来了:既然选好了模型,是不是直接丢个提示词就完事了?那可太天真了…

提示词有毒

看到这里,你可能觉得有了Claude 3.7,提示词随便写写就行了。但我得说:提示词里也有很多坑,一不小心就浪费了几千个 token。可能 svg 图片看这没问题,导入PPT之后就炸了

比如让模型优化样式的时候,因为没说清楚要避免使用pattern,图案要用inline方式,生成的SVG代码里全是url(#gradient-xxx)这种引用

导入PPT一看,好家伙,所有渐变效果全没了,剩下一堆纯色块,跟我儿时玩的俄罗斯方块似的。

那一刻我仿佛听见PPT在嘲笑我的天真:”就这?还敢说自己是prompt工程师?”

导入之后我崩溃了

那到底该怎么写提示词?我总结了几个关键点:

画布尺寸必须是1280x720

不要觉得1600x900更大,更容易排版。我就是这么想的,结果导入PPT之后,PPT里的字全大了一号,调整起来累得够呛。因为PPT默认就是按1280x720来的用这个尺寸可以完美匹配

Pattern必须inline

<!-- 错误示例 -->
<defs>
  <pattern id="grid" ...>
    <!-- pattern内容 -->
  </pattern>
</defs>
<rect fill="url(#grid)" .../>

<!-- 正确示例 -->
<rect fill="#f5f5f5" stroke="#e0e0e0" .../>

所有通过 url 进行引用的内容在 PPT 中都会被移除

禁用foreignObject

这个要在提示词里明确说明,不然模型可能会用HTML元素来偷懒。要知道PPT可不认这个,导入后就成了无字天书——甲方要是看到空白页,可不会相信这是技术问题,只会觉得你在摸鱼。

内容精简原则

我发现模型就像个热情过度的设计师,给它太多内容,它就想方设法都塞进去。结果就是:元素重叠、字体太小、层次混乱。现在我都会把每页内容控制在3-4个要点以内

还有个有趣的发现:Claude 3.7不需要过多的审美指导。有次我写了一大段”要高端大气上档次”的要求,结果它反而画风飘了。现在我就简单说句”设计要美观“,它反而能交出更靠谱的作品。

AI做SVG的提示词关键

但即便是这样,有时候第一次生成的效果还是不够理想。那么问题来了:如何才能让AI生成的PPT更精致呢?

过度优化反噬你自己

看到这个问题,我不禁想起前几天一个有趣的经历:一位同事拿着他刚做好的PPT来找我,说他按我教的方法用Claude 3.7生成了一页”技术架构图”,然后不停地让模型优化,结果陷入了一个死胡同,各种元素堆叠在一起,字也看不起,图案也看不清。

这让我想到了一个经典的分布式系统问题:过度优化(Over-optimization)往往会带来意想不到的副作用。在PPT制作中也是如此——程序员和AI模型在审美这件事上,总有一个要先学会克制

我总结了一下优化过程中的几个关键节点:

第一轮生成通常比较保守,布局中规中矩。这时候可以让模型优化,比如:

这个设计不错,但是布局还不够有创意,可以把这些元素排列得更有层次感一些。记住还是用1280x720的SVG,不要用foreignObject。

第二轮会加入一些创意元素,比如更灵活的布局、适当的装饰。这时可以继续优化细节:

很好,但是配色可以更协调一些,同时让视觉重点更突出。保持原有的技术要求不变。

但是!到第三轮就要当心了。我发现模型就像个想证明自己的设计师,越优化越想表现。它会开始加入:

  • 过度复杂的渐变效果
  • 太多的装饰元素
  • 过于密集的信息排布

结果就是:PPT变成了一个”视觉噪音制造机”。就像那些为了炫技堆砌特效的网页一样,过多的无效元素反而影响了内容的传达

我现在的经验是:最多优化3轮第一轮解决布局问题,第二轮调整视觉效果,第三轮纯粹碰运气,万一有好的方案就用,不好的就算了。然后就点到为止,就像写代码一样,过早优化是万恶之源(Premature optimization is the root of all evil)。如果有硬伤无法解决的,干脆重头生成一个,或者拖入PPT种细调,就像之前公众号说过的,这个就属于“即用即弃“的代码。

生成的SVG可以多轮优化

最后,有的同学会问,claude 3.7 很好,但是还是太贵了。出一张图要烧几块钱的 token 费。有没有经济实惠又好用的平替呢?有的,兄弟有的。

平替也能打

看到这个问题,我不禁想起前几天一个同事的吐槽:”你这不是坑人吗?Claude 3.7 这么贵,一般人用不起,还不如直接说用 PowerPoint 自带的模板。”毕竟不是每个团队都配得起AI界的爱马仕,但程序员总有办法把开源软件玩出高定效果。

说实话,这个吐槽很有道理。但我深知一个道理:任何系统都有替代方案。官方 Claude 3.7 确实是最优解,但我们有几个可选的平替方案:

IDE 集成版本

很多同学可能不知道,现在主流的 IDE 的 AI 助手都集成了 Claude 3.7 模型。比如:

  • Cursor
  • GitHub Copilot Chat
  • Trae

这些工具里的 Claude 3.7 虽然有 token 限制,但做个 PPT 绰绰有余。我最近就用 Cursor 帮一个创业的朋友做了一整套融资 PPT,效果相当不错——至少不会让投资人联想到乡镇企业宣传册。

中转站服务

现在市面上有不少提供 AI 模型 API 中转的服务商,价格比直接用 Claude 3.7 便宜很多。我测试过几家,虽然不那么稳定,但生成质量基本一致

不过要提醒一下:选择中转服务时要特别注意数据安全问题。我建议:

  • 不要在生产环境使用
  • 避免传输敏感信息
  • 优先选择有口碑的服务商

DeepSeek-v3 平替方案

如果你想要一个完全自主可控的方案,DeepSeek-v3 是个不错的选择。虽然在细节处理上比不上 Claude 3.7,但只要在提示词上多下点功夫,也能达到不错的效果。

说到底,选择哪个模型不是最关键的,关键是要理解底层的原理和限制。就像我们做系统架构一样,没有完美的解决方案,只有最适合当前场景的方案。Claude 3.7 确实强,但 DeepSeek-v3 这样的平替方案,其实已经能满足大多数场景的需求了——毕竟PPT要传达的是优质的内容,又不是AI选美。

结语

曾几何时,PPT制作是设计师的专属领地。

如今,AI轻松跨越了这道技术门槛。

就像代码从手写汇编到自动生成,设计也在经历着范式转移。

当美感不再稀缺,创意才是真正的壁垒

而你,准备好在这场内容为王的时代,展现怎样的创意了吗?