Wink - AI原生创新，忠于用户，专属智能体验

![image](https://wink.run/image?url=https%3A%2F%2Fexternal-i.redd.it%2FMPkz-U8voKDufaWbr-EkZxXoaaRi5lQ86hbHeRu9Tkg.png%3Fauto%3Dwebp%26s%3D499ef38291787124acf69ba1e98eda6ebdec7a8b)

有网友在PromptEngineering社区分享了一个观察：大多数提示工程建议只在演示中有效，真实使用时效果不稳定。

问题主要体现在四个方面：

即使定义了角色、指定了格式、添加了约束和示例，模型仍会随机忽略部分指令。没有错误提示，只是默默偏离要求。

小改动可能导致行为完全改变。添加一个额外约束或重新排序指令，输出质量就可能大幅波动。这让系统更像需要精细调校的敏感设备，而非可工程化的工具。

大多数教程假设指令优先级稳定，但实际上格式约束、推理约束和语气约束会在模型内部竞争，解决方式不一致。

标准提示缺乏反馈循环。用户无法知道哪些指令被忽略、部分执行或降级处理，调试基本靠猜测。

有评论者认为，提示工程对短期特定行为有效，但无法实现持续一致的结果。除非加入其他封装和注入机制，但这已超出提示工程范畴。

另一位网友分享了实际解决方案：让模型输出JSON格式，再用另一个提示验证和修正。但这更像是给非确定性系统添加验证层，而非解决根本的不稳定性。

有趣的是，讨论中还出现了一个现象：有评论者无法分辨发帖者是真人还是AI，因为其语言模式已与LLM交互模式高度相似。这恰好印证了人类会逐渐适应AI交互方式的观察。

更准确的说法可能是"概率行为塑造"或"随机福音"，而非"工程"。毕竟我们是在影响概率性系统，而非控制确定性系统。

发帖者最后留下一个开放问题：在什么情况下，提示工程才能真正稳定？目前看来，答案可能比我们想象的要复杂。

Wink Pings

提示工程的真相：大多数最佳实践只在演示中有效