AI产品体验絮叨

30 Dec, 2022

为了更好地体验，我一开始就设定了一个测试流程：

用GPT设计一个角色和场景 → 用图像AI生成图片 → 用视频AI生成动态影像（包含台词声音）

这并不是复杂的事情，主要是感受一下这个流程能否跑通。

主要体验了GPT。但在注册和挂梯子都很麻烦的情况下，其实也可以使用Notion AI，现在已经全面开放。再不行，可以使用国内的FlowUs AI，目前公测中。文档类办公效率直线上升。

主要使用了Midjourney和Stable Diffusion。

Midjourney出图更具艺术性，目前正琢磨直接购买付费版深入研究一下。

Stable Diffusion是一个开源项目，需要自己部署安装。缺点是各种风格的调教都需要自己一点一点搞，优点是网络上有各种大神分享自己的训练模型，可以直接调用出图。

目前这俩都存在一个缺点：多次出图如何保持角色统一性的问题。虽然也有方法解决，但极其麻烦。不过这也不是大问题，毕竟Midjourney官宣的迭代节奏号称一个月一次升级。按照现在全民AI的趋势，估计很快就会解决。

主要使用的是D-ID。流程非常简单，一键生成，但口型和脸部动画对前一步的图像有强依赖。

如果人物背景很复杂，或者人物不是正脸图，讲话的样子就会非常诡异。另外，现在大部分AI生成的声音还是太机械了。

在所有的AI能力里面，文字处理能力是第一个核心。所有后续的AI能力都对第一步文字处理有高度依赖。毕竟，所有设定都是从一句话描述开始的。(1girl, beauty, standing, white hair)

无论是做短视频还是做绘本故事，目前各种AI能力聚合在一起，已经可以鼓捣出不错的产出了。虽然结果无法直接商用，但在现有生产流程里分担构思和脑暴部分的工作，效果非常好。

AI是一个工具，如何使用这种新工具，会是未来所有人在工作中都要学习的事情。类似于学习如何用Excel处理数据一样。

目前大部分国内企业，除了头部几家，想在短期内追赶上这种大模型的AI能力，是不可能的。举个例子，可以去体验一下百度的AI绘画，然后拿来和MJ/SD比较一下便知道了。

整合能力、提供服务，会是很好的切入点。 Notion AI和FlowUs AI就是文本类的案例。

还有一个例子是国内的"稿定设计"，整合了SD里的ControlNet，直接将功能植入到自己的产品体系里，小而垂直。

现阶段变现靠实力和契机，但圈用户，真的是一个非常好的时机。

因为围绕AI生成的流程里，需要大量第三方产品支持。比如B站某UP主写了一个SD的插件工具，直接爆了。