余生皆假期

AI产品体验絮叨


起因

为了更好地体验,我一开始就设定了一个测试流程:

用GPT设计一个角色和场景 → 用图像AI生成图片 → 用视频AI生成动态影像(包含台词声音)

这并不是复杂的事情,主要是感受一下这个流程能否跑通。


文字类

主要体验了GPT。但在注册和挂梯子都很麻烦的情况下,其实也可以使用Notion AI,现在已经全面开放。再不行,可以使用国内的FlowUs AI,目前公测中。文档类办公效率直线上升。


图像类

主要使用了Midjourney和Stable Diffusion。

Midjourney出图更具艺术性,目前正琢磨直接购买付费版深入研究一下。

Stable Diffusion是一个开源项目,需要自己部署安装。缺点是各种风格的调教都需要自己一点一点搞,优点是网络上有各种大神分享自己的训练模型,可以直接调用出图。

目前这俩都存在一个缺点:多次出图如何保持角色统一性的问题。虽然也有方法解决,但极其麻烦。不过这也不是大问题,毕竟Midjourney官宣的迭代节奏号称一个月一次升级。按照现在全民AI的趋势,估计很快就会解决。


视频类

主要使用的是D-ID。流程非常简单,一键生成,但口型和脸部动画对前一步的图像有强依赖。

如果人物背景很复杂,或者人物不是正脸图,讲话的样子就会非常诡异。另外,现在大部分AI生成的声音还是太机械了。


几点感受

在所有的AI能力里面,文字处理能力是第一个核心。所有后续的AI能力都对第一步文字处理有高度依赖。毕竟,所有设定都是从一句话描述开始的。(1girl, beauty, standing, white hair)

无论是做短视频还是做绘本故事,目前各种AI能力聚合在一起,已经可以鼓捣出不错的产出了。虽然结果无法直接商用,但在现有生产流程里分担构思和脑暴部分的工作,效果非常好。

AI是一个工具,如何使用这种新工具,会是未来所有人在工作中都要学习的事情。类似于学习如何用Excel处理数据一样。


关于企业

目前大部分国内企业,除了头部几家,想在短期内追赶上这种大模型的AI能力,是不可能的。举个例子,可以去体验一下百度的AI绘画,然后拿来和MJ/SD比较一下便知道了。

整合能力、提供服务,会是很好的切入点。 Notion AI和FlowUs AI就是文本类的案例。

还有一个例子是国内的"稿定设计",整合了SD里的ControlNet,直接将功能植入到自己的产品体系里,小而垂直。


关于机会

现阶段变现靠实力和契机,但圈用户,真的是一个非常好的时机

因为围绕AI生成的流程里,需要大量第三方产品支持。比如B站某UP主写了一个SD的插件工具,直接爆了。


#nag