AI创业，追逐风口但别轻信“红利”

　　AI创业，追逐风口但别轻信“红利”

　　——专访AI人机交互专家季啸白

　　自2023年以Stable Diffusion为主的开源图像生成AI以来，AI在图像和视频两个方向均有了质的突破。从语音AI到成为创新前沿的AI视频大模型，经历了六十年风雨的人工智能逐渐迎来了产业化的临界点。

　　季啸白目前在全球头部互联网社交媒体公司工作，同时也是长期的图像生成AI方向创业者。从全球顶级名校硕士毕业后，季啸白一直投身于图像生成AI产品化的研究和创业，作品也多次获奖。AI如何转化为新质生产力？紫牛新闻记者采访了人机交互专家季啸白。

　　一

　　紫牛新闻：无论是苹果手机的Siri，还是小爱同学、天猫精灵，语音助手从一出生开始就被人们视作AI技术的落地产品，但它为何没被多数用户高频使用？

　　季啸白：我觉得主要有两大原因：使用场景有限和效率不高。语音AI最早可以追溯到20世纪50年代，很长的时间段里，它是依赖人类维护来回答问题。近几年语音AI实现了质的飞跃，比如ChatGPT所提供的语音AI不仅能够回答用户的问题，还能引导对话向更有价值的方向发展。但作为信息传递的载体，语音的信息密度常常低于图像，在很多场景下，单凭语音很难完整表达复杂的信息。此外，语音AI个性化能力有着先天不足，它很难从你的语气和用词中感知你的喜好，无法获得你的使用数据，也无法高效向你推荐内容。图形化界面的先天优势在于，无论是淘宝还是抖音，你点进去看了多久，查看哪一类商品比较多，这些数据都能作为推荐给你视频和商品的依据。

　　紫牛新闻：但语音AI仍然是人工智能竞逐的重要战场，比如2024北京车展，车内AI语音交互便是很多新能源车的亮点。语音AI还有哪些发展方向？

　　季啸白：如今基于大模型智驾技术的企业非常多，但即便是业界领先的语音识别算法，在嘈杂环境、口音差异、速度变化等情况下，转录准确率很难达到100%。但人类在机器时代已养成了这样的惯性：对人类犯错习以为常，但不能接受机器犯错，这正是车内AI语音交互发展的限制。此外，在车内场景下，用户对语音AI的诉求不算高频需求，变现方式也颇为单一，大多打包在车机订阅服务中。对于普通AI创业者来说，成功的机会很小。相比之下，语音AI在情感陪伴方面，赛道更宽。独居老人常常缺乏人际交流，情感陪伴型语音助手可以通过自然对话，为老人提供情感支持；陪伴儿童时，语音助手可以与孩子进行有趣的互动游戏；有些年轻人希望和喜欢的动漫角色谈恋爱，和自己崇拜的偶像交流，和喜欢的虚拟角色交流，这些都是语音AI可能应用的空间。

　　二

　　紫牛新闻：去年底英国《自然》杂志刊文预测的2024年十大科学进展中，人工智能的进步和ChatGPT人工智能占据前两位。人类如何对待可能拥有意识的人工智能，也成了关注的话题。

　　季啸白：有研究者预测，人工智能产生意识将在5-20年内实现。但我知道的是，2023年没有一项资助是用于“研究人工智能产生意识”的。我认为，AI的发展仍然在早期。在当下，人们仿佛对AI有些不切实际的幻想，总认为AI已经进化出了人类的思维，有感情、有思考，能代替人类写论文，甚至能和人类谈恋爱。这有些一厢情愿了。

　　紫牛新闻：2023年1月，美国多名艺术家集体起诉三家生成式AI商业应用公司作图软件以他们作品的风格生成图像，法院审理认为AI生成后的图片本来就不享有著作权，并不违反著作权法。今年，谷歌又面临着三位漫画家和一位摄影师提出的集体诉讼。你如何看待这些诉讼？

　　季啸白：这也印证了当下AI是没有人类思维的。目前，你让AI写生物医药论文、画一幅抽象主义绘画，而AI本质上只是学习过去人们写过的论文、画过的绘画，然后按照人类当下的需求重新杂糅并输出。AI是没有创造性的，特别是图像领域。图像生成AI经常出现的版权纠纷，是因为人类对AI的输出结果不能很好地控制。由此可见，探索更有效的人机交互方式，空间很大。

　　紫牛新闻：当下，越来越多的创业者涌入AI领域，在图像生成方面，可谓是老中青三代齐上阵，但进去后却发现并不轻松。你如何看待？

　　季啸白：当前图像生成AI的人机交互方式，从渠道上来说分为用文字生成图像、用“文字+图像”生成图像、用“文字+图像+风格倾向”生成图像、用“文字+图像+标注重点部位”生成图像；从轮次上来说也分为单次和多次。设计合理且简化的人机交互，更能帮助面向普通用户的C端产品获得成功。如何帮图像生成式AI做好人机交互体验，帮助人们合理准确表达诉求的同时，降低上手难度和门槛，是创业者和普通用户的需求，也是我重点研究的方向。

　　紫牛新闻：很多创业者认为，C端(个人用户端)需求大，寻求C端扩张更容易成功。

　　季啸白：美国硅谷早期的一些图像生成AI都是面向普通消费者的，用户按次付费，或通过订阅制包月使用。大部分消费者抱着尝鲜的目的而来，用户增长很快，但留存和付费转化很低，本质上是因为通用型图像生成AI的天花板太低。当下，图像生成AI的重点正在从C端向着面向企业的B端转移。

　　紫牛新闻：面向B端的产品和面向C端的产品，有什么明显不同？

　　季啸白：B端消费者不喜欢随机，无法接受太高的自由度。B端用户是要生成图片拿来干活的，不能天马行空的任由AI发挥。因此，对B端产品需要深入浅出地提供更丰富的多轮生成调优能力，这一点在人机交互的设计上一定要考虑到。

　　紫牛新闻：那C端产品的落地方向在哪？

　　季啸白：C端产品的商业空间肯定存在。短期内图像生成AI在C端产品的落地方向，是低客单价的普遍需求。千万不能陷入追求高客单价，AI的本质是替代人类的重复劳动和昂贵劳动力，追求高客单价是个误区。AI无法创造奢侈品，也很难触及高频需求，我们的日常生活中，出门吃饭买菜，回家刷短视频睡觉，很少需要创造图像，因此传统商业意义的高客单价和高频都是不可取的。C端创业者，一定要着眼普遍的多个需求，比如做AI图像集成工具，连带AI美妆，AI一键换背景，AI一键改光线，AI生成证件照、艺术照，虽然对单个用户而言不算高频需求，但对于整个社会而言，累计使用次数会相当可观。

　　紫牛新闻：B端用户中，电商是庞大的群体，也是普通AI创业者重点关注的对象。面向电商的AI创业，你有什么建议？

　　季啸白：电商行业其实是最早开始接触图片生成AI技术的行业，因为行业本身信息敏感度高，也有大量图片处理需求。我们工作中也经常有电商行业的从业者来聊，他们的需求太大了，无论是图像生成、图像批量后期处理，还是一键换衣等需求，本质上就是用AI的低成本去换重拍图片的成本。但是，他们的需求非常杂，相当定制化，具体到每一类需求量，其实不大，所以图片生成AI反而服务不好这个行业。之前有个老板来找我们，希望把帽子、围巾、手套等物品的平铺图能直接生成到模特的身上。从技术角度，我们要对物品做定制化的开发，有一定人工成本。电商核算后，发现找模特快速拍一下效率更高，成本更低。这一个项目最终没有成功，但能管中窥豹一个行业。

　　三

　　紫牛新闻：2月15日， OpenAI发布了“文生视频”大模型Sora，并附带发布了由它生成的48段视频，引发了社会高度关注。从中长期看，图像生成AI的发展方向是什么？

　　季啸白：我认为视频生成正处于破晓时分。视频的商业前景比图片大得多，这也是抖音、TikTok等产品成功的原因。经过互联网20年的发展，人们对消费视频已经习以为常，使用习惯也从阅读静态媒体向消费动态内容转变。视频生成大约在2025年达到可商用的成熟度。视频生成技术一旦成熟，OpenAI可能会建立自己的视频平台，和抖音、TikTok直接竞争视频消费者，同时给影视行业带来变革。影视行业不一定喜欢从0开始生成视频，但会对修复拍摄的穿帮细节、虚拟布景AI生成宏大背景、生成无法拍摄的视觉效果等感兴趣。影视行业的付费意愿高，和影视行业紧密合作，会是这个10年下半场的重要机会。

　　紫牛新闻：AI会取代人类的摄影和图像创作吗？

　　季啸白：从长期来说，图像生成AI一定是和人类大脑协作，而不是取代人类的摄影和图像创作。摄影是对客观事物的捕捉，也是拍摄者情绪和思考的表达。我很喜欢画画和摄影，AI技术虽然在不断演进，但人类主动创作的主观表达是永远无法替代的。

　　扬子晚报/紫牛新闻记者王塞塞【编辑:刘阳禾】

相关推荐