发布时间:2024-11-16 21:28:35 来源: sp20241116
AI创业,追逐风口但别轻信“红利”
——专访AI人机交互专家季啸白
自2023年以Stable Diffusion为主的开源图像生成AI以来,AI在图像和视频两个方向均有了质的突破。从语音AI到成为创新前沿的AI视频大模型,经历了六十年风雨的人工智能逐渐迎来了产业化的临界点。
季啸白目前在全球头部互联网社交媒体公司工作,同时也是长期的图像生成AI方向创业者。从全球顶级名校硕士毕业后,季啸白一直投身于图像生成AI产品化的研究和创业,作品也多次获奖。AI如何转化为新质生产力?紫牛新闻记者采访了人机交互专家季啸白。
一
紫牛新闻:无论是苹果手机的Siri,还是小爱同学、天猫精灵,语音助手从一出生开始就被人们视作AI技术的落地产品,但它为何没被多数用户高频使用?
季啸白:我觉得主要有两大原因:使用场景有限和效率不高。语音AI最早可以追溯到20世纪50年代,很长的时间段里,它是依赖人类维护来回答问题。近几年语音AI实现了质的飞跃,比如ChatGPT所提供的语音AI不仅能够回答用户的问题,还能引导对话向更有价值的方向发展。但作为信息传递的载体,语音的信息密度常常低于图像,在很多场景下,单凭语音很难完整表达复杂的信息。此外,语音AI个性化能力有着先天不足,它很难从你的语气和用词中感知你的喜好,无法获得你的使用数据,也无法高效向你推荐内容。图形化界面的先天优势在于,无论是淘宝还是抖音,你点进去看了多久,查看哪一类商品比较多,这些数据都能作为推荐给你视频和商品的依据。
紫牛新闻:但语音AI仍然是人工智能竞逐的重要战场,比如2024北京车展,车内AI语音交互便是很多新能源车的亮点。语音AI还有哪些发展方向?
季啸白:如今基于大模型智驾技术的企业非常多,但即便是业界领先的语音识别算法,在嘈杂环境、口音差异、速度变化等情况下,转录准确率很难达到100%。但人类在机器时代已养成了这样的惯性:对人类犯错习以为常,但不能接受机器犯错,这正是车内AI语音交互发展的限制。此外,在车内场景下,用户对语音AI的诉求不算高频需求,变现方式也颇为单一,大多打包在车机订阅服务中。对于普通AI创业者来说,成功的机会很小。相比之下,语音AI在情感陪伴方面,赛道更宽。独居老人常常缺乏人际交流,情感陪伴型语音助手可以通过自然对话,为老人提供情感支持;陪伴儿童时,语音助手可以与孩子进行有趣的互动游戏;有些年轻人希望和喜欢的动漫角色谈恋爱,和自己崇拜的偶像交流,和喜欢的虚拟角色交流,这些都是语音AI可能应用的空间。
二
紫牛新闻:去年底英国《自然》杂志刊文预测的2024年十大科学进展中,人工智能的进步和ChatGPT人工智能占据前两位。人类如何对待可能拥有意识的人工智能,也成了关注的话题。
季啸白:有研究者预测,人工智能产生意识将在5-20年内实现。但我知道的是,2023年没有一项资助是用于“研究人工智能产生意识”的。我认为,AI的发展仍然在早期。在当下,人们仿佛对AI有些不切实际的幻想,总认为AI已经进化出了人类的思维,有感情、有思考,能代替人类写论文,甚至能和人类谈恋爱。这有些一厢情愿了。
紫牛新闻:2023年1月,美国多名艺术家集体起诉三家生成式AI商业应用公司作图软件以他们作品的风格生成图像,法院审理认为AI生成后的图片本来就不享有著作权,并不违反著作权法。今年,谷歌又面临着三位漫画家和一位摄影师提出的集体诉讼。你如何看待这些诉讼?
季啸白:这也印证了当下AI是没有人类思维的。目前,你让AI写生物医药论文、画一幅抽象主义绘画,而AI本质上只是学习过去人们写过的论文、画过的绘画,然后按照人类当下的需求重新杂糅并输出。AI是没有创造性的,特别是图像领域。图像生成AI经常出现的版权纠纷,是因为人类对AI的输出结果不能很好地控制。由此可见,探索更有效的人机交互方式,空间很大。
紫牛新闻:当下,越来越多的创业者涌入AI领域,在图像生成方面,可谓是老中青三代齐上阵,但进去后却发现并不轻松。你如何看待?
季啸白:当前图像生成AI的人机交互方式,从渠道上来说分为用文字生成图像、用“文字+图像”生成图像、用“文字+图像+风格倾向”生成图像、用“文字+图像+标注重点部位”生成图像;从轮次上来说也分为单次和多次。设计合理且简化的人机交互,更能帮助面向普通用户的C端产品获得成功。如何帮图像生成式AI做好人机交互体验,帮助人们合理准确表达诉求的同时,降低上手难度和门槛,是创业者和普通用户的需求,也是我重点研究的方向。
紫牛新闻:很多创业者认为,C端(个人用户端)需求大,寻求C端扩张更容易成功。
季啸白:美国硅谷早期的一些图像生成AI都是面向普通消费者的,用户按次付费,或通过订阅制包月使用。大部分消费者抱着尝鲜的目的而来,用户增长很快,但留存和付费转化很低,本质上是因为通用型图像生成AI的天花板太低。当下,图像生成AI的重点正在从C端向着面向企业的B端转移。
紫牛新闻:面向B端的产品和面向C端的产品,有什么明显不同?
季啸白:B端消费者不喜欢随机,无法接受太高的自由度。B端用户是要生成图片拿来干活的,不能天马行空的任由AI发挥。因此,对B端产品需要深入浅出地提供更丰富的多轮生成调优能力,这一点在人机交互的设计上一定要考虑到。
紫牛新闻:那C端产品的落地方向在哪?
季啸白:C端产品的商业空间肯定存在。短期内图像生成AI在C端产品的落地方向,是低客单价的普遍需求。千万不能陷入追求高客单价,AI的本质是替代人类的重复劳动和昂贵劳动力,追求高客单价是个误区。AI无法创造奢侈品,也很难触及高频需求,我们的日常生活中,出门吃饭买菜,回家刷短视频睡觉,很少需要创造图像,因此传统商业意义的高客单价和高频都是不可取的。C端创业者,一定要着眼普遍的多个需求,比如做AI图像集成工具,连带AI美妆,AI一键换背景,AI一键改光线,AI生成证件照、艺术照,虽然对单个用户而言不算高频需求,但对于整个社会而言,累计使用次数会相当可观。
紫牛新闻:B端用户中,电商是庞大的群体,也是普通AI创业者重点关注的对象。面向电商的AI创业,你有什么建议?
季啸白:电商行业其实是最早开始接触图片生成AI技术的行业,因为行业本身信息敏感度高,也有大量图片处理需求。我们工作中也经常有电商行业的从业者来聊,他们的需求太大了,无论是图像生成、图像批量后期处理,还是一键换衣等需求,本质上就是用AI的低成本去换重拍图片的成本。但是,他们的需求非常杂,相当定制化,具体到每一类需求量,其实不大,所以图片生成AI反而服务不好这个行业。之前有个老板来找我们,希望把帽子、围巾、手套等物品的平铺图能直接生成到模特的身上。从技术角度,我们要对物品做定制化的开发,有一定人工成本。电商核算后,发现找模特快速拍一下效率更高,成本更低。这一个项目最终没有成功,但能管中窥豹一个行业。
三
紫牛新闻:2月15日, OpenAI发布了“文生视频”大模型Sora,并附带发布了由它生成的48段视频,引发了社会高度关注。从中长期看,图像生成AI的发展方向是什么?
季啸白:我认为视频生成正处于破晓时分。视频的商业前景比图片大得多,这也是抖音、TikTok等产品成功的原因。经过互联网20年的发展,人们对消费视频已经习以为常,使用习惯也从阅读静态媒体向消费动态内容转变。视频生成大约在2025年达到可商用的成熟度。视频生成技术一旦成熟,OpenAI可能会建立自己的视频平台,和抖音、TikTok直接竞争视频消费者,同时给影视行业带来变革。影视行业不一定喜欢从0开始生成视频,但会对修复拍摄的穿帮细节、虚拟布景AI生成宏大背景、生成无法拍摄的视觉效果等感兴趣。影视行业的付费意愿高,和影视行业紧密合作,会是这个10年下半场的重要机会。
紫牛新闻:AI会取代人类的摄影和图像创作吗?
季啸白:从长期来说,图像生成AI一定是和人类大脑协作,而不是取代人类的摄影和图像创作。摄影是对客观事物的捕捉,也是拍摄者情绪和思考的表达。我很喜欢画画和摄影,AI技术虽然在不断演进,但人类主动创作的主观表达是永远无法替代的。
扬子晚报/紫牛新闻记者 王塞塞 【编辑:刘阳禾】