本期嘉宾
林洪祥 风平智能CEO
林洪祥,风平智能CEO。风平智能拥有全球领先的数字人AIGC预训练大模型技术,利用数字人+AI知识大模型打造视频版ChatGPT,实现数字人名师、数字人医生、数字人保险客服、数字广告模特、数字人AI直播等,服务众多领域的知名品牌,股东包括北京大学人工智能AICC雷鸣主任和清华大学杰出校友的基金等。林洪祥毕业于清华大学,曾任职于IBM与百度。
主持人
田超 腾讯云企业中心总经理
这个项目结束后,我们在寻找下一个创业方向时,发现国内AI巨头已经把AI应用在各个场景,在细分场景里的资源能力也比我们强,我们转向探索能否用AI技术做一款通用型产品,于是风平智能就决定专注于做数字人来赋能各个场景,这个逻辑和张一鸣用移动互联网+AI 1.0(信息流推荐算法)这个通用技术打造今日头条、抖音等产品是一样的。
风平智能数字人
刚开始如何养活团队?一方面是靠投资者们提供的1000万元左右的融资,另一方面我们用AIGC生产了上千万篇金融保险行业的专业文章和视频,帮保险行业实现零成本获客,通过互换获得一些算力资源,来支撑我们早期大模型“炼丹”。可惜的是,我们当时的AIGC只服务于保险行业,也没有公开产品化,无法像后来的ChatGPT一样成为现象级产品。
去年10月份,大多数投资人依然认为AI处于非常灰暗的1.0时代,今年年初我们的财务预算也是尽力把每一分钱花在刀刃上,直到春节后大量数字人和AIGC的需求开始涌现,我们每个月的订单达到超100%的增长,一个月的订单比去年一年还多。
数字人的爆发具有偶然性,刚好三大热点同时汇聚在一起:一是直播,尤其是疫情开放后本地生活类直播的爆发;二是ChatGPT大模型带来超前的AI热度;三是数字人与本地生活的结合已经比较成熟,可以做到上午采购,下午搭建完产品体系后开播,当晚就开始获得收益。
目前看来,市场应用前景比较大的是2D数字真人,一方面价格能被中小用户接受,另一方面足够逼真的数字人才能传递出信任感。逼真感是如何形成的?
第一是进行有效的拍摄。这里的动作录制是原生态的,也就是把真人做的动作录制下来,因此看上去会非常自然。虽然现在客户可以自己用手机或者常规设备自行拍摄,但我们还是比较推荐客户去专业的摄影棚拍摄,我们和全国各地的摄影棚都有合作,因此我们的数字人的合成质量会更好。
第二是用算法生成数字人的口型和表情,并且让两者匹配好。这里的技术难度非常高,这项技术无论是风平智能还是国内的头部同行在全球范围内都是领先的,成本和质量平衡上远超数字人鼻祖企业Synthesia。

风平智能AI创作的数字人“小乔”
田超:3D超写实数字人虽然精美,但制作成本非常高,据说制作一个“柳夜熙”3到4分钟的视频需要一个多月,成本高达几十万元,这导致3D数字人的商业化应用比较单一,普遍被用作品牌大使场景。而2D仿真数字人并没有大家想象中的那么贵,目前市面上定制数字人大约千元,一年系统使用费大约万元,已经开始被运用到直播带货、客服、主播场景里,风平智能的数字人对比真人直播带货,成本可以降低90%。2D仿真数字人是如何将成本压缩到能广泛商用的地步的?
而现在,行业里用的是“大模型+小样本”技术,一下子就把十几万元的成本压缩到几千元。我们先去训练一个大模型,里面含有不同样本,然后只需要录制5-10分钟有效时间去形成小样本,后期就能自动生成大多数口型、表情。目前行业里还没有去自动生成动作,虽然能应对更复杂的场景,但是成本也会增加上来。
如果要对比真人直播带货,我们有一个客户计算过,他们一年私域就能卖几个亿,这就意味着他们需要很多直播间,每增加一个直播间,就需要起码一个主播、一个文案、一个运营、一个场控,每天只能播4小时左右,加上设备、场地、员工社保医保,算下来一年要75万-90万元成本。相对来说,我们的数字人从IP制作、文案生产、直播都是自动化的,一年的成本也只要几千元到几万元,帮他们省了几十万元。
回到你说的具体问题,比如像动作比较少,其实我们可以看到像在TED演讲里,大多数演讲者在固定场景里的肢体动作也是不断重复的,所以数字人能展现出几个合理、自然的动作,已经能满足到大多数客户的要求。
说到声音的“机械味”,一方面是因为声音不同于人物的像素化录制,它是一个从模拟到数字,再从数字还原到模拟的过程,并且经常在非标准环境里完成录制,因此效果可能会受到一定程度影响。另一方面,人的听觉器官比较发达,并且每个人的感受是不同的,例如有的人就觉得“华华子”的声音很自然。从实际应用来看,当声音、口型的准确率够高,合成够自然,就能胜任服务于垂直场景的需求。
实时互动强调低时延,第一需要数字人的口型、声音合成要够快,第二需要智能大脑的响应够快。整个行业在时延方面确实需要优化,这也是为什么我们在与腾讯云深度合作,借助腾讯云强大的算力支持降低生成时间、提高视频流速度。此外,我们专门去打造垂直模型,它的范围相对更小,因此精准度更高,与此同时我们也在加快知识库的工程化路径,现在整体的响应时间已经降到2秒以内。
就目前数字人的实时互动能力而言,市场需求推动 “直播先行”,因为直播卖货的场景本身就有5-10秒的时延,互动起来也比较自然。
风平智能数字人制作中
一方面是因为数字人火起来才几个月,没办法很快就出现头部IP,即使看头部的真人主播李佳琦、小杨哥等等,也是直播兴起一两年后才在百万人里脱颖而出。不过我相信,随着越来越多聪明的人把数字人用好,今年内大家会看到超级数字人IP的诞生。
另一方面,IP要有真正的灵魂,就需要承载人格化内容,这个跟真人运营是类似的。比如小杨哥这个IP,他的团队帮他打造出幽默情景式的卖货形式,匹配小杨哥本身阳光搞笑的人设,数字人IP运营也是遵循一样的道理。
风平智能AI创作的数字人“大乔”
数字人现在已经具备一个超出真人的“智慧大脑”。举个例子,一旦直播间的人多了起来,真人主播就很难记住某个观众是什么时候进来,待了多长时间,而数字人则记得一清二楚,并且知道对这些观众进行点名,一有这些互动,观众就会觉得“既然都点了我的名,要不就下一单吧”。
再例如,明星的数字人做直播互动,这类直播间对情感传递的要求比较高,需要主播记得粉丝的各种偏好,给到他们合适的关怀。明星不一定记得住每个粉丝,但是数字人可以,并且能够做到千人千面,根据AI策略在对的时间给到对的信息,与粉丝产生的粘性甚至比真人好。
大家对数字人最大的误解在于,数字人只是解决了“主播”的问题,无法与流量、收入直接挂钩,还需要结合供应链、选品、宣传点、目标客户等综合性因素才能最终带来好的转化。
并不是用了数字人就一定能赚钱,世界是没法靠“银弹”运转的,但数字人起码能让你省心一些,即使没有什么投入,有的数字人直播间都有上万的观看,把数字人用得更好的商家,一天下来卖出上万的也大有人在。我们在今年4月统计了我们合作伙伴的数字人直播收益,一天一共可以卖出1亿的GMV,足以看出数字人直播的价值。
风平IP智造产品
其次,我们的数字人安全类措施也更加领先。大家想象一下,一个身价100亿的基金经理,把他的形象和声音克隆成数字人,实际运营的可能是刚入行的年轻人,甚至他可能还不太熟悉相应的证券法规,也无法把握内容的尺度和边界,那么这里面或许存在着毁灭基金经理整个职业生涯的风险。
风平智能在AI数字人的大模型和生产技术上都把安全性放在首位,第一,我们能实现数字人追踪回溯,清楚记录这句话是否是真人说的,可以成为有效的司法证据;第二,我们在生产数字人的过程中可以及时中止,对三级关键词进行分析,及时把相关隐患过滤掉。
此外,我们的产品可以实现视频+直播合二为一,客户只需要花一份的钱就可以买两份的功能。
最后,我们认为数字人并不是一次消费,而应该是企业永久的资产,因此基于非常好的渲染底座,我们的数字人的终端兼容性非常强。客户在我们这里定制数字人之后,可以将这个IP从手机无缝升级到新的设备进行使用,包括今年的苹果VR眼镜等等。
比如说,小样本的质量。这里就是我前面说的摄影质量,这里要看是否有丰富的摄影基地资源,摄影合作方在输入数据时靠不靠谱,模型建得好不好,后续就要看声音和人物形象能否做好匹配。
再比如,我们多次强调内容质量。平台的流量倾斜检测的不仅仅是人,更是视频的整体质量。风平智能一直都很重视客户成功,因此我们在数字人视频制作中会非常看重内容质量,比如关注是否含有平台违禁词等等,让内容能够有效分发。如果有长期利于行业的需求,我们亏点成本也愿意去做。
此外,我们对待客户和合作伙伴是非常真诚的。我们期望与合作伙伴协作共进,生态共赢,我们的目标还是希望用AI产品推动整个社会的发展。
风平智能CEO林洪祥
我们是怎么和这次ChatGPT浪潮结合的呢?一方面,我们和百度是战略合作伙伴,我们会结合运用百度的文心一言。另一方面,我们是一支国际化团队,自己的大模型起步也很早,尤其在垂直领域里时效性、精准度都达到非常高的水准。
不过我还是认为国内的大模型太浮躁了,今年突然有70-80个大模型生产出来,但很多都被爆出套了OpenAI的壳,甚至有的公司完全没有理解大模型所需的成本,对外宣传上千亿参数,但整个公司的规模根本支持不了千万美金的算力,有的上个月还让我帮忙找AI算法负责人,下个月就宣布大模型发布了,这些过度追逐噱头的现象是非常贻笑大方的。
风平智能AI创作的数字人“心怡”
我们生产的高质量内容其实是符合平台规范的。比如平台担心利用数字人进行诈骗,那么你可以清晰标注清楚这是一个AI数字人;再比如平台规定AI数字人不能开打赏,尤其是一比一克隆真人的数字人,容易有诈骗的嫌疑,那么你就千万不要开打赏。
当然,平台也一直在拥抱新技术,一方面新技术能够降本增效,助力平台生态的发展,例如很多中国企业去海外做直播,以前用外国人模特费用太高,现在用数字人就能省下一大笔开销,还能跨越时差;另一方面如果平台不拥抱新技术,就容易让其他平台或者新的平台后来居上。
风平智能数字人直播
我认为技术是把双刃剑,尤其数字人还处在野蛮生长的阶段,用在好的地方能降本增效,用在不好的地方可以毁灭一家公司,甚至是整个行业。所以我也在这里呼吁:以社会道德的要求来经营企业,法制往往落后于新技术,企业的自我约束就太重要了。
但客观来说,这种交互式互动的数字人是未来非常有潜力的应用场景,我们为此推出了一个“1号AI”的计划,让数字人成为组织里的“1号员工”、“1号专家”。
利用垂直大模型去驱动,这个AI数字人能成为除了CEO以外最懂企业的人,不管是企业的财务、人事、企业文化、各种管理制度,甚至企业的八卦,它都一清二楚。懂企业的数字人,对外能担任销售的工作、能做不会出错的客服,对内可以担任人事经理、财务经理等角色。
再比如,我们把医生做一比一克隆,这个数字人背后有这个医生做健康问答的大模型,可以7×24小时提供常规咨询,让更多普通患者也能得到一对一的专业健康顾问服务。目前我们已经做出了国内第一个行业垂直模型,二期测试效果也非常不错,预计为客户一年节省8000多万元的成本,在未来发挥它的巨大潜力。
风平智能CEO林洪祥
20年前,每家公司都有个网站;10年前,每家公司都有APP或小程序;而未来,每家企业都会需要一个AI数字人。我们现在去一个企业的网站或APP,无非就是要获取企业的信息,以前只能简单地点击,体验并不方便,未来则可以与AI数字人进行互动,要查信息直接开口问,有纠纷直接吵一架,语音和手势交互会更加自然。在手机上的时候优势没有那么明显,在VR、AR设备时代其作用就会凸现出来,这也是风平智能AI数字人兼容VR、AR设备的原因。
AI世界的基础单元就是AI数字人,我们也会一直聚焦在这个领域,和大家一起见证这场AIGC带来的互联网基础设施的变革!
