国产 AIGC 进入“修罗场”:我们预计今年有 1000 万用户,但还是很焦虑
原创:苏小如
编辑 | James
来源: 娱乐资本论
图片来源:由无界 AI工具生成
“AI 浪潮下的新型内容生产力革命正在到来……”
“AIGC 迎来了 iPhone 时刻,不用 AI 的人未来只能在博物馆里看到……”
“人类就要被 AI 取代了……”
这是一系列 AIGC 的宣传介绍,给娱乐资本论记者带来的第一印象。在刚刚结束的娱乐资本论 AI 特训营期间,当我们给学员大致介绍 AI 能做什么的时候,这也是他们脑海里产生的第一印象。
写文案、出报告、编视频脚本……作为典型的内容创作者,娱乐资本论的编辑们对 AI 辅助创作工具最感兴趣。它们当中有些已经上线可用,从宣传上看,好像是什么都能做。
但是实际情况稍微令人尴尬:这些工具还有不少局限性,距离它们宣称的能力和目标还有很长的路要走。当然,它们还是能帮创作者完成一些特定类型的工作的。
前几天,娱乐资本论拜访了这些 AI 辅助创作工具当中三家有代表性的公司:
打造过“国产版 Grammarly”,有自主大模型,几个月前做出一堆 AI 生成器的秘塔写作猫;
原本是短视频 MCN 工具,现在加入了 AI 编剧等功能的一览运营宝;
以文生视频为主打功能,包括文本续写、文生图等功能模块的内容辅助创作工具一帧秒创。
这些公司都表示,在目前上线的产品之外,还有一些技术储备尚未落地。这也让人对其未来发展有了新期待。
不过,任何未来发展都需要好的商业模式支撑。相比 C(消费者)端,三家公司都更注重 B/G(企业/政府)端的商业模式。但在发展 B 端客户的过程中,它们遇到的问题各不相同。
这些公司能否利用好这波 AIGC 的热度,实现跨越式发展,决定了它们开发的这些 AI 辅助创作工具,能否变成理想的样子,给我们带来期盼已久的“内容生产力革命”。
当然不仅仅是这三家,接下来的上海电影节,我们娱资将继北影节之后,继续举办和 AIGC 有关的论坛,这一次不但有最新的 AIGC 榜单和《ChatGPT 文娱应用白皮书》公布,还有一系列的 AI 大咖分享环节,感兴趣的小伙伴可以提前占坑了解。
这些工具长啥样?理想很丰满,改进空间还很大
“2021 年初我们推出纠错功能时,用户 70 万。2022 年论文降重功能上线后,用户涨到了 400 万。今年,用户数量至少涨到 1000 万以上。”
在接受娱乐资本论采访时,秘塔科技的 COO 王益为就今年用户增长情况给出了很乐观的预测。ChatGPT 教育了用户,相当于做了一波免费宣传。
秘塔的“写作猫”是国内学生群体非常熟悉的一款产品。其论文同义改写和降重功能 2022 年 2 月起上线,这给他们带来了 200 万毕业生用户——大概是全国应届毕业生的 1/5 以上。
新媒体作者、公务员、教师等很多重度文字工作者,不少都在使用秘塔产品。微信小程序里,秘塔的日报/周报生成器工具排名第一。
在此之前,写作猫的初始功能是汉语语法校对、错别字纠正,这个功能的完成度非常高,让写作猫被称为“中国的 Grammarly”。然而,ChatGPT 横空出世后,不论是中国还是外国的 Grammarly 都面临着一夜之间被替代的风险。
去年底,写作猫上线了一些 AI 含量更高的功能,刚一上线,就遇上这波 AIGC 浪潮,秘塔也一跃成为最靠近 AI 的创业公司之一,走到聚光灯下。
这些 AI 写作功能主要是生成长文章或短文案。娱乐资本论在试用过后感觉,首先它肯定不能代替人类写稿子,但有的时候可以帮人扩写一些段落,或者是从零开始,生成一些灵感创意。
文娱从业者对它们功能列表中的文章写作、广告语、小红书写作等,似乎都可以产生浓厚的兴趣。而下面这两家做的工具,会更直接地和文娱行业的工作产生关联。
其中,一览科技在面向短视频创作者及 MCN 的工具“一览运营宝”中,内嵌了 AI 编剧、AI 绘图等功能模块,普通用户便可以快速上手。近日,AI 编剧和 AI 绘画已经打通,用户在进行文本生成时,可以在生成结果界面点击文生图按钮,即可携带所生成的文字内容跳转至绘图,用刚刚的文本结果直接生成相应的概念图。对于影视从业者而言,这已经是 AI 分镜的雏形了。
图片
AI 编剧功能将工作流分为创意、情节、脚本三步,帮助用户从单个创意点起步,得到具体的创意内容,再通过增加了类似“兄弟反目”“战争”等明确的关键字,就可以得到不同的情节,之后,用户点击中意的 AI 情节,进入脚本生成,生成场景、画面、旁白兼具的专业脚本。过程中,用户还可以通过“智能改稿”功能反复生成不同的结果,直至得到满意的内容。
在接受娱乐资本论专访时,一览科技 CEO 罗江春表示,AI 编剧等功能模块并不期待直接做成盈利点,而是增强运营宝产品整体上对从业者的吸引力。他期待创作者们,能通过这些产品生产出经得起市场检验的好内容,打造出爆款。
这个 AI 编剧工具也已经产生了实际案例:一览科技和欢雀影业日前官宣共同开发基于 AI 编剧的长短剧项目计划,开篇项目《蝶羽游戏》由编剧徐婷执笔创作,在 AI 编剧辅助下完成前期剧本开发工作,计划年内开机。
(图/一览科技)
首曝概念海报,由一览 AI 绘图生成。
未来,一览科技的最终目标是从文本创作到视频素材匹配、虚拟人合成,再到最终的视频 AI 生成,帮助用户进行视频全产业链的内容制作与输出。
而一帧秒创则是一款以“文生视频”为核心的内容辅助创作工具。这里打引号,是因为它并不是使用 AI 凭空生成视频,而是先把初始的一段话扩展成为视频脚本,然后根据脚本的文字内容,在视频素材库中内匹配一些跟文字相对的视频片段,省略了人们手动搜索视频和剪辑的过程。
一帧秒创的开发商新壹科技脱胎于秒创和小咖秀母公司一下科技,也由此拥有大量视频资源储备。公司 CEO 雷涛介绍说,视频方面的“小白用户”可以低成本、快速生成视频,剪辑时间可以从小时级别缩短到分钟级别。
目前百度、知乎、剪映等也提供类似的功能,但主要是服务于百家号文章、知乎问答、抖音号等创作者,将已有的文章或文案转换为视频,简单来说都是“文贴图式”的视频。相对而言,一帧秒创可以从更短的一句话开始扩散脚本,在科普类视频中表现也更好一些,只要让它做一条关于“宇宙的起源”的视频,就能给出相对完整的脚本。
当然,也会有 AI 挑选的视频片段跟文字内容不完全匹配的情况,此时也可以手动更换视频。
一帧秒创也在这一波 AIGC 潮流中,上线了“AI 帮写”、“AI 作画”等相对独立的功能模块。这些功能生成的素材可以直接贴到视频脚本中使用。
娱乐资本论试用了一下,感觉有一种 AI 特有的“不按套路出牌”的趣味感。不过,就有些行文风格来说,要想看不出是 AI 写的,还需要再多努力一下。
怎样应对竞争?技术储备上都留着“后手”
虽然现在 AI 布道者都号称改变世界,但国内同行们做出来的产品,就像上面试用的那样,总有着这样那样的问题,总不像 ChatGPT 的效果那么惊艳。后来者们要怎么做,才能有效应对国内外激烈的竞争?
秘塔科技的王益为对娱乐资本论表示,至少从 2020 年开始,公司已经致力于搭建大模型。训练数据是秘塔自己准备的内容,不涉及此前用户上传的文本。为更符合中文语言习惯,这需要处理大量的多音字、谐音字,专有名词等情形。
“文本类的大模型技术门槛很高,但其实模型的难不在于大小。你做 1 万亿参数的模型,也不意味着你输出的结果一定是好的,模型大小还是要为你的输出结果服务。GPT4 出来前各家也有模型,但更多属于技术路线上的探索。OpenAI 大模型技术让大家知道,原来这条道路是能跑通的,但技术和产品还是要结合在一起往前走,模型需要训练。”
也是基于泛用途模型训练的实际困难,秘塔没想着让一个产品解决所有类型的内容生成问题,而是按用途匹配合适的文本类型,分别进行专项的数据训练和强化学习。在写作猫里面,AI 写作的界面并不是 ChatGPT 式的聊天框,而是宫格式的功能选单。
王益为表示,最近类似 Copilot、Notion AI 那种“斜杠”呼出形式受到用户的欢迎,所以写作猫也换了一种方式,在正文当中按斜杠可以召唤出同样的功能,但功能本身没有变化。
在写作猫的实验室板块,也有一个“对话写作猫”是模仿 ChatGPT 的对话框式界面。不过,王益为提醒说这个对话界面为了运营安全,做了更多的功能限制,因此效果反而会更差一些。
一览科技创始人兼 CEO 罗江春告诉娱乐资本论,包括 AI 编剧在内,运营宝这款产品其实并不体现公司最核心的技术积累。公司的核心技术其实是“短视频数据结构化”:分析视频中出现的人物、商品、地点等,将一段本来难以检索的视频片段变成可被搜索的结构化数据。通俗地说,这可以做成一个“视频版的谷歌”。
“一览科技这个名字是希望‘一览无余’,我们想看清楚视频里面有什么,希望构建一棵结构化的视频树,顺着树干可以找到我们需要的每一片叶子,既能做视频搜索、也能做视频生产。”
(图/一览科技)
一览科技的结构化短视频技术。
多年来,这家公司是“华、米、O、V”四大国产手机厂商的视频合作方,为“桌面负一屏”、各类预装应用等内部生态的短视频信息流提供内容源。这些视频内容大多都被进行结构化分析并打标签,为公司积累了海量的视频素材。
2019 年,一览科技的技术人员在输入一个编剧撰写的视频脚本后,AI 就从一览视频库里抓取调用了大概 5 条视频的元信息,然后自动生成了一段没有替换画面和重新渲染的美食菜谱视频。这 5 条源视频的片段都和制作某种食物有关,系统根据脚本,剪切出含有菜品的片段,并按顺序组合起来,配上文字说明就生成了一段“视频菜谱”。这个过程中,除了脚本是人写的,其他所有都由机器自动完成。
在 2019 年不借助 GPT 等技术时,就可以达到这样的效果。因此,罗江春很有信心地说现在的技术会更好一些,可以更多地用于商业化场合。
无独有偶,一帧秒创也将自身可以利用的视频资源库进行了结构化、打标签的处理。一帧秒创刚开始做“图文转视频”产品时,就专门针对这个场景开发了一套视频标注系统。
“一个长视频,先通过算法拆分它的场景,再拆分它的镜头,才能形成素材。我们通过多模态的识别,把素材灌进我们的标注系统里,我们叫做‘客观标签’,比如角色库。这两部分的内容占了我们 70% 左右的时间精力,相当于用了大半年的时间,建立了垂直行业的(视频素材)模型。”
谈到产品中现有的 AI 功能,雷涛说:“文生文是用户只需要写一个标题内容自动生成。文生图片主要是在用户缺乏视频素材的情况下,也能用图片素材进行替换。声音方面,我们给用户提供了几十种风格的 AI 声音选择,后面也会开放权限让用户通过 AI 训练自己的声音。而文生视频可以把以上的模块综合调用起来。
雷涛认为,AI 生成视频如果大量涌入视频社区,短期内不可避免会对内容质量带来一定冲击。“不过,假设平台的技术能力不被别人甩开的情况下,(平台使用 AIGC 填充内容)能更好地满足用户对内容的需要,因为它会发现多数用户就不在乎是不是真人。”此时,人类创作者只能通过更意想不到的创意来出圈,获得影响力。
怎样赚钱?都想着走 B 端,但没那么简单
三家公司都认为 B(G)端比 C 端重要。但在怎样建立以 B 为主的商业模式上,它们各自面对着不同的局面和问题。
一览科技成立于 2017 年,核心团队来自于风行网,在创始人罗江春的带领下深耕视频行业已有 18 年,围绕服务 B 端客户,他们已经建立起相当成熟的商业模式,因此“不做 App,不做推广”。借助运营宝平台的“订单广场”,他们可以直接派发视频商单给在他们平台下的个人创作者或 MCN,统筹小型个体按照需求创作视频,俨然已经自己变身为一家“新型 MCN”。在这个过程中,他们一直没有放松对短视频数据的结构化,为今后的业务打好基础。
罗江春说,“抖音、快手的大部分视频属于娱乐视频,但还有很多视频是工具属性、功能属性、实用属性,商单价格在几百到几万不等,也给了内容创作者正向的创作反馈。所以说商业视频的赛道很宽广。”
AI 能为这个链条做的事情不少,前提是技术真的到了特别好用的程度。比如说,让 AI 代替现有的打标签流程,效果堪比早年的人工标注;让 AI 从剧本出发继续向下制作,以至于用户只需要提供创意便可以获得视频内容;进军虚拟人领域,丰富自动生成的视频素材多样性。
对于现在流行的 AIGC 技术路线,罗江春认为:“大模型太吃钱和吃人,我们在创业之初,更关心的就不是模型,不是算法,而是数据。我们做好了技术随时被替换的准备,但是我们积累的几亿条数据,我们结构化的信息,是我们的底气,这在 AI 内容产品中里面是非常专业的事,门槛很高。”
一帧秒创还是一家相对年轻的公司。产品刚推出不久,他们手中已经积压了大量的企业需求。这些需求主要集中于,给他们创作提供关联性更高的视频片段。
为了更好的服务于政企客户,一帧秒创的员工们针对垂直行业,在已有的结构化素材库中再精选出各行业的视频素材包,目前已经梳理出十几个不同行业。据他们介绍,目前的医疗、金融、旅游、IT 互联网等垂直行业都是自身比较典型的用户群体,对图文转视频需求量大。
此外,一帧秒创也计划推出数字人,以满足一些客户“出镜”的需求,可以执行播报新闻内容等简单任务。如果仅使用二维人物形象,可以为客户节省一些成本。
当我们同样向秘塔的 COO 王益为问起商业模式的问题时,他显得有点焦虑。
秘塔在个人用户中认知度很高,但说起付费使用那就是“下次一定”了。毕竟,文本纠错算不上刚需,论文降重多是临毕业前一次性付费,AI 文章生成目前还很难把效果打上去、把成本和售价降下来。总体来说,C 端用户从免费向付费的转化率仅在 4% 左右。
通过 C 端注册用户“自下而上”地影响他们的老板成为企业版的潜在客户,是秘塔一直以来的打法。目前,秘塔 B 端客户约有几千家,包含互联网大厂和知名媒体等大客户,还有做营销号的公司等等。秘塔企业版最受公务员群体欢迎的功能是拼写检查。
在 C 端用户量长势喜人的同时,秘塔发现他们的 B 端用户反而开始犹豫。究其原因,一是大模型浪潮兴起后,国内外竞争对手增多,今后价格战恐怕在所难免。二是秘塔的现有产品个人版和企业版的功能区别不大,造成了很多用户使用个人版产品,实际上做的是公司的活。三是有时 B 端采购,特别是大客户采购总要求定制开发、甚至驻场,造成部署成本过高。王益为说,秘塔很难有机会参与这类政企采购。
秘塔为把握 B 端的机会,现在有两个想法。一是对自家技术做更多衍生应用,比如将大模型应用包装成虚拟人,给有需要的企业提供更完整的全套产品。他们已在展开相关招聘。
二是继续深耕他们的“老本行”法律领域。在写作猫之前,秘塔的创始成员就有丰富的法律产品开发经验,有法律检索、法规合同翻译等产品面世。秘塔与北大法学院长期合作,之前基于知识图谱等技术梳理了几个细分领域的法律知识体系,大模型技术会大大加快开发进度。他们将与地方司法机构合作,研发向群众提供法律咨询服务的软硬件结合的产品。