大咖对话:为什么所有产品都值得拥AI重做一遍?
来源:Founder Park
很难一口气说完大模型对产品设计带来了多少改变。
产品的形态变了,交互形式变了,甚至产品服务的用户,产品的商业模式,都在发生变化。
在 AGI 大会上,我们邀请了两位已有实践经验的企业现场交流。
即时设计 是 UI 设计领域的明星企业,主打云端协作。4 月,即时设计内测「即时 AI」,10 万用户申请测试。
Monica 是一款 all-in-one 的 AI 助手,最早推出浏览器插件,已有超过 150 万用户,现在也拓展到 PC/Mac 和移动平台。
在本次 AGI Playground 大会上,我们邀请到即时设计创始人兼 CEO 李国锐和 Monica.im 创始人肖弘,与极客公园创始人 & 总裁张鹏一起,探讨他们在实践之后,沉淀的大模型时代产品方法论。
以下是访谈内容,经 Founder Park 编辑。
数据沉淀,AI 接管 80%的共识
张鹏:
两位已经是实际上在运用大模型去做产品的创新了,正好通过这个机会也可以讲一讲。
从即时设计的角度,当时是怎么决定要快速的把大模型接到自己的业务,当时经历了一个怎样的决策过程?然后你们的产品设计的思路,初始的思路是怎么样的?
李国锐:
即时设计是一款在线协作的 UI 设计工具,用户面向的是设计师。
在去年 12 月份到今年3月 GPT3.5 到 4 出现以后,我们一直在学习大语言模型的能力以及边界。我们也在思考如何用这样的能力来帮助我们整个组织、企业的员工进行提效,又能帮助我们用户获得什么样的能力。
非常幸运的是,我们在去年 4 月份的时候在整个UI设计行业发起了设计开源倡议,去年 4 月份到今年年初,我们积累了数万套开源资源,及上亿的设计素材。
了解到大语言模型的能力以后,我们就把征集到的开源素材进行整理、归纳、收集、过滤。做完这些之后,我们发现通过大语言模型的能力,可以将以前沉淀出来的大量 UI 专业数据,可视化地呈现给用户。
于是在今年 4 月份的时候,我们就上线了这样一款产品叫做「即时 AI 」,用户通过文字描述的方式可以快速产生专业的 APP、网站的 UI 设计界面 。以前实现这样的设计界面大概需要超过 30 分钟,而现在,通过我们的 AI 工具,30 秒就可以产生 4 个设计界面,提效非常明显。
张鹏:
所以就是 Text to UI 的东西直接出来了。
我现在回想当年极客公园 2010 年成立的时候,探讨最多就是 UI 设计。
那时候移动互联网刚来,感觉今天 UI 这件事儿探讨起来改成用大模型更快地实现了。
李国锐:
我们也非常感谢你们在十年前已经定义的 UI 设计规范。
当我们回顾所有超级 App 或者用户非常多的 App,就会发现很多设计模块是非常一致的。 没有人会挑战把登陆界面改得个性化、或把用户设置的界面改得个性化。特别大型的 App 其实在非常早期的时候就把 UI 定型了。
UI 设计是图形化的语言描述,那通过把前辈们十年前贡献的数据、沉淀的标准消化完成以后,就会发现 80%的界面其实是可以通过总结规律与经验产生的。剩下 20%的界面,则是由每一家企业自己去做非共识的、有创新点的设计。
即时 AI 现在的能力,也是产生共识性内容的效果特别强。非共识内容是我们最近在补的数据。
张鹏:
有道理,就是你们先把已经共识的东西是通过 prompt 让大家更快捷地生成,留出时间探讨非共识的怎么做更好。而且未来可能非共识也可以 co-pilot、co-imagination 的去探索,这个是个很好的思路。
产品形态,为什么从浏览器插件出发?
张鹏:
回到 Monica.im,肖弘做的浏览器插件接 ChatGPT API,主打全球市场,海外市场。当时怎么想起来做这件事儿的?怎么经历了产品的决策过程?
肖弘:
我自己一直有做 AI 助理 的执念。
可能很多用户会有类似的体验,用文件传输助手记一些很简单的笔记。
在2021年左右的时候我自己想利用企业微信之类的,用一些AI技术做在微信里面的AI助手。
我当时把我自己所有的数据,我还买了一个摄像头24小时带着,上班录下来。
那时候整个技术不成熟,录下来的数据丢过去,我希望有一个魔法能够把它们解释清楚,但是在2021年的时候搞不定。在 2022 年 11 月中旬的时候我注册了 OpenAI 开放平台,用了一下GPT3的接口,当时我非常震惊,觉得这个时候做小助手的时机已经到了。
那个时候ChatGPT还没有发布我们就已经决定做了,ChatGPT发布的时候我们非常郁闷,因为官方自己做的,而且在后面我们观察到国内外很多独立开发者也自己做了。
当时我们有一个命题是想清楚跟原厂的差异化是什么。
非常巧,当时国外的一家创业公司 Jasper,它最直接被拷问,说你跟 ChatGPT 的差异是什么?它有一篇文章提到想赋能每一个输入框,想做浏览器插件。
这个信息被我们捕捉到了,我们觉得它是非常好的产品形态,能够获取用户的上下文,就立项做了 Monica,第一个版本就是浏览器插件,我们觉得是非常对的选择。也很有意思,Jasper 自己没有践行这个战略,它的浏览器插件没有做好。
张鹏:
最近因为技术被覆盖,Jasper 受到的影响也很大。
定义关系,要么是传感器,要么是手和脚
张鹏:
这也是想追问的一点,你们并不是因为 ChatGPT 出现了才想做这个,是早于 ChatGPT 发布就开始做的,它来了以后对你有一定的覆盖和影响。
创业者今天做大模型产品,是不是都会面临这个问题?怎么避免技术一升级,我们的努力就被覆盖?
肖弘:
这件事情我们也一直在思考,阶段性的思考结果跟大家分享一下。
首先大家得持续地想明白的一件事,大语言模型的边界在哪里?
我们自己的体感,大模型更像是一个大脑,应用层创业者应该想办法收集用户在特定场景里的数据,数据加上这个大脑,跟它形成协作关系。
从产品形态来说,我们用浏览器插件的形态,获取很多用户在浏览器里的数据行为。
张鹏:
你刚才说的这点很有意思。
我们要理解大模型是什么,所以,我们是什么,这个关系很重要。
你刚刚形容它是大脑,老周(鸿祎)形容是计算机。我们要给它更丰富的数据,才能更好地用好算力。如果我完全不 input 新的东西,输个指令它就能直接干,这样意义就不大。
肖弘:
可以这样理解。
张鹏:
要么我们是它的传感器,要么是它的手和脚,我们得和它有价值交换。
肖弘:
对。我再补充下,浏览器插件为什么是好的产品形态?
一方面可以获取用户当前的 context。 另外,Monica 下一步会做一些类似 RPA 的事情,你有一些指令之后帮你在浏览器把这个事情干了。
相当于把眼睛和手都加上去了 ,这个是你跟 LLM 的边界也很清晰,它持续地变得更聪明,而你持续帮它看到更多的东西和执行更多的东西的关系。
用好大模型,做视觉设计的「编程」
张鹏:
国锐怎么看?刚才我理解你的数据有一部分还是众筹的,是吗?大家都贡献了一些,加上历史积累。所以你们能在 UI 层面迅速把 80%共识的东西,变成很自动化能够产生的东西。
你接下来呢?那 20%我们还能做什么?大家要非共识去创造的东西。一个设计的自动化是反设计的?还是促进设计的?
李国锐:
我们会发现大语言模型,有非常强的结构拆解、扩充及总结的能力, 在这些能力支撑下,大语言模型可以很容易地快速获取与理解用户的需求。
同样的,基于这样的能力,针对非共识性的内容,只要用户的阐述表达得足够清晰,它(大模型)也可以从共识性内容解构出来的专业数据中,快速寻找并进行适配。 但它的难度就比刚刚说那些共识的难度数据要大。
也就是说,针对共识性内容,用户只要简单的一两句话就可以获得匹配结果,但是针对非共识性内容,尤其是独有的、创新性的功能,用户就需要通过非常详细的文字描述,最终也可以把这样的一个可视化的结构给生成出来。
因为我们生成的不仅仅是一张图,而是带图层结构、带模块的设计稿,甚至包括图标及填充图像,并且最终生成交付的设计稿是可以被用户二次编辑的。
它不像 Stable Diffusion 或者 Midjourney 生成的是一个图,我们希望生成的是一个可视化的结构输出。
张鹏:
其实是一种视觉设计的编程 ,你帮它编出来,用户还可以再调整。
李国锐:
对,完全分层级 。
再回到 20% 的非共识性内容,我们的抽离不是整块、大块地抽离,而是对每个界面的解构可以细化到每个按钮、每个标题、每一段描述,可以拆解每一个模块背后的意思是什么?它的结构希望给用户呈现的是什么?
当用户把意图讲解给它(即时 AI)的时候,它会把我们存储的意图跟之前可以匹配的数据进行匹配、推理再做转化,所以用户对它描述的意图有多精细,它的生成结果就会有多精细。
张鹏:
你们要实现这样的能力,是怎么部署大模型到你的业务和产品里?
李国锐:
我们有在运用大模型的接口能力,但实际上我们的工作会更多。
我们有很多数据要做预处理,需要把很多的数据进行解构、抽离。包括需要搭建像 LangChain 这样的框架,来解决Prompt 内容过大等问题。我们需要把整个设计稿或者之前积累的大量数据喂进去,这个量是非常大的。包括已经解构完的组件库或者搭建页面的模块,需要被前置存储到我们自己的服务器或者类似向量数据库的结构里面进行处理。
张鹏:
所以刚才老周说未来都要变成私有的,这个也未必在每个领域都行。可能在这个领域(设计)SaaS 就是比较好的模式,那你往前推演,在大模型技术引入之后,SaaS 依旧是好的方式吗?
李国锐:
接口开放或许能解决这样的问题,通过将一部分接口开放出来,将这些数据对齐到其他企业。
但是要把大量的数据进行糅合,再部署到企业,短期来说,在我们这种专业赛道相对会比较有挑战。因为它的体量及更新迭代都比较快,这个过程中还要不断消化刚刚提到的非共识的东西。
如何填充这些数据,并且保持高速的迭代,都是挑战。
张鹏:
如果把它分布式布到每个地方,就没有成长性。
插件覆盖不同网站,从用户视角抹平差距
张鹏:
UI 还好,还不像销售、客户的系统。回到肖弘这边,你们选择了浏览器插件作为你的阵地构建。能不能解释解释浏览器插件这件事儿,因为大部分人会觉得为什么不是 APP,APP 是不是更闭环的东西?
选择浏览器插件的好处和大模型时代的关联能不能再解读解读?
肖弘:
国内因为种种原因,大家对浏览器插件这个产品形态见得比较少一些。
但在海外它是一个比较主流的产品形态 ,比如 Grammarly 是每年几亿美金收入的公司,它浏览器插件的用户基数也挺大,也可能是亿级别的用户。
我们当时核心的考量,AI 作为一种能力,如何能够适配到各种各样的场景是非常好的事情。浏览器插件恰好是我们发现的一个能够很好把这件事情做到的产品形态。
大家看了很多大厂发很多 AI 牛逼的能力。但网站特别多,很多网站并不会立刻集成这些能力,比如 Google Docs 集成了 AIGC 的能力,但自己搭了一个博客系统可能就没有。
但是用户在输入框里面,确实想要用很好的 AI 能力,这个时候浏览器插件,就能从用户视角抹平各个网站体验上的差距。 所以当时我们选了浏览器插件的形态,而且本身我们做出海,所以全球来看这个形态也可以被更广泛的接受。
张鹏:
你刚才说你选择了一个本身比较平坦的,复杂度相对比自己重新做一个 APP 更轻一些的平台来启动这件事儿。用户在你们的产品里,你们现在应该有150万左右的用户积累了。
肖弘: 对。
张鹏: 是现在发展速度比较快比较好,最近还在增长吗?
肖弘: 还在增长。
张鹏:
ChatGPT的活跃度都有点下滑了。Monica 还在增长活跃,主要用来干嘛呢?用户解决的问题到底是什么?
肖弘:
我们做了很多很具象的场景里面的工作,比如帮你总结文章或者打开一个 YouTube 视频的时候帮你总结,并且把每段分下来,零零碎碎的场景都有,包括回邮件。但更多还是问答的场景,希望它是变种的搜索,会问各种各样的问题。
我们接下来做的工作,我们做了个很多不同的机器人承接各种垂直领域的问答,也许 ChatGPT 的抽象是试图用一个机器人回答所有的问题,但这个有难度和挑战。我们希望用多个机器人,每个机器人解决不同的问题,用这个抽象解决问题。有些垂直领域机器人甚至是大语言模型的基础加上传统的方案,比如为了解决幻觉问题,你可以用更传统的知识检索的方式,更多人还是把它当作搜索的变种,我们给的解决方案是用不同的机器人解决不同的问题。
张鹏:
里面看到最主流的是在搜索,大家需要有更好的搜索,而你交付更好的搜索未必是用 ChatGPT 的方式做,可能要有一些更分类的 Chatbot,甚至不一定用大模型。
肖弘:
不是说用一个搞定所有的事。特别是在底层技术快速发展变化的时候,可能特定的问题被解决的更好。
张鹏:
不要极端,务实的解决用户的问题。
用户人群,大模型带来专业领域大众化
张鹏:
说到解决用户问题,转回即时设计,从你们把这个能力加进去之后,我现在都能自己画 UI 了,以前我们要有 UI 设计师,它改变了用户的属性,现在用这些东西的人会变化吗?用它的目的会变化吗?
它的目的是为了高效、快速?还是为了简单?为了创新?
从你们识别到的用户真实的需求来看,它是怎么分布的?
李国锐:
我们上线这个产品以后也有 6 位数以上的用户使用过我们的产品,我们获得了大量的用户反馈和用户故事。
我印象深刻的一个故事,有一个设计大牛,他有一个设计工作室,以前他可以提供外部支持,帮助他的客户完成网站或者 APP 的设计需求。如果客户没有提供设计原型、文档,他以前不会接,他会要求客户提供这些。
当我们上了这个产品,他把即时 AI 推给他的客户,让客户通过文字语言表达,在我们这个平台里面产生一些设计初稿,初稿不满意就反复生成。当初稿 OK 以后,再进行快速对答,就能把用户的需求很好地具象化。
整个大语言模型加上专有数据以后可以把以前专业的事情大众化、降级化。
尽管本身有设计需求的人群很多,但是这样的设计是需要很强的知识储备和软件控制能力,而掌握这种能力的人群是很少的。但是明确知道这个产品用来做什么以及有审美的人是大量存在的,而我们这样的能力就可以帮助这部分人很好地解决个场景。
我们即时设计原来就是服务于设计师,同时服务于设计师的上下游,即产品经理和程序员,所以我们针对这三个角色仍然在持续提供 AI 相关能力:产品经理可以通过即时 AI 进行快速生成原型图;设计师可以通过即时 AI 快速生成UI设计稿;程序员群体也可以通过上个月推出的「即时上线」功能,将设计稿一键发布为符合 HTML、CSS、GS 结构的在线网页。
即时 AI 的能力实质上可以把这三部分的工作门槛都降低,使其逐渐大众化。以前需要非常复杂的操作才能完成,但我们现在 AI 很快速地就能完成。
它带来两个好处,一方面有专业能力的人(产品经理、UI设计师、程序员)就可以做到上下游兼容,并且在实际的工作沟通中可以通过我们的产品,快速地给对方一个专业的结果。另一方面,对于没有专业能力的用户、或者不在产设研这个协作流程中的用户,如果有产设研方面的需求,也可以通过即时 AI 快速装备这种能力。
大语言模型能力还是给予了专业数据结构更好的呈现机会 ,这也是我们应用创业者的机会。
张鹏:
我们运用大模型现在是潮流,潮流过后可能就是要深下一层,到底解决什么问题,用户的需求是什么?甚至有时候,让 ta 用起来就看出来,你当时宣传的和 ta 实际用的最多的,我们就能看到真相。
两位都是有足够多的用户、并跑了一段时间能够看到真相。
所以你刚才说的一点很有意思,就是大部分的用户可能更关心的是我能够摆脱原来对于某个特别专业的人或者技能的束缚。可以快速把我想要的东西能出来 ,就是跟老周说的就是 AK47 给群众发枪,大家想干就可以干,是类似的。
它其实带来的是这种创造一个新的东西的时候,比原来的成本降低了,速度提升了,这是大家真正的需求。
张鹏:
如果这个东西作为前端,作为 SaaS,还会有其他的延展性吗?有没有想过这个事儿再往下做,还需要加什么功能?还可能对于产品的生产流程里面带来什么样的影响?
李国锐:
我们更多思考的是,我们到底为什么、为谁服务?那我们可能为产研服务。
那产研的流程或者相关的产品还有没有更好的形态,让用户一开始就能获得最想要的结果?那如果要打通「一步到位」的通路,现在的每些环节都必须要通过。
当然,如果你的需求没那么高,实际上现在是可以一次性完成最重要的结果的。
但一旦产品复杂度不断往上提,它就得分出来很多模块,并且里面夹杂非常多的专业,即非共识的问题要被解决。
在我们思考中,第一个点就是我们本身期待大语言模型要有更多能力能够兼容、挖掘用户的想法、需求及本身要表达的东西,再去跟对应的专业的数据和要呈现的结果进行高度匹配,这个匹配度越高,能够产出的结果越具象且越准确。
但是现在,很多这样的产品都还不是以这样的思路去设计的。所以,未来要往哪里走,可能真的是需要 AI-Native 的方式重新把我们整个产业流程打碎。
AI-Native,用更自然的方式交互
张鹏:
你能不能跟我们形容一下?你看见什么是 AI-Native?
李国锐:
第一个点是所有要产生的结果一定要相对具象,我在定义这个产品的时候要知道交付物是什么,我到底交付一个网站、APP 或者就是设计稿?
在这个明确以后,我们需要让用户以非常舒服的方式获取到他想要的结果。那肯定就不仅仅通过文字的方式,可能是其他的方式,这个过程首先要以人更加舒适去表达出他的想法,他对产生结果的用途,未来的期待等等得挖出来。
在这个流程中,我们希望在 AI-Native 设计的更加符合人的用途,也期待大模型更多的多模态摄入 ,不管是简单的画个草稿、快速的语言表达或者是导入专有数据结构的数据,再或者是我觉得我希望我这个产品哪些部分跟已有的产品是接近的等等信息摄入,帮助他完成他最后想要的结果物。从我自己的思考,肯定还是以怎么把尽可能把人的想法表达为准。
张鹏:
AI-Native 很重要的特性是要对人更 natural。肖弘呢?
肖弘:
从用户视角来看,我认为AI-Native的产品首先要忘掉,它没有原来的负担 。
举个例子。如果大家传统是做笔记软件的产品,它用 AI 的方式是我原来用的都有,只是加上 AI 的能力。
但是一个没有这样的负担的 AI-Native 产品经理,ta 可能会想,我能不能把它设计成人的样子去记笔记?
也许从 UI 层来说有点像刚刚说的更自然一些,忘掉一些过去的束缚。不管老的产品,老的产品相对来说,如果我们我们说 2023 年是 AI 纪元,2023 年以前的产品一定程度上还是会有过去的负担。重新开始设计可能是可以忘掉这些东西。从用户的角度来看,能不能用更自然的方式交互。
第二个方面,能不能把用户使用和数据飞轮给建设起来 ,human in the loop,这个非常重要。尽管我们今天是接的 OpenAI 和 Claude 大厂模型。但我们对开源的关注度非常高,在特定具体的领域我们希望我们积累的数据能够拿来,我们自己布个模型能够解决问题。能不能让用户的参与使得你的不管模型还是产品更好,这个是第二个方面。
张鹏:
要关注除了原来看的功能的 flow,还要关注 data 的 flow,这个用户的 data 有没有在你的产品成长路径里面也能够形成闭环,这个也是 AI-Native 很重要的。
今天非常感谢两位创业者,有很好的实践,跑在前面,并且在里面开始看到一些用户用大模型去解决问题的真相。期待你们两位继续往前跑得更快,有机会再回到极客公园做更多的分享。