初创AI公司眼下的致命“软肋”:不缺钱 但急缺“它”
来源: 财联社
编辑 潇湘
图片来源:由_无界 AI_工具生成
随着ChatGPT推动AIGC热潮在全球范围内迅速升温,大量的生成式人工智能初创公司眼下也正如雨后春笋般涌现。
然而,即便这些初创公司能够轻而易举地获得数十亿美元的投资资金,但依然有一个致命软肋,在眼下几乎难以避免——那就是训练数据的缺失,而这最终可能成为这些初创公司成功道路上的最大“绊脚石”。
风投公司Primary Venture Partners联合创始人兼普通合伙人Brad Svrluga就表示,“我们已经收到了许多初创AI公司的毛遂自荐,它们很可能正在追求创造出色的AI应用,但它们很多无法获得能够让它们构建强大应用的训练数据,更不用说那些能够帮助它们在业务中,建立有竞争力的护城河的专有数据了。”
数据比钱还“难得”
根据PitchBook的数据,生成式人工智能初创公司的风险投资规模,已从2022年的48亿美元增长到了2023年前5个月的127亿美元。
现在,这些公司中的许多都在寻求在金融或医疗保健等领域,建立更小众的人工智能模型,但获得这些领域的训练数据集并不容易。
Bullpen Capital的首席技术官Paul Tyma便指出,现在建造实际模型在某种程度上已经商品化了,而真正的价值就在于数据。
一些人工智能初创公司正瞄准与大型、数据丰富的企业合作。例如,安永公司负责税务的全球副主席Marna Ricker就表示,由于该公司拥有大量的交易数据,每天都有生成型人工智能初创企业前来接洽合作。
但安永的全球客户服务管理合伙人Andy Baldwin指出,他担心,如果安永的数据被用于训练外部模型,不知道会发生什么情况。
“谁会拥有这些数据?当我们训练模型时,我们对模型的访问权限是什么?其他人又能怎样使用这个模型呢?”Baldwin称,“这些数据是我们知识产权的一部分。”
当然,初创公司可以通过仅仅使用客户的数据,为每个客户训练不同的模型来解决知识产权问题。创业公司TermSheet就正在使用这一策略来构建其Ethan产品,这是一个生成式人工智能模型,能够为房地产开发商、经纪人和投资者回答行业问题。
但TermSheet首席执行官兼联合创始人Roger Smith表示,即使是让客户同意这一点,也需要耗费不少唇舌来说服对方。
法律科技公司Logikcull的联合创始人兼首席执行官Andy Wilson指出,如何让企业相信你拥有强大的网络安全实力,并可以切实保护这些数据,也是一个挑战。
大企业握有巨大优势
Primary Venture Partners的Svrluga表示,大型科技公司在生成式人工智能应用方面,显然要比初创公司更有优势,部分原因是它们已经获得了大客户的信任,这些客户对它们处理数据感到更为放心。
金融服务公司Truist首席数据官Tracy Daniels就表示,她目前只与大型科技企业而不是初创公司,探索生成式AI的用例。她表示,她更信任大型供应商能保证数据的安全。
这一切都意味着,即使是那些能够利用公开数据取得先机的初创企业,在利用企业数据集充实其模型方面也面临挑战。
Veesual是一家人工智能初创公司,可以生成人们试穿衣服的样子的图像。该公司最初就主要利用互联网上的公共图像来进行模型训练,但此后很难让大型零售商同意交出他们的数据来增强模型。
Veesual首席执行官兼联合创始人Maxime Patte表示,在某些情况下,大型零售商甚至想要Veesual支付巨额股息或获得该公司的股权,以换取Veesual对这些数据的使用权,这些交易最终没有谈成。
PatentPal是一家帮助律师事务所起草专利申请的生成式人工智能初创公司。其首席执行官兼创始人Jack Xu也表示,该公司最初只能根据对外公开的专利申请文件进行培训。
他指出,若能继续通过加密或匿名的实际客户案例反馈来进行培训,该AI工具有机会变得更加准确。但想要做到这一点很复杂,因为反馈必须与高度敏感和机密的数据(包括商业机密)分开。
“对于处于早期阶段的初创公司来说,存在一个品牌认知的问题,此外还面临着社会认同的问题,”他表示。
与此同时,行业间的“内卷”也正变得越来越激烈。 Struck Capital创始人兼执行合伙人Adam Struck表示,一些初创公司正在相互竞争,以确保在某些特定领域获得更多数据,而且速度更快。
他表示,“如果你相信有一个专有数据集,你就会想在其他人之前得到它,然后就排他性进行谈判。从这个意义上说,这几乎已经演变为了一场军备竞赛。 ”