Aidan Gomez是Transformer七子之一,也是其中发量最茂盛的一位。
2019年,Aidan Gomez成立了AI创业公司Cohere,聚焦企业端的大模型服务。短短几年时间,公司估值突破55亿美金,累计融资10亿美金。
作为AI一线从业者,Aidan在访谈中深入分享了他观察到的行业动态,含金量很高,解答了不少大家关心的问题。
原视频链接放在文末,欢迎感兴趣的朋友去看一遍。我这里给大家脱脱水,只讲干货,有一些关键内容我会直接援引原文,以便更好的传达Aidan本意。
(1)AI公司CEO与电子游戏
访谈一开始,Aidan和主持人Harry Stebbings讨论了一个非常有趣的话题:为什么优秀的科技公司CEO大多是骨灰级游戏玩家。
Aidan认为,电子游戏在潜移默化中塑造了玩家的韧性、不断尝试的勇气、以及乐观主义的心态。
在游戏中,你知道你可以失败,然后try again, get better。
这种progress through failure的精神内核,是CEO的必备素养。
电子游戏,是一种培养resilience的有效途径。
Aidan坦言,在部分国家的文化中,you only got one shot,不成功便成仁,这种社会文化是对科技创新的天然抑制剂。
(2)Scaling Law是否依然成立?
Aidan给出了非常明确的判断:Scaling Law依然成立,并将在相当长的时期内保持有效。
Scaling Law的本质在于,为了实现模型智力水平的线性增长,你需要指数级的提升算力投入。
现实问题在于,几乎没有企业会真的部署GPT-4模型,因为它太大了,投入产出比很低。
市场需要更小、更高效的模型,而不是单纯的scaling up。
(3)如何在AI竞赛中脱颖而出?
作为基础大模型提供商,主要有两种出路。
一种是坚定scaling up,自建机房,提高算力投入,把模型变得更大。
用Aidan的原话说,Scaling up is the most trustworthy way to improve the model.
但是这条路线需要巨大的财力支持,创业公司本身是玩不转的。
Google前CEO Eric Schmidt近日爆料OpenAI的星际之门计划预计耗资3000亿美金,这对于创业公司来说显然是个天文数字。
因此,对于AI创业公司而言,走这条路线的前提是成为科技巨头的附庸,用独立性交换入场券。
(4)Plan B:数据创新、算法创新
另一种出路是不完全依赖于scaling up,而是在数据、算法层面进行创新。
首先来看数据创新。
目前开源领域中,绝大部分的成果都来自于数据创新,其中又可以分为两大流派。
数据创新的第一种方式,是采用更好的爬虫算法,更准确的parsing网页,提高训练集的质量。
Aidan指出,互联网上充斥着大量重复、错误的脏数据,如何降低它们的权重,提升高质量数据的训练权重,是提升模型能力的一大关键。
数据创新的第二种方式,就是合成数据。这也是Cohere在重点攻克的方向。
然后来看算法创新。
去年底OpenAI爆出Q*的传闻,本质上是AI的算法创新。
AI算法创新的核心,是围绕“搜索”展开的。
The key ideas around new RL algorithm is about "Search".
Aidan认为当前大模型并不具备Solving problems的概念。无论你问一个很简单的问题(比如1+1=?),还是一个超难的问题(比如市场价格预测),大模型都一视同仁的“秒回”。
这其实是不合理的。我们需要让大模型学会“慢思考”,要让大模型学会从错误中成长。
这些都涉及RL算法层面的创新,这方面的潜在提升空间巨大。
(5)推理能力不足,源于训练数据匮乏
Aidan认为,目前大模型的推理能力依然不足,这背后的主要原因是训练数据匮乏。
在我看来,这是一个非常重要的观点,我把原文中涉及的两句话贴出来:
There's not much training data that demonstrates reasoning on the internet. Internet is just the output of reasoning process.
互联网虽然数据体量庞大,但绝大部分都是人类的推理结果,并非推理过程。
人类并不习惯于把思考问题的每一个步骤清晰的写出来,而是习惯于预设结论,你说你的我说我的。
推理过程数据的严重缺乏,极大程度限制了大模型的推理能力,因此包括Cohere在内的AI公司都在积极自建推理训练数据集。
(6)如何看待合成数据的发展?
当前大模型API市场基本被合成数据垄断了。
People are creating data from these big expensive models to fine-tune smaller models that are more efficient.
Aidan认为这算是一种另类的“模型蒸馏”方法,就是有点猫鼠游戏的感觉。
(7)大模型厂商都在降价,未来会卷到免费吗?
Aidan认为未来只卖大模型 API,生意将会很难做,它最终会成为一个zero-margin business。
原因很简单,人们只关心性能最强大的模型。There's no market for last year's model.
要获得长期发展,就需要在AI应用层做文章。
Aidan坦言,Ilya离开之后的new OpenAI更像是一家AI应用公司,而不再是一家以追求AGI为核心目标的公司了。
从商业角度来看,这种转变是完全正确的,单纯卷模型能力并不是一个好的商业模式。
(8)企业客户对AI最大的误解是什么?
在Aidan看来,企业客户对AI最大的担忧是幻觉现象,但他认为这种担忧有点过度了。
首先,现在的大模型确实存在幻觉现象,但随着大模型能力的提升,hallucination rate已经显著下降。
其次,通过RAG,我们能够在大模型的回答输出中加上reference,进一步降低幻觉导致的问题。
最重要的是:We exist in a world with humans and humans hallucinate constantly.
AI存在幻觉现象,绝不是我们通盘否定AI的理由,因为我们人类几乎每时每刻都在产生幻觉。
(9)确定性的AI机遇:短期看语音,长期看机器人
短期来看,AI最确定性的机会,是基于语音的交互重构。
Aidan推荐还没有尝试过和AI语音交流的朋友,抓紧去体验一下。
当你听到大模型那富含情感的语气、吐字间的呼吸、咂嘴等小动作时,你会震撼于语音大模型带来的用户体验。
长期来看,通用机器人是下一个具有较大确定性的领域。
因为大模型的出现解决了机器人领域中最棘手的问题,即reasoner和planner。
In 5-10 years, we will have general purpose humanoid robotics that are cheap and robust.
(10)未来芯片领域还会是英伟达一家独大吗?
目前芯片领域是整个AI产业margin最高的环节,几乎被英伟达一家垄断。
Cohere为了满足企业客户的需求,在不同芯片架构上进行大模型训练,因此Aidan在这个问题上拥有绝对的发言权。
芯片需求可以进一步分为推理侧和训练侧。
目前推理侧的芯片供给已经趋向于完全竞争。
相比推理侧而言,训练侧对芯片的性能要求更高,目前集中度很高,主要有英伟达和Google的TPU。
Aidan认为,这个格局很快会发生改变。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。