以国内996大厂的内卷风气,很难容下长回报周期的基础建设。
早些时候看看不出区别,只觉得国内大厂频繁在XX榜单上露面,刷榜,又是超过这个,又是超过那个。
直到语言大模型阶段,基础语料数量和质量上的劣势才暴露无遗。
“其实这也不能完全怪华国的大厂风气,美国的互联网起步要早,并且很多领域的文献材料归档做得特别好。”孟繁岐也曾仔细思索过这方面的问题。
“像github,arxiv这样的大型公开社区,里面都是非常优质的外文代码或者论文。这些也不只是美国人自己的积累。而是通过免费公用的形式,收割了全世界的数据。”
“华国人在github上贡献的代码行数也不在少数,反过来看看华国的论文社区,就比如知网,纯纯就是毒瘤。里面屯点硕博生的论文,还要论页数收费。就连下载之后的阅读器,甚至都需要专门的....”
此消彼长之下,差了多少珍贵的数据啊...
只是此时此刻,李彦弘应该还没有想到这么大规模的数据用于训练。因而孟繁岐也不急于一时和他讨论后面语言类的技术,以及生成式的大模型。
最近一两年内,孟繁岐的重心还是在视觉图像算法这边。
“李总,我个人相信AI技术的开源程度是相对的,不可以一直这样透明下去。只是最后成为壁垒的可能并不是模型本身这个纯技术范畴,更多的可能是计算能力,高质量的大规模数据,以及一些精髓的训练与反馈方式等等。”
“即便是现在的开源时期,算法产生到模型和代码公之于众,其实正常来说,有个半年到一年的时间差,都是正常的。”
“对学术界来说,这不是一个特别长的时间,但对业界能够真实落地的方向来说。这个时间导致的结果可能是天差地别,甚至是一个企业生与死的区别和距离。”
李彦弘闻言微微颔首,他自然明白孟繁岐话里暗示的意思。
假设说,李彦弘他想要推出一个实时高性能的图像检测应用,目前市面上的算法是没有能够支持他所需要的计算速度和准确度的。
即便孟繁岐愿意公开手里的结果,以论文的审阅方式,至少也是半年后,人们才会知道其中的技术细节。
再加上复现和试错的时间,他能够在8-9个月内的时间里把技术应用进去,就已经很快了。