https://mp.weixin.qq.com/s/zvExUwCiiBKnBjRXAbOMvA

https://mp.weixin.qq.com/s/mvBzhNmM-skPmxrXIpxUlQ

https://mp.weixin.qq.com/s/mvBzhNmM-skPmxrXIpxUlQ内容同样很干，个人觉得很有启发的一些观点摘抄：-行业大模型的计算量本质上是一个能源转化成智能的过程。如果我投入了更多的能源，我就会有更多的智能，中间转化率取决于我的算法的有效性。如果我假设你算法是一样的，那么你有多少智能就完全取决于你有多少能源...通用模型一定会取代垂直行业模型，因为前者的能耗大好几个数量级，对应的智能也会高几个数量级，并且差距会越来越大。短期内，垂直行业模型在一些封闭的行业内会有专有数据优势，但因为数据的流动性很高，“再封闭的行业，都很难阻止数据的扩散，超级入口会变成数据黑洞把各种数据吸纳进来，行业模型的优势会消失。”-如何衡量算法的有效性？最重要的标准其实是模型的压缩比。如果基于第一性原则来思考，智能的首要任务就是优化压缩，那么提升压缩比就意味着智能的增强。在一个足够大的数据集上，模型的压缩比有多大就能衡量出模型的优劣。例如，OpenAI的GPT-4可能在某些领域已经达到了30多的压缩比，而一些开源的模型的压缩比可能只有10出头，所以空间还是非常大的。-技术三段论。每项技术基本都会历经原理探索期、技术创新期以及纯产品应用阶段三个阶段。第一阶段意味着公众对于技术的第一性原理还不清晰，一切刚刚开始萌芽；第二阶段则指的是第一性原理已经清晰，但是仍然存在技术创新的空间，领先的公司会有显著的技术优势；最后一个阶段，当技术已经足够成熟了，可获得性很高了，就是纯产品的机会，网络效应建立。两三年前，NLP、CV这些技术都处于第一阶段。如今，我们已经来到第二阶段，AI的第一性原理已经被大量证据所证明——从GPT1到GPT4，我们会发现，人类文明的总和，数字化之后都可以变成硬盘上的数据，无论是文字、语音还是视频，只要我们有合适的办法，去对这些数据做最大限度的规模化无损压缩，就能实现非常高程度的“智能”。这就是AI的第一性原理。在第二阶段，第一性原理已经清晰的情况下，理论上我们只需要一条道走到黑，去想更好的办法尽可能地去对整个人类文明进行压缩，然后就能在技术上实现较高程度的智能化。我最喜欢的例子是等差数列。假设说目前我有1万个数字要去压缩，在我一无所知的情况下，我所能做的仅仅只是把这1万个数字存下来。但是，如果我能够知道这些数的底层运行规律，我知道等差数列，那我就只需要存两个数字，其他9998个数字就能被还原出来。而“更好的办法”也是第二阶段与第三阶段的分野。在这个方向上，我们看到大约5年的窗口期之中，我们需要去解决目前看到的问题，不断技术创新，让技术变得更加通用和低门槛，最终推动大规模的产品化。在这个阶段，更好的模型质量通常会直接带来更好的用户体验，通过技术驱动的公司会拥有更大的产品优势。如果我们去看美国市场，目前领先的公司例如OpenAI,Anthropic,Inflection,CharacterAI,Midjourney，无一不是通过Modelasanapplication的方式，通过技术优势来形成产品上的体验优势。-如果时间足够长，Transformer肯定会被更好的模型替代。比如，如果你想处理10万的context，你肯定不能使用原始的Transformer。如果你想处理分钟级别的长视频，使用原始的Transformer可能不是最优方案。但在短期三到五年内，更大的可能性是在Transformer的核心思想上进行优化。-真正的多模态模型还未出现。基于DiffusionModel的技术路径，一个重大问题是你没有办法去做真正的跨模态建模，只能基于很简单的文本向量去做decoding。本质上，它并没有对不同模态的联合概率去做一个可规模化的建模，这制约着这些模型去发挥更大的价值。从可规模化这个点上，我个人认为，长期来看，可能Autoregressivemodel（自回归模型）能够更通用得对不同模态去建模，长期会有更大的上升空间。-如何超越现有数据的限制。未来的大模型肯定不会停留在压缩现有的数据，而是会自主进行探索、在探索过程中生成和筛选数据、并进行压缩。一个很典型的例子是围棋，如果AI通过压缩已有的棋谱，很难在围棋水平上超越最顶尖的人类棋手。相同地，如果是我们想训练一个能达到IOI金牌水平的编程AI，那么仅仅通过压缩现有的题解也是很难做到的。我们需要让编程AI自己去搜索不同的解法，在搜索的过程中评判解法的可行性，从而对解空间进行更全面的探索。在科学领域也是一样，如果AI可以自主探索解空间，那么就可以发现人类还未发现的新知识。长期来说，通用地解决这个问题会产生超级智能（superintelligence）。-最终，大模型团队比拼的是人才密度。人才的稀缺性大于资本的稀缺性。目前，人才正开始从细分的NLP、CV、RL等领域向大模型公司集中。对团队来说，最难的是算法创新和工程实现。工程实现能力决定了你技术能力的下限，而算法创新能力决定了技术上限。

https://mp.weixin.qq.com/s/zvExUwCiiBKnBjRXAbOMvA

相关推荐

https://mp.weixin.qq.com/s/mvBzhNmM-skPmxrXIpxUlQ

Todayhttps://mp.weixin.qq.com/s/GpRMpeVtxvRAEXHylRnXdAfromvia

https://mp.weixin.qq.com/s/SNLmdWxt0_rJmJVQvbIvuw

https://mp.weixin.qq.com/s/iNpbiHUXhHrU4VlsbEEhTQ

https://mp.weixin.qq.com/s/XleXS_5shzZNiOSxUFZfgQ

https://mp.weixin.qq.com/s/fxWKRVXyKmSYhA861mPnbA