[思考]-李沐讲座:大语言模型的实践经验和未来预测

硬件

  • 带宽的重要性高,机房、机架、芯片的密集程度、摆放的位置会产生延迟,延迟会对计算速度产生很大的影响。
  • 内存的大小目前受到工艺和技术的限制,未来比较长的一段时间可能会在200GB以内,也就是说其实模型大小在未来一段时间中会被控制在一定的范围内,而不是由于算力的限制导致模型大小无法扩展。
  • 算力
  • 供电,李沐老师提到曾经花几个月去调研发现,自己造一个电厂的成本比用电还低。
  • 硬件的价格,长期来看算力会越来越便宜,在自由竞争的市场中,算力翻倍的情况下,算力的价格应该维持不变。

模型

  • Token的数量级不会有显著提升

  • 模型大小在100-500B

  • 音乐的生成

  • 语言交互的延迟降低了

  • 图片逐渐的有”灵魂”,缺少了一下情绪的表达

  • 视频的生成,视频的数据处理的成本很可能高于视频生成模型生成的一个成本

  • 多模态能借用文本模型的泛化能力去支持其他模态,自然语言交互可能是未来的一个常态。能用清晰,有条理的语言去组织和表达自己想做的事情是一个很重要的能力。

  • Killer app概念,短视频是最近的一个Killer app

  • 简单任务 复杂任务
    文科白领 🏗️
    理科白领 🏗️ Moonshot
    蓝领 Moonshot Moonshot

    目前的进展来看,很难解决蓝领的问题,而蓝领是这个世界上最主要的成员

算法

  • 预训练是一个工程问题
  • 后训练中,高质量的数据和算法很重要
  • 垂直模型可能是个伪命题,没有一个真正的垂直模型,垂直模型的通用能力也是很强的。
  • 模型的评估是重要的一个部分,自然语言有一定的二义性,模型评估会带来bias问题。
  • 算法决定模型下限,数据决定模型上限。
  • 自建服务器的价格其实和使用云服务器差不多

[思考]-李沐讲座:大语言模型的实践经验和未来预测
https://dinghanyang.github.io/dhy_blog/2024/08/30/LLM-speech-from-Mu-Li/
作者
Hanyang Ding
发布于
2024年8月30日
许可协议