可训练24万亿参数的大模型，Cerebras 推出其下一代晶圆级 AI 芯片

来自公众号：ScienceAI

本文以传播知识为目的，如有侵权请后台联系我们，我们将在第一时间删除。

图：Cerebras 第三代晶圆级 AI 巨型芯片 WSE-3。（来源：Cerebras）

编辑 | 白菜叶

人工智能超级计算机公司 Cerebras 表示，其下一代晶圆级人工智能芯片可以在消耗相同电量的情况下将性能提高一倍。

Wafer Scale Engine 3 (WSE-3，文中又称 CS-3) 包含 4 万亿个晶体管，由于使用了更新的芯片制造技术，比上一代增加了 50% 以上。

该公司表示将在新一代人工智能计算机中使用 WSE-3，这些计算机目前正在 Dallas 的一个数据中心组装，这将是一台能够执行 8 exaflops（每秒 80 亿次浮点运算）的超级计算机。

另外，Cerebras 与高通签订了一项联合开发协议，旨在将人工智能推理的价格和性能指标提高 10 倍。

CS-3 可训练高达 24 万亿个参数的神经网络模型，是当前最大 LLM 规模的 10 倍多

凭借 WSE-3，Cerebras 可以继续生产世界上最大的单芯片。它呈正方形，边长为 21.5 厘米，几乎使用整个 300 毫米硅片来制造一个芯片。

芯片制造设备通常仅限于生产不超过约 800 平方毫米的硅芯片。芯片制造商已经开始通过使用3D集成和其他先进封装技术来突破这一限制，以组合多个芯片。不过，即使在这些系统中，晶体管数量也达到数百亿个。

像往常一样，这个大芯片配备了一些令人叹为观止的高级功能。

可训练24万亿参数的大模型，Cerebras 推出其下一代晶圆级 AI 芯片

你可以在 WSE 芯片的发展史中看到摩尔定律的作用。第一个于 2019 年首次亮相，采用台积电的 16 纳米技术制造。对于 2021 年推出的 WSE-2，Cerebras 转而采用台积电的 7 纳米工艺。WSE-3 采用 5 纳米技术制造。

自第一个巨型芯片问世以来，晶体管的数量增加了两倍多。与此同时，它们的用途也发生了变化。例如，芯片上的人工智能核心数量已显著趋于平稳，内存量和内部带宽也是如此。每秒浮点运算（flops）方面的性能改进已经超过了所有其他指标。

可训练24万亿参数的大模型，Cerebras 推出其下一代晶圆级 AI 芯片

图：Cerebras 处理器的标准化变化。（来源：IEEE Spectrum）

CS-3 和 Condor Galaxy 3

围绕新型人工智能芯片 CS-3 构建的计算机旨在训练新一代巨型语言模型，比 OpenAI 的 GPT-4 和谷歌的 Gemini 大 10 倍。

该公司表示，CS-3 可以训练高达 24 万亿个参数的神经网络模型，是当今最大的 LLM 规模的 10 倍多，并且无需诉诸其他计算机所需的一组软件技巧。

根据 Cerebras 的说法，这意味着在 CS-3 上训练 1 万亿个参数模型所需的软件就像在 GPU 上训练 10 亿个参数模型一样简单。

可以组合多达 2,048 个系统，这一配置可以在一天内从头开始训练 LLM Llama 70B。不过，该公司表示，还没有那么大的项目正在进行中。

第一台基于 CS-3 的超级计算机是位于 Dallas 的 Condor Galaxy 3，它将由 64 台 CS-3 组成。与其基于 CS-2 的兄弟系统一样，Abu Dhabi 的 G42 拥有该系统。与 Condor Galaxy 1 和 2 一起构成一个 16 exaflops 的网络。

「现有的 Condor Galaxy 网络已经训练了一些业内领先的开源模型，下载量已达数万次。」G42 的首席技术官 Kiril Evtimov 在一份新闻稿中表示，「通过将容量加倍至 16 exaflops，我们期待看到 Condor Galaxy 超级计算机能够实现的下一波创新浪潮。」

与高通达成协议

虽然 Cerebras 计算机是为训练而构建的，但 Cerebras 首席执行官 Andrew Feldman 表示，推理、神经网络模型的执行才是人工智能使用的真正限制。

据 Cerebras 估计，如果地球上的每个人都使用 ChatGPT，每年将花费 1 万亿美元，更不用说大量的化石燃料能源了。（运营成本与神经网络模型的规模和用户数量成正比。）

因此，Cerebras 和高通建立了合作伙伴关系，目标是将推理成本降低 10 倍。Cerebras 表示，他们的解决方案将涉及应用神经网络技术，例如权重数据压缩和稀疏性。

该公司表示，经过 Cerebras 训练的网络将在高通公司的新型推理芯片 AI 100 Ultra 上高效运行。