谷歌 Gemini 的 “一次提示能耗≈看 9 秒电视” 宣传引发的争议,本质上是技术指标与现实环境影响之间的认知鸿沟。专家的质疑主要集中在以下五个维度:
一、计算范围的严重缩水
谷歌的 “0.24 瓦时” 能耗数据仅覆盖数据中心内部的直接能耗,包括 TPU 芯片、主机 CPU、备份设备及冷却系统。但这一数据存在三重 “隐形损耗”:
- 发电厂间接能耗:数据中心消耗的电力需由发电厂生产,而燃煤电厂每发 1 度电需消耗 3-5 升水。以 Gemini 单次提示 0.24 瓦时计算,间接用水量约为 0.72-1.2 毫升,加上数据中心的 0.26 毫升冷却水,总水足迹实际达到 1-1.5 毫升(约 20-30 滴水),是宣传值的 4-6 倍。
- 训练阶段的黑洞效应:训练 Gemini 所需的算力消耗远超推理阶段。例如,训练 GPT-3 级别的模型需 70 万升水和 1287 兆瓦时电力,而谷歌未披露 Gemini 训练阶段的环境成本,仅强调推理阶段的 “微末消耗”。
- 基础设施公摊:数据中心的制冷、配电等基础设施能耗通常占总能耗的 30%-40%。谷歌虽声称已计入 “全栈” 能耗,但未公开具体分摊比例,可能存在低估。
二、对比维度的偷换概念
将 AI 提示能耗与电视、微波炉对比存在三大逻辑漏洞:
- 功率特性差异:电视的功耗是持续稳定的(约 100-200 瓦),而 AI 模型的运算集中在毫秒级时间内,瞬时功率可能高达数千瓦。例如,一次提示的 0.24 瓦时若在 0.1 秒内完成,瞬时功率达 8640 瓦,远超微波炉的 1000 瓦峰值功率。这种 “脉冲式” 能耗与 “持续式” 能耗的直接对比缺乏物理意义。
- 使用场景不对等:电视观看通常持续数小时,而 AI 提示是离散操作。假设用户每天进行 100 次提示,总能耗为 24 瓦时,相当于电视连续播放 14 分钟 —— 这与 “9 秒” 的宣传形成强烈反差。
- 设备代际差异:谷歌可能采用最新低功耗电视(如 OLED 电视约 50 瓦)作为对比基准,而全球仍有大量高能耗 CRT 电视(约 200 瓦)在用。若以 CRT 电视计算,9 秒能耗为 0.5 瓦时,Gemini 的 0.24 瓦时看似更低,但这种选择性对比忽略了用户实际设备的多样性。