AI的发展给人们描绘了科学技术进步带来的“诗和远方”,但这背后却有着非常大的能源、资源、劳动力消耗,这是AI发展的沉重现实。
本文为商隐社个人独创的文章,部分内容参考凯特克劳福德所著《技术之外:社会联结中的》,转载请联系后台。
在本周一表示,与 Kairos Power 公司签署一份从多个小型模块化反应堆购买电力的协议,以满足发展人工智能的用电需求。
谷歌计划买六到七个小型模块化反应堆的电力,总计500兆瓦,首个小型模块化反应堆在2030年之前投入使用。
而在上个月月底,微软和星座能源公司签署了一份为期20年的电力采购协议,计划重启曾因严重核事故而关闭的美国三哩岛核电站。
1979年3月28日,三哩岛压水堆核电站的二号反应堆由于冷却系统失灵,造成62吨的堆芯熔毁事故,这是人类核能发展史上发生的第一起堆芯熔毁事件。
国际上把核电站事故分为7级,切尔诺贝利和福岛的核事故是唯二的两件7级事故,而三哩岛核泄露处于第5级。
星座能源在1999年买下了一号反应堆,就在发生意外事故的二号反应堆旁边,后来因为经济效益不好在2019年关闭了。
跟微软签协议后,星座能源将投入16亿美元对一号反应堆进行翻新,预计到2028年才开始重新发电,时间表受到监管批准的影响。
谷歌、微软搬出来核电站,一下子囤这么多电,主要将用来驱动AI数据中心。而且不只这两家,其他在AI领域布局的科技大佬都在这么干。
今年3月,亚马逊从塔伦能源公司购买了一个自带核电供应的数据中心园区;甲骨文最近也表示,正在设计1处由3个小型核反应堆供电的数据中心。
斯坦福人工智能研究所发布的《2023年人工智能指数报告》显示,OpenAI的GPT-3单次训练耗电量高达128.7万度,相当于3000辆特斯拉Model Y跑满32万公里的耗电量。这也是120个美国家庭1年的用电量。
在使用环节,AI每次作出回应也要大量耗电。像有2亿多用户,每天响应这些需求就要耗50万度电。
大模型的参数量越大,需要处理的数据就越多,所需要的计算量就越大,而算力背后是大量的服务器、存储设备和网络设备,它们日夜不停地工作,消耗大量电能。
曾有业内的人表示,国内一线大模型的经营成本中,电费占到了总成本的50%以上。
国际能源署今年发布的报告中预测,未来三年全球对数据中心、密码货币和人工智能的电力需求将增加一倍以上,相当于一个德国的全部电力需求。
“我在一年多前就预测过短缺,下一个短缺的将是电力。我认为明年将没有足够的电力来运行所有的芯片。”前段时间马斯克发出了这样的预警。
OpenAI首席执行官山姆奥特曼也表示,AI将消耗比人们预期更多的电力。
如果说算力是大模型的底层支撑,那电力就是算力的底层支持。能否获得更清洁、稳定的能源,以及AI设备能否做到效率更加高、更省电,影响着AI发展的可持续性。
比如对水资源的消耗。AI芯片制作的完整过程中涉及大量的清洗和化学处理步骤,生产一个智能手机芯片就需要大约消耗5吨多的水。而AI超算数据中心也需要大量水来散热,研究之后发现,单是使用GPT-4生成100字文本就需要消耗多达三瓶水。
有调研估算,到2027年,全世界内的AI需求在大多数情况下要消耗掉66亿立方米的水资源,相当于杭州西湖水量的450多倍。
从网络路由器到电池再到数据中心,AI系统扩展网络中的每一部分都需要矿产资源。
现代生活的很多方面都被转移到了“云端”,但人们很少考虑这些原材料的成本。我们的工作、生活、闲暇娱乐大部分都发生在网络计算架构的世界,而由云计算联通的我们拿在手中的设备,其内核为锂。
可充电锂离子电池是移动电子设备、笔记本电脑、家用数字助理和数据中心备用电源的必需品。它们支持着互联网和网络上运行的几乎所有商业平台。
除此之外,还有很多不可再生的矿物质参与到了AI和其他高科技发展中,包括用于iPhone扬声器和电动汽车电机的稀土元素镝和钕,用于士兵的红外军事设备和无人机的锗,能大大的提升锂离子电池性能的钴。
参与世界科学技术竞争的国家都会依据自己工业要求和对供应风险的战略评估,制定自己的关键矿物清单。
锂、锗、钴、稀土、石墨等都位列其中,是发展、人工智能、云计算、光伏、信息通信等高科技不可或缺的。
像稀土,里面包含17种金属元素,16种被用在了智能手机里,这些元素可以在彩色显示屏、扬声器、相机镜头、可充电电池、硬盘驱动器和其他许多组件中找到。
如果没办法保证这些矿物的供应,包括AI在内的科技行业都将陷入停滞。这是技术发展最重要的约束条件。
很多矿产都分布于世界上比较偏僻或者经济不发达地区,像玻利维亚西南部的乌尤尼盐沼、刚果中部、蒙古国、印度尼西亚。而采矿历来都是一件极易引发地理政治学冲突和战争的事情。
但包括AI在内的高科技发展给我们大家带来了“诗与远方”,很容易让我们忽略构成技术“肉身”的这些原材料,背后的稀缺,以及由此带来的冲突、饥饿和贫穷。
正如“锂电池之父”古迪纳夫所担忧的那样:“锂的重要性不亚于石油等战略性资源,一旦开采出现瓶颈,可能会跟石油一样成为战争的导火索。”
这样看来,高科技几乎也可以看作是一种资源密集型的提取技术,把不可再生的矿产、水等转化一些虚拟能力,期间还伴随着环境破坏和地缘冲突。
数据、算法和算力是AI大模型的三大支柱,而数据是大模型进行训练的根基。数据集塑造了AI的认知边界,它们决定了AI“看”世界的界限。
比如,创建计算机视觉系统的第一步,通常是从网上抓取成千上万甚至数百万张图像,然后建立一系列分类体系来对它们进行排序,并以此作为系统感知可观察事实的基础。
如果想构建一个可以检测和橙子图片之间差异的机器学习系统,首先研发人员必须收集和标记数以千计的苹果和橙子的图像,并基于此训练神经网络。在软件方面,算法会对图像进行统计调查,并开发一个模型来识别两个“类别”之间的差异。
如果一切按计划进行,经过训练的模型将能够区分它以前从未遇到过的苹果和橙子图像之间的差异。
但如果所有苹果的训练图像都是红色的,而没有一个是绿色的,那机器学习系统可能会推断“所有苹果都是红色的”。青苹果完全不会被识别为苹果。
因此,训练数据集是大多数机器学习系统来进行推理的核心。它们是AI系统用来生成预测基础的主要原材料。
现在网络上每天有不可胜数的文本、图片、音视频被上传,AI参与者就开始了数据掠夺。
科技巨头在其中占据了优势地位,像腾讯、字节、Meta等掌握着各自的数据渠道,分享内容的人越多,他们能用来训练大模型的力量就越大。人们很乐意免费为他们的照片贴上姓名和地点的标签,而这种无偿劳动为机器视觉和语言模型系统带来了更准确的标记数据。
OpenAI就曾被报道其在未得到创作者授权情况下,使用Whisper语音识别工具,转录了超过一百万小时的YouTube视频内容,并将这一些数据用于训练其GPT-4模型。
但数据,尤其是高质量的数据并非取之不尽的。根据去年Epoch AI人工智能预测组织的一项研究,AI公司可能在 2026年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于2030年至2060年之间。
山姆奥特曼曾认为AI最后应当可以产生高品质的“人造资料”,以便高效地进行自我培训。
但很多研究者认为,AI产生的数据质量太差,再用这样的数据“喂”自己就是“自我投毒”。
对高质量数据的饥渴催生了“AI录音员”“大数据标注师”“AI编辑”等众包工作。
之前就有新闻媒体报道,在一些一二线城市,互联网大公司正以每次300元的价格,招募“AI录音员”。他们的任务是为大模型提供定制化的语音数据,通过录制长达3小时的对话,帮助AI更好地理解和学习人类语言。
这300元不是那么好挣的,需要出示有充足剧情、严格符合规范的高质量内容,在大多数情况下要多次重复一些内容以符合要求。
事实上,AI的一个常被忽视的重大事实就是需要数量巨大的低薪工人帮助开发、维护和测试AI系统。比如AI录音员,还有给数千小时的培训数据做标记,审查可疑或有害的内容。但他们从未因为使这个AI系统正常运行而获得认可。
此外,像亚马逊的物流系统,即便配备了大量来做诸如搬箱子这样的重活,但也需要人来配合完成机器人做不了的特殊、精细的工作,比如机器人识别不了的奇形怪状的东西。
人去配合机器人,就要不断适应机器人,还要按照机器的节奏,很难运用自己已有的知识或形成工作惯性。
这显示出了AI发展初期人的改造,把人的劳动和价值之间进行脱节,从而更好地配合机器,也更加容易被替代。
而AI大多数训练集是在人们不知情或未经当事人同意的情况下构建的,像家里的智能音箱、口袋里的手机、智能手表、监控记录下的面部表情等,会不会也被拿来作为数据训练AI?
机器学习模型需要持续的数据流才能变得更准确。但机器只能渐近,永远都不可能达到完全精准,这逐步推动算法从尽可能多的人身上提取信息,来为AI提供“燃料”。人类主体性被进一步消解。
写下这么多并不是“反技术”,恰恰相反,技术给人类带来了诸多便利,创造了更多可能性,使人类摆脱了诸多生存和发展难题。
正如社会学家凯特克劳福德在其所著《技术之外:社会联结中的人工智能》中认为,人工智能既是具身的,也是物质的,由自然资源、燃料、人力、基础设施、物流、历史和分类构成,这些都是需要付出代价的。
但很明显,当下人们更多追求技术的军备竞赛和技术狂欢,而忽略了技术之外的一系列问题。
尤瓦尔赫拉利在《今日简史》里说,19世纪工业革命兴起之后,当时的社会、经济和政治模式都无法应对相关的新情况和新问题。封建主义、君主制和传统宗教不适合管理工业大都市、几百万背井离乡的工人,并面对现代经济一直在变化的本质。
狄更斯笔下的煤矿童工、第一次世界大战和19321933年的乌克兰大饥荒,都只是人类付出昂贵学费的一小部分。
现代文明有核武器及各种更高级的技术,破坏力也更惊人,我们只可以比面对工业革命时做得更好才行。
人类的行进既充满智慧,又是盲目的。做任何事都有代价,或许最优的结果是效果和代价匹配,而非不计代价地奔向目标。