最老 AI PC。
原标题:26年前老年机跑Llama2,每秒39个token:你的AI PC,也可以是Windows 98
文章来源:机器之心
内容字数:6153字
EXO Labs:让Llama 2在26年前的Windows 98上运行
EXO Labs,一个由牛津大学研究人员和工程师组成的组织,成功地将Llama 2大型语言模型运行在26年前的Windows 98 Pentium II电脑上,输出速度达到39.31 tok/秒。这展示了其“让人工智能普及大众”的雄心壮志,旨在打破少数大公司对AI的垄断。
1. 大胆尝试:古老硬件上的AI奇迹
该项目使用一台配备128MB内存和350MHz英特尔奔腾II CPU的Elonex电脑。EXO Labs选择Andrej Karpathy开发的llama2.c项目,这是一个纯C语言的推理引擎,并使用Borland C++ 5.02编译器进行编译。视频展示了该系统成功生成关于“Sleepy Joe”的故事,证明了在极其有限的硬件资源下运行大型语言模型的可行性。
2. 克服重重挑战:从文件传输到代码编译
项目过程中面临诸多挑战。文件传输方面,由于旧电脑硬件限制,现代解决方案均告失败,最终依靠古老的FTP协议通过以太网端口传输模型权重和代码。编译方面,现代编译器无法兼容Windows 98,最终采用Borland C++ 5.02编译器,并对llama2.c代码进行调整,例如替换数据类型和变量声明位置等,使其兼容旧版C语言。
3. 技术细节:代码调整和性能优化
为了在奔腾II上运行,EXO Labs对llama2.c代码进行了修改,包括使用“DLONGWORD”代替“long long”,将变量声明移动到函数起始处,简化内存加载方式以及修复时间戳问题。修改后的代码已开源,方便其他研究者参考。
4. 未来展望:BitNet和旧硬件AI
EXO Labs认为,BitNet架构是AI未来的方向。BitNet使用三元权重(0,-1,1),极大地减少了模型大小和计算量,使其能够在低端硬件上高效运行。他们已经开展了BitNet相关的研究,并计划在2025年训练一个大型三元模型。EXO Labs鼓励更多人参与到在旧硬件上运行AI模型的研究中,探索优化内存使用和开发新架构等方向,最终实现AI的真正普及。
5. 项目意义:AI化的重要一步
EXO Labs的这项工作证明了即使在26年前的硬件上也能运行先进的AI模型,这对于AI化具有重要意义。它打破了对高端硬件的依赖,让更多人有机会参与AI研究和应用,推动AI技术发展走向更加公平、开放的未来。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台