为破解大模型部署与推理成本高昂的困境,近日,北京大学杨仝教授团队首次提出名为iFairy的超低比特量化方案。该方案创新性地利用复数{1, i}对模型权重进行2-bit量化,在实现1/8极致压缩与无乘法推理加速的同时,语言建模能力和下游任务表现反超了同尺寸的全精度LLaMA基座模型。相关论文题为iFairy: the First 2-bit Complex LLM with All Parameters in {1, i}。 研究聚焦于大语言模型在真实应用中的空间和时间瓶颈。传统全精度模型参数量大、推理能耗高;尽管已有低比特量化降低了模型体积,但核心矩阵乘法仍广泛依赖乘法运算,难以从根