github.com

新手上路 2026-4-13 19:21

主楼

[资源名称]

ollm

[资源来源]

github.com

[资源介绍]

ollm 一款专为消费级GPU优化的大模型轻量化推理库。支持在8GB显存运行80B参数模型并处理5万字长上下文，通过智能权重和缓存分层管理、FlashAttention优化实现高内存效率，无需量化保持原始精度，兼容主流模型及多模态输入。

[资源合集]

回复点赞举报