新手上路 3小时前
主楼
[资源名称]
ollm
[资源来源]
github.com
[资源介绍]
ollm 一款专为消费级GPU优化的大模型轻量化推理库。支持在8GB显存运行80B参数模型并处理5万字长上下文,通过智能权重和缓存分层管理、FlashAttention优化实现高内存效率,无需量化保持原始精度,兼容主流模型及多模态输入。
[资源合集]
😀 😊 😵‍💫 😡 🤝 🙏 👍 👎 ❤️