oLLM

共 1 篇网址

排序

发布更新浏览点赞

oLLM

oLLM 是一个轻量级的 Python 库，用于大型上下文 LLM 推理，基于 Huggingface Transformers 和 PyTorch 构建。它使运行像 gpt-oss-20B、qwen3-next-80B 或 Llama-3.1-8B-Instruct 这样的模型在 100k 上下文下使用约 200 美元的消费级 GPU（8GB VRAM）成为可能。不使用量化——仅使用 fp16/bf16 精度。

05700

AI工具 # oLLM # Python 库