专业英语学习

Inference machine 推理引擎 大语言模型(LLMs,Large Language Models) 服务级目标(SLOs) 连续批处理(continuous batching) 分页注意力(paged attention) 分块预填充(chunked prefill)