? 选择社区主流模型,将自动填充参数
🧠 模型参数
? Dense: 标准Transformer架构
MoE: 包含多个专家网络的架构
Multimodal: 能处理多种模态输入的模型
? 模型中隐藏层的维度大小 (hidden_size)
? 模型中Transformer Block的层数 (num_hidden_layers)
? 多头注意力机制中的头的数量 (num_attention_heads)
? 用于GQA/MQA的Key/Value头的数量 (num_key_value_heads)
? 模型词汇表的大小 (vocab_size)
? 模型支持的最大序列长度 (max_position_embeddings)
? Dense模型为总参数量
其他模型为LLM基础参数量
单位:十亿(Billion)
⚙️ 推理配置
? 模型权重的量化精度
? KV Cache的量化精度
? 激活值的量化精度
? 用于估算推理框架等额外开销的比例,例如0.03代表3%
📈 服务指标
? Time To First Token: 接收请求后,生成首个Token的时间
? Time Per Output Token: 生成后续每个Token的平均时间
20 Tokens/s
? 系统每秒能够生成的Token总数,由TPOT计算得到(1/TPOT×1000)
📊 显存占用分析
💻 推荐硬件
? 异构资源的实际利用率,可通过测试程序得到
厂商型号架构显存预估卡数
👉 需要 N/A