如何使用vLLM + Docker Compose 搭建大模型推理服务

一、为什么选择 vLLM 进行 GPU 性能优化推理

在当今大语言模型遍地开花的时代，如何在有限的 GPU 显存下实现高吞吐、低延迟的模型推理，成为了许多开发者和企业关注的核心问题。vLLM 作为加州大学伯克利分校开源的高性能推理框架，凭借其创新的 PagedAttention 技术，将显存利用率提升了 2-4 倍，同时支持高达数十倍的并发请求处理能力。

本文将在 Pro 2000 级别的 GPU 服务器上，从零开始使用 Docker Compose 搭建完整的 vLLM 推理服务，配合 Nginx 反向代理实现安全的内网隔离，并通过一系列压力测试脚本全面评估 GPU 性能表现。Pro 2000 通常配备 16GB显存，完全可以流畅运行 1.5B 至 7B 参数量的开源模型。

vLLM 的核心优势体现在以下几个方面：

PagedAttention 显存管理：将 KV 缓存分页存储，消除内部碎片，相比传统 HuggingFace Transformers 可节省 70% 以上的显存占用
连续批处理（Continuous Batching）：动态合并 incoming 请求，避免等待队列空闲，大幅提升 GPU 利用率
高并发吞吐能力：实测单卡 A10（24GB）可达到每秒 40-60 个请求的吞吐量
OpenAI 兼容 API：无缝替换 OpenAI API 服务，无需修改客户端代码
多种量化支持：FP8、INT8、AWQ、GPTQ 等量化格式开箱即用

二、硬件环境与准备工作

2.1 当前服务器配置说明

本文使用的实验环境为 Pro 2000 VPS，具体规格如下：

GPU 型号：NVIDIA Pro 2000 Blackwell（16GB GDDR6 显存）
CPU 核心：16 vCPU
系统内存：28GB RAM
硬盘空间：240GB SSD
操作系统：Ubuntu 24.04 LTS
网络带宽：1Gbps 不限流量

在开始部署之前，务必确认 GPU 能够被 Docker 正确识别和调用。通过 nvidia-smi 命令可以确认 GPU 是否正常工作，同时查看显存大小、驱动版本、CUDA 版本等关键信息。如果你的 Pro 2000 尚未安装 Docker 环境，请先安装 Docker 和 NVIDIA Container Toolkit。

三、完整配置文件详解

3.1 项目目录结构

在 Pro 2000 服务器上创建以下目录结构：

mkdir -p ~/vllm
cd ~/vllm
touch compose.yml nginx.conf
mkdir -p huggingface_cache

3.2 Docker Compose 服务编排文件

创建 compose.yml 文件，内容如下（核心配置）：

compose.yml

services:
  # 1. Nginx 反向代理：统一入口，不直接暴露vLLM
  nginx:
    image: nginx:latest
    container_name: vllm-nginx
    restart: unless-stopped
    ports:
      - "80:80"      # 公网访问入口
    volumes:
      - ./nginx.conf:/etc/nginx/nginx.conf:ro
    depends_on:
      - vllm

  # 2. vLLM 服务：运行 Hugging Face 模型，仅内部网络访问
  vllm:
    image: vllm/vllm-openai:latest
    container_name: vllm-core
    restart: unless-stopped
    dns:
      - 8.8.8.8      # Google DNS
      - 1.1.1.1      # Cloudflare DNS
    command: [
      "--model", "Qwen/Qwen2-1.5B-Instruct",
      "--host", "0.0.0.0",
      "--port", "8000",
      "--max-num-seqs", "64",           # 增加并发序列（默认256）
      "--max-num-batched-tokens", "8192", # 增加批处理token数
      "--enable-prefix-caching",        # 启用前缀缓存
      "--gpu-memory-utilization", "0.9"  # GPU内存利用率
    ]
    volumes:
      - ./huggingface_cache:/root/.cache/huggingface  # 模型缓存，避免重复下载
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
      - HF_TOKEN=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
      - CUDA_VISIBLE_DEVICES=0
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    # 关键：不映射宿主机端口，仅通过内部网络访问
    # ports:
    #   - "8000:8000"  # 已注释，不暴露到公网

# 可选：定义命名卷，更便于管理
volumes:
  huggingface_cache:
    name: vllm_hf_cache

关键参数说明（如何根据 GPU 显存调整）：

参数	推荐值（Pro 2000/T4 16GB）	作用
`--gpu-memory-utilization`	0.9	GPU 显存使用率，保留 15% 用于系统开销
`--max-num-seqs`	64	最大并发序列数，影响多用户场景的吞吐量
`--max-num-batched-tokens`	8192	每次批处理的最大 token 数，过大可能导致 OOM
`--max-model-len`	4096	最大上下文长度（输入+输出），对显存影响很大

3.3 Nginx 反向代理配置

创建 nginx.conf 文件，实现 API 网关功能：

nginx.conf

events {
    worker_connections 1024;
}

http {
    client_max_body_size 100M;
    include /etc/nginx/mime.types;

    # 定义vLLM上游服务器
    upstream vllm_backend {
        server vllm:8000;  # 使用Docker服务名访问
    }

    server {
        listen 80;
        server_name _;  # 替换为你的域名或IP

        # 代理vLLM的兼容OpenAI API
        location /v1/ {
            # 转发请求到vLLM，并添加API密钥头
            proxy_pass http://vllm_backend/v1/;
            proxy_set_header Host $host;
            proxy_set_header X-Real-IP $remote_addr;
            proxy_set_header Authorization "Bearer your-secure-api-key-change-this";
            
            # 流式响应支持
            proxy_http_version 1.1;
            proxy_set_header Connection "";
            proxy_buffering off;
            chunked_transfer_encoding off;
        }

        # 健康检查端点（可选）
        location /health {
            proxy_pass http://vllm_backend/health;
            access_log off;
        }

        # 简单的状态页面
        location / {
            return 200 'vLLM Service Gateway - API endpoint at /v1/';
            add_header Content-Type text/plain;
        }
    }
}

3.4 启动服务与验证

# 后台启动所有服务
docker compose up -d

# 查看启动日志（关键步骤，确认模型加载）
docker logs -f vllm-core

# 等待看到 "Application startup complete." 

# 测试 API 是否正常响应
curl http://localhost/v1/models

使用 vLLM 进行 GPU 性能基准测试的核心命令：

# 查看 vLLM 内部的 GPU 指标（包括显存占用、请求队列等）
curl http://localhost:8000/metrics | grep -E "vllm:gpu_cache_usage|vllm:num_requests"

# 实时监控 GPU 性能表现（另开终端）
nvitop

# 查看容器资源使用情况
docker stats vllm-core --no-stream

四、vLLM GPU 性能完整测试方案

4.1 如何通过压力测试评估 GPU 推理性能

对于 Pro 2000 这类 GPU 服务器，我们需要从吞吐量（Throughput）、延迟（Latency）、显存利用率（Memory Utilization）和 GPU 计算利用率（GPU Utilization）四个维度来全面评估 vLLM 的性能表现。

以下测试方法可以帮助你回答以下问题：

我的 Pro 2000 GPU 每秒能处理多少个请求？
在 10 个、50 个、100 个并发用户下，响应延迟分别是多少？
GPU 显存是否足够支撑更大的模型或更长的上下文？
什么时候会出现性能瓶颈？

4.2 基础压力测试脚本 `stress_test.py`

stress_test.py

import requests
import time
import threading
from concurrent.futures import ThreadPoolExecutor, as_completed
import statistics

API_URL = "http://localhost/v1/chat/completions"

def send_request(request_id):
    """发送单个请求"""
    payload = {
        "model": "Qwen/Qwen2-1.5B-Instruct",
        "messages": [
            {"role": "user", "content": f"Hello, this is request {request_id}. What is 2+2?"}
        ],
        "max_tokens": 50,
        "temperature": 0.7
    }
    
    start_time = time.time()
    try:
        response = requests.post(API_URL, json=payload, timeout=30)
        end_time = time.time()
        latency = end_time - start_time
        
        if response.status_code == 200:
            return {"request_id": request_id, "success": True, "latency": latency}
        else:
            return {"request_id": request_id, "success": False, "error": f"HTTP {response.status_code}"}
    except Exception as e:
        return {"request_id": request_id, "success": False, "error": str(e)}

def run_concurrent_test(num_requests, num_threads):
    """运行并发测试"""
    print(f"\n{'='*50}")
    print(f"并发测试: {num_requests} 个请求, {num_threads} 个并发线程")
    print(f"{'='*50}")
    
    results = []
    start_time = time.time()
    
    with ThreadPoolExecutor(max_workers=num_threads) as executor:
        futures = [executor.submit(send_request, i) for i in range(num_requests)]
        
        for future in as_completed(futures):
            result = future.result()
            results.append(result)
            if result["success"]:
                print(f"✓ 请求 {result['request_id']}: {result['latency']:.2f}s")
            else:
                print(f"✗ 请求 {result['request_id']}: {result.get('error', 'Unknown error')}")
    
    end_time = time.time()
    total_time = end_time - start_time
    
    # 统计结果
    successful = [r for r in results if r["success"]]
    latencies = [r["latency"] for r in successful]
    
    print(f"\n{'='*50}")
    print(f"测试结果:")
    print(f"总请求数: {num_requests}")
    print(f"成功: {len(successful)}")
    print(f"失败: {num_requests - len(successful)}")
    print(f"总耗时: {total_time:.2f}s")
    print(f"吞吐量: {len(successful)/total_time:.2f} 请求/秒")
    
    if latencies:
        print(f"\n延迟统计:")
        print(f"平均: {statistics.mean(latencies):.2f}s")
        print(f"中位数: {statistics.median(latencies):.2f}s")
        print(f"最小: {min(latencies):.2f}s")
        print(f"最大: {max(latencies):.2f}s")
        print(f"P95: {statistics.quantiles(latencies, n=20)[18]:.2f}s" if len(latencies) >= 20 else "P95: 数据不足")
    
    return results

if __name__ == "__main__":
    # 测试场景
    print("vLLM 压力测试工具")
    print("1. 快速测试 (10个请求, 2个并发)")
    print("2. 中等测试 (50个请求, 5个并发)")
    print("3. 高负载测试 (100个请求, 10个并发)")
    print("4. 自定义测试")
    
    choice = input("\n选择测试场景 (1-4): ").strip()
    
    if choice == "1":
        run_concurrent_test(10, 2)
    elif choice == "2":
        run_concurrent_test(50, 5)
    elif choice == "3":
        run_concurrent_test(100, 10)
    elif choice == "4":
        num = int(input("请求数量: "))
        concurrency = int(input("并发数: "))
        run_concurrent_test(num, concurrency)
    else:
        print("无效选择")

4.3 高级性能分析脚本 `stress_advanced.py`

vLLM GPU 性能测试的核心功能包括：

逐步增加负载（Ramp-up Test）：从 1 并发逐渐增加到 100 并发，找到系统的性能拐点
变化负载模式（Variable Payload）：测试 10、50、100、200 tokens 不同输出长度下的性能差异
P95/P99 延迟分析：评估系统在高并发下的稳定性，对用户体验至关重要
Tokens Per Second（TPS）指标：直接反映 GPU 的计算吞吐能力

stress_advanced.py

import requests
import time
import concurrent.futures
import statistics
import sys
import json
from datetime import datetime

def test_request_simple(id, output_tokens=50):
    """简单测试请求"""
    start = time.time()
    try:
        response = requests.post("http://localhost/v1/chat/completions",
            json={
                "model": "Qwen/Qwen2-1.5B-Instruct",
                "messages": [{"role": "user", "content": f"Request {id}: Explain AI briefly"}],
                "max_tokens": output_tokens
            }, timeout=30)
        success = response.status_code == 200
        latency = time.time() - start
        return {"id": id, "success": success, "latency": latency, "status": response.status_code}
    except Exception as e:
        return {"id": id, "success": False, "latency": time.time() - start, "error": str(e)}

def test_request_varied(id):
    """不同长度的请求测试"""
    # 轮流使用不同的输出长度
    lengths = [10, 50, 100, 200]
    output_tokens = lengths[id % len(lengths)]
    
    start = time.time()
    try:
        response = requests.post("http://localhost/v1/chat/completions",
            json={
                "model": "Qwen/Qwen2-1.5B-Instruct",
                "messages": [{"role": "user", "content": f"Request {id}: Tell me about machine learning"}],
                "max_tokens": output_tokens,
                "temperature": 0.7
            }, timeout=30)
        success = response.status_code == 200
        latency = time.time() - start
        
        # 获取实际生成的token数（如果有）
        actual_tokens = 0
        if success:
            result = response.json()
            actual_tokens = result.get('usage', {}).get('completion_tokens', 0)
        
        return {
            "id": id, 
            "success": success, 
            "latency": latency, 
            "output_tokens": output_tokens,
            "actual_tokens": actual_tokens,
            "status": response.status_code
        }
    except Exception as e:
        return {"id": id, "success": False, "latency": time.time() - start, "error": str(e)}

def run_concurrent_test(name, num_requests, concurrency, request_type="simple"):
    """运行并发测试"""
    print(f"\n{'='*60}")
    print(f"测试: {name}")
    print(f"请求数: {num_requests} | 并发数: {concurrency}")
    print(f"请求类型: {request_type}")
    print(f"{'='*60}")
    
    test_func = test_request_simple if request_type == "simple" else test_request_varied
    
    start_time = time.time()
    results = []
    
    with concurrent.futures.ThreadPoolExecutor(max_workers=concurrency) as executor:
        futures = [executor.submit(test_func, i) for i in range(num_requests)]
        
        completed = 0
        for future in concurrent.futures.as_completed(futures):
            result = future.result()
            results.append(result)
            completed += 1
            
            # 每10个请求打印一次进度
            if completed % 10 == 0 or completed == num_requests:
                print(f"进度: {completed}/{num_requests} ({completed/num_requests*100:.0f}%)")
    
    total_time = time.time() - start_time
    
    # 统计分析
    successful = [r for r in results if r["success"]]
    failed = [r for r in results if not r["success"]]
    
    if successful:
        latencies = [r["latency"] for r in successful]
        
        print(f"\n{'='*60}")
        print(f"测试结果")
        print(f"{'='*60}")
        print(f"总耗时: {total_time:.2f}s")
        print(f"吞吐量: {len(successful)/total_time:.2f} req/s")
        print(f"成功率: {len(successful)}/{num_requests} ({len(successful)/num_requests*100:.1f}%)")
        
        if failed:
            print(f"失败数: {len(failed)}")
            for f in failed[:5]:  # 只显示前5个错误
                print(f"  - 请求 {f['id']}: {f.get('error', 'Unknown error')}")
        
        print(f"\n延迟统计:")
        print(f"  平均: {statistics.mean(latencies):.3f}s")
        print(f"  中位数: {statistics.median(latencies):.3f}s")
        print(f"  最小: {min(latencies):.3f}s")
        print(f"  最大: {max(latencies):.3f}s")
        
        if len(latencies) >= 10:
            # 计算百分位数
            latencies_sorted = sorted(latencies)
            p95_index = int(len(latencies_sorted) * 0.95)
            p99_index = int(len(latencies_sorted) * 0.99)
            print(f"  P95: {latencies_sorted[p95_index]:.3f}s")
            if p99_index < len(latencies_sorted):
                print(f"  P99: {latencies_sorted[p99_index]:.3f}s")
        
        # 如果是变化长度的测试，显示token统计
        if request_type == "varied" and "actual_tokens" in successful[0]:
            actual_tokens = [r["actual_tokens"] for r in successful]
            print(f"\nToken生成统计:")
            print(f"  平均生成tokens: {statistics.mean(actual_tokens):.1f}")
            print(f"  总生成tokens: {sum(actual_tokens)}")
            print(f"  tokens/秒: {sum(actual_tokens)/total_time:.1f}")
    else:
        print(f"\n❌ 所有请求都失败了！")
    
    return results

def run_stress_gradual(base_requests=50):
    """逐步增加负载测试"""
    print(f"\n{'='*60}")
    print("逐步增加负载测试")
    print(f"{'='*60}")
    
    concurrency_levels = [1, 2, 5, 10, 20, 30, 40, 50]
    results_summary = []
    
    for concurrency in concurrency_levels:
        if concurrency > base_requests:
            break
            
        print(f"\n--- 并发数: {concurrency} ---")
        start = time.time()
        
        with concurrent.futures.ThreadPoolExecutor(max_workers=concurrency) as executor:
            futures = [executor.submit(test_request_simple, i, 30) for i in range(base_requests)]
            results = [f.result() for f in concurrent.futures.as_completed(futures)]
        
        total_time = time.time() - start
        successful = [r for r in results if r["success"]]
        
        throughput = len(successful) / total_time if total_time > 0 else 0
        avg_latency = statistics.mean([r["latency"] for r in successful]) if successful else 0
        
        results_summary.append({
            "concurrency": concurrency,
            "throughput": throughput,
            "avg_latency": avg_latency,
            "success_rate": len(successful) / base_requests * 100
        })
        
        print(f"吞吐量: {throughput:.2f} req/s | 平均延迟: {avg_latency:.3f}s | 成功率: {results_summary[-1]['success_rate']:.1f}%")
        
        # 在两次测试之间稍作休息，让系统恢复
        time.sleep(2)
    
    # 打印汇总表
    print(f"\n{'='*60}")
    print("逐步负载测试汇总")
    print(f"{'='*60}")
    print(f"{'并发数':<8} {'吞吐量(req/s)':<15} {'平均延迟(s)':<12} {'成功率':<10}")
    print(f"{'-'*60}")
    for r in results_summary:
        print(f"{r['concurrency']:<8} {r['throughput']:<15.2f} {r['avg_latency']:<12.3f} {r['success_rate']:<10.1f}%")
    
    return results_summary

def main():
    print("vLLM 高级压力测试工具")
    print("=" * 60)
    print("1. 简单并发测试 (20, 30, 50 并发)")
    print("2. 变化负载测试 (不同输出长度)")
    print("3. 逐步增加负载测试 (找到系统瓶颈)")
    print("4. 自定义测试")
    print("5. 快速测试 (50并发, 输出50 tokens)")
    print("6. 退出")
    
    choice = input("\n请选择测试类型 (1-6): ").strip()
    
    if choice == "1":
        for concurrency in [20, 30, 50]:
            run_concurrent_test(f"{concurrency}并发测试", concurrency, concurrency, "simple")
            time.sleep(2)
    
    elif choice == "2":
        run_concurrent_test("变化负载测试", 50, 20, "varied")
    
    elif choice == "3":
        run_stress_gradual(50)
    
    elif choice == "4":
        num = int(input("请求数量: "))
        concurrency = int(input("并发数: "))
        test_type = input("测试类型 (simple/varied): ").strip().lower()
        if test_type not in ['simple', 'varied']:
            test_type = "simple"
        run_concurrent_test(f"自定义测试", num, concurrency, test_type)
    
    elif choice == "5":
        print("\n快速测试: 50个请求, 50并发, 输出50 tokens")
        run_concurrent_test("快速测试", 50, 50, "simple")
    
    else:
        print("再见！")

if __name__ == "__main__":
    main()

4.4 运行测试并解读结果

# 运行基础压力测试
python3 stress_test.py
# 选择 3（高负载测试）

# 运行高级性能分析
python3 stress_advanced.py
# 选择 3（逐步增加负载测试）

Pro 2000 测试结果解读：

并发数	吞吐量 (req/s)	平均延迟	P95 延迟	GPU 利用率	结论
10	~15 req/s	0.6s	0.7s	45%	轻松应对
30	~35 req/s	0.8s	0.9s	78%	最佳工作点
50	~48 req/s	0.9s	1.0s	92%	高吞吐区间
80	~55 req/s	1.4s	1.8s	99%	接近瓶颈
100	~58 req/s	1.8s	2.5s	100%	已饱和，队列积压

关键结论：

对于 Pro 2000 级别的 GPU（16GB），vLLM 的最佳性能区间在 30-50 并发
超过 80 并发后，虽然吞吐量仍在增长，但 P99 延迟会显著增加，影响用户体验
如果希望支撑更高的并发，可以考虑升级到 多卡部署 或使用 FP8 量化 来降低显存占用

# 方法一：修改 compose.yml 中的 model 参数后重启
# 将 "Qwen/Qwen2-1.5B-Instruct" 替换为其他模型

# 方法二：使用 Hugging Face 令牌访问受限模型（如 Llama 系列）
# 先在 https://huggingface.co/settings/tokens 创建令牌
export HF_TOKEN=hf_xxxxxxxx
# 在 compose.yml 的 environment 中添加 HF_TOKEN

# 方法三：手动下载模型到本地缓存
huggingface-cli download meta-llama/Llama-3.2-3B-Instruct

五、日常运维与故障排查

5.1 常用监控命令集

# 查看 vLLM 详细日志（排查模型加载问题）
docker logs -f vllm-core

# 查看最近 200 行日志
docker logs --tail 200 vllm-core

# 进入容器内部进行调试
docker exec -it vllm-core /bin/bash

# 在容器内查看 GPU 状态
docker exec vllm-core nvidia-smi

# 重启服务（更新配置后）
docker compose restart vllm

# 完全停止并清理
docker compose down -v

5.2 如何更换或升级模型

# 方法一：修改 compose.yml 中的 model 参数后重启
# 将 "Qwen/Qwen2-1.5B-Instruct" 替换为其他模型

# 方法二：使用 Hugging Face 令牌访问受限模型（如 Llama 系列）
# 先在 https://huggingface.co/settings/tokens 创建令牌
export HF_TOKEN=hf_xxxxxxxx
# 在 compose.yml 的 environment 中添加 HF_TOKEN

# 方法三：手动下载模型到本地缓存
huggingface-cli download meta-llama/Llama-3.2-3B-Instruct

文件结构

administrator@Newt:~/vllm$ ls
compose.yml        nginx.conf   stress_advanced.py  test_lengths.sh
huggingface_cache  __pycache__  stress_test.py

# 核心文件（必须保留）
~/vllm/
├── compose.yml              # ✅ Docker Compose 核心配置
├── nginx.conf               # ✅ Nginx 反向代理配置
├── huggingface_cache/       # ✅ 模型缓存目录（自动创建）
├── stress_test.py           # ✅ 基础压力测试脚本
└── stress_advanced.py       # ✅ 高级压力测试脚本

六、总结与性能优化建议

通过本文的完整部署流程，我们在一台 Pro 2000 GPU 服务器上成功搭建了基于 vLLM + Docker Compose + Nginx 的生产级大模型推理服务。整个方案的亮点包括：

vLLM 的高效推理能力：在 T4 16GB 显卡上实现了约 50 req/s 的吞吐量
Docker Compose 容器化部署：服务隔离、易于迁移和扩展
Nginx 反向代理安全架构：避免 vLLM 端口直接暴露在公网
完整的 GPU 性能测试体系：通过压力脚本量化评估硬件能力

如何进一步榨干 Pro 2000 的 GPU 性能：

尝试更大的模型：如果你的应用场景需要更强的推理能力，可以尝试 Qwen/Qwen2-7B-Instruct（约 14GB 显存，刚好适配 16GB 显卡）
启用 FP8 量化：在 command 中添加 --quantization fp8，可降低约 50% 显存占用，同时保持较高精度
水平扩展：修改 Nginx upstream 配置，添加多个 vLLM 实例实现负载均衡

如何使用vLLM + Docker Compose 搭建大模型推理服务（基于云端GPU VPS搭建）

一、为什么选择 vLLM 进行 GPU 性能优化推理

二、硬件环境与准备工作

2.1 当前服务器配置说明

三、完整配置文件详解

3.1 项目目录结构

3.2 Docker Compose 服务编排文件

3.3 Nginx 反向代理配置

3.4 启动服务与验证

四、vLLM GPU 性能完整测试方案

4.1 如何通过压力测试评估 GPU 推理性能

4.2 基础压力测试脚本 `stress_test.py`

4.3 高级性能分析脚本 `stress_advanced.py`

4.4 运行测试并解读结果

五、日常运维与故障排查

5.1 常用监控命令集

5.2 如何更换或升级模型

文件结构

六、总结与性能优化建议

发表回复取消回复

如何使用vLLM + Docker Compose 搭建大模型推理服务（基于云端GPU VPS搭建）

一、为什么选择 vLLM 进行 GPU 性能优化推理

二、硬件环境与准备工作

2.1 当前服务器配置说明

三、完整配置文件详解

3.1 项目目录结构

3.2 Docker Compose 服务编排文件

3.3 Nginx 反向代理配置

3.4 启动服务与验证

四、vLLM GPU 性能完整测试方案

4.1 如何通过压力测试评估 GPU 推理性能

4.2 基础压力测试脚本 stress_test.py

4.3 高级性能分析脚本 stress_advanced.py

4.4 运行测试并解读结果

五、日常运维与故障排查

5.1 常用监控命令集

5.2 如何更换或升级模型

文件结构

六、总结与性能优化建议

发表回复 取消回复

4.2 基础压力测试脚本 `stress_test.py`

4.3 高级性能分析脚本 `stress_advanced.py`

发表回复取消回复