晨平安

岁岁平，岁岁安，岁岁平安

1538 字

8 分钟

手把手教你微调 DeepSeek 模型：从数据准备到模型部署完整指南

2026-05-30

原创

DeepSeek

/

模型微调

/

LoRA

/

AI

/

教程

手把手教你微调 DeepSeek 模型：从数据准备到模型部署完整指南#

🎯 开场白：相信很多人都听说过”微调”这个词，但真正动手做过的人不多。原因是啥？门槛太高了呗！又要准备数据、又要调参数、又要租 GPU……听起来就劝退。但其实在 2026 年的今天，微调一个 DeepSeek 模型比你想的要简单得多。今天我就带你走一遍完整流程，保证从零跑到起飞。

一、为什么选 DeepSeek 做微调？#

选 DeepSeek 做微调，有这几点好处：

模型开源 —— 权重随便下，不用看任何人脸色
参数量适中 —— 7B/14B，单卡 24G 显存就能跑
中文底子好 —— 微调后特别适合中文垂直场景
社区活跃 —— 有问题在 GitHub 上吼一声就有人回

二、环境准备#

2.1 硬件要求#

模型	最低显存	推荐配置	训练方式
DeepSeek-7B	16GB	24GB (RTX 3090)	QLoRA
DeepSeek-14B	24GB	48GB (A6000)	QLoRA
DeepSeek-67B	48GB	80GB (A100)	LoRA

不用怕，后面的示例我用 7B + QLoRA，一张 RTX 3090 就能跑。

2.2 安装依赖#

1
# 创建虚拟环境
2
python -m venv finetune-env
3
source finetune-env/bin/activate
4

5
# 安装核心库
6
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
7
pip install transformers datasets accelerate peft bitsandbytes
8

9
# 安装 DeepSeek 相关
10
pip install deepseek-llm

三、数据准备#

这是微调最关键的步骤。数据质量决定了模型微调的上限。

3.1 数据格式#

DeepSeek 微调使用的是对话格式：

1
[
2
  {
3
    "instruction": "用 Python 实现一个二分查找算法",
4
    "input": "",
5
    "output": "```python\ndef binary_search(arr, target):\n    left, right = 0, len(arr) - 1\n    \n    while left <= right:\n        mid = (left + right) // 2\n        if arr[mid] == target:\n            return mid\n        elif arr[mid] < target:\n            left = mid + 1\n        else:\n            right = mid - 1\n    \n    return -1\n```\n\n**算法说明**：\n- 时间复杂度：O(log n)\n- 空间复杂度：O(1)\n- 前提条件：数组必须是有序的"
6
  },
7
  {
8
    "instruction": "解释什么是 RESTful API",
9
    "input": "",
10
    "output": "RESTful API（Representational State Transfer）是一种 API 设计规范...（省略 200 字）..."
11
  }
12
]

3.2 数据增强技巧#

我自己用的一个数据增强脚本，能把少量数据变成大量高质量数据：

1
import json
2
import random
3
from typing import List, Dict
4

5
class DataAugmenter:
6
    """数据增强器：一条数据变成 N 条"""
7

8
    def __init__(self, seed_data: List[Dict]):
9
        self.data = seed_data
10

11
    def paraphrase_instruction(self, text: str) -> str:
12
        """改写指令（用 LLM 做同义改写）"""
13
        templates = [
14
            f"请解释一下：{text}",
15
            f"跟我说说 {text} 是怎么回事",
16
            f"给我详细讲讲 {text}",
17
            f"你能介绍一下 {text} 吗？",
18
            f"关于 {text}，你知道些什么？"
19
        ]
20
        return random.choice(templates)
21

22
    def split_long_output(self, output: str) -> List[str]:
23
        """拆分长输出为多个知识点"""
24
        sections = output.split("\n\n")
25
        return [s.strip() for s in sections if len(s.strip()) > 50]
26

27
    def augment(self, multiplier: int = 3) -> List[Dict]:
28
        """增强数据集"""
29
        augmented = []
30
        for item in self.data:
31
            augmented.append(item)  # 保留原始
32
            for _ in range(multiplier - 1):
33
                new_item = {
34
                    "instruction": self.paraphrase_instruction(item["instruction"]),
35
                    "input": item["input"],
36
                    "output": item["output"]
37
                }
38
                augmented.append(new_item)
39
        return augmented
40

41
# 使用
42
augmenter = DataAugmenter(raw_data)
43
final_data = augmenter.augment(multiplier=5)
44
print(f"数据量：{len(raw_data)} → {len(final_data)}")

四、开始微调#

4.1 加载模型和分词器#

1
import torch
2
from transformers import (
3
    AutoModelForCausalLM,
4
    AutoTokenizer,
5
    BitsAndBytesConfig
6
)
7
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
8

9
# 4-bit 量化配置（省显存的关键）
10
bnb_config = BitsAndBytesConfig(
11
    load_in_4bit=True,
12
    bnb_4bit_quant_type="nf4",
13
    bnb_4bit_compute_dtype=torch.bfloat16,
14
    bnb_4bit_use_double_quant=True,
15
)
16

17
# 加载模型
18
model = AutoModelForCausalLM.from_pretrained(
19
    "deepseek-ai/deepseek-llm-7b-chat",
20
    quantization_config=bnb_config,
21
    device_map="auto",
22
    trust_remote_code=True,
23
)
24

25
# 加载分词器
26
tokenizer = AutoTokenizer.from_pretrained(
27
    "deepseek-ai/deepseek-llm-7b-chat",
28
    trust_remote_code=True,
29
)
30
tokenizer.pad_token = tokenizer.eos_token

4.2 配置 LoRA#

1
# LoRA 配置——只训练一小部分参数
2
lora_config = LoraConfig(
3
    r=16,              # LoRA 秩，越大效果越好但也越耗显存
4
    lora_alpha=32,     # 缩放参数
5
    target_modules=[   # 要微调的目标模块
6
        "q_proj",
7
        "k_proj",
8
        "v_proj",
9
        "o_proj",
10
        "gate_proj",
11
        "up_proj",
12
        "down_proj",
13
    ],
14
    lora_dropout=0.05, # Dropout 防止过拟合
15
    bias="none",
16
    task_type="CAUSAL_LM",
17
)
18

19
# 应用 LoRA
20
model = prepare_model_for_kbit_training(model)
21
model = get_peft_model(model, lora_config)
22

23
# 看看有多少参数被训练
24
model.print_trainable_parameters()
25
# 输出: trainable params: 8,388,608 || all params: 6,743,363,584 || trainable%: 0.12%

注意看！总共 67 亿参数，我们只训练了 838 万参数，只占 0.12%！这就是 LoRA 的魔力——少花钱、多办事。

4.3 训练#

1
from transformers import TrainingArguments, Trainer
2

3
training_args = TrainingArguments(
4
    output_dir="./deepseek-finetuned",
5
    num_train_epochs=3,
6
    per_device_train_batch_size=4,
7
    gradient_accumulation_steps=4,
8
    warmup_steps=100,
9
    learning_rate=2e-4,
10
    fp16=True,
11
    logging_steps=10,
12
    save_strategy="epoch",
13
    report_to="none",  # 不想看 wandb 可以关掉
14
)
15

16
trainer = Trainer(
17
    model=model,
18
    args=training_args,
19
    train_dataset=tokenized_dataset,
20
    data_collator=default_data_collator,
21
)
22

23
# 开跑！（去泡杯咖啡，半小时后回来）
24
trainer.train()

4.4 保存模型#

1
# 保存 LoRA 权重（只有几十 MB）
2
model.save_pretrained("./my-deepseek-lora")
3
tokenizer.save_pretrained("./my-deepseek-lora")
4

5
# 如果想把 LoRA 合并到原模型（会变大）
6
from peft import PeftModel
7

8
merged_model = PeftModel.from_pretrained(model, "./my-deepseek-lora")
9
merged_model = merged_model.merge_and_unload()
10
merged_model.save_pretrained("./my-deepseek-merged")

五、模型评估#

训练完了，效果到底怎么样？来跑个测试：

1
def evaluate_model(model, tokenizer, test_data):
2
    """评估微调后的模型"""
3
    results = []
4
    for item in test_data:
5
        prompt = f"### Instruction:\n{item['instruction']}\n\n### Response:\n"
6
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
7

8
        outputs = model.generate(
9
            **inputs,
10
            max_new_tokens=512,
11
            temperature=0.7,
12
            do_sample=True,
13
        )
14

15
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
16
        response = response.replace(prompt, "").strip()
17

18
        results.append({
19
            "instruction": item["instruction"],
20
            "expected": item["output"][:100],
21
            "actual": response[:100],
22
            "match": response[:50] == item["output"][:50]
23
        })
24

25
    return results
26

27
# 执行评估
28
eval_results = evaluate_model(model, tokenizer, test_data)
29
accuracy = sum(r["match"] for r in eval_results) / len(eval_results)
30
print(f"准确率: {accuracy:.2%}")

六、模型部署#

6.1 使用 vLLM 部署#

1
# 安装 vLLM
2
pip install vllm
3

4
# 启动推理服务
5
python -m vllm.entrypoints.openai.api_server \
6
    --model ./my-deepseek-merged \
7
    --port 8000 \
8
    --tensor-parallel-size 1

6.2 调用 API#

1
curl -X POST http://localhost:8000/v1/chat/completions \
2
  -H "Content-Type: application/json" \
3
  -d '{
4
    "model": "my-deepseek-merged",
5
    "messages": [
6
      {"role": "user", "content": "用 Python 实现冒泡排序"}
7
    ]
8
  }'

6.3 集成到 Hermes#

1
# hermes config.yaml
2
custom_providers:
3
  my-finetuned-deepseek:
4
    api_base: http://localhost:8000/v1
5
    model: my-deepseek-merged
6
    api_key: "not-needed"

然后你就可以在 Hermes 里用微调后的模型了：

1
hermes config set provider custom
2
hermes config set custom_providers.my-finetuned-deepseek.api_base http://localhost:8000/v1
3
hermes config set custom_providers.my-finetuned-deepseek.model my-deepseek-merged

七、常见问题#

Q1: 显存不够怎么办？#

用 QLoRA + 4-bit 量化，7B 模型只需要 8-10GB 显存：

1
# 用 accelerate 做 CPU offload
2
accelerate launch --cpu_offload train.py

Q2: 训练完效果不好？#

大概率是数据问题。检查：

数据量是否够（至少 500+ 条）
数据质量（有没有错别字、格式问题）
训练轮数（太多会过拟合，太少学不到）

Q3: 模型回答变得很啰嗦？#

调低 repetition_penalty：

1
outputs = model.generate(
2
    **inputs,
3
    repetition_penalty=1.1,  # 默认 1.0，适当提高
4
)

八、总结#

微调 DeepSeek 的完整流程其实就 5 步：

1
准备数据 → 配置 LoRA → 开始训练 → 评估效果 → 部署上线

最难的是第一步（数据准备），最花钱的其实没有（一张 3090 就能跑）。比起每个月花几百刀调 API，一次微调，终身受益。

💡 最后提醒：微调不是万能药。如果你的场景是通用编程/问答，直接用原版模型就好。微调最适合的是垂直领域——比如你们公司的代码规范、特定业务逻辑、专有术语体系等。

快去看看你的硬盘上有没有合适的训练数据，动手试试吧！

手把手教你微调 DeepSeek 模型：从数据准备到模型部署完整指南

https://www.oferry.com/posts/a95/

作者

晨平安

发布于

2026-05-30

许可协议

CC BY-NC-SA 4.0

用 Hermes Agent 搭建自动化博客工作流：每天自动写文章、部署上线

2026 年最值得关注的 10 个开源 AI 项目（附 GitHub 链接和实战建议）