前期准备
①硬件检查
查看显存:右键桌面,选择打开NVIDIA控制面板,然后进入“系统信息”页面查看。
对于最低配置要求:
GPU版本:需要NVIDIA显卡,显存不少于6G。
CPU版本:需要16G内存以及SSD硬盘。
对于集显笔记本显存的查看方式:
右键点击任务栏,选择任务管理器。然后切换到性能选项卡。在左侧找到GPU选项(可能显示为“GPU 0”或“Intel UHD Graphics”等)。查看右侧的“专用 GPU 内存”或“共享 GPU 内存”。其中,“专用 GPU 内存”是集显的固定显存(通常较小),而“共享 GPU 内存”是系统内存中分配给集显使用的部分(动态调整,通常较大)。
在win11系统中,可以通过鼠标右键点击开始图标,然后点击GPU,右侧页面会显示显存信息。
②安装基础软件
请前往下载并安装Python 3.8-3.10,安装时务必勾选”Add to PATH”。请下载并安装Git和Visual Studio生成工具,以构建开发环境。微软搜索”Build Tools for Visual Studio”即可找到安装链接。
部署流程(GPU版)
步骤一:获取模型文件。在CMD或PowerShell中执行以下命令:
git clone /deepseek-ai/DeepSeek-LLM.git,然后进入DeepSeek-LLM文件夹。
步骤二:安装依赖。首先创建虚拟环境(防止包冲突),命令为:python -m venv deepseek_env,然后激活该环境:\deepseek_env\Scripts\activate。接下来,安装核心组件(可能需要等待10-30分钟),命令为:pip install torch torchvision torchaudio –index-url download./whl/cu118,以及pip install -r requirements.txt。
步骤三:下载模型文件。请访问huggingface.co/deepseek-ai,找到deepseek-llm-7b-chat模型,并下载所有文件至./models文件夹。
步骤四:创建启动脚本。新建run.py文件,并粘贴以下内容:
from transformers import AutoTokenizer, AutoModelForCausalLM;model_path = “./models/deepseek-llm-7b-chat”;tokenizer = AutoTokenizer.from_pretrained(model_path);model = AutoModelForCausalLM.from_pretrained(model_path).cuda();while True: prompt = input(“请输入问题:”); inputs = tokenizer(prompt, return_tensors=”pt”).to(“cuda”); outputs = model.generate(inputs, max_new_tokens=100);print(tokenizer.decode(outputs[0], skip_special_tokens=True))。
步骤五:运行模型。在命令行中输入python run.py即可。
CPU版特别说明:
常见问题解决:
如果CUDA内存不足,可以尝试减小max_new_tokens的数值(改为50)。如果遇到DLL加载错误,请更新NVIDIA驱动,前往下载最新Game Ready驱动。如果出现中文乱码问题,可以在脚本开头添加 — coding: utf-8 –。如果下载缓慢,可以使用国内镜像源,命令为pip install -i pypi.tuna..cn/simple 包名。
进阶技巧:
使用量化版模型(如4bit)可以降低显存需求。搭配text-generation-webui可以创建可视化界面。使用–load-in-8bit参数可以优化内存占用。
⚠️注意事项:
首次运行模型时会自动下载分词器等组件,大约需要5分钟。7B模型文件大约需要15GB的存储空间。建议关闭杀毒软件实时防护以避免误拦截。如果需要其他版本(如1B/65B)的部署方法,请在评论区留言,注明你的显卡型号和内存容量。