公司网站建设与管理的作用建设公司企业愿景-Seo优化-合肥市网站建设公司

公司网站建设与管理的作用,建设公司企业愿景,html中秋节网页制作代码,做检索网站我要在linux服务器部署千问14b大模型#xff0c;一步一步详细的告诉我用命令行和ftp 怎么操作后面命令需要根据cuda版本调整 nvidia-smi Wed Dec 10 17:53:02 2025 ---------------------------------------------------------------------------------------- | NVIDIA-SMI …我要在linux服务器部署千问14b大模型一步一步详细的告诉我用命令行和ftp 怎么操作后面命令需要根据cuda版本调整nvidia-smiWed Dec 10 17:53:02 2025±----------------------------------------------------------------------------------------| NVIDIA-SMI 580.105.08 Driver Version: 580.105.08 CUDA Version: 13.0 |±----------------------------------------±-----------------------±---------------------| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. || | | MIG M. |||| 0 NVIDIA GeForce RTX 4090 Off | 00000000:47:00.0 Off | Off || 30% 28C P8 17W / 450W | 68MiB / 49140MiB | 0% Default || | | N/A |±----------------------------------------±-----------------------±---------------------±----------------------------------------------------------------------------------------| Processes: || GPU GI CI PID Type Process name GPU Memory || ID ID Usage |||| 0 N/A N/A 1395 G /usr/lib/xorg/Xorg 21MiB || 0 N/A N/A 1574 G /usr/bin/gnome-shell 15MiB |±----------------------------------------------------------------------------------------可以咱们按「从 0 到能在终端跟千问 14B 聊天」来一步一步走一遍用到两件武器1Linux 命令行SSH2FTP/SFTP从你本地电脑往服务器丢文件下面假设你要部署的是最新版的指令模型Qwen/Qwen2.5-14B-Instruct官方推荐直接用 Hugging Face 的transformers来推理。(Gitee)一、前提条件检查在服务器上确认有 GPU没有也能跑但 14B 非常慢nvidia-smi能看到显卡信息显存 24G 起步最舒服就算过关。如果没有nvidia-smi说明没装驱动要找管理员先装好 CUDA 驱动。系统假设下面命令以 Ubuntu 为例Debian 也类似。如果你是 CentOS/Rocky可以把apt换成yum或dnf。二、用命令行连上服务器SSH在你本地电脑Windows 推荐用 PowerShell 或 Windows Terminalssh your_user_nameyour_server_ip# 例如# ssh zhenyue1.2.3.4第一次会问yes/no输入yes然后输入密码就登陆到 Linux 上了。三、准备 Python 环境命令行1. 更新系统并安装基本依赖# 更新软件源sudoaptupdate# 基础工具sudoaptinstall-ygitpython3 python3-venv python3-pip2. 创建项目目录与虚拟环境mkdir-p ~/qwen14bcd~/qwen14b# 创建虚拟环境python3 -m venv .venv# 激活虚拟环境source.venv/bin/activate之后你每次想用这个项目都先cd~/qwen14bsource.venv/bin/activate3. 安装 PyTorch 与 Transformers 等PyTorch 要根据你服务器的 CUDA 版本来装这里只给一个「常见情况」示例你最好根据 PyTorch 官网命令做微调。(OneClick IT Consultancy)在虚拟环境里# 升级 pippipinstall-U pip# 安装 transformers accelerate huggingface_hub 等pipinstall-Utransformers4.44.0accelerate huggingface_hub sentencepiece# PyTorch 示例以 CUDA 12.1 为例pipinstalltorch --index-url https://download.pytorch.org/whl/cu121如果你的 CUDA 不是 12.1把cu121改成对应版本即可只想先跑 CPU 版也可以简单pipinstalltorch --index-url https://download.pytorch.org/whl/cpu四、配置 Hugging Face 访问命令行Qwen2.5 官方在 Hugging Face 上建议配置一个 token这样拉模型比较顺畅。(Gitee)在浏览器打开 Hugging Face登陆你的账号个人设置里生成一个Access Token记下来。在服务器上创建配置目录mkdir-p ~/.huggingfacenano~/.huggingface/token把你的hf_xxx...粘进去保存退出nano里按CtrlO回车保存再按CtrlX退出五、命令行下载 Qwen 14B 模型最方便的是用huggingface-cli直接下载到本地磁盘可选步骤纯在线加载也行。安装命令行工具pipinstall-U huggingface_hub在项目目录里运行cd~/qwen14b# 下载 Qwen2.5-14B-Instruct 到本地 Qwen2.5-14B-Instruct 目录huggingface-cli download Qwen/Qwen2.5-14B-Instruct\--local-dir ./Qwen2.5-14B-Instruct这一步会占用几十 GB 磁盘请确保/home/你的用户下空间够用。说明如果你不提前下载后面用from_pretrained(Qwen/Qwen2.5-14B-Instruct)也会自动从网络拉只是可控性稍差一些。六、写推理脚本命令行方式1. 在服务器上用编辑器写 Pythoncd~/qwen14bnanochat_qwen.py把下面完整代码粘进去fromtransformersimportAutoModelForCausalLM,AutoTokenizerimporttorch MODEL_NAMEQwen/Qwen2.5-14B-Instruct# 或者改成本地目录: ./Qwen2.5-14B-Instructdefload_model():print(fLoading model:{MODEL_NAME})tokenizerAutoTokenizer.from_pretrained(MODEL_NAME,use_fastFalse)modelAutoModelForCausalLM.from_pretrained(MODEL_NAME,torch_dtypeauto,device_mapauto)returntokenizer,modeldefchat_loop(tokenizer,model):system_promptYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.history[]print(✅ 模型加载完成输入内容开始对话输入 exit / quit 退出。)whileTrue:user_inputinput(你: ).strip()ifuser_input.lower()in[exit,quit,q]:print(结束对话再见)break# 构造 messages兼容 Qwen 官方 chat 模板:contentReference[oaicite:3]{index3}messages[{role:system,content:system_prompt}]foru,ainhistory:messages.append({role:user,content:u})messages.append({role:assistant,content:a})messages.append({role:user,content:user_input})texttokenizer.apply_chat_template(messages,tokenizeFalse,add_generation_promptTrue)model_inputstokenizer([text],return_tensorspt).to(model.device)withtorch.no_grad():generated_idsmodel.generate(**model_inputs,max_new_tokens512,do_sampleTrue,temperature0.7,top_p0.9,)# 去掉输入部分只保留新生成的回复new_tokensgenerated_ids[0,model_inputs[input_ids].shape[1]:]responsetokenizer.decode(new_tokens,skip_special_tokensTrue)print(fQwen:{response}\n)history.append((user_input,response))if__name____main__:tokenizer,modelload_model()chat_loop(tokenizer,model)保存退出CtrlO回车CtrlX。2. 直接运行测试确保虚拟环境已激活cd~/qwen14bsource.venv/bin/activate python chat_qwen.py第一次会花时间加载模型出现✅ 模型加载完成...后就可以在命令行里和千问对话了。七、用 FTP/SFTP 上传文件从本地到服务器你说要用 FTP那我们以FileZilla图形化客户端为例走一遍从本地上传脚本的流程适合你在本地改好代码再扔上服务器。1. 在本地准备代码在你自己的电脑上用 PyCharm/VSCode 写好chat_qwen.py或者整个项目目录比如qwen_project/。2. 安装并打开 FileZilla下载 FileZilla Client不是 Server。打开后点左上角「文件」→「站点管理器」。3. 配置 SFTP 连接在站点管理器中新建站点填写协议:SFTP - SSH File Transfer Protocol主机: 你的服务器 IP例如1.2.3.4端口:22登录类型: 普通用户: 和你 SSH 登录时一样例如zhenyue密码: 对应密码点「连接」下方右侧就会显示服务器上的文件系统。4. 上传文件到项目目录在右侧远程目录里进入你项目目录例如/home/zhenyue/qwen14b。左侧是你本地目录找到你的项目文件夹例如qwen_project。把本地的chat_qwen.py或整个文件夹拖拽到右侧/home/zhenyue/qwen14b。传输结束后文件就同步到服务器了。之后你回到 SSHsshyour_user_nameyour_server_ipcd~/qwen14bsource.venv/bin/activate python chat_qwen.py就能以你在本地写的代码为准来跑。八、如果必须用命令行 FTP/SFTP纯命令行版假如你在另一台 Linux 或 macOS 上用命令行传文件到服务器可以用scp或sftp1. 用scp一次性复制文件在你本地 Linux/macOS 上# 上传单个文件scpchat_qwen.py your_user_nameyour_server_ip:/home/your_user_name/qwen14b/# 上传整个文件夹scp-r qwen_project your_user_nameyour_server_ip:/home/your_user_name/2. 用sftp交互式上传sftpyour_user_nameyour_server_ip# 进入远程目录cdqwen14b# 切换本地目录lcd /path/to/your/local/project# 上传文件或目录put chat_qwen.py put -r qwen_project# 退出bye九、显存不够时的简单思路顺口提一句14B 全精度对显存要求比较高官方建议用 vLLM 或量化部署以降低显存占用。(Gitee)如果你发现一跑就报 CUDA OOM可以考虑换成官方的量化模型例如 INT8 或 4bit 版本。(Dataloop)或者引入 LMDeploy 之类的加速与量化工具来部署。(Hugging Face)这些可以再单独给你写一套「低显存部署千问 14B」的脚本。如果你愿意你也可以告诉我服务器是几 G 显存的卡想要「命令行聊天」就够还是想做「HTTP 接口服务」我可以在这套基础上再帮你加一层 FastAPI/vLLM 的部署脚本直接变成可供你前端或别的服务调用的推理接口调用方式好懂了你要的流程是Python 里自动拉 Qwen2.5-14B-Instruct 模型 → 用 FastAPI 封装成 HTTP 接口。下面我从「命令行操作」到「完整 FastAPI 代码」一步一步写清楚你照着敲就能跑起来。模型用Qwen/Qwen2.5-14B-Instruct官方 HF 仓库(Hugging Face)显卡RTX 4090驱动支持 CUDA 13.0用 PyTorch CUDA 12.8 轮子就行。一步一步来环境准备命令行1. SSH 登录到服务器在你本地电脑终端Windows 用 PowerShell / CMD / Git Bash 都可以sshyour_user_nameyour_server_ip# 例如# ssh sun1.2.3.4输入密码后就进服务器了。2. 创建项目目录虚拟环境# 随便选个目录这里用 ~/qwen14b_apimkdir-p ~/qwen14b_apicd~/qwen14b_api# 创建虚拟环境python3 -m venv .venv# 激活虚拟环境非常关键后面所有 pip 都在这个环境里source.venv/bin/activate以后每次要启动服务都先cd~/qwen14b_apisource.venv/bin/activate3. 安装依赖PyTorch Transformers FastAPI用你 4090 CUDA13 的配置直接装 CUDA 12.8 版的 PyTorch 即可(Dataloop)# 先升级 pippipinstall-U pip# 安装 PyTorchCUDA 12.8 轮子pipinstalltorch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128# 安装 Qwen2.5 需要的 transformers 等pipinstalltransformers4.44.0accelerate huggingface_hub sentencepiece# 安装 FastAPI Uvicornpipinstallfastapiuvicorn[standard]注意Qwen2.5 官方要求较新的 transformers低于 4.37 会报KeyError: qwen2(Hugging Face)所以我直接写成4.44.0。4.可选配置 Hugging Face Token如果服务器访问 Hugging Face 有权限或限速问题建议配置一个 token没有也能试慢一些/可能失败mkdir-p ~/.huggingfacenano~/.huggingface/token把你在 Hugging Face 网站生成的 tokenhf_xxx...粘进去Ctrl O回车保存Ctrl X退出二、写 FastAPI 服务代码自动从网络拉取 Qwen 14B我们写一个app_qwen14b.py启动时会自动from_pretrained()需要时才从网络拉模型。1. 在服务器上新建代码文件cd~/qwen14b_apinanoapp_qwen14b.py把下面这一整段粘进去importtorchfromfastapiimportFastAPIfrompydanticimportBaseModelfromtypingimportList,Literal,OptionalfromtransformersimportAutoModelForCausalLM,AutoTokenizer# 模型配置 MODEL_NAMEQwen/Qwen2.5-14B-Instruct# 千问2.5 14B 指令版appFastAPI(titleQwen2.5-14B FastAPI Service)tokenizerNonemodelNone# 请求 / 响应数据结构 classMessage(BaseModel):role:Literal[system,user,assistant]content:strclassChatRequest(BaseModel):# 完整消息列表兼容多轮messages:List[Message]# 可选参数max_new_tokens:int512temperature:float0.7top_p:float0.9classChatResponse(BaseModel):text:str# 启动时加载模型 app.on_event(startup)defload_qwen_model():globaltokenizer,modelprint(f 正在加载模型{MODEL_NAME}首次会从网络拉取参数时间会比较长)tokenizerAutoTokenizer.from_pretrained(MODEL_NAME)modelAutoModelForCausalLM.from_pretrained(MODEL_NAME,torch_dtypeauto,# 自动选择 float16/bfloat16 等device_mapauto,# 自动把模型放到 GPU)# 简单测试一下_model.to(cudaiftorch.cuda.is_available()elsecpu)print(✅ 模型加载完成可以开始接受请求了。)# 核心对话接口 app.post(/chat,response_modelChatResponse)defchat(req:ChatRequest): 调用方式POST /chat JSON 结构 { messages: [ {role: system, content: 你是一个乐于助人的教学助手。}, {role: user, content: 帮我设计一节关于欧姆定律的课堂导入。} ], max_new_tokens: 512, temperature: 0.7, top_p: 0.9 } iftokenizerisNoneormodelisNone:raiseRuntimeError(模型尚未加载完成请稍后重试。)# 转成 Qwen 推荐的 chat_template 格式:contentReference[oaicite:3]{index3}messages[m.dict()forminreq.messages]texttokenizer.apply_chat_template(messages,tokenizeFalse,add_generation_promptTrue)inputstokenizer([text],return_tensorspt).to(model.device)withtorch.no_grad():outputsmodel.generate(**inputs,max_new_tokensreq.max_new_tokens,do_sampleTrue,temperaturereq.temperature,top_preq.top_p,)# 只取新生成的部分gen_idsoutputs[0,inputs[input_ids].shape[1]:]response_texttokenizer.decode(gen_ids,skip_special_tokensTrue)returnChatResponse(textresponse_text)然后Ctrl O回车保存Ctrl X退出说明第一次启动 FastAPI时会自动从 Hugging Face 下载Qwen/Qwen2.5-14B-Instruct到本地缓存。下载完之后再重启就直接走本地缓存不会重复拉取。三、启动 FastAPI 服务命令行虚拟环境要激活cd~/qwen14b_apisource.venv/bin/activate然后用uvicorn启动uvicorn app_qwen14b:app --host0.0.0.0 --port8000含义app_qwen14b就是刚才那个app_qwen14b.py文件名去掉.py:app文件里定义的app FastAPI(...)这个对象--host 0.0.0.0对外网可访问--port 8000服务端口可自己改如果你想多进程一点可以uvicorn app_qwen14b:app --host0.0.0.0 --port8000--workers2首次启动时终端会卡在「正在加载模型」很久这是正常的14B 要下载几十 GB日志打印✅ 模型加载完成后说明服务就绪。四、在别的机器 / 本机测试调用HTTP1. 用curl测试最直观在你自己的电脑上只要能访问这台服务器的 8000 端口curl-X POSThttp://服务器IP:8000/chat\-HContent-Type: application/json\-d{ messages: [ {role: system, content: 你是一个乐于助人的教学助手。}, {role: user, content: 帮我设计一节关于欧姆定律的课堂导入。} ], max_new_tokens: 256, temperature: 0.7, top_p: 0.9 }如果一切正常你会看到返回一个 JSON大概是{text:好的可以这样设计课堂导入……}2. 用 Python 调用示例方便你后续集成importrequests urlhttp://服务器IP:8000/chatpayload{messages:[{role:system,content:你是一个乐于助人的教学助手。},{role:user,content:请帮我分析这节物理课的优点和不足。}],max_new_tokens:512,temperature:0.7,top_p:0.9}resprequests.post(url,jsonpayload,timeout600)resp.raise_for_status()print(resp.json()[text])你原来那个「FastAPI /chat」测试脚本改成这个结构就可以无缝接入。五、跟你当前习惯对齐的小结你说的需求其实可以概括为「我不想提前用 huggingface-cli 下模型只要 Python 代码 from_pretrained 就行然后对外暴露 FastAPI 接口。」上面的方案完全满足这一点模型拉取位置在app_qwen14b.py里load_qwen_model()中通过from_pretrained(MODEL_NAME)自动从网络拉取。部署方式用命令行uvicorn app_qwen14b:app --host 0.0.0.0 --port 8000起服务。调用方式所有前端、后端、脚本只要走 HTTP POST/chat就可以拿到 Qwen2.5-14B-Instruct 的回复。如果你愿意下一步我可以帮你把这个 FastAPI 服务改成「OpenAI 风格接口」/v1/chat/completions那一套你原来的多智能体评课系统可以几乎零改动接入。或者加一个「健康检查接口」//health方便你用 supervisor / systemd 做常驻守护。

公司网站建设与管理的作用建设公司企业愿景

淘宝网站怎么做的好看哪个网站做网店好

网站的建设与板块网络营销的网站建设

知名手机网站有必要花钱学视频剪辑吗

如何修改网站元素重庆有哪些科技骗子公司

自己做网站还是公众号企业网站的开发

营销网站的关键字永州城乡建设中等职业技术学校网站