怎么用自己的数据训练DEEPSEEK?
作者:卡卷网发布时间:2025-03-05 22:05浏览数量:50次评论数量:0次
自定义数据训练
- 准备数据(JSON, CSV, TXT 等格式)
- 加载数据(使用
datasets.load_dataset()
或datasets.Dataset.from_pandas()
) - 格式化数据(使用
map()
处理格式) - 使用
SFTTrainer
或Trainer
进行微调 - 训练并保存模型
- JSON 数据源
[
{
"Question": "如何提高睡眠质量?",
"Complex_CoT": "1. 保持固定的作息时间,避免熬夜。\n2. 睡前减少手机使用,避免蓝光影响。\n3. 保持适宜的睡眠环境,如黑暗、安静和适宜的温度。\n4. 适当运动,但不要在睡前进行剧烈运动。\n5. 避免摄入过多咖啡因和酒精。",
"Response": "要提高睡眠质量,可以建立规律的作息时间,减少电子设备使用,创造舒适的睡眠环境,并保持良好的饮食和运动习惯。"
},
{
"Question": "如何缓解焦虑情绪?",
"Complex_CoT": "1. 进行深呼吸练习,放慢心率。\n2. 进行冥想或瑜伽,放松身心。\n3. 规律运动,如散步或慢跑,提高多巴胺分泌。\n4. 适量减少咖啡因摄入,避免刺激神经系统。\n5. 适当与朋友、家人交流,分享自己的情绪。",
"Response": "缓解焦虑的方法包括深呼吸、冥想、运动、减少咖啡因摄入,并与亲友交流情绪。"
}
]
2. 加载 JSON 数据
from datasets import load_dataset
# 加载本地 JSON 数据集
dataset = load_dataset("json", data_files="/kaggle/input/data-json/data.json", split="train")
# 应用格式化
dataset = dataset.map(formatting_prompts_func, batched=True)
# 查看处理后的数据集的第一个文本样本
dataset["text"][0]
3. CSV 数据源
CSV 文件格式示例:
|Question | Complex_CoT | Response |
| What are the symptoms of pneumonia? | Pneumonia symptoms include fever, cough... | Pneumonia is diagnosed based on imaging. |
import pandas as pd
from datasets import Dataset
# 加载 CSV 数据
df = pd.read_csv("my_medical_data.csv")
# 转换为 Hugging Face Dataset 格式
dataset = Dataset.from_pandas(df)
# 应用格式化
dataset = dataset.map(formatting_prompts_func, batched=True)
# 查看处理后的数据集的第一个文本样本
dataset["text"][0]
本地部署 DeepSeek
1. 下载 Ollama
https://ollama.com/
安装完成后,控制台执行 CMD 命令,如下截图,即为成功
2. 下载模型
Ollama 官网,下载对应的模型文件
CMD 控制台执行如下命令,即可下载。
默认模型文件,是下载到 C 盘,需要留意磁盘空间。或者添加环境变量,变更模型下载目录(参考配置)
ollama run deepseek-r1:7b
安装完成后(如下图),即可体验
模型调优
https://zhuanlan.zhihu.com/p/24271132165
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
- 上一篇:wordpress 代码质量怎么样?
- 下一篇:沈阳是东北最发达的城市吗?
相关推荐

你 发表评论:
欢迎