当前位置:首页 > 每日看点 > 正文内容

怎么用自己的数据训练DEEPSEEK?

卡卷网1年前 (2025-03-05)每日看点196

自定义数据训练

  1. 准备数据(JSON, CSV, TXT 等格式)
  2. 加载数据(使用 datasets.load_dataset()datasets.Dataset.from_pandas()
  3. 格式化数据(使用 map() 处理格式)
  4. 使用 SFTTrainerTrainer 进行微调
  5. 训练并保存模型


  1. JSON 数据源

[ { "Question": "如何提高睡眠质量?", "Complex_CoT": "1. 保持固定的作息时间,避免熬夜。\n2. 睡前减少手机使用,避免蓝光影响。\n3. 保持适宜的睡眠环境,如黑暗、安静和适宜的温度。\n4. 适当运动,但不要在睡前进行剧烈运动。\n5. 避免摄入过多咖啡因和酒精。", "Response": "要提高睡眠质量,可以建立规律的作息时间,减少电子设备使用,创造舒适的睡眠环境,并保持良好的饮食和运动习惯。" }, { "Question": "如何缓解焦虑情绪?", "Complex_CoT": "1. 进行深呼吸练习,放慢心率。\n2. 进行冥想或瑜伽,放松身心。\n3. 规律运动,如散步或慢跑,提高多巴胺分泌。\n4. 适量减少咖啡因摄入,避免刺激神经系统。\n5. 适当与朋友、家人交流,分享自己的情绪。", "Response": "缓解焦虑的方法包括深呼吸、冥想、运动、减少咖啡因摄入,并与亲友交流情绪。" } ]

2. 加载 JSON 数据

from datasets import load_dataset # 加载本地 JSON 数据集 dataset = load_dataset("json", data_files="/kaggle/input/data-json/data.json", split="train") # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

3. CSV 数据源

CSV 文件格式示例:
|Question | Complex_CoT | Response |
| What are the symptoms of pneumonia? | Pneumonia symptoms include fever, cough... | Pneumonia is diagnosed based on imaging. |

import pandas as pd from datasets import Dataset # 加载 CSV 数据 df = pd.read_csv("my_medical_data.csv") # 转换为 Hugging Face Dataset 格式 dataset = Dataset.from_pandas(df) # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

本地部署 DeepSeek

1. 下载 Ollama

ollama.com/

安装完成后,控制台执行 CMD 命令,如下截图,即为成功


怎么用自己的数据训练DEEPSEEK?  第1张


2. 下载模型

Ollama 官网,下载对应的模型文件


怎么用自己的数据训练DEEPSEEK?  第2张


CMD 控制台执行如下命令,即可下载。

默认模型文件,是下载到 C 盘,需要留意磁盘空间。或者添加环境变量,变更模型下载目录(参考配置)

ollama run deepseek-r1:7b


怎么用自己的数据训练DEEPSEEK?  第3张


安装完成后(如下图),即可体验


怎么用自己的数据训练DEEPSEEK?  第4张

模型调优

zhuanlan.zhihu.com/p/24

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11643.html

分享给朋友:

相关文章

200+ 工具,这个网站堪称最强

200+ 工具,这个网站堪称最强

作为一个乱七八糟什么都懂一点的电脑小白,日常经常被别人增加些临时任务,比如PDF转Word,提取视频里的音频,图片加个边框。之前,电脑里安装了不少这类的软件,虽然能满足要求,但装的多了,总感觉电脑卡卡的。最近发现了一个超强的在线工具网站,首...

B 站上有哪些很好的学习资源?

B 站上有哪些很好的学习资源?

前!方!高!能!精选了多位学习Up主,不乏百万粉丝的大V,还有超多珍贵的学习资源推荐。进了小破站,完全不用担心学完了该怎么办?因为根本学不完啊!!!B站的学习干货实在太多了!语言学习葉子先生酱https://space.bilibili.c...

我爸讽刺我,写个破代码一年才十几万,他在工地带50个人,让我回去跟他干,写代码没出路,我该怎么选择?

我跟你一样的情况,本人现身说法,千万不要跟你爸干,我就是反面教材,现在想回去都回不去了,快十年没写代码了,再就是岁数大了,38岁了,35岁以上的码农根本就没公司愿意要,而且会受歧视。工程不好干,首先就是不合法,在法律层面,根本就没有包工头的...

小米15就要来了,不知道小米15值不值得买?

小米15就要来了,不知道小米15值不值得买?

俗话说得好,好饭不怕晚,看似有点姗姗来迟的小米15系列,一官宣就迅速登上热搜。在此次小米14发布会上,雷军曾说过小米14将是最后一代3999起的旗舰,那么这一次涨价了的小米15,值不值得买呢?下面为大家总结一下小米15将会有哪些升级点:软件...

数字人民币为什么又不火了?

我完全不懂行。我一开始以为,数字人民币,是对我银行里的每一分钱,都赋予一个独一无二的数字编码。我要用一块钱买矿泉水,它就从我的存款中随机选取一百个一分钱,组合成一块钱,支付给商家。我花一百块钱吃饭,它就随机选取一万个一分钱,组合成一百块钱,...

有哪些网站,一旦知道,你就离不开了?

有哪些网站,一旦知道,你就离不开了?

这六个网站,一旦用过,基本上是离不开了。都是我超爱的一些网站,基本上每天都用。1 地图生成器第一个,我要给大家推荐的是地图生成器。可以下载到各省,各市,各县的svg格式的地图素材。这些素材导入PPT中都是可以编辑的。可以单独更改颜色和轮廓。...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。