当前位置:首页 > 每日看点 > 正文内容

怎么用自己的数据训练DEEPSEEK?

卡卷网8个月前 (03-05)每日看点114

自定义数据训练

  1. 准备数据(JSON, CSV, TXT 等格式)
  2. 加载数据(使用 datasets.load_dataset()datasets.Dataset.from_pandas()
  3. 格式化数据(使用 map() 处理格式)
  4. 使用 SFTTrainerTrainer 进行微调
  5. 训练并保存模型


  1. JSON 数据源

[ { "Question": "如何提高睡眠质量?", "Complex_CoT": "1. 保持固定的作息时间,避免熬夜。\n2. 睡前减少手机使用,避免蓝光影响。\n3. 保持适宜的睡眠环境,如黑暗、安静和适宜的温度。\n4. 适当运动,但不要在睡前进行剧烈运动。\n5. 避免摄入过多咖啡因和酒精。", "Response": "要提高睡眠质量,可以建立规律的作息时间,减少电子设备使用,创造舒适的睡眠环境,并保持良好的饮食和运动习惯。" }, { "Question": "如何缓解焦虑情绪?", "Complex_CoT": "1. 进行深呼吸练习,放慢心率。\n2. 进行冥想或瑜伽,放松身心。\n3. 规律运动,如散步或慢跑,提高多巴胺分泌。\n4. 适量减少咖啡因摄入,避免刺激神经系统。\n5. 适当与朋友、家人交流,分享自己的情绪。", "Response": "缓解焦虑的方法包括深呼吸、冥想、运动、减少咖啡因摄入,并与亲友交流情绪。" } ]

2. 加载 JSON 数据

from datasets import load_dataset # 加载本地 JSON 数据集 dataset = load_dataset("json", data_files="/kaggle/input/data-json/data.json", split="train") # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

3. CSV 数据源

CSV 文件格式示例:
|Question | Complex_CoT | Response |
| What are the symptoms of pneumonia? | Pneumonia symptoms include fever, cough... | Pneumonia is diagnosed based on imaging. |

import pandas as pd from datasets import Dataset # 加载 CSV 数据 df = pd.read_csv("my_medical_data.csv") # 转换为 Hugging Face Dataset 格式 dataset = Dataset.from_pandas(df) # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

本地部署 DeepSeek

1. 下载 Ollama

ollama.com/

安装完成后,控制台执行 CMD 命令,如下截图,即为成功


怎么用自己的数据训练DEEPSEEK?  第1张


2. 下载模型

Ollama 官网,下载对应的模型文件


怎么用自己的数据训练DEEPSEEK?  第2张


CMD 控制台执行如下命令,即可下载。

默认模型文件,是下载到 C 盘,需要留意磁盘空间。或者添加环境变量,变更模型下载目录(参考配置)

ollama run deepseek-r1:7b


怎么用自己的数据训练DEEPSEEK?  第3张


安装完成后(如下图),即可体验


怎么用自己的数据训练DEEPSEEK?  第4张

模型调优

zhuanlan.zhihu.com/p/24

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11643.html

分享给朋友:

相关文章

b站真的能自学PS吗?

b站真的能自学PS吗?

看你想达到哪一种程度了,如果你只是平常用PS扣图、调整照片大小、尺寸、简单调个色这样,自学真的挺简单的,B站很多免费的教程都可以教会你这些技巧。但是如果说你想成为专业的设计师或者是商业修图师,无师自通真的非常难,首先你会走很多弯路,不知道怎...

闲鱼上为什么会有人问都不问直接下单?

我去年卖一个荣耀90,挂的2200,最终成交2137.5元。对方是一个高高壮壮的西北口音,要求的自取。大概我吃过午饭,约了旁边的商场,那里有荣耀售后。见了面,先看了手机,试了好一会儿,各种测试,没问题。然后去了商场二楼的荣耀售后,让人家售后...

有没有能够兼顾便携并且流畅运行各种AI应用的笔记本?求推荐?

有没有能够兼顾便携并且流畅运行各种AI应用的笔记本?求推荐?

看了下题主的描述,可以考虑「联想YOGA Air 15 Aura AI元启版」,今年9月底出的一款轻薄本,也通过了英特尔Evo严苛认证。处理器用了英特尔最新的「酷睿 Ultra 7 258V」,主要亮点就是AI性能、图形处理能力和能效,很适...

抖音上有一些账号搬运别人的视频,几乎一模一样,也没判搬运,他们是怎么做到的??

对于任何短视频平台来说,如何用最低的成本快速实现伪原创搬运都是需要解决的问题。所有的短视频平台,包括抖音、快手、tiktok、视频号、小红书、B站,甚至是FB、推特、INS、YouTube,它们的查重技术都是类似的,只要你在网络环境设置得当...

自己拥有一台服务器可以做哪些很酷的事情?

自己拥有一台服务器可以做哪些很酷的事情?

我就有一台,跑了两年了,ipv6 ddns 网络,加虚拟化平台.跑了个 winserver 和 ubuntu 服务器。稳的雅皮!拆掉后盖,散热更好。烟盒固定硬盘。键盘防止灰尘掉落。电池拆掉,屏幕拆掉,也是散热考虑。屏幕拿去做便携副屏了。换...

为什么张雪峰什么专业都懂?

他不懂专业,他懂的是就业。我记得有个老哥,家里条件不好,母亲吸血。想脱离家庭张雪峰眼睛一亮就说这是个学土木的好苗子。作为土木人我可知道他说的太对了,这种人学土木毕业进中建中铁,直接给你拉非洲看大鳄鱼呲牙。工资不低还能脱离家庭,可不是个学土木...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。