当前位置:首页 > 每日看点 > 正文内容

怎么用自己的数据训练DEEPSEEK?

卡卷网6个月前 (03-05)每日看点88

自定义数据训练

  1. 准备数据(JSON, CSV, TXT 等格式)
  2. 加载数据(使用 datasets.load_dataset()datasets.Dataset.from_pandas()
  3. 格式化数据(使用 map() 处理格式)
  4. 使用 SFTTrainerTrainer 进行微调
  5. 训练并保存模型


  1. JSON 数据源

[ { "Question": "如何提高睡眠质量?", "Complex_CoT": "1. 保持固定的作息时间,避免熬夜。\n2. 睡前减少手机使用,避免蓝光影响。\n3. 保持适宜的睡眠环境,如黑暗、安静和适宜的温度。\n4. 适当运动,但不要在睡前进行剧烈运动。\n5. 避免摄入过多咖啡因和酒精。", "Response": "要提高睡眠质量,可以建立规律的作息时间,减少电子设备使用,创造舒适的睡眠环境,并保持良好的饮食和运动习惯。" }, { "Question": "如何缓解焦虑情绪?", "Complex_CoT": "1. 进行深呼吸练习,放慢心率。\n2. 进行冥想或瑜伽,放松身心。\n3. 规律运动,如散步或慢跑,提高多巴胺分泌。\n4. 适量减少咖啡因摄入,避免刺激神经系统。\n5. 适当与朋友、家人交流,分享自己的情绪。", "Response": "缓解焦虑的方法包括深呼吸、冥想、运动、减少咖啡因摄入,并与亲友交流情绪。" } ]

2. 加载 JSON 数据

from datasets import load_dataset # 加载本地 JSON 数据集 dataset = load_dataset("json", data_files="/kaggle/input/data-json/data.json", split="train") # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

3. CSV 数据源

CSV 文件格式示例:
|Question | Complex_CoT | Response |
| What are the symptoms of pneumonia? | Pneumonia symptoms include fever, cough... | Pneumonia is diagnosed based on imaging. |

import pandas as pd from datasets import Dataset # 加载 CSV 数据 df = pd.read_csv("my_medical_data.csv") # 转换为 Hugging Face Dataset 格式 dataset = Dataset.from_pandas(df) # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

本地部署 DeepSeek

1. 下载 Ollama

ollama.com/

安装完成后,控制台执行 CMD 命令,如下截图,即为成功


怎么用自己的数据训练DEEPSEEK?  第1张


2. 下载模型

Ollama 官网,下载对应的模型文件


怎么用自己的数据训练DEEPSEEK?  第2张


CMD 控制台执行如下命令,即可下载。

默认模型文件,是下载到 C 盘,需要留意磁盘空间。或者添加环境变量,变更模型下载目录(参考配置)

ollama run deepseek-r1:7b


怎么用自己的数据训练DEEPSEEK?  第3张


安装完成后(如下图),即可体验


怎么用自己的数据训练DEEPSEEK?  第4张

模型调优

zhuanlan.zhihu.com/p/24

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11643.html

分享给朋友:

相关文章

电脑c盘哪些文件可以删除?

电脑c盘哪些文件可以删除?

电脑上的文件夹都是英文,很多朋友都不敢乱删,下面这几个文件夹里的文件,你可以放心删除。一、可删除的文件1、Backup这是一个备份文件夹,很多装机软件经常会把需要备份的东西,放在这个文件夹中。而当我们需要的软件正常保存之后,这些东西也就没有...

普通人一部手机用多久?

普通人一部手机用多久?

各位知友,你们的现在的手机用了多久了呢?回看国外分析机构TechInsights的报告,目前大家的用机周期是越来越长了,在国内,也达到了「40个月」,就是很多人至少三年半才会换一次手机。仔细想想,不对呀,现在新机不是一直出吗?为什么大家都不...

抖音和快手最大的区别是什么?

1、目标人群定位不同抖音:一二线城市,占比52%,大专学历以上,女性偏多。抖音以年轻群体居多。快手:三四线城市,占比64%,高中学历以下,男女更均衡。快手所覆盖的年龄段范围更广。2、内容创作的形式和深度不同抖音:偏深层,内容的装饰及表达更高...

大量刷短视频,会让大脑变笨拙吗?

会。我曾经是一名高三学生,亲身实践过。当时集中突破语文,每天都在刷语文卷。然后有一天想躺一下刷手机,结果短视频刷完了,我再去看哪些文章,只觉头晕眼花,难以理解文字。不过好在这种情况是短时间的,过了一天我的能力又恢复了。在我看来,长期刷短视频...

马云也搞不明白:为什么现在用户偏爱微信支付,而不是支付宝?

这题我会,我教马云一招。你直接把你那破比支付宝的代码全删了,重新写一个。打开支付宝直接就是一个大大的支付码,然后右上角按一下就是扫一扫。你要是还想保留你的其他那些乱七八糟的功能,麻烦将他们全部做到下拉菜单里。你这么设计我不说你能干死微信,但...

打印速度慢,是不是打印机cpu不行?

打印速度慢,是不是打印机cpu不行?

打印机是机械设备,cpu内存硬盘它也有但这只是它的电控部分,打印机类似于汽车属于机电一体化设备和电脑不是一个类型的产品。很多人总是认为打印机和电脑是一类产品,实际上这是一个误区,电脑是it(Information Technology)信息...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。