当前位置:首页 > 每日看点

怎么用自己的数据训练DEEPSEEK?

卡卷网1年前 (2025-03-05)每日看点231

自定义数据训练

  1. 准备数据(JSON, CSV, TXT 等格式)
  2. 加载数据(使用 datasets.load_dataset()datasets.Dataset.from_pandas()
  3. 格式化数据(使用 map() 处理格式)
  4. 使用 SFTTrainerTrainer 进行微调
  5. 训练并保存模型


  1. JSON 数据源

[ { "Question": "如何提高睡眠质量?", "Complex_CoT": "1. 保持固定的作息时间,避免熬夜。\n2. 睡前减少手机使用,避免蓝光影响。\n3. 保持适宜的睡眠环境,如黑暗、安静和适宜的温度。\n4. 适当运动,但不要在睡前进行剧烈运动。\n5. 避免摄入过多咖啡因和酒精。", "Response": "要提高睡眠质量,可以建立规律的作息时间,减少电子设备使用,创造舒适的睡眠环境,并保持良好的饮食和运动习惯。" }, { "Question": "如何缓解焦虑情绪?", "Complex_CoT": "1. 进行深呼吸练习,放慢心率。\n2. 进行冥想或瑜伽,放松身心。\n3. 规律运动,如散步或慢跑,提高多巴胺分泌。\n4. 适量减少咖啡因摄入,避免刺激神经系统。\n5. 适当与朋友、家人交流,分享自己的情绪。", "Response": "缓解焦虑的方法包括深呼吸、冥想、运动、减少咖啡因摄入,并与亲友交流情绪。" } ]

2. 加载 JSON 数据

from datasets import load_dataset # 加载本地 JSON 数据集 dataset = load_dataset("json", data_files="/kaggle/input/data-json/data.json", split="train") # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

3. CSV 数据源

CSV 文件格式示例:
|Question | Complex_CoT | Response |
| What are the symptoms of pneumonia? | Pneumonia symptoms include fever, cough... | Pneumonia is diagnosed based on imaging. |

import pandas as pd from datasets import Dataset # 加载 CSV 数据 df = pd.read_csv("my_medical_data.csv") # 转换为 Hugging Face Dataset 格式 dataset = Dataset.from_pandas(df) # 应用格式化 dataset = dataset.map(formatting_prompts_func, batched=True) # 查看处理后的数据集的第一个文本样本 dataset["text"][0]

本地部署 DeepSeek

1. 下载 Ollama

ollama.com/

安装完成后,控制台执行 CMD 命令,如下截图,即为成功


怎么用自己的数据训练DEEPSEEK?  第1张


2. 下载模型

Ollama 官网,下载对应的模型文件


怎么用自己的数据训练DEEPSEEK?  第2张


CMD 控制台执行如下命令,即可下载。

默认模型文件,是下载到 C 盘,需要留意磁盘空间。或者添加环境变量,变更模型下载目录(参考配置)

ollama run deepseek-r1:7b


怎么用自己的数据训练DEEPSEEK?  第3张


安装完成后(如下图),即可体验


怎么用自己的数据训练DEEPSEEK?  第4张

模型调优

zhuanlan.zhihu.com/p/24

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11643.html

分享给朋友:

相关文章

创业:集思广益并完善您的商业理念

用史蒂夫乔布斯的话来说,“做伟大工作的唯一方法就是热爱你所做的事情。开始自己的事业是迈向自己喜欢的工作的一步。但是,从形成想法到创建商业网站,在您深入研究之前,需要考虑几个基本步骤和问题:您要解决什么问题?您的目标受众是谁?您的产品或服务与…

电视参数哪个最重要?

电视参数哪个最重要?

在选择智能电视时,面板类型是一个关键因素。 IPS面板以其宽广的视角和出色的色彩还原能力受到青睐,尤其适合日常观看和游戏。 尽管可能会有轻微的漏光,但在大多数情况下,这并不影响使用体验。 相比之下,VA面板提供更高的对比度和更深的黑色,增强…

b站真的能自学PS吗?

b站真的能自学PS吗?

看你想达到哪一种程度了,如果你只是平常用PS扣图、调整照片大小、尺寸、简单调个色这样,自学真的挺简单的,B站很多免费的教程都可以教会你这些技巧。 但是如果说你想成为专业的设计师或者是商业修图师,无师自通真的非常难,首先你会走很多弯路,不知道…

有没有推荐什么手游搬砖,或者是用手机就能做的工作能日入100左右就好了?

有没有推荐什么手游搬砖,或者是用手机就能做的工作能日入100左右就好了?

大家好,我是思聪。思聪游戏搬砖社每天分享真实靠谱的游戏赚钱的方法。 整个游戏的攻略用一句话概括就是:打元宝兑换平台物品,xx元宝兑换一个分红物品。你把你打游戏得来的元宝去兑换平台的分红物品,就能每天领取xx元的分红。(具体看是哪个分红物品,…

抖音和快手最大的区别是什么?

1、目标人群定位不同抖音:一二线城市,占比52%,大专学历以上,女性偏多。抖音以年轻群体居多。 快手:三四线城市,占比64%,高中学历以下,男女更均衡。快手所覆盖的年龄段范围更广。 2、内容创作的形式和深度不同抖音:偏深层,内容的装饰及表达…

如何评价小米14pro顶配可以选配卫星通话,小米15全系都无法选配?

如何评价小米14pro顶配可以选配卫星通话,小米15全系都无法选配?

雷总不是说了吗,我可以不用,但你不能没有。市面上OPPO Find X8 Pro和vivo X200 Pro的卫星通信版分别加价300,而荣耀Magic7和Magic7 Pro有卫星通信版且不加价,荣耀更显诚意。 我觉得有是更好的,虽然使用…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。