如何评价DeepSeek刚发布的多模态模型Janus-pro-7b?
作者:卡卷网发布时间:2025-01-31 14:23浏览数量:75次评论数量:0次
那就继续用我之前测试kimi的素材测试下呗。
如何看待月之暗面发布的视觉思考模型 k1,其真实体验如何?分析的照片prompt还是之前这个。
但Janus-pro-7b似乎不支持约束输出格式和参考示例,这两部分就删了,且只留中文。
# 超详细图片描述指南
## 描述要求
提供全面、专业、双语的图片分析,涵盖以下所有方面:
### 1. 基础视觉元素
#### 人物
* 外观:性别、年龄、体型、肤色
* 服饰:款式、颜色、材质、配饰
* 状态:表情、姿势、动作、互动
#### 物体
* 基本特征:形状、大小、颜色、材质
* 位置信息:在画面中的大小比例、具体位置
* 细节:磨损状态、特殊标记、品牌特征
#### 环境
* 场景:地点类型、空间特点、环境元素
* 时间:具体时段、季节特征、光线条件
* 氛围:天气状况、整体气氛
### 2. 专业分析
#### 构图要素
* 视角和取景方式(俯视/平视/仰视)
* 主体位置和重点区域
* 构图手法(三分法/对称/引导线)
* 景深效果和虚实关系
#### 光影效果
* 主光源:位置、类型、强度
* 明暗对比:高光区、阴影区
* 整体色调:冷暖、明快/沉稳
#### 空间关系
* 大小比例:物体占比(使用分数表示)
* 位置描述:
- 九宫格定位(上/中/下、左/中/右)
- 时钟方位表示(1-12点方向)
* 距离关系:
- 前/中/远景划分
- 物体间距离估算(使用标准参照物)
- 透视关系描述
### 3. 深度解读
* 色彩情感
* 画面主题
* 故事性解读
* 文化内涵
## 注意事项
1. 空间位置使用多种定位方式
2. 尺寸描述需有具体参照物
3. 保持描述的逻辑性和流畅性
生图的prompt统一用Claude的英文输出。
没在本地部署,
通过:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B 测试。
就测两张了,抱抱脸实在卡。
图片理解方面:
Kimi:
#### 简要概述
这张照片捕捉了一位身穿传统服饰的老人,他坐在户外,手中拿着一些物品,似乎在沉思或休息。
#### 详细描述
**人物**
- 外观:老人,男性,看起来年纪较大,皮肤黝黑,脸上有岁月的痕迹。
- 服饰:戴着红色的帽子,穿着橙色的长袍,内搭灰色的衣物。
- 状态:表情平静,坐姿,手中拿着一个绿色的小物件和一块布,似乎在擦拭或检查它。
**物体**
- 基本特征:绿色的小物件可能是一个小型的容器或装饰品,布是棕色的,看起来有些磨损。
- 位置信息:老人的手中,靠近画面的中心。
- 细节:布上有明显的使用痕迹,绿色物件表面光滑。
**环境**
- 场景:户外,背景是白色的墙壁和一扇窗户。
- 时间:光线柔和,可能是早晨或傍晚。
- 氛围:平静,没有明显的天气特征,整体氛围宁静。
#### 技术分析
- 视角和取景方式:平视,主体位于画面中央。
- 主体位置和重点区域:老人是画面的焦点,占据了大部分空间。
- 构图手法:中心构图,老人的位置引导视线。
- 景深效果和虚实关系:背景相对模糊,突出主体。
#### 空间分析
- 大小比例:老人的身体占据了画面的大部分空间,约70%。
- 位置描述:老人位于画面中央,绿色物件在画面的右下角(约4点钟方向)。
- 距离关系:老人与背景墙壁有一定的距离,但不是很远。
#### 情感解读
- 色彩情感:橙色长袍带来温暖的感觉,与宁静的环境相得益彰。
- 画面主题:宁静、传统、沉思。
- 故事性解读:可能是一位长者在日常生活中的一刻,体现了对传统的尊重和个人的内心世界。
- 文化内涵:服饰和手中的物件可能反映了当地的文化特色。
Janus-pro-7b:
### 图片描述指南
#### 基础视觉元素
### 人物
- 外观:一位年长的男性,穿着传统服饰,头戴红色帽子。
- 服饰:身披黄色和灰色的长袍,整体风格庄重。
- 状态:闭目冥想,神态安详。
### 物体
- 手中持有一件绿色和棕色的物品,可能是某种工具或装饰品。
- 旁边放置了一个小蜡烛,蜡烛的火焰清晰可见。
### 环境
- 背景是一面白色的墙壁,墙上有窗户,窗户设计具有传统风格。
- 地面为石质,整体环境显得古朴而宁静。
#### 构图要素
- 主体位于画面中央,人物的姿态和表情是画面的焦点。
- 背景的白色墙壁和窗户形成对比,使主体更加突出。
#### 光影效果
- 光线柔和,主要来自自然光源,人物面部和服饰细节清晰。
- 整体色调温暖,给人一种宁静祥和的感觉。
#### 空间关系
- 人物与背景墙之间有明显的距离,人物处于画面中心。
- 蜡烛位于人物右侧,与人物形成一定的距离。
#### 色彩情感
- 黄色和棕色为主色调,传递出温暖和宁静的情感。
- 红色帽子和蜡烛火焰为画面增添了一抹亮色。
#### 画面主题
- 画面主题可能与冥想、传统文化或宗教活动有关。
- 整体氛围宁静祥和,传递出一种平和与专注的感觉。
#### 深度解读
- 人物的服饰和姿态可能暗示其身份或文化背景。
- 蜡烛的存在可能象征着某种仪式或祈祷活动。
- 整体画面传递出一种对内心平静和传统文化的追求。
图片生成:
统一用Claude根据图片给出的英文描述输出。
Janus-pro-7b:
flux.1:
整体来看,图片理解还可以,图片生成就差点意思,人物五官糊成一坨了。
图2:
图片理解方面:
Kimi:
### 中文
#### 简要概述
这张照片展示了一个码头上的银色Airstream拖车,上面有“鱼竿租赁”的标志,一只海鸥停在拖车顶部。
#### 详细描述
**物体**
- 基本特征:银色的Airstream拖车,具有复古的圆润设计。
- 位置信息:拖车位于码头上,背景是城市的轮廓和山丘。
- 细节:拖车上有“鱼竿租赁”和“在码头不需要钓鱼许可证”的字样,以及一个鱼的图案。
**动物**
- 海鸥:停在拖车顶部,面向左侧。
**环境**
- 场景:码头,背景是城市建筑和山丘。
- 时间:可能是傍晚,天空呈现出柔和的光线。
- 氛围:宁静,休闲的海滨氛围。
#### 技术分析
- 视角和取景方式:正面拍摄,捕捉拖车的全貌。
- 主体位置和重点区域:拖车是画面的焦点,海鸥增加了生动性。
- 构图手法:对称构图,拖车位于画面中央。
- 景深效果和虚实关系:拖车和海鸥清晰,背景城市轮廓模糊。
#### 空间分析
- 大小比例:拖车占据了画面的大部分空间,海鸥相对较小。
- 位置描述:拖车位于画面中央,海鸥在拖车顶部。
- 距离关系:拖车与观察者的距离较近,城市建筑较远。
#### 情感解读
- 色彩情感:银色的拖车和柔和的天空色彩带来宁静的感觉。
- 画面主题:休闲、海滨生活、复古风格。
- 故事性解读:可能是一个海滨休闲场所,提供鱼竿租赁服务,吸引游客享受钓鱼乐趣。
- 文化内涵:Airstream拖车和钓鱼活动可能反映了当地的海滨文化和休闲生活方式。
Janus-pro-7b:
这张图片展示了一辆银色的流动餐车,车身上写有“ROD RENTAL”和“NO FISHING LICENSE REQUIRED ON PIER”的字样。餐车顶部有一只海鸥站立,背景是海滨城市的景色,包括远处的建筑物和山丘。
### 1. 基础视觉元素
#### 人物
- 外观:海鸥,体型中等,羽毛为灰色和白色,头部有黑色斑点。
- 服饰:无服饰。
- 状态:站立在餐车顶部,姿态自然。
#### 物体
- 餐车:银色金属材质,形状为圆弧形,顶部有“ROD RENTAL”和“NO FISHING LICENSE REQUIRED ON PIER”的字样。
- 海鸥:位于餐车顶部,姿态自然。
- 环境:背景为海滨城市,包括建筑物和山丘,天空部分有云朵。
#### 环境
- 场景:海滨城市,具体地点不明确。
- 时间:具体时段不明确,但光线条件显示为白天。
- 氛围:海滨城市,背景建筑和山丘显示了自然和城市结合的氛围。
### 2. 专业分析
#### 构图要素
- 视角和取景方式:俯视视角,主体为餐车和海鸥。
- 主体位置和重点区域:餐车位于画面中心,海鸥位于顶部,形成视觉焦点。
- 构图手法:三分法,主体居于三分线附近。
- 景深效果和虚实关系:背景部分较为模糊,突出主体。
#### 光影效果
- 主光源:自然光,光线柔和。
- 明暗对比:主体部分较亮,背景部分较暗。
- 整体色调:冷暖色调平衡,整体色调偏暖。
#### 空间关系
- 大小比例:餐车占据画面大部分,海鸥较小,但位于顶部,形成视觉平衡。
- 位置描述:餐车位于画面中心,海鸥位于顶部,形成视觉焦点。
- 距离关系:餐车与海鸥之间有明显距离,海鸥位于餐车顶部。
### 3. 深度解读
- 色彩情感:整体色调偏暖
图片生成:
Janus-pro-7b:
flux.1:
跟刚才结论差不多,图片理解表现可以,但生图还是差点意思。细节明显不足,车体和栈桥比较大几率出现错位情况。
整体来说,图片理解能力在Comfyui中常用的一众开源小模型中属于最强梯队,并且支持相对复杂的prompt引导。但,这个模型规模有7B。而在国产AI四小龙这一档及往上的AI大厂里面,就属于一般水平,不会拔尖。
图片生成上,以个人体感来说,跟MJ、Flux.1、SD3.5还存在一定差距,甚至打不赢SD3,大概就是SD1.5到SDXL的水平。
所以,如果是准备把现在这个版本作为可以在本地部署的开源生图模型使用,那可能不是一个很可靠的玩法。而且7B的参数相对我们平时用来生图的Diffusion模型来说并不小。
但也必须要意识到,Janus-pro-7b这个模型不是扩散模型,而是纯Transformer,或许在一些特殊的场景和设备上会有独到优势。
找到一个限免的接口,更新几个图吧
This is a highly creative conceptual photograph. The image uses a beach setting as its background, cleverly incorporating a circular mirror as the central element. The mirror is placed on the sand, surrounded by algae-covered rocks that create a unique natural frame.The mirror reflects a portrait of a young person wearing a white shirt, gazing upward with a contemplative expression. The mirror's brown frame harmonizes with the surrounding sand and rock tones, while the reflected bright blue sky creates a striking contrast.The composition is uniquely divided into three visual layers: the rocky formations above, the central circular reflection, and the textured sand below. The lighting is masterfully handled, with angled sunlight creating soft halos on the rock surfaces, while the reflected portrait is bathed in gentle natural light.
This work creates a surrealist visual effect through its use of reflection, while seamlessly integrating with the natural environment, demonstrating the photographer's unique artistic perspective.
Janus-pro-7b:
This is an artistic beverage still life photograph that captures an elegant moment of a cocktail in sunlight. The glass contains an amber-colored liquid topped with glistening ice cubes, with what appears to be a dusting of seasoning powder on the rim. The composition is clean and powerful, with the glass precisely positioned in the center of a square patch of natural light. The dark wooden table surface reveals delicate grain patterns under the strong light, while the glass's shadow and the light patch's edges create a geometric composition. The lighting treatment is exceptional, with sunlight entering from one side and passing through the liquid to create rich layers of color, transitioning from deep reddish-brown to bright golden hues. The background is intentionally blurred to emphasize the clarity of the main subject. The entire image exudes a quiet and warm atmosphere, revealing the beauty inherent in a simple everyday moment. The clever use of light and shadow not only highlights the texture of the beverage but also imbues the scene with unique artistic charm.
Janus-pro-7b:
flux.1:
This is a contemporary fashion portrait that exudes modern urban style. The young woman wears a black fitted long dress paired with platform boots, complemented by a chic short hairstyle, embodying a strong metropolitan fashion sensibility.The shoot takes place in an industrial-style space, with exposed beige brick walls and concrete flooring creating a raw backdrop. She reclines on a beige leather chaise lounge, her pose both natural and elegant. The use of flash creates dramatic lighting effects that emphasize the texture of the clothing and the subject's silhouette.The composition employs a straight-on, slightly elevated angle, positioning the subject in the center of the frame. The black attire creates a striking contrast against the beige walls and lounge, producing a powerful visual impact. The overall color palette is dominated by black, white, and grey, presenting a minimalist aesthetic.The photograph successfully captures the image of an independent, confident young woman in contemporary urban culture, demonstrating a perfect fusion of street fashion and sophistication.
Janus-pro-7b:
flux.1:
This is a minimalist yet poetic photograph of a hot air balloon. Set against a teal blue sky, a white hot air balloon floats in the upper portion of the frame (near the upper third line), creating a strong visual focal point.The balloon occupies approximately 1/6 of the frame and displays a classic spherical shape with vertical panels. The main body is pure white, adorned with a decorative band of alternating orange, brown, and beige stripes around its middle. The black passenger basket is visible at the bottom, though its details are slightly indistinct.The background sky shows a gradient of teal blue shades, completely devoid of clouds, creating a pure and vast atmosphere. The composition is extremely minimal, allowing the single subject to contrast dramatically with the expansive sky, emphasizing both the vastness of space and the solitude of the subject.The color treatment demonstrates a striking interplay between cool and warm tones: the cool-toned sky background harmoniously complements the warm decorative stripes on the balloon, conveying a visual effect that balances serenity with vitality.
Janus-pro-7b:
flux.1:
This landscape photograph captures a magnificent coastal waterfall scene. The image shows a waterfall that plunges directly into the sea from an ochre cliff face approximately 30 meters high, creating a spectacular natural display. The waterfall is positioned at the left third of the frame, with white water cascading down the steep rocky face, creating a crystalline curtain of water in the sunlight. Wooden viewing platforms are built into the cliff face, allowing visitors to observe this impressive spectacle. The foreground is adorned with lush tropical vegetation, whose deep green foliage adds vitality to the scene. The distant sea appears in deep blue, dotted with several vessels, including a distinctive tourist boat. Along the coastline, modern city buildings rise to form an urban skyline against the clear blue sky. An airplane can be spotted crossing the sky in the upper right corner of the frame. The entire scene demonstrates a harmonious blend of natural and urban elements: the rushing waterfall, calm sea waters, modern city architecture, and verdant vegetation all combine to create a unique coastal landscape. The composition successfully balances the raw power of the waterfall with the serenity of the Mediterranean seascape.
Janus-pro-7b:
flux.1:
简单小物体的表现还是不错的,比如上面那杯咖啡,就是分辨率有些低。但是复杂场景尤其人物有点困难。我不确定非扩散模型是不是也有步数这个东西,但反正我测试的这个没有提供步数设置。
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
相关推荐

你 发表评论:
欢迎