JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

多模态模型2个月前更新小马良

395 0

JoyCaption，一个从零开始构建的免费、开放且未经审查的视觉语言模型（VLM），旨在助力社区训练SD或Flux模型。它不仅免费开放，还提供训练脚本和丰富的构建细节，就像bigASP一样。

Demo：https://huggingface.co/spaces/fancyfeast/joy-caption-alpha-one
Demo：https://huggingface.co/spaces/fancyfeast/joy-caption-alpha-two
GitHub：https://github.com/fpgaminer/joycaption
模型下载：https://huggingface.co/fancyfeast/llama-joycaption-alpha-two-hf-llava

ComfyUI节点：

目前有多款节点支持JoyCaption，大家可以根据自己的需求进行选择。

Comfyui_JC2：https://github.com/TTPlanetPig/Comfyui_JC2
JoyCaptionAlpha Two for ComfyUI：https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two

特点概览

自由和开放：免费发布，无限制权重，附带训练脚本。
内容无审查：平等覆盖适宜和不适宜的内容，不回避任何概念。
多样性：欢迎各种风格和内容，无论是数字艺术、照片般真实、动漫还是Furry，JoyCaption都适合每个人。
最小过滤：训练了大量图像，以理解我们世界的几乎所有方面，除了非法内容。

新功能

控制字幕长度：现在可以控制JoyCaption生成的字幕长度，从20到260个词，或选择“任何”长度。
风格选择：可以选择与Pre-Alpha版本相同的正式风格，或尝试新的“非正式”风格。
字幕类型：新增“描述性”和“训练提示”两种字幕类型，后者尝试模仿用户编写稳定扩散提示的方式。

开发细节

过去一个月，作者手动编写了2000个训练提示字幕，尽管遇到挑战，但这些努力带来了新的字幕长度和语调控制功能。

警告

训练提示模式：仍在完善中，使用时需谨慎。
非正式风格：虽然有助于扩展模型的词汇，但风格上仍有改进空间。
数据集扩展：虽然在电影、艺术和角色识别方面有所改善，但OCR和艺术家识别方面仍需加强。

多模态模型 # JoyCaption # 视觉语言模型

文章版权归作者所有，未经允许请勿转载。

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

多模态模型 # Sa2VA # 多模态大语言模型

2个月前

01300

Jina CLIP v2：用于文本和图像的多语言多模态嵌入

多模态模型 # Jina CLIP v2 # 多语言多模态嵌入

2个月前

01510

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

多模态模型 # Qwen2.5-VL # 视觉语言模型

1个月前

01100

智源研究院推出全新多模态系列模型Emu3

多模态模型 # Emu3 # 多模态模型 # 智源研究院

2个月前

02720

暂无评论

暂无评论...

JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

ComfyUI节点：

特点概览

最新动态

新功能

开发细节

警告

新型目标检测模型Mamba-YOLO-World：能够理解并识别各种不同物体的智能系统，即使这些物体在训练时没有被明确标记

GOT-OCR-2.0模型：专为识别和处理各种字符而设计的OCR模型

相关文章

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

Jina CLIP v2：用于文本和图像的多语言多模态嵌入

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

智源研究院推出全新多模态系列模型Emu3

暂无评论

文章

新ElevenLabs发布全球首个AI“狗语”TTS模型Text To Bark，开启跨物种沟通新时代？

新微软将AI功能扩展至配备英特尔和AMD处理器的Copilot+ PC

新ComfyUI-Manager 加入 Comfy-Org：自定义节点体验全面升级

新ChatGPT 即将更新：推理滑块、记忆功能与语音输入等功能

新海螺语音海外版MiniMax Audio发布全新模型Speech-02 ：超现实 TTS，多语言无缝切换

新阿里云联合国家天文台发布国际首个太阳大模型“金乌”，太阳耀斑预报准确率超91%

Yourware.so

通义万象

朱雀大模型检测

Google AI Studio

野卡

Reve Image

JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

ComfyUI节点：

特点概览

最新动态

新功能

开发细节

警告

新型目标检测模型Mamba-YOLO-World：能够理解并识别各种不同物体的智能系统，即使这些物体在训练时没有被明确标记

GOT-OCR-2.0模型：专为识别和处理各种字符而设计的OCR模型

相关文章

文章

标签云

网址

Yourware.so

通义万象

朱雀大模型检测

Google AI Studio

野卡

Reve Image