Advanced Image Captioning：使用最先进的 AI 模型为您的图像生成详细的描述

工具1年前发布小马良

405 0

Advanced Image Captioning App 是一个强大且用户友好的工具，使用最先进的 AI 模型为您的图像生成详细的描述。该应用结合了 Florence-2 和 Llama 3.2 Vision 模型的优势，为您上传的任何图像提供丰富、上下文相关的描述。

GitHub：https://github.com/Khalil-Rehman9/CaptionAI

✨ 功能

双模型支持：在 Florence-2 和 Llama 3.2 Vision 模型之间进行选择
批处理：一次上传并处理多张图像
有序输出：描述带有时间戳，便于参考
用户友好界面：干净、直观的 Streamlit 界面
错误处理：全面的错误消息和日志记录

🚀 入门指南

先决条件

在开始之前，请确保您的机器上安装了 Python 3.8+。您还需要一些磁盘空间来存储 AI 模型。您还需要在本地机器上安装 Ollama。

安装

克隆此仓库：

git clone https://github.com/yourusername/image-captioning-app.git
cd image-captioning-app

创建虚拟环境（推荐）：

python -m venv venvsource venv/bin/activate 
# 在 Windows 上使用：venv\Scripts\activate

安装所需的包：
```
pip install -r requirements.txt
```
运行应用:

使用以下简单命令启动应用：

streamlit run app.py

应用将在您的默认浏览器中打开。如果未打开，请访问 http://localhost:8501。

🎯 如何使用

选择模型：
- Florence-2：适用于详细的视觉描述和艺术风格识别
- Llama 3.2 Vision：擅长自然语言描述和上下文理解
上传图像：
- 点击上传按钮或拖放您的图像
- 支持 JPG、JPEG 和 PNG 格式
- 一次上传多张图像进行批处理
获取描述：
- 应用处理每张图像并显示生成的描述
- 描述会自动保存在 captions 文件夹中
- 每个会话都有自己的时间戳文件夹

工具 # Florence-2 # Llama 3.2 Vision

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Stable Diffusion前端工具与软件大盘点，找到适合你的AI绘画工具

Stable Diffusion前端工具与软件大盘点，找到适合你的AI绘画工具

工具 # AI绘画 # Civtai # ComfyUI

2年前

01,1920

Poe推出新功能Image Remix：修改和定制AI生成的图片

Poe推出新功能Image Remix：修改和定制AI生成的图片

工具 # ChatGPT ‘# Playground v2 # Poe

2年前

08190

ComfyUI Environment Manager：用于管理 ComfyUI 环境的 Pinokio 应用

ComfyUI Environment Manager：用于管理 ComfyUI 环境的 Pinokio 应用

工具 # ComfyUI Environment Manager

1年前

03140

Luma AI推出AI视频生成服务Dream Machine，通过自然语言描述生成逼真的视频

Luma AI推出AI视频生成服务Dream Machine，通过自然语言描述生成逼真的视频

工具 # AI视频 # Dream Machine # Luma AI

2年前

06340

暂无评论

none

暂无评论...