Advanced Image Captioning App 是一个强大且用户友好的工具,使用最先进的 AI 模型为您的图像生成详细的描述。该应用结合了 Florence-2 和 Llama 3.2 Vision 模型的优势,为您上传的任何图像提供丰富、上下文相关的描述。
✨ 功能
-
双模型支持:在 Florence-2 和 Llama 3.2 Vision 模型之间进行选择 -
批处理:一次上传并处理多张图像 -
有序输出:描述带有时间戳,便于参考 -
用户友好界面:干净、直观的 Streamlit 界面 -
错误处理:全面的错误消息和日志记录
🚀 入门指南
先决条件
在开始之前,请确保您的机器上安装了 Python 3.8+。您还需要一些磁盘空间来存储 AI 模型。您还需要在本地机器上安装 Ollama。
安装
-
克隆此仓库: git clone https://github.com/yourusername/image-captioning-app.git cd image-captioning-app
-
创建虚拟环境(推荐): python -m venv venvsource venv/bin/activate # 在 Windows 上使用:venv\Scripts\activate
-
安装所需的包: pip install -r requirements.txt
-
运行应用:
使用以下简单命令启动应用:
streamlit run app.py
应用将在您的默认浏览器中打开。如果未打开,请访问 http://localhost:8501。
🎯 如何使用
-
选择模型: -
Florence-2:适用于详细的视觉描述和艺术风格识别 -
Llama 3.2 Vision:擅长自然语言描述和上下文理解
-
-
上传图像: -
点击上传按钮或拖放您的图像 -
支持 JPG、JPEG 和 PNG 格式 -
一次上传多张图像进行批处理
-
-
获取描述: -
应用处理每张图像并显示生成的描述 -
描述会自动保存在 captions
文件夹中 -
每个会话都有自己的时间戳文件夹
-
评论0