Advanced Image Captioning:使用最先进的 AI 模型为您的图像生成详细的描述

Advanced Image Captioning App 是一个强大且用户友好的工具,使用最先进的 AI 模型为您的图像生成详细的描述。该应用结合了 Florence-2 和 Llama 3.2 Vision 模型的优势,为您上传的任何图像提供丰富、上下文相关的描述。

✨ 功能

  • 双模型支持:在 Florence-2 和 Llama 3.2 Vision 模型之间进行选择
  • 批处理:一次上传并处理多张图像
  • 有序输出:描述带有时间戳,便于参考
  • 用户友好界面:干净、直观的 Streamlit 界面
  • 错误处理:全面的错误消息和日志记录

🚀 入门指南

先决条件

在开始之前,请确保您的机器上安装了 Python 3.8+。您还需要一些磁盘空间来存储 AI 模型。您还需要在本地机器上安装 Ollama。

安装
  • 克隆此仓库

    git clone https://github.com/yourusername/image-captioning-app.git
    cd image-captioning-app
  • 创建虚拟环境(推荐)

    python -m venv venvsource venv/bin/activate 
    # 在 Windows 上使用:venv\Scripts\activate
  • 安装所需的包

    pip install -r requirements.txt
  • 运行应用:

使用以下简单命令启动应用:

streamlit run app.py

应用将在您的默认浏览器中打开。如果未打开,请访问 http://localhost:8501

🎯 如何使用

  1. 选择模型

    • Florence-2:适用于详细的视觉描述和艺术风格识别
    • Llama 3.2 Vision:擅长自然语言描述和上下文理解
  2. 上传图像

    • 点击上传按钮或拖放您的图像
    • 支持 JPG、JPEG 和 PNG 格式
    • 一次上传多张图像进行批处理
  3. 获取描述

    • 应用处理每张图像并显示生成的描述
    • 描述会自动保存在 captions 文件夹中
    • 每个会话都有自己的时间戳文件夹

      0

      评论0

      没有账号?注册  忘记密码?