AI 智能盲人眼镜系统

1个月前发布 18 00

AI 智能盲人眼镜系统是一个面向视障用户的智能辅助工具原型,整合了盲道导航、过马路辅助、物品识别和语音交互等核心功能。通过视频、音频、IMU(惯性测量单元)等多模态输入,系统可提供实时语音引导与环境感知能力,帮助用户更安全地感知周围环境。

所在地:
中国
收录时间:
2025-11-06
其他站点:
AI 智能盲人眼镜系统AI 智能盲人眼镜系统

AI 智能盲人眼镜系统是一个面向视障用户的智能辅助工具原型,整合了盲道导航、过马路辅助、物品识别和语音交互等核心功能。通过视频、音频、IMU(惯性测量单元)等多模态输入,系统可提供实时语音引导与环境感知能力,帮助用户更安全地感知周围环境。

AI 智能盲人眼镜系统

说明:本项目为技术交流与学习用途,尚未经过临床或无障碍产品认证,请勿直接用于视障人群的实际出行

核心功能一览

🚶 盲道导航

  • 实时盲道检测:基于 YOLO 分割模型识别盲道位置。
  • 语音方向引导:提示“左转”“右转”“直行”等操作。
  • 障碍物避让:检测前方障碍并规划绕行路径。
  • 转弯预警:识别急转弯并提前语音提醒。
  • 光流稳定:采用 Lucas-Kanade 光流算法,降低检测结果抖动。

🚦 过马路辅助

  • 斑马线识别:自动定位斑马线并判断方向。
  • 红绿灯识别:结合颜色与形状判断信号灯状态。
  • 对齐引导:语音提示用户对准斑马线中心。
  • 通行提醒:绿灯亮起时提示“可以过马路”。

🔍 物品识别与查找

  • 语音指令搜索:例如“帮我找一下红牛”。
  • 目标追踪:使用 YOLO-E 开放词汇检测 + ByteTrack 实现跨帧追踪。
  • 手部引导:结合 MediaPipe 检测用户手部,引导靠近目标。
  • 抓取确认:检测握持动作,判断物品是否已拿到。
  • 多模态反馈:视觉标注 + 语音提醒 + 居中提示,提升交互效率。

🎙️ 实时语音交互

  • 语音识别:基于阿里云 DashScope Paraformer 模型,实现低延迟 ASR。
  • 多模态对话:使用 Qwen-Omni-Turbo,支持图像+文本输入与语音输出。
  • 指令理解:自动识别导航、查找、对话等意图。
  • 上下文感知:不同模式下过滤无关指令,避免误触发。

📹 视频与音频处理

  • 实时视频流:通过 WebSocket 推送,支持多客户端同步查看。
  • 音视频录制:自动保存带时间戳的音视频文件,便于后期调试。
  • IMU 数据融合:接收来自 ESP32 的姿态数据,辅助空间理解。
  • 多路音频混音:系统语音、AI 回复、环境音可同时播放,不互相干扰。

🎨 可视化与交互界面

  • Web 实时监控:通过浏览器观看处理后的视频流。
  • 3D 姿态可视化:基于 Three.js 实时渲染设备姿态。
  • 状态面板:展示当前模式、检测结果、FPS 等系统信息。
  • 中文友好设计:界面与语音全程使用中文,支持字体自定义。
AI 智能盲人眼镜系统

系统运行要求

硬件需求(开发/服务器端)

  • CPU:英特尔 i5 或更高(推荐 i7/i9)
  • GPU:英伟达显卡,支持 CUDA 11.8+(推荐 RTX 3060 及以上)
  • 内存:8GB(推荐 16GB)
  • 存储:10GB 可用空间

客户端设备(可选)

  • ESP32-CAM 或支持 WebSocket 的摄像头
  • 麦克风(语音输入)
  • 扬声器或耳机(语音输出)

软件依赖

  • 操作系统:Windows 10/11、Linux(Ubuntu 20.04+)、macOS 10.15+
  • Python:3.9 – 3.11
  • CUDA:11.8 或更高(用于 GPU 加速)
  • 浏览器:Chrome 90+、Firefox 88+、Edge 90+(用于 Web 监控)

API 依赖

使用方式简述

语音指令(无需唤醒词)

导航控制

  • “开始导航” / “盲道导航” → 启动盲道导航
  • “停止导航” / “结束导航” → 停止导航

过马路

  • “开始过马路” / “帮我过马路” → 启动过马路模式
  • “过马路结束” → 退出模式

红绿灯检测

  • “检测红绿灯” → 启动检测
  • “停止检测” → 停止

物品查找

  • “帮我找一下红牛” → 启动物品搜索
  • “找到了” → 确认已拿到

智能对话

  • “帮我看看这是什么” → 图像识别
  • “这个东西能吃吗” → 物品咨询
  • 其他问题 → AI 回答

数据统计

相关导航

暂无评论

none
暂无评论...