AI 智能盲人眼镜系统是一个面向视障用户的智能辅助工具原型,整合了盲道导航、过马路辅助、物品识别和语音交互等核心功能。通过视频、音频、IMU(惯性测量单元)等多模态输入,系统可提供实时语音引导与环境感知能力,帮助用户更安全地感知周围环境。

说明:本项目为技术交流与学习用途,尚未经过临床或无障碍产品认证,请勿直接用于视障人群的实际出行。
核心功能一览
🚶 盲道导航
- 实时盲道检测:基于 YOLO 分割模型识别盲道位置。
- 语音方向引导:提示“左转”“右转”“直行”等操作。
- 障碍物避让:检测前方障碍并规划绕行路径。
- 转弯预警:识别急转弯并提前语音提醒。
- 光流稳定:采用 Lucas-Kanade 光流算法,降低检测结果抖动。
🚦 过马路辅助
- 斑马线识别:自动定位斑马线并判断方向。
- 红绿灯识别:结合颜色与形状判断信号灯状态。
- 对齐引导:语音提示用户对准斑马线中心。
- 通行提醒:绿灯亮起时提示“可以过马路”。
🔍 物品识别与查找
- 语音指令搜索:例如“帮我找一下红牛”。
- 目标追踪:使用 YOLO-E 开放词汇检测 + ByteTrack 实现跨帧追踪。
- 手部引导:结合 MediaPipe 检测用户手部,引导靠近目标。
- 抓取确认:检测握持动作,判断物品是否已拿到。
- 多模态反馈:视觉标注 + 语音提醒 + 居中提示,提升交互效率。
🎙️ 实时语音交互
- 语音识别:基于阿里云 DashScope Paraformer 模型,实现低延迟 ASR。
- 多模态对话:使用 Qwen-Omni-Turbo,支持图像+文本输入与语音输出。
- 指令理解:自动识别导航、查找、对话等意图。
- 上下文感知:不同模式下过滤无关指令,避免误触发。
📹 视频与音频处理
- 实时视频流:通过 WebSocket 推送,支持多客户端同步查看。
- 音视频录制:自动保存带时间戳的音视频文件,便于后期调试。
- IMU 数据融合:接收来自 ESP32 的姿态数据,辅助空间理解。
- 多路音频混音:系统语音、AI 回复、环境音可同时播放,不互相干扰。
🎨 可视化与交互界面
- Web 实时监控:通过浏览器观看处理后的视频流。
- 3D 姿态可视化:基于 Three.js 实时渲染设备姿态。
- 状态面板:展示当前模式、检测结果、FPS 等系统信息。
- 中文友好设计:界面与语音全程使用中文,支持字体自定义。

系统运行要求
硬件需求(开发/服务器端)
- CPU:英特尔 i5 或更高(推荐 i7/i9)
- GPU:英伟达显卡,支持 CUDA 11.8+(推荐 RTX 3060 及以上)
- 内存:8GB(推荐 16GB)
- 存储:10GB 可用空间
客户端设备(可选)
- ESP32-CAM 或支持 WebSocket 的摄像头
- 麦克风(语音输入)
- 扬声器或耳机(语音输出)
软件依赖
- 操作系统:Windows 10/11、Linux(Ubuntu 20.04+)、macOS 10.15+
- Python:3.9 – 3.11
- CUDA:11.8 或更高(用于 GPU 加速)
- 浏览器:Chrome 90+、Firefox 88+、Edge 90+(用于 Web 监控)
API 依赖
使用方式简述
语音指令(无需唤醒词)
导航控制
- “开始导航” / “盲道导航” → 启动盲道导航
- “停止导航” / “结束导航” → 停止导航
过马路
- “开始过马路” / “帮我过马路” → 启动过马路模式
- “过马路结束” → 退出模式
红绿灯检测
- “检测红绿灯” → 启动检测
- “停止检测” → 停止
物品查找
- “帮我找一下红牛” → 启动物品搜索
- “找到了” → 确认已拿到
智能对话
- “帮我看看这是什么” → 图像识别
- “这个东西能吃吗” → 物品咨询
- 其他问题 → AI 回答