Person From Vid

10个月前发布 264 00

Person From Vid是一款人工智能驱动的视频帧提取和姿势分类工具，分析视频文件以识别并提取包含特定姿势和头部朝向人物的高质量帧。

所在地：

美国

收录时间：

2025-06-15

打开网站手机查看

实用工具 # LoRA 模型 # Person From Vid

Person From Vid

Person From Vid

如果你正在准备训练一个高质量的 LoRA 模型，那么你一定知道：构建一个优质的数据集是第一步。但手动从视频中截图、筛选清晰画面、分类角度和姿势，不仅耗时而且容易出错。

有没有办法把这个过程自动化？答案是肯定的。今天介绍的这个工具——PersonFromVid，正是为了解决这个问题而诞生。

它是谁开发的？

开发者 codeprimate 表示，他最初并不是为了做 LoRA 而开发这个工具。他只是想学习如何使用姿势检测模型，同时觉得如果有一个能自动提取并分类视频帧的工具，对社区可能会有帮助。

需要注意的是：这个工具不负责创建 LoRA 模型，它只专注于从视频中提取高质量的图像帧，并按姿势和角度进行分类。

它的核心功能

PersonFromVid 是一个基于命令行的工具，使用起来非常简单。你只需要提供一个视频文件，它就能自动完成以下任务：

✅ 视频格式支持广泛

支持 MP4、AVI、MOV、MKV、WebM 等主流视频格式。

✅ AI驱动的智能分析

人脸检测：使用 yolov8s-face 模型精准识别人脸区域。
姿势估计：通过 yolov8s-pose 分析人物是站立、坐下还是蹲下。
头部朝向识别：利用 sixdrepnet 模型判断头部方向（正面、侧面、仰视、俯视等）。

✅ 智能帧选择机制

关键帧优先：优先提取信息量大的 I 帧。
时间采样：按固定时间间隔提取帧，确保覆盖完整内容。
去重处理：避免保存视觉上重复或高度相似的帧。

✅ 多维度质量评估

系统会根据清晰度、亮度、对比度等多个指标，筛选出最优质的帧，避免模糊或曝光不佳的画面混入数据集。

✅ 分类输出

按姿势分类：站立、坐姿、蹲姿。
按镜头类型分类：特写、中景、全身。
按头部朝向分类：9 个主要方向，便于后续训练使用不同角度的数据。

✅ 图像输出形式

支持输出完整帧图像。
可选输出裁剪后的人脸区域图像，方便用于人脸识别或局部特征训练。

效率与兼容性

GPU 加速支持：可开启 CUDA 或 MPS 加速，显著提升处理速度。
进度可视化：现代控制台界面实时展示处理进度和状态。
中断恢复机制：即使处理过程中断，也能继续上次的状态继续运行。
灵活配置方式：支持通过命令行参数、YAML 配置文件或环境变量进行设置。

适用场景

构建用于图像生成模型（如 Stable Diffusion）的训练数据集；
自动化整理人物姿态多样化的图片素材；
快速获取特定动作、角度的人物图像样本；
作为机器学习项目前期的数据预处理工具。

数据统计

相关导航

吉卜力风格图像转换

EasyControl 在 Hugging Face 发布了 EasyControl_Ghibli 模型，可以免费生成吉卜力风格图像，操作非常简单，上传图像点击生成即可转换。

Ebook2Audiobook

Ebook2Audiobook

Ebook2Audiobook是一款将非DRM保护的电子书转换为高质量有声书的工具，并保留章节和元数据。通过结合Calibre、Coqui XTTSv2和Fairseq等开源项目，确保每本有声书听起来自然流畅。

Cloudflare Bypass Tool 2026

Cloudflare Bypass Tool 2026

在自动化测试、数据采集或安全研究中，遇到 Cloudflare 的 Turnstile 验证往往是最大的障碍。传统的无头浏览器很容易被识别并拦截。Cloudflare Bypass Tool 2026利用 SeleniumBase 的 UC (Undetected Chrome) 模式，通过操作系统级的鼠标和键盘事件模拟，实现高成功率的验证绕过。

pgit

pgit是一个轻量级的 Git 静态网站生成器，能将你的本地仓库转换为可浏览的 HTML 网站，界面类似 GitHub 的“代码”标签页，支持语法高亮、提交历史、文件树导航，且完全离线、100% 私有。

Splat

Splat是一款AI涂色书应用，可以把任何照片变成涂色页，让孩子在应用中涂色，或打印出来亲手上色。从日常时刻到遥远地方，每一幅画都始于他们的故事。探索 300 多张教育涂色页，学习动物、太空、汽车、机器人等主题——激发好奇与创造力。

OpenCTI

OpenCTI 是一个开源平台，允许组织管理其网络威胁情报知识和可观测数据。它旨在构建、存储、组织并可视化关于网络威胁的技术与非技术信息。

AI Baby Monitor

AI Baby Monitor

AI Baby Monitor 是一个基于本地运行的视频分析系统，通过集成先进的视频大语言模型（Video LLM），对婴儿活动进行规则判断，并在发现潜在危险行为时发出单一轻柔蜂鸣声，提醒家长及时查看。

Flux AI Discord Bot

Flux AI Discord Bot

Flux AI Discord Bot是一款集文本生成图像、视频、音乐于一体的AI创意助手，它将你天马行空的灵感转化为视觉与听觉作品，并支持直接在Discord中分享与协作。

暂无评论

none

暂无评论...