一种AI 辅助的大规模唇语识别数据集自动化构建方法

专利 · 2026

发表中国发明专利 · 实质审核阶段

作者Hao Jiang, Jiaqing Chen, Yifei Luo

署名说明导师为第一发明人

针对唇语识别数据集人工标注成本高、音画同步难的痛点，构建了分布式自动化处理管线。通过FFmpeg标准化预处理并结合颜色直方图差异算法（阈值D>30）实现镜头边界精准检测，利用SyncNet模型计算音视频余弦相似度（阈值0.3）自动校正偏移。该流程解决了海量视频素材的自动化采集与清洗难题，显著提升了大规模数据构建的效率与音画对齐一致性。
针对时序标注颗粒度粗导致唇动覆盖不完整的问题，开发了从句子级到单词级的分级强制对齐方案。利用Aeneas模块执行句子级音频转文本识别，并集成MFA工具实现单词级时序匹配，根据词汇字数执行毫秒级时间轴微调。该技术实现了单词文本与视频片段的精确映射，生成带唯一ID的拼音标注文件，为细粒度唇语识别提供了高质量的结构化数据基础。
针对多说话人干扰及复杂姿态下ROI提取不稳定的挑战，设计了MTCNN检测与KCF跟踪相结合的双重验证机制。利用ResNet-18特征向量进行身份聚类，并训练SVM分类器排除非说话状态人脸及极端姿态偏移（如大幅偏航角）；基于68个面部关键点执行ROI边界框的动态比例扩展，在确保唇部开合细节完整捕获的同时，极大降低了训练数据的噪声干扰，增强了数据集的鲁棒性。

本发明公开了一种 AI 辅助的大规模唇语识别数据集自动化构建方法及系统，通过构建分布式爬虫抓取视频素材，经 FFmpeg 提取音视频流，结合镜头边界检测与 SyncNet 模型实现音视频同步，借助 Aeneas 和 MFA 工具完成音频转写与时间戳对齐，采用 MTCNN 算法、KCF 跟踪器及 ResNet-18 模型实现人脸检测、说话者聚类，再基于唇部关键点提取 ROI 并分类存储，同时通过多模型验证筛选高质量样本，有效解决现有数据集构建成本高、质量差、同步难等问题，提升数据集构建效率与质量，为唇语识别模型训练提供高质量数据支撑。

具体工作内容

技术概要

基于机器视觉的唇语识别算法设计与系统开发