一种AI 辅助的大规模唇语识别数据集自动化构建方法

专利 · 2026

发表中国发明专利 · 实质审核阶段

作者Hao Jiang, Jiaqing Chen, Yifei Luo

署名说明导师为第一发明人

  1. 针对唇语识别数据集人工标注成本高、音画同步难的痛点,构建了分布式自动化处理管线。通过FFmpeg标准化预处理并结合颜色直方图差异算法(阈值D>30)实现镜头边界精准检测,利用SyncNet模型计算音视频余弦相似度(阈值0.3)自动校正偏移。该流程解决了海量视频素材的自动化采集与清洗难题,显著提升了大规模数据构建的效率与音画对齐一致性。
  2. 针对时序标注颗粒度粗导致唇动覆盖不完整的问题,开发了从句子级到单词级的分级强制对齐方案。利用Aeneas模块执行句子级音频转文本识别,并集成MFA工具实现单词级时序匹配,根据词汇字数执行毫秒级时间轴微调。该技术实现了单词文本与视频片段的精确映射,生成带唯一ID的拼音标注文件,为细粒度唇语识别提供了高质量的结构化数据基础。
  3. 针对多说话人干扰及复杂姿态下ROI提取不稳定的挑战,设计了MTCNN检测与KCF跟踪相结合的双重验证机制。利用ResNet-18特征向量进行身份聚类,并训练SVM分类器排除非说话状态人脸及极端姿态偏移(如大幅偏航角);基于68个面部关键点执行ROI边界框的动态比例扩展,在确保唇部开合细节完整捕获的同时,极大降低了训练数据的噪声干扰,增强了数据集的鲁棒性。

本发明公开了一种 AI 辅助的大规模唇语识别数据集自动化构建方法及系统,通过构建分布式爬虫抓取视频素材,经 FFmpeg 提取音视频流,结合镜头边界检测与 SyncNet 模型实现音视频同步,借助 Aeneas 和 MFA 工具完成音频转写与时间戳对齐,采用 MTCNN 算法、KCF 跟踪器及 ResNet-18 模型实现人脸检测、说话者聚类,再基于唇部关键点提取 ROI 并分类存储,同时通过多模型验证筛选高质量样本,有效解决现有数据集构建成本高、质量差、同步难等问题,提升数据集构建效率与质量,为唇语识别模型训练提供高质量数据支撑。