Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization

作者:Hongwei Ji et.al.

论文链接:http://arxiv.org/abs/2504.13460

发布日期:2025-05-06

解读时间:2025-07-19 19:33:05

论文摘要

Traditional temporal action localization (TAL) methods rely on large amounts of detailed annotated data, whereas few-shot TAL reduces this dependence by using only a few training samples to identify unseen action categories. However, existing few-shot TAL methods typically focus solely on video-level information, neglecting textual information, which can provide valuable semantic support for the localization task. Therefore, we propose a new few-shot temporal action localization method by Chain-of-Thought textual reasoning to improve localization performance. Specifically, we design a novel few-shot learning framework that leverages textual semantic information to enhance the model's ability to capture action commonalities and variations, which includes a semantic-aware text-visual alignment module designed to align the query and support videos at different levels. Meanwhile, to better express the temporal dependencies and causal relationships between actions at the textual level to assist action localization, we design a Chain of Thought (CoT)-like reasoning method that progressively guides the Vision Language Model (VLM) and Large Language Model (LLM) to generate CoT-like text descriptions for videos. The generated texts can capture more variance of action than visual features. We conduct extensive experiments on the publicly available ActivityNet1.3 and THUMOS14 datasets. We introduce the first dataset named Human-related Anomaly Localization and explore the application of the TAL task in human anomaly detection. The experimental results demonstrate that our proposed method significantly outperforms existing methods in single-instance and multi-instance scenarios. We will release our code, data and benchmark.

AI解读

好的,下面我将对这篇论文进行详细分析,重点关注其方法和技术细节。

1. 核心方法与创新点

这篇论文的核心方法是一种基于文本推理的少样本时序动作定位(Few-shot Temporal Action Localization, TAL)方法。简单来说,它试图解决在只有少量带标注的视频样本的情况下,准确识别视频中动作的起始和结束时间的问题。传统的TAL方法需要大量的标注数据,而少样本学习的目标是利用少量数据快速适应新的动作类别。

主要创新点:

* 引入文本信息辅助定位: 现有方法主要依赖视频的视觉信息,忽略了文本信息提供的语义支持。该论文利用文本描述来增强模型对动作的理解,特别是在区分视觉上相似但语义不同的动作时。这是论文的核心创新之一。
* Chain-of-Thought (CoT)-like 推理: 设计了一种类似CoT的推理方法,逐步引导视觉语言模型(VLM)和大语言模型(LLM)生成CoT文本描述,用于表达动作之间的时间依赖性和因果关系。这使得模型能够更好地理解动作序列及其潜在联系。
* 语义感知的文本-视觉对齐模块: 设计了一个语义感知的文本-视觉对齐模块,在不同层次上对齐查询视频和支持视频的视觉和文本特征,以捕捉动作的共性和差异。
* 构建人类异常行为定位数据集(HAL): 为了扩展少样本动作定位的应用范围,收集并标注了一个包含12种异常行为(如打架、摔倒等)的数据集,并提供标注好的文本描述,为未来的研究提供基准。

技术亮点:

* 利用预训练的VLM和LLM的先验知识,减少了对大量标注数据的依赖。
* CoT推理可以更好地捕捉动作的时间依赖性和因果关系,提高了定位精度。
* 语义感知的对齐模块可以有效地整合视频和文本信息,提升模型对动作的理解。

与现有方法的区别:

* 现有方法主要依赖视觉信息,而该论文强调文本信息的重要性。
* 该论文使用CoT推理,更好地捕捉动作的时间依赖性和因果关系,而现有方法通常只提供粗略的描述。
* 该论文提出了一个语义感知的对齐模块,可以更好地整合视频和文本信息,而现有方法通常只关注视觉特征的对齐。

2. 算法细节与流程

算法流程主要分为以下几个步骤:

1. 特征提取:
* 视频特征提取: 将查询视频和支持视频分割成多个片段(snippets),使用预训练的C3D网络提取每个片段的视觉特征。然后,使用语义-时间金字塔编码器(STPE)进一步提取鲁棒的时序和语义特征。
* 文本特征提取: 使用VLM和LLM预先生成支持视频的帧级别字幕和CoT文本描述,然后使用CLIP文本编码器提取对应的文本特征。
2. 双重文本特征提取: 使用Cross-Attention机制融合字幕特征和CoT文本特征,得到最终的文本特征,用来辅助动作定位。
3. 语义感知的文本-视觉对齐:
* 计算查询视频和支持视频的视觉特征之间的余弦相似度,得到视频对齐图(Mv)。
* 将支持视频的视觉特征和文本特征进行拼接,使用卷积操作进行对齐,得到对齐后的支持视频特征。
* 计算查询视频和对齐后的支持视频的余弦相似度,得到视频-文本对齐图(Mvt)。
* 使用视频-文本对齐图校正视频对齐图,得到最终的对齐图(M)。
4. 动作定位: 将对齐后的特征输入到预测头(prediction head)中,生成动作片段级别的预测。
5. 后处理: 使用Soft-NMS方法对预测结果进行后处理,去除冗余的动作片段。

算法的技术优势和创新之处:

* STPE编码器: STPE可以捕捉视频中不同时间尺度和语义层次的特征,更全面地理解动作。
* CoT文本推理: CoT推理可以更好地捕捉动作的时间依赖性和因果关系,提高了定位精度。
* 语义感知的对齐模块: 该模块可以有效地整合视频和文本信息,缓解了视觉特征的歧义性,提升了模型对动作的理解。

3. 详细解读论文第三部分(部分重要公式说明)

第三部分主要描述了 Human-related Anomaly Localization Benchmark (HAL) 的构建和 CoT-like Reasoning 方法。这里重点解读 CoT-like Reasoning 部分,因为它关系到如何生成辅助定位的文本信息。

CoT-like Reasoning:

该方法分阶段引导 VLM 和 LLM 生成结构化的 CoT 文本描述,逐步增强对动作的理解。

1. 视频内容描述:
* 使用 VLM (Coca) 生成视频帧级别的字幕。
2. 视频级描述:
* 使用 VLM (VideoChat) ,通过不同的提示词,生成视频级别的描述,捕捉视频的细节和动作序列。
3. CoT文本生成:
* 引导 LLM (DeepSeek-R1) 对视频级描述进行逻辑分析和推理,识别动作序列和潜在的因果关系,生成 CoT 文本描述。

在论文中,虽然没有给出明确的数学公式,但可以将其理解为一种 Prompt Engineering 的方法。Prompt Engineering 本身并没有固定的数学形式,但其核心思想可以概括为:

* 通过设计合适的 Prompt (提示词),引导 LLM 完成特定的任务。
* 不同的 Prompt 会影响 LLM 的输出,因此需要根据任务的特点,精心设计 Prompt。
* 整个过程可以看作是一个优化 Prompt 的过程,目标是使 LLM 的输出尽可能接近预期结果。

例如,在论文中,使用了以下 Prompt:

* (1) Please describe the video in detail.
* (2) Please describe the anomaly event(or human action) in detail.
* You are a helpful assistant in building Chain of Thought-like text for anomaly event(or human action). You need to integrate the two answers and establish the event’s Chain of Thought-like text with logical words. Only list the answers in the following way: a)b)c)......

这些 Prompt 的作用是引导 LLM 生成包含动作因果关系的文本描述。

没有直接的数学公式,但这是一种重要的工程实践,对 LLM 的应用至关重要。
这个思路是很有借鉴意义的。

HAL 数据集构建:

论文从现有的异常检测数据集中挑选出与人类行为相关的视频,并进行标注,构建了 HAL 数据集。这个数据集包含 12 种异常行为,每个视频都标注了异常片段的时间区间,以及对应的帧字幕和 CoT 文本。

4. 实现细节与注意事项

* C3D特征提取: 使用预训练的C3D网络提取视频片段的特征。可以选择不同的预训练模型,例如在ImageNet上预训练的模型。
* STPE编码器: STPE编码器的卷积核大小和步长需要根据视频片段的长度进行调整。通常情况下,可以选择较小的卷积核和步长,以捕捉更精细的时序信息。
* 文本特征提取: 使用CLIP文本编码器提取文本特征。可以选择不同的CLIP模型,例如ViT-B/32或ViT-L/14。
* 语义感知的对齐模块: 对齐模块的卷积核大小需要根据特征维度进行调整。通常情况下,可以选择1x1的卷积核,以减少计算量。
* 预测头: 预测头可以使用全连接层或卷积层。通常情况下,可以选择卷积层,以捕捉更丰富的局部信息。
* 损失函数: 损失函数使用交叉熵损失。为了解决正负样本不平衡的问题,可以使用加权交叉熵损失。
* 后处理: 后处理使用Soft-NMS方法。Soft-NMS方法的阈值需要根据数据集的特点进行调整。
* 参数设置: 学习率、Batch Size、Epoch等参数需要根据数据集的特点进行调整。

实现难点和解决方案:

* 文本信息与视频信息的不对齐: 视频和文本的信息粒度不同,难以对齐。可以使用注意力机制或Transformer来解决这个问题。
* 计算量大: VLM和LLM的计算量很大,需要使用GPU加速。
* 数据集规模小: 少样本学习的数据集规模通常很小,容易过拟合。可以使用数据增强或正则化来缓解这个问题。

优化建议和最佳实践:

* 使用预训练的VLM和LLM,可以减少训练时间和提高模型性能。
* 使用数据增强,可以增加数据集规模,缓解过拟合。
* 使用正则化,可以防止模型过拟合。
* 使用早停法,可以避免模型过拟合。
* 调整超参数,可以提高模型性能。

总结

这篇论文提出了一种很有前景的少样本时序动作定位方法,其核心在于引入文本信息辅助视觉特征的理解,并巧妙地利用了Chain-of-Thought推理来捕捉动作的时间依赖性。提出的语义感知的对齐模块也很有创新性,可以有效地整合视频和文本信息。此外,论文还构建了一个新的数据集,为未来的研究提供了基准。该方法在多个数据集上都取得了不错的结果,验证了其有效性。尽管实现过程中可能会遇到一些挑战,但通过合理的技术手段和参数调整,可以克服这些困难,最终实现高效准确的少样本时序动作定位。
返回论文列表