Transformer-Based Person Identification via Wi-Fi CSI Amplitude and Phase Perturbations

论文摘要

Wi-Fi sensing is gaining momentum as a non-intrusive and privacy-preserving alternative to vision-based systems for human identification. However, person identification through wireless signals, particularly without user motion, remains largely unexplored. Most prior wireless-based approaches rely on movement patterns, such as walking gait, to extract biometric cues. In contrast, we propose a transformer-based method that identifies individuals from Channel State Information (CSI) recorded while the subject remains stationary. CSI captures fine-grained amplitude and phase distortions induced by the unique interaction between the human body and the radio signal. To support evaluation, we introduce a dataset acquired with ESP32 devices in a controlled indoor environment, featuring six participants observed across multiple orientations. A tailored preprocessing pipeline, including outlier removal, smoothing, and phase calibration, enhances signal quality. Our dual-branch transformer architecture processes amplitude and phase modalities separately and achieves 99.82\% classification accuracy, outperforming convolutional and multilayer perceptron baselines. These results demonstrate the discriminative potential of CSI perturbations, highlighting their capacity to encode biometric traits in a consistent manner. They further confirm the viability of passive, device-free person identification using low-cost commodity Wi-Fi hardware in real-world settings.

AI解读

好的，我将按照您的要求，详细分析这篇论文，重点关注其方法和技术细节，并用通俗易懂的中文进行解释。

1. 核心方法与创新点

这篇论文的核心是提出了一种基于 Transformer 结构的 Wi-Fi 信道状态信息 (CSI) 的人员识别方法。与以往依赖人体运动的 Wi-Fi 识别方法不同，本文着重解决人在静止状态下的识别问题。该方法利用人体与 Wi-Fi 信号的细微交互，提取 CSI 的幅度和相位扰动作为生物特征，并用 Transformer 模型进行学习和识别。

创新点:

* 静态人员识别: 现有 Wi-Fi 识别方法大多依赖于步态、手势等运动特征。该方法直接针对静止状态下的人员识别，拓展了 Wi-Fi 识别的应用场景。
* CSI 幅度和相位联合利用: 充分挖掘 CSI 中幅度和相位信息蕴含的生物特征，并分别进行处理，再进行融合。
* Transformer 结构: 首次将 Transformer 结构应用于静态 Wi-Fi 人员识别，利用其强大的序列建模能力，捕捉 CSI 信号中的时序依赖关系。
* 低成本硬件: 使用 ESP32 这种低成本的 Wi-Fi 设备进行数据采集，验证了该方法在实际场景中的可行性。
* 数据预处理: 针对 CSI 数据的特点，设计了一套包括异常值去除、平滑、相位校准等预处理流程，提高了信号质量，增强了识别效果。

与现有方法的区别:

* 无需运动: 现有方法需要人走动或做特定动作，本文的方法不需要。
* 更细粒度的特征: 现有方法可能只关注 RSSI 或简单的 CSI 统计特征，本文的方法关注更细粒度的幅度和相位扰动。
* 更强的建模能力: 现有方法可能使用传统机器学习算法或简单的神经网络，本文使用 Transformer 结构，具有更强的序列建模能力。

2. 算法细节与流程

算法流程:

1. 数据采集: 使用 ESP32 设备，在室内环境中采集 CSI 数据。参与者静止站立，调整不同的朝向。
2. 数据预处理:
* 时域均值降维: 对时间序列数据进行平均，降低噪声和数据维度。
* Hampel 滤波: 检测并去除 CSI 幅度数据中的异常值。
* Butterworth 滤波: 使用低通滤波器对 CSI 幅度数据进行平滑处理，滤除高频噪声。
* 相位校准: 消除由硬件引起的相位偏移。
3. 特征提取: 将预处理后的 CSI 幅度和相位数据分别输入到 Transformer 编码器中，提取特征。
4. 特征融合: 将幅度和相位特征进行拼接。
5. 分类: 使用线性分类器对融合后的特征进行分类，识别人员。

算法细节:

* Transformer 编码器: 使用 Transformer 编码器对 CSI 时序数据进行建模。Transformer 编码器由多头自注意力机制和前馈神经网络组成。自注意力机制可以捕捉 CSI 信号中的时序依赖关系。
* 多头自注意力机制: 将输入数据映射到多个不同的子空间，在每个子空间中计算注意力权重，然后将结果进行融合。这样可以捕捉到数据中更丰富的特征。
* 残差连接和层归一化: 在 Transformer 编码器中使用残差连接和层归一化，可以加速模型训练，提高模型性能。
* 平均池化: 对 Transformer 编码器的输出进行平均池化，将变长的时序数据转换为固定长度的向量。
* 线性分类器: 使用线性分类器对特征向量进行分类。线性分类器简单高效，适合于小规模数据集。

技术优势:

* 强大的序列建模能力: Transformer 结构擅长处理序列数据，可以捕捉 CSI 信号中的时序依赖关系，从而提高识别精度。
* 并行计算: Transformer 结构可以进行并行计算，加速模型训练。
* 可解释性: Transformer 结构中的注意力权重可以用来分析模型关注的特征，从而提高模型的可解释性。
* 低计算复杂度: 相对于 CNN 和 LSTM，该 Transformer 模型结构相对简单，计算复杂度较低，更容易部署在资源受限的设备上。

3. 详细解读论文第三部分

论文第三部分详细介绍了该方法的技术细节，特别是数据预处理和 Transformer 模型的构建。

3.1 信号预处理

* 公式 (1): 描述了无线信道的数学模型。

$$Y = HX + \eta$$

其中：
* $Y$：接收到的信号。
* $H$：信道频率响应 (CSI)。
* $X$：发送的信号。
* $\eta$：加性噪声。
这个公式描述了接收到的信号是发送信号经过信道衰减和噪声干扰的结果。CSI 就是描述信道特性的关键参数。
* 公式 (2): 给出了 CSI 的估计方法。

$$\hat{H}_k = \frac{Y_k}{X_k}$$

其中：
* $\hat{H}_k$：第 k 个子载波的信道估计值。
* $Y_k$：第 k 个子载波上接收到的信号。
* $X_k$：第 k 个子载波上发送的信号。
通过已知的发送信号和接收到的信号，可以估计出 CSI。
* 公式 (3) 和 (4): 从 CSI 中提取幅度和相位。

$$A_k = \sqrt{\Re(\hat{H}_k)^2 + \Im(\hat{H}_k)^2}$$

$$\phi_k = \text{atan2}(\Im(\hat{H}_k), \Re(\hat{H}_k))$$

其中：
* $A_k$：第 k 个子载波的幅度。
* $\phi_k$：第 k 个子载波的相位。
* $\Re(\hat{H}_k)$：$\hat{H}_k$ 的实部。
* $\Im(\hat{H}_k)$：$\hat{H}_k$ 的虚部。
幅度反映了信号的衰减程度，相位反映了信号的偏移程度。
* 公式 (5): 时域均值降维。

$$X^{(r)}_{t,k} = \frac{1}{2}(X_{2t,k} + X_{2t+1,k})$$

其中：
* $X^{(r)}_{t,k}$：降维后的信号。
* $X_{t,k}$：原始信号。
通过对相邻的两个时间点的数据进行平均，可以降低噪声，减少计算量。
* 公式 (6) 和 (7): Hampel 滤波。

$$\text{MAD}_w = \text{Median} \{|x - \text{median}(X_w)| \quad \forall x \in X_w \}$$

$$|x_{w/2} - \text{median}(X_w)| > \beta \cdot \text{MAD}_w$$

其中：
* $\text{MAD}_w$：滑动窗口 $X_w$ 内的中位数绝对偏差。
* $x_{w/2}$：窗口中心点的值。
* $\beta$：阈值。

Hampel 滤波器通过计算滑动窗口内数据的中位数绝对偏差，来判断中心点是否为异常值。如果中心点偏离中位数的程度超过一定的阈值，则认为该点是异常值。
* 公式 (8): 指数平滑。

$$s_0 = x_0, \quad s_i = \alpha x_i + (1 - \alpha) s_{i-1} \quad \forall i \in [1, w/2]$$

其中：
* $s_i$：平滑后的估计值。
* $x_i$：原始观测值。
* $\alpha$：平滑因子，控制过去值的影响程度。

使用指数平滑法对异常值进行替换，可以保证数据的平滑性。
* 公式 (9): 相位误差模型

$$\hat{\phi}_i = \phi_i - 2\pi \frac{k_i}{N}\delta + \beta + \eta$$
其中：
* $\hat{\phi}_i$: 观测到的第i个子载波的相位值
* $\phi_i$: 真实的第i个子载波的相位值
* $k_i$: 第i个子载波的索引
* $N$: 总的子载波数量
* $\delta$: 采样频率偏移(SFO)引起的时序偏移
* $\beta$: 载波频率偏移(CFO)引起的常数相位偏移
* $\eta$: 测量噪声
* 公式 (10) 和 (11): 相位校准。

$$a = \frac{\hat{\phi}_n - \hat{\phi}_1}{k_n - k_1}, \quad b = \frac{1}{n} \sum_{j=1}^n \hat{\phi}_j$$

$$\Phi_i = \hat{\phi}_i - a k_i - b$$

其中：
* $a$：线性趋势的斜率。
* $b$：线性趋势的截距。
* $\hat{\phi}_i$：原始相位值。
* $\Phi_i$：校准后的相位值。

通过线性回归去除相位中的线性趋势，可以消除硬件引起的相位偏移。

3.2 Transformer-Based Model

* 公式 (12) 和 (13): 线性嵌入。

$$H_{\text{amp}} = X_{\text{amp}} W_{\text{in,amp}} + b_{\text{in,amp}}$$

$$H_{\text{ph}} = X_{\text{ph}} W_{\text{in,ph}} + b_{\text{in,ph}}$$

将原始的 CSI 幅度和相位数据分别映射到 dmodel 维的嵌入空间。
* 公式 (14) 和 (15): 自注意力机制。

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_{\text{model}}}}\right)V$$

$$Q = HW_Q, \quad K = HW_K, \quad V = HW_V$$

自注意力机制通过计算 Query、Key 和 Value 之间的相似度，来获取每个位置的信息。
* 公式 (16): 残差连接和层归一化。

$$H^{(1)} = \text{LayerNorm}(H + \text{Dropout}(\text{MultiHead}(H)))$$

在自注意力机制后，使用残差连接和层归一化，可以加速模型训练，提高模型性能。
* 公式 (17): 前馈神经网络。

$$\text{FFN}(H^{(1)}) = \max(0, H^{(1)}W_1 + b_1)W_2 + b_2$$

使用前馈神经网络对自注意力机制的输出进行非线性变换。
* 公式 (18): 残差连接和层归一化。

$$Z = \text{LayerNorm}(H^{(1)} + \text{Dropout}(\text{FFN}(H^{(1)})))$$

在前馈神经网络后，使用残差连接和层归一化，可以加速模型训练，提高模型性能。
* 公式 (19) 和 (20): 平均池化。

$$z_{\text{amp}} = \frac{1}{W} \sum_{i=1}^W Z_{\text{amp}}[i]$$

$$z_{\text{ph}} = \frac{1}{W} \sum_{i=1}^W Z_{\text{ph}}[i]$$

对 Transformer 编码器的输出进行平均池化，将变长的时序数据转换为固定长度的向量。
* 公式 (21): 特征融合。

$$z = [z_{\text{amp}}; z_{\text{ph}}] \in \mathbb{R}^{2d_{\text{model}}}$$

将幅度和相位的特征向量进行拼接。
* 公式 (22): 分类。

$$\hat{y} = zW_{\text{out}} + b_{\text{out}}, \quad W_{\text{out}} \in \mathbb{R}^{2d_{\text{model}} \times N}$$

使用线性分类器对融合后的特征向量进行分类。

4. 实现细节与注意事项

* 数据采集: 尽量保证室内环境的静止，避免人员走动和其他电磁干扰。确保 ESP32 设备稳定工作。
* 数据预处理:
* Hampel 滤波器的窗口大小和阈值需要根据实际数据进行调整。
* Butterworth 滤波器的截止频率需要根据信号的频率特性进行选择。
* 相位校准的线性回归模型需要保证准确性。
* Transformer 模型:
* Transformer 编码器的层数、头数和隐藏层大小需要根据数据集的大小进行调整。
* 学习率、batch size 和 dropout 率需要进行调优。
* 超参数调优: 可以使用网格搜索或随机搜索等方法进行超参数调优。
* 数据集划分: 需要保证训练集、验证集和测试集的分布一致。
* 数据增强: 可以使用滑动窗口法进行数据增强。
* 模型评估: 使用准确率、精确率、召回率和 F1 值等指标进行模型评估。

实现难点和解决方案:

* CSI 数据易受干扰: 采用合适的数据预处理方法，降低噪声的影响。
* 数据集规模较小: 使用数据增强、正则化等方法，防止过拟合。
* 模型参数较多: 使用优化器、学习率衰减等方法，加速模型训练。

希望这个详细的分析对您有帮助!