A Novel Table Tennis Stroke Recognition Method Using The Bimodal Deep Neural Networks with Skeletal-Temporal Transformer and Racket Geometric Features
結合骨架時序轉換器與球拍幾何特徵之雙模態深度神經網路於桌球擊球動作辨識之研究
實驗結果(Table Tennis Stroke Dataset)
實驗結果(JHMDB)
摘要
本研究提出一套結合2D 骨架模態與RGB 視覺模態之雙模態深度神經網路架構,應用於桌球擊球動作辨識任務。
骨架模態採用 SkateFormer
模型建構時間序列特徵,描述姿態變化與語意脈絡;影像模態則使用 SlowFast ResNet
結構擷取紋理細節與場景資訊。
模型額外整合球拍之區域面積與中心座標等幾何特徵,輔助標示揮拍過程的起訖區間。
訓練資料集由專家示範建構,涵蓋正手與反手共八類典型擊球動作,並以滑動視窗方式建立具時間連續性的標註片段。
實驗結果顯示,本方法在桌球資料集上達到 96.1% 的 Precision、96.4% 的 Recall 與 96.2% 的 F1-score,
相較 HIT Network 相對提升 25.9%,整體效能亦優於 SkateFormer 與 SlowFast ResNet 等基準模型;
在 JHMDB
通用動作資料集上亦取得 84.2% 的 Precision、83.8% 的 Recall 與 83.8% 的 F1-score,
相較 HIT Network 相對提升 1.7%,展現穩定的分類效能與良好的泛化能力。
本研究驗證骨架與影像模態之互補性,以及幾何特徵對動作邊界判斷之輔助價值,展現其於智慧體育分析場景中的應用潛力。
關鍵字:雙模態深度神經網路
、桌球動作辨識
、骨架時序轉換器
、球拍幾何特徵
、實例分割
本方法之流程圖 | 雙模態動作識別架構圖 |
緒論
研究背景與動機
隨著智慧科技快速發展,運動分析逐漸導入人工智慧技術,以提升訓練與比賽的效率與精準度。 以桌球為例,傳統訓練方式倚賴人工標記與影片回放,不僅耗時,也難以客觀量化動作細節,尤其在面對大量影片分析時,效率與準確性更顯不足。
近年來,人體姿態估測(Human Pose Estimation)技術被廣泛應用於運動動作辨識任務中。 透過卷積神經網路預測人體關節位置,建立骨架輸入進行分類,不但具備抗背景干擾能力,也能清楚描述運動結構。
然而,僅依賴單幀骨架模態仍面臨以下挑戰:
- 桌球動作類型外觀相似,僅從單幀骨架難以準確分類。
- 遮蔽與快速動作常導致關鍵點缺失,降低辨識穩定性。
- 骨架無法完整呈現球拍等具關鍵語意的資訊。
![]() |
---|
外觀相似的單幀骨架姿態對應不同擊球類型(左:正手切球;右:正手平擊) |
多模態融合的必要性
為克服上述限制,研究開始導入多模態設計:
- RGB 影像模態:提供豐富外觀與場景資訊,有助於補足骨架遮蔽問題。
- 骨架模態:去除背景、強調結構,但缺乏時間與物件語意,且易因遮蔽導致關節點缺失。
- 球拍幾何特徵:擊球揮拍方向與角度能反映策略與球路變化,因此面積和中心位置能提供關鍵的時序定位資訊。
![]() |
---|
骨架點因遮擋產生缺失現象(左:原始 RGB 影像;右:人體姿態估測結果) |
研究目標
本研究提出一套雙模態融合桌球動作辨識系統,核心設計如下:
- 結合骨架的空間與時間資訊,提升時序建模能力。
- 輔以 RGB 影像模態,補強骨架在遮蔽與細節辨識上的限制。
- 納入球拍區域幾何特徵,協助精確掌握動作起始與終止時間點。
透過骨架與影像的語意互補,結合球拍資訊的時間定位能力,本系統具備高度辨識準確性與實務應用潛力。
文獻回顧
雖然桌球為受關注的競技運動,針對其擊球動作辨識的研究仍相對有限。為系統性整理相關工作,本章將文獻分為以下兩類:
- 專用方法:針對桌球擊球辨識所設計的模型
- 通用方法:應用於人體動作辨識並延伸至桌球任務的架構
專用方法:桌球擊球辨識(基於 2D 姿態估計的方法)
2D Pose Estimation 技術廣泛用於動作分析,透過模型預測人體關節點位置(如頭部、手肘、膝蓋),並可用於時間序列動作識別。 Kulkarni 和 Shenoy 提出一套結合 HRNet 骨架估測與 Temporal Convolutional Network (TCN) 的擊球分類模型,流程如下:
- 使用 SSD 偵測人物區域
- 用 HRNet 擷取右手肘、右手腕與雙肩之關節點
- 利用 TCN 模型建構 100 幀時間序列進行分類
優點:
- 成功分類 11 種擊球動作,平均辨識率達 98.72%
- 展現了 2D 骨架資訊在桌球擊球動作辨識上的可行性與成效
限制:
- 僅使用少數 關節,無法建立完整骨架語意
- TCN 缺乏關鍵關節與時間範圍的選擇彈性
- 未建構空間與時間的結構關聯,語意易流失
- 前視角攝影可能干擾比賽,影響實務應用
![]() |
---|
TCN 之模型架構圖 |
專用方法:桌球擊球辨識(基於雙分支時空卷積的方法)
Martin 等人 提出 Twin Spatio-Temporal Convolutional Neural Network (TSTCNN),由兩條 3D 卷積分支組成:
- 分別處理 RGB 原始畫面與 Optical Flow 特徵
- 利用 3D 卷積建構空間-時間特徵
- 最後融合兩模態資訊進行分類
優點:
- 雙分支設計同時捕捉 空間構型(RGB) 與 運動動態(Optical Flow)
限制:
- 光流在高速度與運動模糊場景中準確度下降
- 未引入骨架語意,對細粒度肢體姿勢辨識不足
- 僅以雙線性插值進行靜態融合,缺乏注意力機制的語意選擇性與適應性
![]() | ![]() |
---|---|
TSTCNN 之模型架構圖 | 光流影像產生流程示意圖(左上:原始 RGB 影像;右上:光流幅度影像;左下:估計出的前景影像;右下:過濾後的光流影像) |
通用方法:人類動作辨識(基於骨架時序建模的方法)
骨架模態具備抗背景干擾與光照變化的優勢,已成為動作辨識的重要依據。Do 與 Kim 提出的 SkateFormer 是此方向的代表性模型,其設計特色如下:
- 採用 Transformer 架構,將 3D 骨架序列依空間與時間語意結構劃分為四個分支進行建模
- 引入 Partition-Reversal 機制切分還原特徵,維持骨架時序結構一致性
- 擅長建構遠距關節與長時間依賴,提升動作時序辨識能力
限制:
- 高動態動作(如揮拍、轉身)易導致關節