A Novel Table Tennis Stroke Recognition Method Using The Bimodal Deep Neural Networks with Skeletal-Temporal Transformer and Racket Geometric Features
結合骨架時序轉換器與球拍幾何特徵之雙模態深度神經網路於桌球擊球動作辨識之研究
👉 Download NCHU_CS_Master_Thesis_2025_ChaoEnHuang.pdf
桌球擊球資料集實驗結果
為直觀呈現模型結果,我們將預測結果、骨架姿態與球拍幾何資訊疊加於影片中,清楚展示模型可穩定辨識八類擊球動作,並正確掌握其時序與語意變化。 此結果驗證所提出之骨架時序建模與球拍幾何特徵設計,可有效提升辨識精度與穩定性,展現於智慧運動分析應用中的實用潛力。
JHMDB 實驗結果
比較 HIT Network 與本方法在動作的預測序列顯示,HIT 容易誤判關節構型相似的動作,缺乏時間脈絡理解;相對地,本方法能連續正確預測整段動作階段,展現出更高的一致性與語意辨識力。 於 JHMDB 資料集上亦達到 83.8% F1-score,證明具備良好泛化能力與語意穩定性。
摘要
本研究提出一套結合2D 骨架模態與RGB 視覺模態之雙模態深度神經網路架構,應用於桌球擊球動作辨識任務。
骨架模態採用 SkateFormer
模型建構時間序列特徵,描述姿態變化與語意脈絡;影像模態則使用 SlowFast ResNet
結構擷取紋理細節與場景資訊。
模型額外整合球拍之區域面積與中心座標等幾何特徵,輔助標示揮拍過程的起訖區間。
訓練資料集由專家示範建構,涵蓋正手與反手共八類典型擊球動作,並以滑動視窗方式建立具時間連續性的標註片段。
實驗結果顯示,本方法在桌球資料集上達到 96.1% 的 Precision、96.4% 的 Recall 與 96.2% 的 F1-score,
相較 HIT Network 相對提升 25.9%,整體效能亦優於 SkateFormer 與 SlowFast ResNet 等基準模型;
在 JHMDB
通用動作資料集上亦取得 84.2% 的 Precision、83.8% 的 Recall 與 83.8% 的 F1-score,
相較 HIT Network 相對提升 1.7%,展現穩定的分類效能與良好的泛化能力。
本研究驗證骨架與影像模態之互補性,以及幾何特徵對動作邊界判斷之輔助價值,展現其於智慧體育分析場景中的應用潛力。
關鍵字:雙模態深度神經網路
、桌球動作辨識
、骨架時序轉換器
、球拍幾何特徵
、實例分割
本方法之流程圖 | 雙模態動作識別架構圖 |
緒論
研究背景與動機
隨著智慧科技快速發展,運動分析逐漸導入人工智慧技術,以提升訓練與比賽的效率與精準度。 以桌球為例,傳統訓練方式倚賴人工標記與影片回放,不僅耗時,也難以客觀量化動作細節,尤其在面對大量影片分析時,效率與準確性更顯不足。
近年來,人體姿態估測(Human Pose Estimation)技術 [1] 被廣泛應用於運動動作辨識任務中。 透過卷積神經網路預測人體關節位置,建立骨架輸入進行分類,不但具備抗背景干擾能力,也能清楚描述運動結構。
然而,僅依賴單幀骨架模態仍面臨以下挑戰:
- 桌球動作類型外觀相似,僅從單幀骨架難以準確分類。
- 遮蔽與快速動作常導致關鍵點缺失,降低辨識穩定性。
- 骨架無法完整呈現球拍等具關鍵語意的資訊。
![]() |
---|
外觀相似的單幀骨架姿態對應不同擊球類型 (左:正手切球;右:正手平擊) |
多模態融合的必要性
為克服上述限制,研究開始導入多模態設計:
- RGB 影像模態:提供豐富外觀與場景資訊,有助於補足骨架遮蔽問題。
- 骨架模態:去除背景、強調結構,但缺乏時間與物件語意,且易因遮蔽導致關節點缺失。
- 球拍幾何特徵:擊球揮拍方向與角度能反映策略與球路變化,因此面積和中心位置能提供關鍵的時序定位資訊。
![]() |
---|
骨架點因遮擋產生缺失現象 (左:原始 RGB 影像;右:人體姿態估測結果) |
研究目標
本研究提出一套雙模態融合桌球動作辨識系統,核心設計如下:
- 結合骨架的空間與時間資訊,提升時序建模能力。
- 輔以 RGB 影像模態,補強骨架在遮蔽與細節辨識上的限制。
- 納入球拍區域幾何特徵,協助精確掌握動作起始與終止時間點。
透過骨架與影像的語意互補,結合球拍資訊的時間定位能力,本系統具備高度辨識準確性與實務應用潛力。
文獻回顧
雖然桌球為受關注的競技運動,針對其擊球動作辨識的研究仍相對有限。為系統性整理相關工作,本章將文獻分為以下兩類:
- 專用方法:針對桌球擊球辨識所設計的模型
- 通用方法:應用於人體動作辨識並延伸至桌球任務的架構