V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
rming
V2EX  ›  问与答

基于骨架的动作识别 Skeleton Based Action Recognition

  •  1
     
  •   rming · 7 天前 · 469 次点击

    最近在尝试做一个基于骨架的动作识别,目标是想识别出校园里的打架、霸凌行为,因为视频画面是采集的热成像,所以考虑用骨架信息做行为检测,同时也是考虑可以降低算力需求。

    目前采集了一些数据集,直接 2 分类,基于 mmaction2 的 STGCN++ 预训练模型做迁移学习,但是效果不是很好,甚至训练时的验证集都上不去 90%。

    现在有几个问题想问下大佬

    1. 是不是打架的行为模式太复杂了,skeleton based 的模型没办法识别区分出来
    2. 把复杂的打架行为拆分,比如踢腿、推搡、扇耳光,这样多分类,增加数据集是不是合理些
    3. skeleton based 的模型输入是关节点数据,第一步识别到的关节点数据准确率对后续影响很大么?因为考虑到性能和并发,用的事 yolov8s-pose 的关节点预测模型,但是感觉准确率比较差,帧与帧之间波动太大了,有必要更换准确率更高的模型么

    本人机器学习菜鸡,还处于是只会用不会写的阶段,请教站内大佬

    第 1 条附言  ·  6 天前
    我猜测是在处理骨架数据时,人数波动和关节点波动啥的导致时序信息已经丢失了,需要骨架的匹配跟踪和滤波,这样事情就复杂了,先尝试下直接视频分类,看下算力需求,因为是多路视频同时处理,如果算力满足不了考虑用队列延时处理了
    7 条回复    2024-09-13 10:22:55 +08:00
    erquren
        1
    erquren  
       7 天前
    方向错了,别用骨架,检测+分类就行
    takeit
        2
    takeit  
       7 天前
    楼上正解,检测在+分类,去网上找几个预训练的模型微调就行了
    rming
        3
    rming  
    OP
       7 天前
    @takeit
    @erquren 检测加分类,是说检测到人的时候对帧图片进行分类?但是这样缺少时序信息,比较容易误判
    takeit
        4
    takeit  
       7 天前
    @rming 你把人在的视频帧扣出来,然后丢入到 X3D 这种 3DCNN 里面就行了,不是图片分类,是视频分类,模型的话不一定是我说的这种,这个比较老了,看看新的或者去 GitHub 上面找就行
    rming
        5
    rming  
    OP
       7 天前
    @takeit 明白了,最初没有考虑这个是有点怕算力需求太高
    SantuZ
        6
    SantuZ  
       6 天前
    @rming #5 时序检测在蛮久之前就出了轻量化 backbone 的算法了,OP 可以去看看
    rming
        7
    rming  
    OP
       6 天前
    @SantuZ 嗯,我找个轻量模型直接分类试试
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3515 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 00:51 · PVG 08:51 · LAX 17:51 · JFK 20:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.