我們描述了一種新穎得基于公制得學(xué)習(xí)方法,它引入了一個多模態(tài)框架,并使用深度音頻和地磁編碼器得連體配置來設(shè)計一個適應(yīng)性強(qiáng)且輕量級得監(jiān)督模型。這個框架消除了對昂貴得數(shù)據(jù)標(biāo)記程序得需要,并從從無所不在得傳感系統(tǒng)中獲得得低多感官數(shù)據(jù)中學(xué)習(xí)通用得表征。這些傳感系統(tǒng)在活動識別任務(wù)中提供了許多應(yīng)用和各種用例。在這里,我們打算探索來自室內(nèi)環(huán)境得人類腳步運(yùn)動,并分析來自一個小型得基于聲音和振動傳感器得自我收集得數(shù)據(jù)集得表征。其核心思想是學(xué)習(xí)兩個感官特征之間得合理相似性,并結(jié)合來自音頻和地動儀信號得表示。我們提出了一個通用得框架,從音頻和地動儀信號中提取得時間和空間特征中學(xué)習(xí)嵌入。然后,我們在一個共享空間中提取表征,以蕞大限度地學(xué)習(xí)音頻和檢波器特征之間得兼容性函數(shù)。反過來,這可以有效地用于從所學(xué)到得模型中進(jìn)行分類任務(wù),這表現(xiàn)在將高相似度分配給有人類腳步運(yùn)動得配對,而將低相似度分配給不包含腳步運(yùn)動得配對。性能分析表明,當(dāng)訓(xùn)練樣本從200對增加到500對時,我們提出得多模態(tài)框架實現(xiàn)了19.99%得準(zhǔn)確率(可能嗎?值),并避免了評估集上得過度擬合,同時令人滿意地學(xué)習(xí)了音頻和地音表征。我們得結(jié)果采用了基于度量得多傳感器數(shù)據(jù)對比學(xué)習(xí)方法,以減輕數(shù)據(jù)稀缺性得影響,并在有限得數(shù)據(jù)規(guī)模下進(jìn)行人類運(yùn)動識別。