。為此,研究者針對(duì)這一新任務(wù)專門建立了 Video Story 數(shù)據(jù)集。該數(shù)據(jù)集包含四種常見而復(fù)雜的事件(生日、露營、圣誕、婚禮),通過關(guān)鍵字檢索從 Youtube 上檢索下載,最后手動(dòng)選擇 105 個(gè)在事件內(nèi)部和不同事件之間都有足夠差異性的視頻。這些視頻的故事通過亞馬遜勞務(wù)眾包平臺(tái) Amazon Mechanical Turk 收集。故事的選擇必須滿足以下三個(gè)條件:(1)至少包含 8 個(gè)句子;(2)每個(gè)句子至少包含 6 個(gè)單詞;(3)故事內(nèi)容要連貫,并合視頻內(nèi)容契合。最后研究者請(qǐng)工作人員針對(duì)每個(gè)故事中每個(gè)句子,標(biāo)注其在視頻中的開始時(shí)間和結(jié)束時(shí)間。最終,研究者收集了 529 個(gè)故事。
圖|Video Story 與其他現(xiàn)存數(shù)據(jù)集的比較。
研究者在新數(shù)據(jù)集上對(duì)新模型和目前效果最好的模型進(jìn)行了評(píng)估和比較,新模型均取得了更優(yōu)的結(jié)果。
圖|多模態(tài)嵌入評(píng)估:以一系列視頻片段作為查詢條件,檢索得到一個(gè)句子序列。R@K 的數(shù)值越高,Medr 的數(shù)值越低表示效果越好
圖|Video Story 數(shù)據(jù)集上,確定視頻片段條件下不同模型的故事生成結(jié)果評(píng)估。ResBRNN-KNN 優(yōu)勢明顯。
圖|Video Story 數(shù)據(jù)集上的故事生成評(píng)估結(jié)果(針對(duì)對(duì)模型第二部分)。實(shí)驗(yàn)中,視頻片段由各個(gè)模型自行提取,根據(jù)視頻片段檢索句子的方式固定。Narrator(旁白模型)各項(xiàng)指標(biāo)均效果更佳。
不過,該模型目前還有很大的局限性。例如,生成故事的句子只能在數(shù)據(jù)集中檢索。研究者表示,在接下來的工作中,他們將使用更多野生的句子來擴(kuò)展故事的多樣性,同時(shí)使用一些自然語言處理的方法使句子之間的的銜接更加自然。
圖|不同模型生成的故事舉例。Proposed 為研究者提出的新模型,GT 為作為參照的標(biāo)準(zhǔn)答案。綠色框?yàn)?GT 選擇的重要視頻片段,黃色框新模型選擇的重要視頻片段。紅色框?yàn)槎吖餐x中的視頻片段。