體系結構上的主要功能是:
(1)目標識別。它為用戶提供一種工具,以全自動或半自動的方式標識靜態(tài)圖像、視頻鏡頭的代表幀等媒體中用戶感興趣的區(qū)域,以及視頻序列中的動態(tài)目標,以便針對目標進行特征提取并查詢。目標識別是可選的。
(2)特征提取。它主要提取用戶感興趣的適合檢索要求的特征。特征提取可以是全局的,也可以是針對某個目標的。
(3)數(shù)據(jù)庫生成的數(shù)據(jù)庫由媒體庫(集特征庫(文件)和知識庫組成。媒體庫包含多媒體數(shù)據(jù),如圖像、視頻、音頻、文本等。特征庫包含用戶輸入的特征和預處理自動提取的內容特征。知識庫中知識表達可以更換以使用各種不同的應用領域。
(4)查詢接口這里基于友好的人機交互界面提供一個可視化的輸入手段。它有3
種方式:操作交互輸入方式、模板選擇輸入方式和用戶提交特征樣板的輸入方式。它應同時支持多種特征的組合。另外,查詢返回的結果需要瀏覽,應在用戶界面提供瀏覽功能。
(5)檢索引擎。檢索是利用特征之間的距離函數(shù)來進行相似性檢索。模擬人類的認知過程,近似得到數(shù)據(jù)庫的認知排隊,對于不同類型的媒體數(shù)據(jù)有各自不同的相似性測度算法。檢索引擎中包括一個較為有效可靠的相似性測度函數(shù)集。
(6)索引/過濾器。檢索引擎通過索引/過濾模塊達到快速搜索的目的,從而可以應用到數(shù)據(jù)庫中的大型多媒體數(shù)據(jù)集中。過濾器作用于全部數(shù)據(jù),過濾出的數(shù)據(jù)集合再用高維特征匹配來檢索。
內容來源:張濤《多媒體技術與虛擬現(xiàn)實》