歡迎登錄中國視覺網!
學術論文頻道
ACADEMIC PAPERS
位置導航:首頁 >> 學術論文 >> 技術前沿 >> 【機器視覺】 概率模型與計算機視覺

【機器視覺】 概率模型與計算機視覺

發布時間:2015-01-05     來源:中國視覺網       訪問次數:28819


    上世紀60年代, Marvin Minsky 在MIT讓他的本科學生 Gerald Jay Sussman用一個暑假的時間完成一個有趣的Project : “link a camera to a computer and get the computer to describe what it saw”。從那時開始,特別是David Marr教授于1977年正式提出視覺計算理論,計算機視覺已經走過了四十多年的歷史??墑?,從今天看來,這個已入不惑   之年的學科,依然顯得如此年輕而朝氣蓬勃。

    在它幾十年的發展歷程中,多種流派的方法都曾各領風騷于一時。最近二十年中,計算機視覺發展最鮮明的特征就是機器學習與概率模型的廣泛應用。在這里,我簡單回顧一下對這個領域產生了重要影響的幾個里程碑:
    1984年:Stuart Geman和Donald Geman發表了一篇先驅性的論文:Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images. 在這篇文章里,兩位Geman先生引入了一系列對計算機視覺以后的發展具有深遠影響的概念和方法:Markov Random Field (MRF), Gibbs Sampling,以及Maximum a Posteriori estimate (MAP estimate)。這篇論文的意義是超前于時代的,它所建立的這一系列方法直到90年代中后期才開始被廣泛關注。
    1991年:Matthew Turk和Alex Pentland使用Eigenface進行人臉分類。從此,以矩陣的代數分解為基礎的方法在視覺分析中被大量運用。其中有代表性的方法包括PCA, LDA,以及ICA。
    1995年:Corinna Cortes和Vladimir Vapnik提出帶有soft margin的Support Vector Machine (SVM)以及它的Kernel版本,并用它對手寫數字進行分類。從此,SVM大受歡迎,并成為各種應用中的基準分類器。
    1996年:Bruno Olshausen 和David Field 提出使用Overcomplete basis對圖像進行稀疏編碼(Sparse coding)。這個方向在初期的反響并不熱烈。直到近些年,Compressed Sensing在信號處理領域成為炙手可熱的方向。Sparse coding 在這一熱潮的帶動下,成為視覺領域一個活躍的研究方向。
    90年代末:Graphical Model和Variational Inference逐步發展成熟。1998年,MIT出版社出版了由Michale Jordan主編的文集:Learning in Graphical Models。 這部書總結了那一時期關于Graphical Model的建模,分析和推斷的主要成果——這些成果為Graphical Model在人工智能的各個領域的應用提供了方法論基礎。進入21世紀,Graphical Model和Bayesian方法在視覺研究中的運用出現了井噴式的增長。
    2001年:John Lafferty和Andrew McCallum等提出Conditional Random Field (CRF)。CRF為結構化的分類和預測提供了一種通用的工具。此后,語義結構開始被運用于視覺場景分析。
    2003年:David Blei等提出Latent Dirichlet Allocation。2004年:Yee Whye Teh 等提出Hierarchical Dirichlet Process。各種參數化或者非參數化的Topic Model在此后不久被廣泛用于語義層面的場景分析。
    雖然Yahn Lecun等人在1993年已提出Convolutional Neural Network,但在vision中的應用效果一直欠佳。時至2006年,Geoffrey Hinton等人提出Deep Belief Network進行layer-wise的pretraining,應用效果取得突破性進展,其與之后Ruslan Salakhutdinov提出的Deep Boltzmann Machine重新點燃了視覺領域對于Neural Network和Boltzmann Machine的熱情。

    時間進入2013年,Probabilistic Graphical Model早已成為視覺領域中一種基本的建模工具。Probabilistic Graphical Model的研究涉及非常多的方面。 限于篇幅,在本文中,我只能簡要介紹其中幾個重要的方面,希望能為大家提供一些有用的參考。

    Graphical Model的基本類型
    基本的Graphical Model 可以大致分為兩個類別:貝葉斯網絡(Bayesian Network)和馬爾可夫隨機場(Markov Random Field)。它們的主要區別在于采用不同類型的圖來表達變量之間的關系:貝葉斯網絡采用有向無環圖(Directed Acyclic Graph)來表達因果關系,馬爾可夫隨機場則采用無向圖(Undirected Graph)來表達變量間的相互作用。這種結構上的區別導致了它們在建模和推斷方面的一系列微妙的差異。一般來說,貝葉斯網絡中每一個節點都對應于一個先驗概率分布或者條件概率分布,因此整體的聯合分布可以直接分解為所有單個節點所對應的分布的乘積。而對于馬爾可夫場,由于變量之間沒有明確的因果關系,它的聯合概率分布通?;岜澩鏤幌盜惺坪╬otential function)的乘積。通常情況下,這些乘積的積分并不等于1,因此,還要對其進行歸一化才能形成一個有效的概率分布——這一點往往在實際應用中給參數估計造成非常大的困難。

    值得一提的是,貝葉斯網絡和馬爾可夫隨機場的分類主要是為了研究和學習的便利。在實際應用中所使用的模型在很多時候是它們的某種形式的結合。比如,一個馬爾可夫隨機場可以作為整體成為一個更大的貝葉斯網絡的節點,又或者,多個貝葉斯網絡可以通過馬爾可夫隨機場聯系起來。這種混合型的模型提供了更豐富的表達結構,同時也會給模型的推斷和估計帶來新的挑戰。

    Graphical Model的新發展方向

    在傳統的Graphical Model的應用中,模型的設計者需要在設計階段就固定整個模型的結構,比如它要使用哪些節點,它們相互之間如何關聯等等。但是,在實際問題中,選擇合適的模型結構往往是非常困難的——因為,我們在很多時候其實并不清楚數據的實際結構。為了解決這個問題,人們開始探索一種新的建立概率模型的方式——結構學習。在這種方法中,模型的結構在設計的階段并不完全固定。設計者通常只需要設定模型結構所需要遵循的約束,然后再從模型學習的過程中同時推斷出模型的實際結構。

    結構學習直到今天仍然是機器學習中一個極具挑戰性的方向。結構學習并沒有固定的形式,不同的研究者往往會采取不同的途徑。比如,結構學習中一個非常重要的問題,就是如何去發現變量之間的內部關聯。對于這個問題,人們提出了多種截然不同的方法:比如,你可以先建立一個完全圖連接所有的變量,然后選擇一個子圖來描述它們的實際結構,又或者,你可以引入潛在節點(latent node)來建立變量之間的關聯。

    Probabilistic Graphical Model的另外一個重要的發展方向是非參數化。與傳統的參數化方法不同,非參數化方法是一種更為靈活的建模方式——非參數化模型的大?。ū熱緗詰愕氖浚┛梢運孀攀蕕謀浠浠?。一個典型的非參數化模型就是基于狄利克萊過程(Dirichlet Process)的混合模型。這種模型引入狄利克萊過程作為部件(component)參數的先驗分布,從而允許混合體中可以有任意多個部件。這從根本上克服了傳統的有限混合模型中的一個難題,就是確定部件的數量。在近幾年的文章中,非參數化模型開始被用于特征學習。在這方面,比較有代表性的工作就是基于Hierarchical Beta Process來學習不定數量的特征。

    基于Graphical Model 的統計推斷 (Inference)
    完成模型的設計之后,下一步就是通過一定的算法從數據中去估計模型的參數,或推斷我們感興趣的其它未知變量的值。在貝葉斯方法中,模型的參數也通常被視為變量,它們和普通的變量并沒有根本的區別。因此,參數估計也可以被視為是統計推斷的一種特例。

    除了最簡單的一些模型,統計推斷在計算上是非常困難的。一般而言,確切推斷(exact inference)的復雜度取決于模型的tree width。對于很多實際模型,這個復雜度可能隨著問題規模增長而指數增長。于是,人們退而求其次,轉而探索具有多項式復雜度的近似推斷(approximate inference)方法。

    主流的近似推斷方法有三種:

    (1)基于平均場逼近(mean field approximation)的variational inference。這種方法通常用于由Exponential family distribution所組成的貝葉斯網絡。其基本思想就是引入一個computationally tractable的upper bound逼近原模型的log partition function,從而有效地降低了優化的復雜度。大家所熟悉的EM算法就屬于這類型算法的一種特例。

    (2)Belief propagation。這種方法最初由Judea Pearl提出用于樹狀結構的統計推斷。后來人們直接把這種算法用于帶環的模型(忽略掉它本來對樹狀結構的要求)——在很多情況下仍然取得不錯的實際效果,這就是loop belief propagation。在進一步的探索的過程中,人們發現了它與Bethe approximation的關系,并由此逐步建立起了對loopy belief propagation的理論解釋,以及刻畫出它在各種設定下的收斂條件。值得一提的是,由于Judea Pearl對人工智能和因果關系推斷方法上的根本性貢獻,他在2011年獲得了計算機科學領域的最高獎——圖靈獎。

    基于message passing的方法在最近十年有很多新的發展。Martin Wainwright在2003年提出Tree-reweighted message passing,這種方法采用mixture of trees來逼近任意的graphical model,并利用mixture coefficient和edge probability之間的對偶關系建立了一種新的message passing的方法。這種方法是對belief propagation的推廣。
Jason Johnson等人在2005年建立的walk sum analysis為高斯馬爾可夫隨機場上的belief propagation提供了系統的分析方法。這種方法成功刻畫了belief propagation在高斯場上的收斂條件,也是后來提出的多種改進型的belief propagation的理論依據。Thomas Minka在他PhD期間所建立的expectation propagation也是belief propagation的在一般Graphical Model上的重要推廣。

    (3)蒙特卡羅采樣(Monte Carlo sampling)。與基于優化的方法不同,蒙特卡羅方法通過對概率模型的隨機模擬運行來收集樣本,然后通過收集到的樣本來估計變量的統計特性(比如,均值)。采樣方法有三個方面的重要優點。第一,它提供了一種有嚴謹數學基礎的方法來逼近概率計算中經常出現的積分(積分計算的復雜度隨著空間維度的提高呈幾何增長)。第二,采樣過程最終獲得的是整個聯合分布的樣本集,而不僅僅是對某些參數或者變量值的最優估計。這個樣本集近似地提供了對整個分布的更全面的刻畫。比如,你可以計算任意兩個變量的相關系數。第三,它的漸近特性通??梢員謊細裰っ?。對于復雜的模型,由variational inference或者belief propagation所獲得的解一般并不能保證是對問題的全局最優解。在大部分情況下,甚至無法了解它和最優解的距離有多遠。如果使用采樣,只要時間足夠長,是可以任意逼近真實的分布的。而且采樣過程的復雜度往往較為容易獲得理論上的保證。

    蒙特卡羅方法本身也是現代統計學中一個非常重要的分支。對它的研究在過去幾十年來一直非?;鈐?。在機器學習領域中,常見的采樣方法包括Gibbs Sampling, Metropolis-Hasting Sampling (M-H), Importance Sampling, Slice Sampling, 以及Hamiltonian Monte Carlo。其中,Gibbs Sampling由于可以納入M-H方法中解釋而通常被視為M-H的特例——雖然它們最初的motivation是不一樣的。

    Graphical Model以及與它相關的probabilistic inference是一個非常博大的領域,遠非本文所能涵蓋。在這篇文章中,我只能蜻蜓點水般地介紹了其中一些我較為熟悉的方面,希望能給在這方面有興趣的朋友一點參考。


快乐双彩开奖结果今晚 福利20选5中奖说明 河南快3彩票走势图 捕鱼来了破解版下载 过去十年最赚钱的公司 双色球开奖时间 东北麻将游戏4人打 pc北京网站开奖查询 快乐10分钟开奖结果查询 棋牌手机新浪网 竞彩足球比分彩客 北京快三计划 后三包一胆技巧 新人如何塔罗赚钱 醉品茶集赚钱 贵州十一选五走势图一定生