人臉檢測算法設置徹底改變圖像搜索-北京軟件開(kāi)發(fā)公司_北京軟件開(kāi)發(fā)公司
發(fā)表日期:2018-11-12 14:05:35 ?? 文章編輯:宜天信達 ?? 瀏覽次數:
早在2001年,兩位計算機科學(xué)家Paul Viola和Michael Jones就引發(fā)了計算機人臉檢測領(lǐng)域的一場(chǎng)革命。經(jīng)過(guò)多年的停滯,他們的突破是一種可以實(shí)時(shí)識別圖像中的面部的算法。實(shí)際上,所謂的Viola-Jones算法非??焖俸秃?jiǎn)單,很快就被內置到標準的傻瓜相機中。
他們的部分訣竅是忽略面部識別中更加困難的問(wèn)題,而只關(guān)注檢測。他們也只關(guān)注從正面看的面孔,忽略了從一個(gè)角度看到的任何面孔。鑒于這些界限,他們意識到鼻梁通常形成一條垂直線(xiàn),比附近的眼窩更亮。他們還注意到眼??睛經(jīng)常處于陰影中,因此形成了較暗的水平帶。
因此,Viola和Jones構建了一種算法,該算法首先查找可能是鼻子的圖像中的垂直亮帶,然后查找可能是眼睛的水平暗帶,然后查找與臉相關(guān)的其他一般模式。
由他們自己檢測,這些特征都沒(méi)有強烈暗示面部。但是當它們在級聯(lián)中一個(gè)接一個(gè)地被檢測到時(shí),結果是圖像中的面部的良好指示。因此,這個(gè)過(guò)程的名稱(chēng):探測器級聯(lián)。由于這些測試都很簡(jiǎn)單,因此生成的算法可以快速實(shí)時(shí)運行。
但是,雖然Viola-Jones算法對于從正面看到的面部是一種啟示,但它無(wú)法從任何其他角度精確地發(fā)現面部。這嚴重限制了它如何用于面部搜索引擎。
這就是雅虎對此問(wèn)題感興趣的原因。今天,加利福尼亞州雅虎實(shí)驗室的Sachin Farfade和Mohammad Saberian以及斯坦福大學(xué)附近的Li-Jia Li,揭示了一種解決問(wèn)題的新方法,即使在部分遮擋的情況下也可以在某個(gè)角度發(fā)現面部問(wèn)題。他們說(shuō)他們的新方法比其他方法更簡(jiǎn)單,但卻達到了先進(jìn)的性能。
Farfade和co使用一種根本不同的方法來(lái)構建他們的模型。他們利用近年來(lái)在一種稱(chēng)為深度卷積神經(jīng)網(wǎng)絡(luò )的機器學(xué)習上取得的進(jìn)步。我們的想法是使用大量帶注釋的示例數據庫來(lái)訓練多層神經(jīng)網(wǎng)絡(luò ),在這種情況下,從多個(gè)角度拍攝人臉照片。
為此,Farfade和co創(chuàng )建了一個(gè)包含200,000張圖像的數據庫,其中包括各種角度和方向的面部以及另外2000萬(wàn)張沒(méi)有面部的圖像。然后他們在50,000次迭代中以128個(gè)圖像批量訓練他們的神經(jīng)網(wǎng)絡(luò )。
結果是一種算法,即使在部分遮擋的情況下也可以從各種角度發(fā)現面部。它可以非常精確地在同一圖像中發(fā)現許多面部。
該團隊稱(chēng)這種方法為Deep Dense Face Detector,并稱(chēng)它與其他算法相比較。“我們使用其他基于深度學(xué)習的方法評估了所提出的方法,并表明我們的方法可以獲得更快,更準確的結果,”他們說(shuō)。
更重要的是,他們的算法在顛倒時(shí)能夠更好地識別面部,其他方法還沒(méi)有完善。并且他們說(shuō),使用包含更多顛倒面的數據集可以做得更好。“我們計劃使用更好的采樣策略和更復雜的數據增強技術(shù),以進(jìn)一步提高所提出的檢測遮擋和旋轉面部方法的性能。”
這是一項有趣的工作,展示了人臉檢測的快速進(jìn)展。深度卷積神經(jīng)網(wǎng)絡(luò )技術(shù)本身只有幾年的歷史,已經(jīng)在對象和人臉識別方面取得了重大進(jìn)展。
這種算法的巨大希望在于圖像搜索。目前,可以直接搜索在特定地點(diǎn)或特定時(shí)間拍攝的圖像。但很難找到特定人物拍攝的照片。這是朝這個(gè)方向邁出的一步。在不遠的將來(lái),這種能力不可避免地會(huì )伴隨我們。
當它到來(lái)時(shí),世界將變得更小。這不僅僅是將來(lái)可以搜索的圖片,而是數字化圖像的整個(gè)歷史,包括大量的視頻和CCTV鏡頭。無(wú)論如何,這將成為一股強大的力量。
他們的部分訣竅是忽略面部識別中更加困難的問(wèn)題,而只關(guān)注檢測。他們也只關(guān)注從正面看的面孔,忽略了從一個(gè)角度看到的任何面孔。鑒于這些界限,他們意識到鼻梁通常形成一條垂直線(xiàn),比附近的眼窩更亮。他們還注意到眼??睛經(jīng)常處于陰影中,因此形成了較暗的水平帶。
因此,Viola和Jones構建了一種算法,該算法首先查找可能是鼻子的圖像中的垂直亮帶,然后查找可能是眼睛的水平暗帶,然后查找與臉相關(guān)的其他一般模式。
由他們自己檢測,這些特征都沒(méi)有強烈暗示面部。但是當它們在級聯(lián)中一個(gè)接一個(gè)地被檢測到時(shí),結果是圖像中的面部的良好指示。因此,這個(gè)過(guò)程的名稱(chēng):探測器級聯(lián)。由于這些測試都很簡(jiǎn)單,因此生成的算法可以快速實(shí)時(shí)運行。
但是,雖然Viola-Jones算法對于從正面看到的面部是一種啟示,但它無(wú)法從任何其他角度精確地發(fā)現面部。這嚴重限制了它如何用于面部搜索引擎。
這就是雅虎對此問(wèn)題感興趣的原因。今天,加利福尼亞州雅虎實(shí)驗室的Sachin Farfade和Mohammad Saberian以及斯坦福大學(xué)附近的Li-Jia Li,揭示了一種解決問(wèn)題的新方法,即使在部分遮擋的情況下也可以在某個(gè)角度發(fā)現面部問(wèn)題。他們說(shuō)他們的新方法比其他方法更簡(jiǎn)單,但卻達到了先進(jìn)的性能。
Farfade和co使用一種根本不同的方法來(lái)構建他們的模型。他們利用近年來(lái)在一種稱(chēng)為深度卷積神經(jīng)網(wǎng)絡(luò )的機器學(xué)習上取得的進(jìn)步。我們的想法是使用大量帶注釋的示例數據庫來(lái)訓練多層神經(jīng)網(wǎng)絡(luò ),在這種情況下,從多個(gè)角度拍攝人臉照片。
為此,Farfade和co創(chuàng )建了一個(gè)包含200,000張圖像的數據庫,其中包括各種角度和方向的面部以及另外2000萬(wàn)張沒(méi)有面部的圖像。然后他們在50,000次迭代中以128個(gè)圖像批量訓練他們的神經(jīng)網(wǎng)絡(luò )。
結果是一種算法,即使在部分遮擋的情況下也可以從各種角度發(fā)現面部。它可以非常精確地在同一圖像中發(fā)現許多面部。
該團隊稱(chēng)這種方法為Deep Dense Face Detector,并稱(chēng)它與其他算法相比較。“我們使用其他基于深度學(xué)習的方法評估了所提出的方法,并表明我們的方法可以獲得更快,更準確的結果,”他們說(shuō)。
更重要的是,他們的算法在顛倒時(shí)能夠更好地識別面部,其他方法還沒(méi)有完善。并且他們說(shuō),使用包含更多顛倒面的數據集可以做得更好。“我們計劃使用更好的采樣策略和更復雜的數據增強技術(shù),以進(jìn)一步提高所提出的檢測遮擋和旋轉面部方法的性能。”
這是一項有趣的工作,展示了人臉檢測的快速進(jìn)展。深度卷積神經(jīng)網(wǎng)絡(luò )技術(shù)本身只有幾年的歷史,已經(jīng)在對象和人臉識別方面取得了重大進(jìn)展。
這種算法的巨大希望在于圖像搜索。目前,可以直接搜索在特定地點(diǎn)或特定時(shí)間拍攝的圖像。但很難找到特定人物拍攝的照片。這是朝這個(gè)方向邁出的一步。在不遠的將來(lái),這種能力不可避免地會(huì )伴隨我們。
當它到來(lái)時(shí),世界將變得更小。這不僅僅是將來(lái)可以搜索的圖片,而是數字化圖像的整個(gè)歷史,包括大量的視頻和CCTV鏡頭。無(wú)論如何,這將成為一股強大的力量。