欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

圖像分割2020最新進(jìn)展

2020-10-13 09:50:35   作者:Jakub Czakon   來源:LiveVideoStack   評(píng)論:0  點(diǎn)擊:


  該文章由Derrick Mwiti發(fā)表在Neptune blog,在這篇文章中,我們將會(huì)探討深度學(xué)習(xí)在圖像分割領(lǐng)域的應(yīng)用。
  Posted by Jakub Czakon
  url : https://towardsdatascience.com/image-segmentation-in-2020-756b77fa88fc
  source來源:neptune.ai
  • 在這篇文章中我們將討論的話題有:
  • 什么是圖像分割
  • 圖像分割的架構(gòu)
  • 圖像分割中使用的損失函數(shù)
  • 在你的圖像分割項(xiàng)目中可用的框架
  就讓我們一探究竟吧。
  什么是圖像分割
  顧名思義,圖像分割是將一幅圖像轉(zhuǎn)化成多個(gè)部分的過程。在這個(gè)過程中,圖像中的每個(gè)像素都與一個(gè)具體的物體相關(guān)聯(lián)在一起。圖像分割主要有兩種類型:語(yǔ)義分割和實(shí)例分割。
  在語(yǔ)義分割中,所有物體都是同一類型的,所有相同類型的物體都使用一個(gè)類標(biāo)簽進(jìn)行標(biāo)記,而在實(shí)例分割中,相似的物體可以有自己獨(dú)立的標(biāo)簽。
  參考Anurag Arnab, Shuai Zheng 等作者的2018年的Paper:“Conditional Random Fields Meet Deep Neural Networks for Semantic Segmentation” http://www.robots.ox.ac.uk/~tvg/publications/2017/CRFMeetCNN4SemanticSegmentation.pdf
  圖像分割的架構(gòu)
  圖像分割的基本結(jié)構(gòu)由編碼器和解碼器組成。
  來自Vijay Badrinarayanan等作者2017的Paper:“SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation” https://arxiv.org/abs/1511.00561
  編碼器通過過濾器從圖像中提取特征。解碼器負(fù)責(zé)生成最終輸出,通常是包含對(duì)象輪廓的分割掩碼(segmantation mask)。大多數(shù)架構(gòu)都有這種體系結(jié)構(gòu)或其變體。
  讓我們看一看一些例子。
  U-Net
  U-Net是一個(gè)最初用于開發(fā)生物影響分割的卷積神經(jīng)網(wǎng)絡(luò)。從視覺上看,它的架構(gòu)看起來像字母U,因此而得名U-Net。它的架構(gòu)由兩部分組成,左邊是收縮路徑,右邊是擴(kuò)展路徑。收縮路徑的目的是捕獲內(nèi)容,而擴(kuò)展路徑的角色是幫助精確定位。
  來自O(shè)laf Ronneberger等作者2015年的Paper “U-net architecture image segmentation” https://arxiv.org/abs/1505.04597
  U-Net由右側(cè)的擴(kuò)展路徑和左側(cè)的收縮路徑組成。收縮路徑由兩個(gè)3×3的卷積層組成。卷積之后是一個(gè)校正的線性單元和和一個(gè)2×2的max-pooling池化層的計(jì)算來做下采樣。
  U-Net的完整實(shí)現(xiàn)可以在這里找到:https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/
  FastFCN — 快速全連接網(wǎng)絡(luò)
  在這種結(jié)構(gòu)中,一個(gè)使用聯(lián)合金字塔上采樣(JPU)模塊來代替了擴(kuò)展卷積網(wǎng)絡(luò),因?yàn)榫矸e網(wǎng)絡(luò)消耗大量的內(nèi)存和計(jì)算時(shí)間。它使用一個(gè)完全連接的網(wǎng)絡(luò)作為核心,同時(shí)應(yīng)用JPU進(jìn)行上采樣。JJPU將低分辨率的feature map上采樣為高分辨率的feature map。
  來自Huikai Wu等作者2019的Paper “FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation” https://arxiv.org/abs/1903.11816
  如果你想把通過代碼實(shí)現(xiàn),查看這里:https://github.com/wuhuikai/FastFCN
  Gated-SCNN
  這個(gè)架構(gòu)由一個(gè)雙流CNN架構(gòu)組成。在該模型中,使用一個(gè)單獨(dú)的分支來處理圖像的形狀信息。形狀流用于處理邊界信息。
  Towaki Takikawa等 al 2019年“Gated-SCNN:Gated Shape CNNs用于語(yǔ)義分割”  https://arxiv.org/abs/1907.05740
  代碼實(shí)現(xiàn):https://github.com/nv-tlabs/gscnn
  DeepLab(深度實(shí)驗(yàn)室)
  在這種體系結(jié)構(gòu)中,帶有上采樣濾波器的卷積用于涉及密集預(yù)測(cè)的任務(wù)。多個(gè)對(duì)象的分割是通過無空間金字塔空間池完成的。最后,利用DCNNs改進(jìn)了目標(biāo)邊界的定位。通過插入零或輸入特征圖進(jìn)行稀疏采樣來對(duì)濾波器進(jìn)行上采樣,從而實(shí)現(xiàn)無用卷積。
  陳良杰等人,2016年“ DeepLab:利用深度卷積網(wǎng)絡(luò),Atrous卷積和全連接的CRF進(jìn)行語(yǔ)義圖像分割” https://arxiv.org/abs/1606.00915
  您可以在PyTorch(https://github.com/fregu856/deeplabv3)或TensorFlow(https://github.com/sthalles/deeplab_v3)上嘗試它的實(shí)現(xiàn)。
  Mask R-CNN
  在這個(gè)體系結(jié)構(gòu)中,使用一個(gè)邊界框/包圍盒和語(yǔ)義分割對(duì)對(duì)象進(jìn)行分類和定位,該語(yǔ)義分割將每個(gè)像素分類為一組類別。每個(gè)感興趣的區(qū)域都有一個(gè)分割蒙版。并且將產(chǎn)生一個(gè)類標(biāo)簽和一個(gè)邊界框作為最終輸出。實(shí)際上該體系結(jié)構(gòu)是Faster R-CNN的擴(kuò)展。Faster R-CNN由提出區(qū)域的深度卷積網(wǎng)絡(luò)和利用區(qū)域的檢測(cè)器組成。
  Kaiming He et. al 2017 “Mask R-CNN” https://arxiv.org/abs/1703.06870
  這是在COCO測(cè)試集上獲得的結(jié)果的圖像。
  Kaiming He et. al 2017 “Mask R-CNN” https://arxiv.org/abs/1703.06870
  圖像分割損失函數(shù)
  語(yǔ)義分割模型在訓(xùn)練過程中通常使用一個(gè)簡(jiǎn)單的跨類別熵?fù)p失函數(shù)。但是,如果您對(duì)獲取圖像的詳細(xì)信息感興趣的話,那么您必須恢復(fù)到稍微高級(jí)的損失函數(shù)。
  我們來看看其中的幾個(gè)。
  焦點(diǎn)損失
  這個(gè)損失是對(duì)標(biāo)準(zhǔn)互熵標(biāo)準(zhǔn)的改進(jìn)。這是通過改變其形狀來完成和實(shí)現(xiàn)的,以使分配給分類充分的示例的損失降低權(quán)重。最終,這確保了沒有階級(jí)不平衡的存在。在這個(gè)損失函數(shù)中,隨著對(duì)正確類別的置信度增加,交叉熵?fù)p失會(huì)隨著縮放因子以零衰減而縮放。比例因子在訓(xùn)練時(shí)自動(dòng)降低權(quán)衡簡(jiǎn)單示例的貢獻(xiàn),并將重點(diǎn)放在難的示例上。
  來源source:neptune.ai
  骰子損失
  這種損失是通過計(jì)算平滑骰子系數(shù)函數(shù)得到的。這種損失是最常用的損失,屬于是分割問題。
  來源source:neptune.ai
  IoU 平衡損失交集
  IoU平衡的分類損失的目的是提高IoU高的樣本的梯度,降低低IoU樣本的梯度。這樣,通過這種方式,可以提高機(jī)器學(xué)習(xí)模型的定位精度。
  來源source:neptune.ai
  邊界損失
  邊界損失的一種變體適用于分段高度不平衡的任務(wù)。這種損失的形式是空間輪廓\等高線而不是區(qū)域的距離度量。以這種方法,可以解決了由高度不平衡的分割任務(wù)中區(qū)域損失所帶來的問題。
  來源source:neptune.al
  加權(quán)交叉熵
  在交叉熵的一個(gè)變量中,所有的正例子都被某個(gè)一定系數(shù)加權(quán)。它用于涉及類不平衡的場(chǎng)景或方案。
  來源source:neptune.ai
  Lovász-Softmax損失
  該損失基于子模損失的凸Lovasz擴(kuò)展,對(duì)神經(jīng)網(wǎng)絡(luò)中的平均相交-大于聯(lián)合損失進(jìn)行直接優(yōu)化。
  來源source:neptune.ai
  其他值得一提的損失是:
  • TopK損失,其目的是確保網(wǎng)絡(luò)在訓(xùn)練過程中集中在硬樣本上。
  • 距離損失的CE損耗將網(wǎng)絡(luò)引導(dǎo)到難以分割的邊界區(qū)域。
  • 敏感性\靈敏性-特異性(SS)損失,用于計(jì)算特異性和敏感性的均方差的加權(quán)和。
  • Hausdorff 距離(HD)損失,可從卷積神經(jīng)網(wǎng)絡(luò)估計(jì)Hausdorff距離。
  這些只是圖像分割中使用的幾個(gè)損失函數(shù)。要了解更多,請(qǐng)點(diǎn)此鏈接查看:https://github.com/JunMa11/SegLoss
  圖像分割的數(shù)據(jù)集
  如果你看到了這里的話,你會(huì)思考說從哪里可以獲得相應(yīng)的數(shù)據(jù)集來進(jìn)行圖像分割的學(xué)習(xí)呢。
  現(xiàn)在我們來看下有哪些數(shù)據(jù)集我們拿來用。
  Common Objects in COntext — Coco數(shù)據(jù)集
  COCO是一個(gè)大規(guī)模的物體檢測(cè)、圖像分割和五項(xiàng)描述生成的大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)據(jù)集中一共包含91個(gè)物品類別。包含著250000帶有關(guān)鍵點(diǎn)標(biāo)注的人。它的下載大小是37.57GIB。它包含80個(gè)對(duì)象類別。它在Apache2.0許可下可用,可以從這里下載(https://cocodataset.org/#download)。
  PASCAL可視化對(duì)象類(PASCAL VOC)
  PASCAL有9963張圖片,有20個(gè)不同的類別。訓(xùn)練/驗(yàn)證集是一個(gè)2GB的tar文件。數(shù)據(jù)集可以從官方網(wǎng)站下載:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
  Cityscapes 數(shù)據(jù)集
  此數(shù)據(jù)集包含城市場(chǎng)景的圖像。它可以用來評(píng)價(jià)視覺算法在城市場(chǎng)景中的性能。數(shù)據(jù)集可以從這里下載:https://www.cityscapes-dataset.com/。
  Cambridge駕駛標(biāo)注視頻數(shù)據(jù)庫(kù) — CamVid
  這是一個(gè)基于運(yùn)動(dòng)的分割和識(shí)別數(shù)據(jù)集。它包含32個(gè)語(yǔ)義類別。此鏈接包含進(jìn)一步的解釋和指向數(shù)據(jù)集的下載鏈接:http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/。
  圖像分割框架
  現(xiàn)在您已經(jīng)準(zhǔn)備好了可使用的數(shù)據(jù)集,下面讓我來介紹一些可以用來入門的工具/框架。
  • FastAI庫(kù)——給定一個(gè)圖像,這個(gè)庫(kù)可以創(chuàng)建圖像中對(duì)象的掩碼/遮罩。
  • Sefexa圖像分割工具-——Sefexa是一個(gè)免費(fèi)的工具,可用于半自動(dòng)圖像分割、圖像分析和地面真實(shí)性的創(chuàng)建。
  • Deepmask——Facebook Research的Deepmask是Deepmask和SharpMask的Torch實(shí)現(xiàn)。
  • MultiPath——這是“用于對(duì)象檢測(cè)的MultiPath網(wǎng)絡(luò) ”中對(duì)象檢測(cè)網(wǎng)絡(luò)的Torch實(shí)現(xiàn)。
  • OpenCV——這是一個(gè)開源的計(jì)算機(jī)視覺庫(kù),有超過2500個(gè)優(yōu)化算法。
  • MIScnn——是一個(gè)醫(yī)學(xué)圖像分割開源庫(kù)。它允許在幾行代碼中使用最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型來建立管道。
  • Fritz——Fritz提供了幾種計(jì)算機(jī)視覺工具,包括用于移動(dòng)設(shè)備的圖像分割工具。
  總結(jié)
  希望本文能為您提供一些圖像分割的背景知識(shí),并為您提供一些工具和框架,以便您在工作中使用。
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會(huì)員企業(yè)