伊人激情av一区二区三区,小嫩模无套内谢第一次,国产欧美亚洲精品a第一页,亚洲区一区二区三区精品,亚洲激情视频一区二区三区

通過深度學(xué)習(xí)技術(shù)提升立體深度估計(jì)

http://www.kblhh.cn 2025-09-08 16:25 來源：TELEDYNE

概述

立體深度估計(jì)在機(jī)器人技術(shù)、AR/VR和工業(yè)檢測中至關(guān)重要，它為諸如箱體拾取、自動導(dǎo)航和質(zhì)量控制等任務(wù)提供了精確的3D感知。Teledyne IIS的Bumblebee X立體相機(jī)既具備高精度，又能夠提供實(shí)時性能，能夠在1024×768分辨率下以38幀每秒（FPS）的速度生成詳細(xì)的視差圖。

Bumblebee X基于半全局塊匹配（SGBM）算法，在紋理豐富的場景中表現(xiàn)穩(wěn)定。然而，像許多傳統(tǒng)立體方法一樣，在低紋理或反射表面上，特別是沒有圖像投影儀的情況下，Bumblebee X可能會出現(xiàn)視差缺失或深度數(shù)據(jù)不完整的情況。

近期，深度學(xué)習(xí)（DL）技術(shù)的進(jìn)展為提高視差精度、準(zhǔn)確性和完整性提供了有力的解決方案。本文將通過實(shí)際測試，探討這些方法的優(yōu)勢、局限性，并分析它們在嵌入式系統(tǒng)中的適用性。

在評估這些方法之前，我們首先需要了解傳統(tǒng)立體技術(shù)所面臨的實(shí)際挑戰(zhàn)。

立體深度估計(jì)：挑戰(zhàn)與局限性

傳統(tǒng)的立體算法，如內(nèi)置SGBM，提供了快速高效的視差估計(jì)，非常適合嵌入式和實(shí)時應(yīng)用。這些方法在表面紋理良好的場景中表現(xiàn)穩(wěn)定，不需要GPU加速或訓(xùn)練數(shù)據(jù)。

然而，在更復(fù)雜的環(huán)境中，尤其是具有反射或低紋理表面的場景中，它們可能會生成不完整或不準(zhǔn)確的深度圖。

以下的倉庫場景說明了這些挑戰(zhàn)。長且重復(fù)的貨架減少了視差線索，而光滑的環(huán)氧地板反射了周圍光線，頂燈的鏡面高光則引入了匹配錯誤。

場景左右兩側(cè)出現(xiàn)空白區(qū)域是因?yàn)镾GBM算法的MinDisparity被設(shè)置為0，并結(jié)合256級視差范圍，導(dǎo)致系統(tǒng)無法測量超出可測深度窗口的物體，特別是距離大約1.6米以內(nèi)的物體。為了捕捉這些近場物體，用戶可以選擇增加最小視差值（Scan3D坐標(biāo)偏移）或切換到四分之一分辨率模式。

如以上視差圖像所示，SGBM在內(nèi)置視差引擎方面的缺陷十分明顯。

為了解決這些問題，在立體視覺應(yīng)用中常用兩種互補(bǔ)的深度學(xué)習(xí)方法：

混合深度學(xué)習(xí)方法：

這種方法通過輕量化神經(jīng)網(wǎng)絡(luò)模型增強(qiáng)SGBM生成的初始視差圖。CVLAB-Unibo的神經(jīng)視差細(xì)化模型就是一個例子，通過利用空間和顏色線索來提高深度完整性，減少匹配偽影。作為一種混合方法，它在提高精度的同時保持了計(jì)算效率，特別適合實(shí)時或嵌入式系統(tǒng)。

端到端深度學(xué)習(xí)方法：

這種方法采用端到端的深度學(xué)習(xí)模型（如 Selective-Stereo 和 FoundationStereo），直接從立體圖像對中計(jì)算視差，而不依賴傳統(tǒng)的SGBM算法。這些網(wǎng)絡(luò)從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)語義和上下文特征，使其即使在復(fù)雜的場景中（如遮擋或反射表面）也能生成密集、準(zhǔn)確的視差圖。這一方法的缺點(diǎn)是對GPU要求較高，因此可能限制其在實(shí)時或資源受限環(huán)境中的使用。

接下來的章節(jié)將深入分析每種方法，評估它們在實(shí)際場景中的精度、運(yùn)行表現(xiàn)和覆蓋效果。

混合深度學(xué)習(xí)方法（神經(jīng)視差細(xì)化模型）

方法描述

CVLAB-Unibo的神經(jīng)視差細(xì)化方法通過傳統(tǒng)方法（如SGBM）提升生成的現(xiàn)有視差圖質(zhì)量。該方法使用帶有VGG-13骨架的深度卷積神經(jīng)網(wǎng)絡(luò)（CNN），并采用U-Net架構(gòu)，旨在：

根據(jù)空間和色彩一致性填補(bǔ)視差空白

通過學(xué)習(xí)的空間背景信息銳化邊緣

減少常見的立體匹配偽影，如條紋

網(wǎng)絡(luò)架構(gòu)

神經(jīng)細(xì)化網(wǎng)絡(luò)處理兩個輸入：

來自立體相機(jī)的左側(cè)RGB圖像

Bumblebee X生成的原始視差圖

U-Net架構(gòu)利用跳躍連接有效地將粗略的視差估計(jì)與來自RGB輸入的細(xì)節(jié)融合，顯著提高深度圖的完整性。

性能

NVIDIA RTX 3060 GPU上神經(jīng)視差細(xì)化的推理速度約為3FPS，適用于異步實(shí)時增強(qiáng)。

在同一個倉庫場景中，我們通過將從內(nèi)置視差引擎獲得的輸出與左側(cè)校正圖像一起輸入到神經(jīng)視差細(xì)化模型中，以優(yōu)化視差。結(jié)果如下所示：

從視差圖像中可以看出，應(yīng)用該網(wǎng)絡(luò)后，倉庫場景中的空洞減少，地面匹配誤差也得到了修正。然而，由于細(xì)化依賴于SGBM的先驗(yàn)數(shù)據(jù)，在SGBM沒有數(shù)據(jù)的區(qū)域（如場景的左右邊緣），仍然可以觀察到一些空洞。

若要重現(xiàn)這些結(jié)果，請?jiān)L問GitHub上的深度學(xué)習(xí)示例。

端到端深度學(xué)習(xí)方法（Selective-Stereo）

方法描述

Selective-Stereo和Foundation-Stereo是兩種先進(jìn)的深度學(xué)習(xí)框架，直接從立體圖像對計(jì)算視差圖，無需依賴傳統(tǒng)的匹配算法（如SGBM）。它們在架構(gòu)中采用了自適應(yīng)頻率選擇，將高頻邊緣與低頻平滑區(qū)域區(qū)分開，從而優(yōu)化了不同區(qū)域的處理。

網(wǎng)絡(luò)架構(gòu)

Selective-Stereo基于IGEV-Stereo架構(gòu)，并結(jié)合門控遞歸單元（GRU）進(jìn)行迭代細(xì)化。該方法根據(jù)圖像頻率特征動態(tài)調(diào)整計(jì)算重點(diǎn)：

高頻分支增強(qiáng)邊緣和細(xì)節(jié)

低頻分支維持平滑區(qū)域輪廓并避免過擬合

性能

盡管這種方法具有高精度和完整性，但計(jì)算量大，基于NVIDIA RTX 3060 GPU的幀率約為0.5FPS。

基于以下所示結(jié)果，端到端深度學(xué)習(xí)方法提供了較為廣泛的視差覆蓋范圍，并且能保持精細(xì)的結(jié)構(gòu)細(xì)節(jié)：例如，清晰渲染的天花板燈具，同時避免了由燈具反射引起的斑點(diǎn)偽影。

總體而言，完全端到端的視差估計(jì)網(wǎng)絡(luò)在視差覆蓋和結(jié)構(gòu)細(xì)節(jié)保留方面優(yōu)于原始內(nèi)置SGBM輸出和神經(jīng)細(xì)化系統(tǒng)流程，盡管其運(yùn)行時間較長，且對更強(qiáng)大的GPU有一定要求。

若要重現(xiàn)這些結(jié)果，請?jiān)L問GitHub上的深度學(xué)習(xí)示例。

其他考慮因素

與內(nèi)置視差結(jié)果類似，距離小于1.6米的表面（超出0-256視差范圍）無法準(zhǔn)確處理。右下角的儲物箱就展示了這一問題：由于它距離相機(jī)非常近，應(yīng)該位于極紅范圍內(nèi)，但網(wǎng)絡(luò)為其分配了較小的視差，導(dǎo)致其被置于比實(shí)際更遠(yuǎn)的位置。這種局部誤差會破壞深度圖，在該區(qū)域生成不準(zhǔn)確的點(diǎn)云。

某些深度學(xué)習(xí)模型提供了調(diào)整最小視差的選項(xiàng)，從而正確捕捉近距離物體，而其他模型則不支持此功能。如果所選的深度學(xué)習(xí)模型不允許調(diào)整最小視差，可以將右圖像向左平移所需的最小視差像素，再將該值加回每個輸出視差中。

另外，有些深度學(xué)習(xí)模型會限制其操作的視差范圍。在這種情況下，需要調(diào)整輸入的校正圖像大小，以適應(yīng)相同的可測深度范圍，但這會犧牲一些深度精度。

許多深度學(xué)習(xí)模型還需要根據(jù)特定場景進(jìn)行微調(diào)（盡管高級的“基礎(chǔ)”立體網(wǎng)絡(luò)可以實(shí)現(xiàn)零樣本泛化），而SGBM和基于SGBM的混合模型則無需任何調(diào)優(yōu)，并能在各種場景中提供可靠的即用型性能。

比較實(shí)驗(yàn)分析

我們使用已知距離為5米的隨機(jī)圖案進(jìn)行了實(shí)驗(yàn)基準(zhǔn)測試。相機(jī)以1024×768分辨率（四分之一模式）運(yùn)行。在精度測試中，定義了感興趣區(qū)域（ROI），確保它完全位于紋理清晰的圖案部分，只有明確定義的特征才會影響深度統(tǒng)計(jì)。覆蓋評估分為兩個階段：首先評估紋理區(qū)域，然后評估相鄰的無紋理光滑白色表面。下圖展示了所得到的視差圖。

測試結(jié)果包括：

	有紋理區(qū)域的覆蓋率（%）	無紋理區(qū)域的覆蓋率（%）	中值深度（m）	中值誤差（m）	中值誤差（%）	幀率（FPS）
SGBM (板載)	100.00	18.48	5.052	0.052	1.03	38
SGBM + 神經(jīng)網(wǎng)絡(luò)精化 (Neural Refinement)	100.00	100.00	5.058	0.058	1.17	3
Selective-Stereo	100.00	100.00	4.988	-0.012	-0.24	0.5

觀察結(jié)果：

神經(jīng)細(xì)化方法顯著提高了視差的完整性，略微增加了中間誤差。

Selective-Stereo提供了出色的完整性和較小的偏差，表明其在精度要求較高的應(yīng)用中表現(xiàn)良好。

實(shí)際應(yīng)用指南

針對特定應(yīng)用場景的建議：

高速實(shí)時應(yīng)用（≥30FPS）：使用Bumblebee X內(nèi)置的SGBM算法，必要時結(jié)合圖案投影儀，以提高完整性。

平衡覆蓋與延遲：將神經(jīng)視差細(xì)化與內(nèi)置SGBM異步結(jié)合，增強(qiáng)覆蓋范圍。

出色精度與完整性：當(dāng)?shù)蛶士山邮芮腋呔戎陵P(guān)重要時，選擇Selective-Stereo。

結(jié)論

深度學(xué)習(xí)方法在復(fù)雜環(huán)境中顯著提升了Bumblebee X內(nèi)置SGBM的表現(xiàn)。輕量級細(xì)化方法能夠在普通硬件上進(jìn)行實(shí)時改善，而端到端網(wǎng)絡(luò)則在速度要求較低時提供更高的質(zhì)量。與許多受限于固定系統(tǒng)流暢或缺乏內(nèi)置處理的立體相機(jī)不同，Bumblebee X同時支持這兩種方法，賦予用戶在精度、速度和計(jì)算能力之間優(yōu)化的靈活性，適用于各種應(yīng)用場景。

通過深度學(xué)習(xí)技術(shù)提升立體深度估計(jì)

有紋理區(qū)域的覆蓋率（%）

無紋理區(qū)域的覆蓋率（%）

中值深度（m）

中值誤差（m）

中值誤差（%）

幀率（FPS）

SGBM (板載)

SGBM + 神經(jīng)網(wǎng)絡(luò)精化 (Neural Refinement)

Selective-Stereo

相關(guān)新聞

編輯精選

工控原創(chuàng)