全面進入AI大模型時代,安防領域將跨越式升級
發布日期:2023-11-16 瀏覽:645
近幾年來,隨著5G、AI、IoT、大數據、云計算等新興技術與安防行業的高度融合,讓安防的邊界越來越模糊,萬物互聯到萬物智聯時代主旋律下,智慧物聯(AIoT)打開了安防新的市場空間。
隨著安防行業的快速發展,傳統的安防方式已經逐漸被以視頻為核心的智慧互聯所取代。這種轉變使得下游應用呈指數式增長,同時也對AI技術提出了更高的要求。在AIoT領域,如何將技術創新與市場需求有效結合成為了行業發展的關鍵。
在傳統安防時期,算法的針對性較強,主要依賴于小模型的專用算法。然而,隨著應用場景的不斷擴大和復雜化,這種小模型算法已經無法滿足需求。因此,我們需要借助大模型的泛化能力來推動行業的發展。
一、AI賦能安防從看得清到看得懂,從傳統安防到智慧物聯 AI賦能安防從“看得清”到“看得懂”,傳統安防逐步轉變為智能物聯。安防視頻監控分為“看得見”、“看得清”、“看得懂”三個階段。 以中國為例,在第一階段“看得見”中,主要的驅動力是以視頻作為常見事件的證據形式,作為安檢偵破的重要線索,目前全國已經基本實現了主要城市街區的無死角監控;在第二階段“看得清”中,主要的驅動力為十三五規劃、十九大報告、公安部雪亮工程以及《超高清視頻產業發展行動計劃》等,高清實時編碼SoC芯片成為市場主流助力高清需求實現;在第三階段“看得懂”中,AI的發展使得安防系統從被動的記錄和查看轉化為“事前有預警、事中有處置、事后有分析”,車牌識別發展為車輛數據結構化分析、人臉檢測發展到人臉比對、目標全結構化分析、行為處事檢測分析等新技術逐步落地,強大算力運行AI算法,運用海量數據,使得行業邊界逐漸模糊,需求也從安全轉變為降本增效,傳統安防逐步擴大范圍,轉向智慧物聯大行業。 過去十幾年,國內安防行業相繼解決了“看得見”、“看得清”、“看得懂”的問題。 尤其在解決“看得懂”的問題時,僅通過視頻手段已無法實現,安防企業于是借助物聯網技術,大大提高了識別的結果和效率。 在這個過程中,人工智能、大數據、數字通信、AIoT等技術與實體經濟的深度融合,幾乎滲透進了安防企業的全系列產品中,技術創新和產品迭代升級加速。 二、安防企業為什么能成為AIoT的主力軍? 那么,安防企業為什么能成為AIoT的主力軍? 首先,智能安防是進入智慧物聯市場的絕佳通道。 在AIoT世界,一切智能都要以感知為基礎,其中視頻是數據的一個強入口,源源不斷產生的高質量數據是數字化時代的新的生產要素。安防行業一直在智慧物聯的典型場景中,天然的感知能力,順其自然成為一切智能與數字化的基礎,經過千錘百煉的視頻能力已成為他們的強項。 其次,安防企業有足夠的能力躋身智慧物聯行業。 從安防廠商,到以視頻為核心的智慧物聯解決方案提供商,到不再只強調視頻,增加非視頻的投入,他們一邊擴充產品線,一邊在智能技術上進一步投入感知智能、認知智能。對智慧物聯行業意義重大的大模型,也早有部署。比如大華,已經利用AIoT和大模型技術,廣泛地感知和連接以視頻為核心的泛在物聯數據,讓客戶獲得高質量的數據資源。 AIoT產業與安防產業極其相似,都是一場事關場景碎片化、硬件制造經驗、整體解決方案的綜合能力的比拼。從安防場景中磨礪出來的傳統安防企業,進入智慧物聯時代有較大優勢。 再者,傳統安防企業已經建立了廣泛的客戶基礎。 面對數字化升級愿望迫切的客戶,誰能“多快好省”地落地智慧物聯產品和方案,更穩定的運行設備,誰就能在數字化的落地和升級上快走一步。 在安防行業發展過程中,一些公司已經成長為世界著名品牌,獲得了包括政府機構、企業和消費者的信任,因此客戶更容易接受他們的智慧物聯產品和服務。 安防自帶AI和物聯的屬性,好比是在安防領域與智慧物聯領域之間架起了一根管道,使前者向后者的過渡變得自然、順暢。 目前,傳統安防已經發展為以視頻為核心的智慧互聯,下游應用呈指數式增長,基于小模型的專用算法無法滿足需求,需要大模型的泛化能力助力行業發展。 三、通用大模型VS微調后的行業大模型? 根據中國信通院、騰訊云和騰訊標準發布的《行業大模型標準體系及能力架構研究報告》,通用大模型在多任務與領域上可表現出較好性能,但無法精準解決行業的特定需求與問題。 通用大模型如果想在特定行業中發揮SOTA模型效果,其參數數量會比同樣效果的行業大模型多數十倍、甚至百倍,根據OpenCSG,在特定的垂直應用中,通用大模型千億甚至萬億參數達到的效果,垂直大模型百億參數也可以達到,成本相對較低,相比ChatGPT的10億人民幣以上的硬件投入(僅訓練),彭博金融大模型硬件端投入僅約1200萬元(僅訓練)。 以工業領域為例,該場景需求中精準測量、缺陷檢測等功能可以通過結合視覺能力、各類型裝備實現,在大模型基礎上用更小樣本的訓練,可實現更加快速和準確的識別,且成本和效果平衡,有助于商業化落地。 以近期北大的ChatLaw為例,該團隊構建了口語化咨詢訴求到法律專業詞匯抽取模型,在檢索端結合關鍵詞+向量檢索技術,依靠13B的模型在2000條司法問答數據中,Elo評分機制下得分超越gpt4。其表現優于gpt4的一大原因是構建了類似于國家司法考試的多項選擇題來訓練本文的模型,這也表明了基于對細分行業的場景需求,選擇細分行業的數據進行訓練即可使得其表現優于通用的大模型。 單模態VS多模態? 在智慧物聯的時代,數據呈現著多模態及復雜關聯的特性,如文本、圖像、聲音等,根據機器學習雜貨鋪3號店公眾號,視頻動作識別技術在泛安防有著廣泛的使用場景,由于攝像頭需要部署在各個地點,攝像機姿態各有不同,需要多視角挖掘共同表征,因此泛安防對于多視角視頻識別與分析有更急切的需求,而視頻理解存在數據集缺少,視頻語義復雜多變,視頻多模態語義融合,非線性流的視頻理解等多種問題。 在多模態模型下,對于標注的精準性要求更低,可以使用弱標注的圖片描述數據,語義更為通用,且可以改善長尾問題,輸入多模態數據可提高模型精度,對語義相近的場景更加友好,減少誤判,因此我們認為,多模態模型將更適合智慧物聯。 (1)多模態可緩解長尾的標簽標注壓力。 以YouTube視頻數據為例,YouTube8M數據集具有6.1M的視頻量,共3862個標簽,平均每個視頻有3個標簽,呈現明顯的長尾分布。 Instructional數據集在WikiHow中挑選了23,611個howto任務,為檢索詞query在YouTube上進行搜索,生成大規模的帶噪聲的文本-視頻樣本用于多模態任務預訓練,我們可以看到112個大類的howto視頻也呈現長尾分布,這類廣泛存在的長尾現象使得事無巨細的樣本標注不可行。 文本-視覺之間語義的橋梁分為語義對齊(Semanticalignment)和語義融合(Semanticfusion),通過語義對齊完成視覺元素映射(基礎視覺語義),并通過基礎視覺語義的融合形成復雜視覺語義與抽象的視覺氛圍,在多模態融合方法中,模型可以通過場景描述文本““treesina'wintersnowstorm”學到“tree”的概念,還有可能學到“snowstorm”,以此來緩解長尾問題導致的標簽標注壓力。 (2)多模態數據可提升模型精度。 以田間作物產量預測為例,相關研究團隊通過融合基于無人機的多模態數據(融合基于無人機的RGB、高光譜近紅外(HNIR)和熱成像圖像)進行田間作物產量預測,提出了MultimodalNet的新型模型,融合效果精度高于任意單一模態。 微調后的多模態行業大模型+邊側小模型或將是未來幾年最適合智慧物聯的形式。 但單純依靠云端的多模態行業大模型會存在一些問題。 大模型規模較大,難以部署在邊緣設備上,只能以云的形式提供服務,但云有較高的時延,一線生產中的數據處理和控制等網絡主要是內網,需要更加穩定的網絡和及時的處理,將這類需求送至云端并不合適,且由于本地數據量大,全部“上云”成本高企且存在隱私風險。 邊側算力不足無法運行大模型,但是可以通過知識蒸餾等方法,用teacher模型訓練student模型,用教師模型的輸出作為軟標簽來指導學生模型的學習,且能較好保全原有模型的功能,實現云邊協同,保證私域安全性以及更好的實時性。 基于分析,我們認為,微調后的多模態行業大模型+邊側小模型或將是未來幾年最適合以視頻為核心的智慧物聯行業的形式。