亚洲AV无码一区二区三区16_亚洲AV无码一区_公交车上~嗯啊被高潮了啊视频_女人扒开屁股桶爽30分钟_久久精品人人爽快人人爽爽

用“人造”的數(shù)據(jù)喂養(yǎng)AI?合成數(shù)據(jù)億級市場涌現(xiàn) - 行業(yè)資訊 -

當前位置:首頁  >  行業(yè)資訊  > 正文

用“人造”的數(shù)據(jù)喂養(yǎng)AI?合成數(shù)據(jù)億級市場涌現(xiàn)

用“人造”的數(shù)據(jù)喂養(yǎng)AI?合成數(shù)據(jù)億級市場涌現(xiàn)
2023-08-14 13:02:13 來源:21世紀經(jīng)濟報道

AI潮水洶涌,數(shù)據(jù)正成為一門火爆的生意。


【資料圖】

為了給人工智能喂上充足的“養(yǎng)料”,從發(fā)掘、采集到標注,企業(yè)在數(shù)據(jù)處理的各個環(huán)節(jié)掘金。到如今,真實的數(shù)據(jù)已無法滿足日漸膨脹的AI“胃口”,企業(yè)開始探索AI自產(chǎn)自銷的“假”數(shù)據(jù)——合成數(shù)據(jù)產(chǎn)業(yè)應用而生。

上個月底,國內(nèi)合成數(shù)據(jù)公司“光輪智能”宣布完成天使+輪融資;幾個月前,新加坡合成數(shù)據(jù)初創(chuàng)公司Betterdata也獲得一筆165萬美元規(guī)模的種子輪融資?;ヂ?lián)網(wǎng)大廠也開始了布局。微軟、英偉達、meta、亞馬遜等數(shù)得上號的科技巨頭中,均有合成數(shù)據(jù)相關的業(yè)務布局、投資或收購舉動。

合成數(shù)據(jù)究竟是“何方神圣”?它有怎樣的產(chǎn)業(yè)價值和風險?會給AI產(chǎn)業(yè)帶來怎樣的顛覆?

“人造”數(shù)據(jù)崛起

相比于從現(xiàn)實世界中采集或測量的真實數(shù)據(jù),合成數(shù)據(jù)顧名思義是人工合成的“假”數(shù)據(jù)。由于能夠反映原始數(shù)據(jù)的屬性,合成數(shù)據(jù)可以作為原始數(shù)據(jù)的替代品來訓練、測試和驗證AI模型。

但人工合成并不意味著完全憑空捏造。現(xiàn)階段,大部分合成數(shù)據(jù)的“根”仍然是真實數(shù)據(jù)。

Unity中國高級軟件工程師錢文億向21世紀經(jīng)濟報道記者介紹了其合成數(shù)據(jù)產(chǎn)品在計算機視覺相關項目中的普遍生成過程:第一步,在現(xiàn)實中找到可識別的對象,通過掃描技術,將物體模型真實地還原在3D場景中;在此基礎上,對該物體模型進行打標簽,如顏色、大小等,具體標簽類型依據(jù)訓練需求而定;最后,將這些物體放置于各種設定的場景中,隨機組合,快速地生成多張圖片。

因此,訓練同一個AI模型時,使用真實數(shù)據(jù)也許需要攝像頭不斷變換地捕捉物體在不同場景、狀態(tài)下的多張照片,而合成數(shù)據(jù)則能夠通過調(diào)整物體位置、角度、所處背景等參數(shù),一分鐘內(nèi)生產(chǎn)成百上千張不同的圖片,降低成本,提高數(shù)據(jù)集生成效率。

事實上,合成數(shù)據(jù)的概念并不新穎。據(jù)說,這一概念早在1993年Donald Rubin的一篇文章中就有雛形。近年來,隨著人工智能技術一次次取得突破性發(fā)展,真實數(shù)據(jù)的采集、獲取難度也水漲船高,已難以填飽AI訓練的龐大“胃口”。

合成數(shù)據(jù)常常作為真實數(shù)據(jù)的“平替”而存在。據(jù)人工智能初創(chuàng)公司Cohere首席執(zhí)行官Aiden Gomez在上個月底透露,由于Reddit、推特等公司的數(shù)據(jù)采集要價太高,微軟、OpenAI和Cohere等公司,已使用合成數(shù)據(jù)來訓練AI模型。Gomez表示,合成數(shù)據(jù)可以適用于很多訓練場景,只是目前尚未全面推廣。

但在廣州大學計算機科學與網(wǎng)絡工程學院教授王員根看來,價格反而不是選擇合成數(shù)據(jù)最主要的考慮因素。

真實數(shù)據(jù)涉及大量個人隱私,冒然使用可能引起嚴重的法律糾紛問題,而且并非所有的真實數(shù)據(jù)都是可用的?;ヂ?lián)網(wǎng)上充斥著大量真?zhèn)坞y辨的信息,要從雜亂無章的真實數(shù)據(jù)中挖掘出可用的信息,需要大量的人工篩選。另外,真實數(shù)據(jù)還存在分布不均衡的問題。例如,訓練人臉識別系統(tǒng)時,從互聯(lián)網(wǎng)上爬取到的人臉數(shù)據(jù)中亮皮膚人臉圖像占多,而暗皮膚人臉圖像偏少,這將導致所訓練的模型存在偏見。合成數(shù)據(jù)恰能在一定程度上人為規(guī)避上述問題。

“部分真實數(shù)據(jù)無法獲取,如清晰的水下圖像等,通過合成數(shù)據(jù)技術模擬生成相關數(shù)據(jù),能夠補充訓練數(shù)據(jù)的完備性?!蓖鯁T根補充道,盡管現(xiàn)階段大量合成數(shù)據(jù)建立在真實數(shù)據(jù)基礎上,但隨著技術的進步,未來對真實數(shù)據(jù)的依賴將逐步減少,目前已有技術能讓直接合成的數(shù)據(jù)“以假亂真”。

但合成數(shù)據(jù)并非十全十美。在AI訓練數(shù)據(jù)服務商Appen澳鵬官方發(fā)布的一篇文章中,就提到合成數(shù)據(jù)缺乏異常值,而這些異常值自然出現(xiàn)在真實數(shù)據(jù)中,對于模型精確度至關重要。另外,合成數(shù)據(jù)的質(zhì)量通常取決于用于生成的輸入數(shù)據(jù),輸入數(shù)據(jù)中的偏見很容易傳播到合成數(shù)據(jù)中,因此不能低估使用高質(zhì)量數(shù)據(jù)作為起點的重要性。所以,企業(yè)需要將合成數(shù)據(jù)與人工標注的真實數(shù)據(jù)進行比較,作為額外的輸出控制。

越敏感,越先突破

目前,合成數(shù)據(jù)主要應用于哪些領域?

相比于自然語言、音頻等形式,合成數(shù)據(jù)最先在計算機視覺上展露拳腳。受訪專家們認為,這與圖片處理更加簡單直接、人類與環(huán)境進行交互時優(yōu)先通過視覺系統(tǒng)等因素相關。未來,其他領域的合成數(shù)據(jù)也將得到進一步的發(fā)展。

合成數(shù)據(jù)在自動駕駛、醫(yī)療、金融等場景有著廣闊的應用前景。這些場景的共同點在于,真實數(shù)據(jù)敏感,難以獲取,但又關涉重大,有的還涉及人身安全,對數(shù)據(jù)質(zhì)量要求極高?!澳睦镒钣行枰睦锞蜁钕鹊玫桨l(fā)展和應用。合成數(shù)據(jù)技術最有可能在這些敏感場景中取得突破?!蓖鯁T根表示。

以自動駕駛為例,實際駕駛過程中,車輛可能會碰到各種復雜多變的路況,甚至是極端情況,如嚴重的交通堵塞、事故、惡劣天氣等。尤其是在極端情況下,使用真車冒險測試幾乎不可能,極難采集和獲取到真實數(shù)據(jù)。

合成數(shù)據(jù)可以模擬出這些情景。王員根介紹,“比如,要模擬暴雨天氣,我們就用日常能夠收集到的普通天氣的數(shù)據(jù),構建一個物理或網(wǎng)絡模型,將‘暴雨’的關鍵參數(shù)輸入進去,就能生成相應的場景。模型和參數(shù)越準確,場景的逼真程度越高?!比绱?,能夠在保障人員和設備安全的條件下,提升自動駕駛能力。

公開資料顯示,許多自動駕駛汽車廠商都在合成數(shù)據(jù)和模擬方面進行了大量投資。例如,谷歌母公司Alphabet旗下的自動駕駛子公司W(wǎng)aymo在2106年就生成了25億英里的模擬駕駛數(shù)據(jù)來訓練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實世界收集的駕駛數(shù)據(jù)僅為300萬英里)。到 2019 年,這一數(shù)字已達到100 億英里。

國內(nèi),騰訊自動駕駛實驗室開發(fā)的自動駕駛仿真系統(tǒng)TADSim已經(jīng)可以自動生成無需標注的各種交通場景數(shù)據(jù)。華為云也基于盤古大模型開發(fā)了場景重建大模型,該模型可基于采集的路采視頻數(shù)據(jù)做場景重建(合成數(shù)據(jù)),普通用戶很難用肉眼分清這些重建的場景跟真實場景有何區(qū)別。

然而,自動駕駛涉及人身安全,合成數(shù)據(jù)畢竟不是完全真實的,這注定了企業(yè)使用這類數(shù)據(jù)進行訓練時會表現(xiàn)得更加謹慎。

小馬智行聯(lián)合創(chuàng)始人兼CTO樓天城向21記者強調(diào),合成數(shù)據(jù)既有憑空生成的虛擬數(shù)據(jù),也有基于真實數(shù)據(jù)加以修改得到的數(shù)據(jù),目前在L4的感知模塊中,小馬智行沒有使用憑空生成的虛擬數(shù)據(jù)。主要是因為L4方案依賴于激光雷達,對于如惡劣天氣、長尾物體等難度場景,生成激光雷達的虛擬數(shù)據(jù)與真實數(shù)據(jù)的分布差異較大,無法用虛擬數(shù)據(jù)來達到在真實場景下提升的效果。

但小馬智行會對真實數(shù)據(jù)加以修改來合成數(shù)據(jù)用于感知算法,對于不依賴原始傳感器輸入的模塊,例如路徑規(guī)劃和一些場景理解等算法,也會使用合成數(shù)據(jù)進行訓練和仿真評估。

樓天城認為,要把虛擬數(shù)據(jù)做到足夠逼真對標注質(zhì)量的要求反而更高。而對于一般的簡單場景,做數(shù)據(jù)挖掘和智能標注的數(shù)據(jù)閉環(huán)相比于研發(fā)合成逼真的虛擬數(shù)據(jù)的成本還要低不少。目前學術界對使用完全虛擬的數(shù)據(jù)進行自動駕駛的訓練有一些研究,不少公司也在做相關預研。從訓練效果來看,從0到80分有幫助,但對90到99分效果一般,實際落地部署的案例并不普遍。

“我們也在關注合成虛擬數(shù)據(jù)相關的技術進展并持開放的態(tài)度,如果某一天技術足夠成熟時也會考慮應用。”樓天城表示。

數(shù)據(jù)標注產(chǎn)業(yè)將被重構?

據(jù)咨詢公司Gartner預測,到2030年,合成數(shù)據(jù)將徹底取代真實數(shù)據(jù),成為 AI 模型所使用的數(shù)據(jù)的主要來源。而美國AI研究機構Cognilytica數(shù)據(jù)顯示,2021 年合成數(shù)據(jù)市場規(guī)模大概在1.1億美元,到2027 年將達到11.5億美元。這是一塊讓不少科技大廠和初創(chuàng)公司垂涎的大蛋糕。

多家的科技巨頭均有合成數(shù)據(jù)相關的業(yè)務布局、投資或收購舉動。例如,2021年,英偉達發(fā)布了用于訓練AI的Omniverse Replicator合成數(shù)據(jù)生成引擎,今年7月,英偉達初創(chuàng)加速計劃成員Rendered.ai將Omniverse Replicator集成到其合成數(shù)據(jù)生成平臺,使AI訓練變得更加簡單易用;亞馬遜也在多個場景探索合成數(shù)據(jù)的應用,例如使用合成數(shù)據(jù)來訓練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問題等;Meta則直接收購了合成數(shù)據(jù)創(chuàng)業(yè)公司AI.Reverie,以整合至旗下元宇宙部門Reality Labs。

創(chuàng)業(yè)公司方面,合成數(shù)據(jù)領域的投資并購持續(xù)升溫。計算機視覺合成數(shù)據(jù)提供商Datagen于2022年初宣布完成5000萬美元B輪融資;今年4月,新加坡合成數(shù)據(jù)初創(chuàng)公司Betterdata在獲得一筆165萬美元規(guī)模的種子輪融資;7月末,國內(nèi)合成數(shù)據(jù)公司“光輪智能”宣布完成天使+輪融資,這家今年剛成立的新公司,已經(jīng)完成種子輪、天使輪、天使+三輪融資,累計融資金額達數(shù)千萬元。

錢文億觀察到,“過去幾年,全球幾乎每年都有好幾百甚至上千家新型初創(chuàng)公司建立,為各行各業(yè)提供用于算法訓練的合成數(shù)據(jù)產(chǎn)品?!?

產(chǎn)業(yè)繁榮之下,我國也開始鼓勵和引導合成數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。今年3月初,中國證監(jiān)會科技監(jiān)管局局長姚前曾在《中國金融》雜志撰文稱,建議重點發(fā)展基于AIGC技術的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴容”,助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。5月19日,北京發(fā)布的“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃”,提到謀劃建設國家級數(shù)據(jù)訓練基地,也提出了支持發(fā)展基于AIGC技術的合成數(shù)據(jù)新產(chǎn)業(yè)。

而在過去很長一段時間里,人工智能對數(shù)據(jù)的海量需求催生了一批數(shù)據(jù)標注師的就業(yè)群體。如今,當合成數(shù)據(jù)逐漸成勢,數(shù)據(jù)標注產(chǎn)業(yè)的格局是否會因此遭到?jīng)_擊?

王員根認為,沖擊是必然的,但需求仍在。“首先這件事沒有那么快到來,其次,標注師們要進行轉(zhuǎn)型。比如,過去需要標注的是原始數(shù)據(jù),如今則變成了AI生成的數(shù)據(jù);又如在原本數(shù)據(jù)標注工作的基礎上,標注師們還將被要求分辨哪些是AI生成的數(shù)據(jù),哪些是自然數(shù)據(jù)等。即使合成數(shù)據(jù)越來越多、質(zhì)量越來越高,也離不開人類的引導和監(jiān)督,以及時修正可能出現(xiàn)的偏差?!?/p>

標簽:

(責任編輯:news01)
今日上?;疖囌居喥睙峋€(求上?;疖囌居喥彪娫挘鞒獭闊┰敿汓c)

今日上?;疖囌居喥睙峋€(求上?;疖囌居喥彪娫挘鞒獭闊┰敿汓c)

您好,來為大家解答以上問題。上?;疖囌居喥睙峋€,求上?;疖囌居喥彪?/span>
08-29 05:49:17
曼城舊將:哈蘭德從不糾結于進球,他總能保持正確的心態(tài)和行動

曼城舊將:哈蘭德從不糾結于進球,他總能保持正確的心態(tài)和行動

曼城舊將:哈蘭德從不糾結于進球,他總能保持正確的心態(tài)和行動,泰勒,福
08-29 01:02:16
一個囤茶的故事,寫滿了羅生門,各種斗智斗勇,各種小心思小盤算

一個囤茶的故事,寫滿了羅生門,各種斗智斗勇,各種小心思小盤算

買過一次,喝了感覺不錯,價格也在自己認可的范圍之內(nèi),那么,再次復購
08-28 22:05:57
成都:144平米以上房源不再實施公證搖號

成都:144平米以上房源不再實施公證搖號

成都市住房和城鄉(xiāng)建設局成都市司法局發(fā)布關于優(yōu)化完善商品住房公證搖號
08-28 20:20:02
中國央行:截至2023年7月末,境外機構在中國債券市場的托管余額為3.3萬億元

中國央行:截至2023年7月末,境外機構在中國債券市場的托管余額為3.3萬億元

中國央行:截至2023年7月末,境外機構在中國債券市場的托管余額為3 3萬
08-28 18:45:13
直到大雨停止(三)

直到大雨停止(三)

“live的話……我看看哦,最近排的比較滿,大場排到七天之后去了,只有
08-28 17:17:51
日媒稱國內(nèi)商家多次接到來自中國的騷擾電話,內(nèi)容具有攻擊性

日媒稱國內(nèi)商家多次接到來自中國的騷擾電話,內(nèi)容具有攻擊性

據(jù)日本媒體共同社報道,8月24日,日本啟動福島核污染水排海后,國內(nèi)商
08-28 16:12:59
湖北竹溪一女子用關愛點亮留守兒童心靈的“燈”

湖北竹溪一女子用關愛點亮留守兒童心靈的“燈”

中新網(wǎng)湖北新聞8月25日電(付延峰黃東張娜)近日,家住竹溪縣城的夏正莉
08-28 14:48:20
鐵路餐車圖鑒!在火車,感受舌尖上的時代變遷

鐵路餐車圖鑒!在火車,感受舌尖上的時代變遷

暑運期間,全國鐵路再次迎來客流高峰。如果說到“坐火車吃什么”,您首
08-28 13:03:00
戰(zhàn)鷹列陣 鐵翼飛旋,航空救援隊飛行員訓練在昆明硬核開飛

戰(zhàn)鷹列陣 鐵翼飛旋,航空救援隊飛行員訓練在昆明硬核開飛

央視網(wǎng)消息:近日,隨著飛行指揮員一聲令下,4架橘紅色直升機依次呼嘯
08-28 11:52:16
MSCI亞太指數(shù)上漲1.4%。

MSCI亞太指數(shù)上漲1.4%。

MSCI亞太指數(shù)上漲1 4%
08-28 09:53:50
本周4只新股申購,周一多浦樂上市

本周4只新股申購,周一多浦樂上市

本周新股發(fā)行情況速覽本周(8月28日-9月1日)A股市場4只新股發(fā)行,其中
08-28 08:03:29
勇者的宿命與救贖

勇者的宿命與救贖

新番導視的時候就有聽說這番,但一直沒看。閑來無事時突然想起來,就在
08-28 05:47:18
清熱解毒的水果(吃什么水果去火 清熱解毒的水果)

清熱解毒的水果(吃什么水果去火 清熱解毒的水果)

文章目錄1、吃什么水果可以清熱解毒有益消腫這些水果數(shù)它最厲害!2、吃
08-27 22:08:25
湖北省黃岡市2023-08-27 19:07發(fā)布暴雨橙色預警

湖北省黃岡市2023-08-27 19:07發(fā)布暴雨橙色預警

一、湖北省黃岡市天氣預報1、黃岡市氣象臺2023年08月27日19時07分發(fā)布
08-27 19:57:49
網(wǎng)紅舉報老丈人貪污

網(wǎng)紅舉報老丈人貪污

8月26日,河南焦作揚言拋妻棄子男網(wǎng)紅否認家暴,“我自己才是受害者”
08-27 17:43:08
前7個月原材料工業(yè)增加值同比增長5.2% 整體呈現(xiàn)結構向優(yōu)發(fā)展態(tài)勢

前7個月原材料工業(yè)增加值同比增長5.2% 整體呈現(xiàn)結構向優(yōu)發(fā)展態(tài)勢

央視網(wǎng)消息:記者從工業(yè)和信息化部了解到,今年1—7月,原材料工業(yè)整體呈
08-27 16:00:38
米店這首歌什么含義

米店這首歌什么含義

米店這首歌的含義多層次而豐富。這首歌以米店為主題,將一家米店作為一
08-27 13:51:10
每條10元至60元?賣明星行程牟利,高鐵站員工獲刑

每條10元至60元?賣明星行程牟利,高鐵站員工獲刑

據(jù)介紹,陳某等人將高鐵乘車時間、車次、乘車站、到站、座位、證件號碼
08-27 12:15:50
俄國防部:一晝夜擊落37架 基本情況講解

俄國防部:一晝夜擊落37架 基本情況講解

大家好,今日關于【俄國防部:一晝夜擊落37架】迅速上了的熱搜榜,受到
08-27 10:36:25
全球大米價格飆升!世界最大大米出口國又出手了

全球大米價格飆升!世界最大大米出口國又出手了

據(jù)央視財經(jīng)8月26日報道,近期國際大米價格飆升,引發(fā)全球關注。印度政
08-27 08:44:51
東北生菜種植時間和方法(生菜種植時間和方法)

東北生菜種植時間和方法(生菜種植時間和方法)

導讀1、【特征特性】  生菜按葉片的色澤區(qū)分有綠生菜、紫生菜兩種。2
08-27 05:56:46
肇俊哲發(fā)文道歉:三連敗責任在我,今晚有點沖動沒有辱罵裁判

肇俊哲發(fā)文道歉:三連敗責任在我,今晚有點沖動沒有辱罵裁判

直播吧8月26日訊中超聯(lián)賽第24輪,滄州雄獅主場1-5慘敗北京國安。比賽中
08-26 23:19:44
農(nóng)業(yè)農(nóng)村部部署華西黃淮等地持續(xù)強降雨防范應對工作

農(nóng)業(yè)農(nóng)村部部署華西黃淮等地持續(xù)強降雨防范應對工作

據(jù)中央氣象臺預報,8月26—28日,我國華西至黃淮一帶自西向東將出現(xiàn)強
08-26 20:40:57
苦苦支撐!霍利斯-杰弗森5中4砍半場最高15分加5板 球隊落后13分

苦苦支撐!霍利斯-杰弗森5中4砍半場最高15分加5板 球隊落后13分

苦苦支撐!霍利斯-杰弗森5中4砍半場最高15分加5板球隊落后13分,男籃,約
08-26 18:08:04
東盟三國簽署本幣交易協(xié)議,減少對美元依賴

東盟三國簽署本幣交易協(xié)議,減少對美元依賴

當?shù)貢r間8月25日,第十屆東盟財長和央行行長會議在印尼首都雅加達舉辦
08-26 15:51:41
常山北明7月3日快速上漲

常山北明7月3日快速上漲

以下是常山北明在北京時間7月3日11:07分盤口異動快照:7月3日,常山北
08-26 14:12:25
額竇炎癥狀表現(xiàn)有哪些(額頭炎是什么癥狀)

額竇炎癥狀表現(xiàn)有哪些(額頭炎是什么癥狀)

我是小前,我來為大家解答以上問題。額竇炎癥狀表現(xiàn)有哪些,額頭炎是什
08-26 12:01:21
快訊 | 贏家時尚2023年上半年總收入同比增長15.36%至33.41億元,純利同比增長71.57%

快訊 | 贏家時尚2023年上半年總收入同比增長15.36%至33.41億元,純利同比增長71.57%

財經(jīng)網(wǎng)生活訊8月25日晚,贏家時尚發(fā)布2023年半年度報告,披露公司總收
08-26 10:07:53
奧運冠軍成母校講師!剛剛曬過畢業(yè)照……

奧運冠軍成母校講師!剛剛曬過畢業(yè)照……

8月25日,北京大學官網(wǎng)顯示,乒乓球奧運冠軍丁寧已擔任北京大學體育教
08-26 09:34:54

為您推薦

精彩推送