一级黄片免费在线播放_国产黄片在线免费看_日本8X无码毛片_日韩无码一级簧片_中日韩一级免费黄片_www.黄色视频.com_亚洲免费成人电影大全_韩国一级黄片在线免费看_一级免费黄片视频

羅戈網(wǎng)
搜  索
登陸成功

登陸成功

積分  

機(jī)器人看圖說話能力比肩人類!中國AI超越微軟,打破世界紀(jì)錄

[羅戈導(dǎo)讀]正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機(jī)對話系統(tǒng)所描繪的那樣,擁有智能視覺對話能力的AI隨著技術(shù)的不斷突破,正在向我們走來。

每個(gè)人都有這樣的回憶,小時(shí)候語文老師教我們看圖說話,許多小朋友腦洞大開,說出來的答案讓人啼笑皆非。實(shí)際上,看圖說話的能力在年幼時(shí)期需要訓(xùn)練,而對于大一點(diǎn)孩子來說就不成問題了。如今,機(jī)器人也能做到看圖說話了。

近日,來自中國AI在這項(xiàng)能力上已經(jīng)打破了世界紀(jì)錄。在第二屆全球AI視覺對話競賽中,阿里AI擊敗了微軟、首爾大學(xué)等十支參賽隊(duì)伍,一舉獲得冠軍。

阿里AI在視覺對話競賽中得冠

會“看圖說話”的AI有多聰明?

這場視覺對話競賽由美國佐治亞理工大學(xué)、Facebook人工智能實(shí)驗(yàn)室(FAIR)等機(jī)構(gòu)聯(lián)合全球視覺技術(shù)領(lǐng)域頂級學(xué)術(shù)會議CVPR發(fā)起,是目前視覺對話領(lǐng)域最權(quán)威的競賽之一。

該競賽要求參賽的AI在看完近萬張圖片后,回答出人類對于任一圖片任一內(nèi)容的提問。這要求AI不僅能夠描述出圖片中內(nèi)容的概況,還要經(jīng)得起人類對圖片各種細(xì)節(jié)的追問。比如,在一張撐著雨傘的人物圖片中,說出傘是什么顏色的,有多少人在圖中,附近有什么物品和建筑物等等信息。

視覺對話中AI可以從容應(yīng)對人類提問(左為AI、右為人類)

競賽結(jié)果顯示,阿里AI以74.57%的準(zhǔn)確率獲得冠軍,將上一屆比賽的紀(jì)錄提高了16.82%,并且超過微軟AI的64.78%的準(zhǔn)確率。而在相同的數(shù)據(jù)集中,人類的準(zhǔn)確率僅為64.27%,AI甚至勝過了人類。

傳統(tǒng)的視覺AI主要針對目標(biāo)的檢測和識別,但對復(fù)雜場景中目標(biāo)之間的邏輯關(guān)系理解、推理能力較弱,無法回答表達(dá)圖片對象直接關(guān)系的復(fù)雜問題,也難以將圖片信息轉(zhuǎn)化為人類理解的語言輸出。

這意味著,要實(shí)現(xiàn)視覺對話能力,傳統(tǒng)的視覺AI在學(xué)會“看圖”之后,還要有一種語言模型來支撐它“說話”。阿里AI的突破就在于提出了“遞歸探索對話模型”。

視覺對話AI與用戶交流圖像內(nèi)容

這一模型通過標(biāo)注信息學(xué)習(xí)出模仿人類認(rèn)知復(fù)雜場景的思維方式,能識別圖片里的實(shí)體以及它們之間的關(guān)系,推理出圖片所描述的事件內(nèi)容,并通過對上下文進(jìn)行有效建模,綜合集成了圖像識別、關(guān)系推理與自然語言理解三大能力,能理解人類提出的問題及真實(shí)意圖,給出自然準(zhǔn)確的回復(fù)。

視覺對話能力讓AI邁上新臺階

AI能“看圖說話”,這樣的應(yīng)用其實(shí)距離我們并不遙遠(yuǎn),微軟之前推出了一款年齡測試工具How-old.net ,曾經(jīng)刷爆微博和朋友圈,所應(yīng)用的就是這一技術(shù)的應(yīng)用。

目前微軟還開放了能“看圖說話”的AI系統(tǒng),用戶進(jìn)入官網(wǎng)上傳圖片,稍等一會,就能看到系統(tǒng)對于圖片的描述。其準(zhǔn)確率雖然不低但依舊有待提升,以一張?jiān)?jīng)廣為流傳的黑人問號表情圖片為例,AI很快給出了客觀的回答:“我覺得這是籃球隊(duì)員尼克楊露出牙齒微笑。”

AI視覺對話識別圖片信息

以“看圖說話”為代表的視覺對話是近年來快速崛起的AI研究方向,目的在于教會機(jī)器用自然語言與人類討論視覺內(nèi)容,這能夠使機(jī)器擁有了對真實(shí)視覺世界的理解與推斷能力,也意味著AI的認(rèn)知能力將邁上新的臺階。

可以預(yù)見,這項(xiàng)技術(shù)未來將被應(yīng)用在人機(jī)交互諸多場景:

在火災(zāi)、地震后在廢墟中尋找幸存者的救援機(jī)器人,能夠代替人類之眼,深入危險(xiǎn)的現(xiàn)場,及時(shí)、高效地綜合指揮指令和場景信息作出行動。

視覺對話技術(shù)有望人類提高地震救援效率

視障人士可以通過提問AI,理解圖像中的內(nèi)容,了解自身所處的周圍環(huán)境,為其生活起居帶來更多的便利。

無人駕駛車輛也可以在行駛中通過視覺對話,更加準(zhǔn)確理解人類意圖征詢?nèi)祟惖囊庖?,讓乘客的乘坐體驗(yàn)更好。

正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機(jī)對話系統(tǒng)所描繪的那樣,擁有智能視覺對話能力的AI隨著技術(shù)的不斷突破,正在向我們走來。

免責(zé)聲明:羅戈網(wǎng)對轉(zhuǎn)載、分享、陳述、觀點(diǎn)、圖片、視頻保持中立,目的僅在于傳遞更多信息,版權(quán)歸原作者。如無意中侵犯了您的版權(quán),請第一時(shí)間聯(lián)系,核實(shí)后,我們將立即更正或刪除有關(guān)內(nèi)容,謝謝!
上一篇:極智嘉Geek+宣布完成C1輪主力融資,領(lǐng)跑智能物流機(jī)器人全球化發(fā)展
下一篇:樂天將在日本公路上測試自動送貨機(jī)器人
羅戈訂閱
周報(bào)
1元 2元 5元 10元

感謝您的打賞

登錄后才能發(fā)表評論

登錄

相關(guān)文章

2025-02-07
2025-02-07
2025-02-07
2025-02-06
2025-02-06
2025-02-06
活動/直播 更多

2.22北京【線下公開課】倉儲精細(xì)化管理:從混亂到有序

  • 時(shí)間:2025-02-22 ~ 2025-02-23
  • 主辦方:馮銀川
  • 協(xié)辦方:羅戈網(wǎng)

¥:2580.0元起

報(bào)告 更多

2024年12月物流行業(yè)月報(bào)-個(gè)人版

  • 作者:羅戈研究

¥:9.9元