回到首頁
個人.家庭.數位化 - 數位之牆



產業動態 開源大型視覺語言模型 具備圖文理解能力 阿里雲促進開園生態圈發展
The Hoffman Angency 本新聞稿發佈於2023/09/01,由發布之企業承擔內容之立場與責任,與本站無關

阿里雲宣佈推出兩款大規模視覺語言模型Qwen-VL及Qwen-VL-Chat,支持中英文圖文輸入,並具備多模態訊息理解能力,目前已在其開源社區魔搭(ModelScope)及AI協作平台Hugging Face上架,促進開源生態發展。

 
■ 發布/輪播新聞稿 新聞稿直達14萬電子報訂戶刊登新聞稿:按此
 
Qwen-VL和Qwen-VL-Chat是支持中英文語言的視覺語言模型,以阿里雲之前開源的通義千問70億參數模型Qwen-7B為基礎語言模型研發,除具備中英文圖文識別、描述和問答對話能力,更新增視覺定位和圖像文字理解能力。

Qwen-VL及基於這一模型微調的對話模型Qwen-VL-Chat可用於知識問答、圖像標題生成、圖像問答、文件問答、細粒度視覺定位等多種場景。例如用戶可拍下醫院樓層導覽圖,問Qwen-VL Chat:「外科在哪層?」、「耳鼻喉科去哪層?」,Qwen-VL會根據圖片訊息給出文字回覆。

為進一步助力AI技術普惠,全球學術、研究及商業機構均可免費獲取上述模型的代碼、模型權重和文件。對於商業應用需求,月活躍用戶少於1億的公司可免費使用模型,用戶數超過該量級的企業可向阿里雲申請許可證。

Qwen-VL和Qwen-VL-Chat以Qwen-7B為基座語言模型,在模型架構上引入視覺編碼器,使得模型支持視覺訊號輸入,並透過設計訓練過程,讓模型具備對視覺訊號的細粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448,此前開源的LVLM模型通常僅支持224分辨率。在 Qwen-VL 的基礎上,通義千問團隊使用對齊機制,打造基於LLM的視覺AI助手Qwen-VL-Chat,可讓開發者快速搭建具備多模態能力的對話應用。

在四大類多模態任務(Zero-shot Caption/VQA/DocVQA/Grounding)的標準英文測評中,Qwen-VL取得同等尺寸開源VL模型中的最好效果。為了測試模型的多模態對話能力,通義千問團隊構建一套基於GPT-4算分機制的測試集「試金石」,對Qwen-VL-Chat及其他模型進行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得開源LVLM最好結果。

8月初,阿里雲開源通義千問70億參數通用模型Qwen-7B和對話模型Qwen-7B-Chat。不到一個月,兩個模型在開源社區的累計下載量已突破40萬。

如欲了解更多Qwen-VL及Qwen-VL-Chat詳情,可瀏覽ModelScope 、HuggingFace及GitHub的模型網頁,以及模型的技術論文。

更多詳情請參考阿里足跡:阿里雲開源大規模視覺語言模型 具備圖文理解能力

- 新聞稿有效日期,至2023/10/02為止


聯絡人 :Nikki Lee
聯絡電話:070-1010-2090#54
電子郵件:nlee@hoffman.com

上一篇:G CLINIC宸曜榮獲「癌友友善標章-品牌金獎」
下一篇:光大環境2023年中期業績公佈 新增規模居首



 
搜尋本站


最新科技評論

我在中國工作的日子(十四)阿里巴巴敢給股票 - 2023/07/02

我在中國工作的日子(十三)上億會員怎麼管理 - 2023/06/25

我在中國工作的日子(十二)最好的公司支付寶 - 2023/06/18

我在中國工作的日子(十一)兩個女人一個男人 - 2023/06/11

我在中國工作的日子(十)千團大戰影音帶貨 - 2023/06/04

我在中國工作的日子(九)電視購物轉型電商 - 2023/05/28

我在中國工作的日子(八)那些從台灣來的人 - 2023/05/21

我在中國工作的日子(七)嘉丰資本擦身而過 - 2023/05/14

我在中國工作的日子(六)跟阿福有關的人們 - 2023/05/07

■ 訂閱每日更新產業動態
RSS
RSS

當月產業動態

Information

 

 


個人.家庭.數位化 - 數位之牆

欲引用本站圖文,請先取得授權。本站保留一切權利 ©Copyright 2023, DigitalWall.COM. All Rights Reserved.
Question ? Please mail to service@digitalwall.com

歡迎與本站連結!