一個AI驅動百萬個API!微軟提出多任務處理模型TaskMatrix
蕭簫 發自 凹非寺
量子位 | 公眾號 QbitAI通往AGI的路究竟怎么走,微軟有了新想法——
基于ChatGPT這類大模型的強大理解能力,將輸入的任何信號拆解成一個個可完成的任務,交給其他的AI和程序完成。
簡單來說,就像是建了一座司令塔,每個大模型都能成為其中的“大腦”指揮官,其他專門解決某類任務的模型,則聽它調令——
這樣一來,不限定某個AI,所有大模型都能使用這套方法。
能解決什么問題?
人類只需要提需求,AI從自動做PPT、Word和Excel三件套(Office自動化),到驅動機器人完成各種智能任務,都能搞定。
這個最新的研究名叫TaskMatrix,據微軟表示,它能直接驅動數百萬個用于完成任務的AI和API。

論文還引用了OpenAI CEO奧特曼那句AI版摩爾定律:
宇宙中的智能數量每18個月翻一番。
一起來看看TaskMatrix是怎樣工作的。
AI“司令塔”如何工作?
這是TaskMatrix的整體工作流程:

從架構圖來看,TaskMatrix可以被分為四部分:
- 多模態對話基礎模型(MCFM):與用戶對話并了解需求,從而生成API可執行代碼以完成特定任務
- API平臺:提供統一API格式,存儲數百萬個不同功能的API,允許擴展和刪除API
- API選擇器:負責根據MCFM生成的內容推薦API
- API執行器:調用API并執行生成代碼,給出結果
簡單來說,MCFM負責生成解決方案,API選擇器從API平臺中選取API,隨后API執行器基于MCFM生成的代碼調用API,并解決任務。
其中,為了統一API管理,API平臺又給API統一了文檔格式,包含以下五個部分:
API名稱(提供API摘要,避免與其他API混淆),參數列表(包含輸入參數和返回值等),API描述(功能描述),組合指令(如何組合多個API完成復雜用戶指令)
例如這是“打開本地文件”API的文檔格式:

據微軟介紹,搭建TaskMatrix的原因,從學術角度來說主要有兩點。
其一,擴大AI適用范圍,如通過擴展API來提升可完成任務的類型和數量;其二,便于進一步提升AI可解釋性,通過觀察AI分配任務的方式就能理解它的“思路”。
能完成什么任務了?
目前從已經搭建好的TaskMatrix部分來看,它能完成的任務已經非常廣泛。
小到文字、圖像信息的基礎信息處理,大到控制機器人平臺、接入物聯網這種通用平臺任務,TaskMatrix都能搞定。
先來看看圖像處理任務。
TaskMatrix解讀用戶想要完成的任務后,就能通過對話的方式,搞定PS(把老人背景P成白的)、解讀圖像、文生圖、草圖轉真實圖像、摳圖等一系列現實生活中常見的圖像處理操作:

如果說這些都還太常見,基于TextMatrix還能搞定真·圖像擴展,基于一小角擴展到一整張圖的那種,而不僅僅是采用平鋪的方式。例如輸入一朵花:

輸出一片花田:

再來看看文字處理任務。
以往需要手動改AI寫過的方案,如今直接將問題拋給AI,它就能完成,例如具體修改某個特定的步驟。

(像不像被甲方一點點催改文件的樣子?只是如今你變成了甲方)
以后生成文章,就是連插圖都配好的那種:

當然,既然是微軟的研究,少不了調用Office系列的API,包括做PPT這種活,如今交給AI來做就行:

再進一步到通用任務上,之前一直存在瓶頸的機器人和物聯網等平臺,如今TaskMatrix也給出了解決通用任務的方案。
家里接入AI后,和它對話就能完成你想要的各種瑣碎任務,包括定鬧鐘、查看天氣等:

屬實是解放人類生產力了。
你想好把它用在哪里了嗎?
論文地址:
https://arxiv.org/abs/2303.16434— 完 —
量子位 QbitAI · 頭條號簽約
隨便看看:
相關推薦:
網友評論:
推薦使用友言、多說、暢言(需備案后使用)等社會化評論插件