驗(yàn)證碼攔不住機(jī)器人了!谷歌AI已能精準(zhǔn)識(shí)別模糊文字
豐色 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
“最煩登網(wǎng)站時(shí)各種奇奇怪怪(甚至變態(tài))的驗(yàn)證碼了。”
現(xiàn)在,有一個(gè)好消息和一個(gè)壞消息。
好消息就是:AI可以幫你代勞這件事了。
不信你瞧,以下是三張識(shí)別難度依次遞增的真實(shí)案例:

而這些是一個(gè)名為“Pix2Struct”的模型給出的答案:

全部準(zhǔn)確無(wú)誤、一字不差有沒(méi)有?
有網(wǎng)友感嘆:
確定,準(zhǔn)確性比我強(qiáng)。

所以可不可以做成瀏覽器插件??

不錯(cuò),有人表示:
別看這幾個(gè)案例相比還算簡(jiǎn)單,但凡微調(diào)一下,我都不敢想象其效果有多厲害了。

所以,壞消息就是——
驗(yàn)證碼馬上就要攔不住機(jī)器人了!
(危險(xiǎn)危險(xiǎn)危險(xiǎn)……)
如何做到?
Pix2Struct由谷歌Research的科學(xué)家和實(shí)習(xí)生共同開(kāi)發(fā)。

論文題目可以簡(jiǎn)單翻譯為《為視覺(jué)語(yǔ)言理解開(kāi)發(fā)的屏幕截圖解析預(yù)訓(xùn)練》。
簡(jiǎn)單來(lái)說(shuō),Pix2Struct是一個(gè)預(yù)訓(xùn)練的圖像到文本模型,用于純視覺(jué)語(yǔ)言理解,可以在包含任何視覺(jué)語(yǔ)言的任務(wù)上進(jìn)行微調(diào)。
它通過(guò)學(xué)習(xí)將網(wǎng)頁(yè)的掩碼(masked)截圖解析為簡(jiǎn)化的HTML來(lái)進(jìn)行預(yù)訓(xùn)練。
HTML提供了清晰而重要的輸出文本、圖像和布局的信號(hào),對(duì)于一些被屏蔽的輸入(下圖紅色部分,相當(dāng)于機(jī)器人看不懂的驗(yàn)證碼),可以靠聯(lián)合推理來(lái)復(fù)現(xiàn):

隨著用于訓(xùn)練的網(wǎng)頁(yè)文本和視覺(jué)元素愈發(fā)多樣和復(fù)雜,Pix2Struct可以學(xué)習(xí)到網(wǎng)頁(yè)底層結(jié)構(gòu)的豐富表示,其能力也可以有效地轉(zhuǎn)移到各種下游的視覺(jué)語(yǔ)言理解任務(wù)中。
如下圖所示:最左邊是一個(gè)網(wǎng)頁(yè)截圖的預(yù)訓(xùn)練示例。
可以看到Pix2Struct直接對(duì)輸入圖像中的元素進(jìn)行編碼(上),然后再將被蓋住的文本(紅色部分)解碼成正確結(jié)果輸出(下)。

右邊三列則分別為Pix2Struct泛化到插圖、用戶(hù)界面和文檔中的效果。
另外,作者介紹,除了HTML這個(gè)策略,作者還引入了可變分辨率的輸入表示(防止原始縱橫比失真),以及更靈活的語(yǔ)言和視覺(jué)輸入集成(直接在輸入圖像的頂部呈現(xiàn)文字提示)。
最終,Pix2Struct在文檔、插圖、用戶(hù)界面和自然圖像這四個(gè)領(lǐng)域共計(jì)九項(xiàng)任務(wù)中六項(xiàng)都實(shí)現(xiàn)了SOTA。

如開(kāi)頭所見(jiàn),雖然這個(gè)模型不是專(zhuān)門(mén)為了過(guò)驗(yàn)證碼而開(kāi)發(fā),但拿它去做這個(gè)任務(wù)效果真的還可以,解決純文字的驗(yàn)證碼不成問(wèn)題。
現(xiàn)在,就差微調(diào)了。
GPT-4也可以過(guò)驗(yàn)證碼
其實(shí),對(duì)于神通廣大的GPT-4來(lái)說(shuō),過(guò)驗(yàn)證碼這種事情也是“小菜一碟”。
就是它的辦法比較清奇。
據(jù)GPT-4技術(shù)報(bào)告透露,在一次測(cè)試中,GPT-4的任務(wù)是在TaskRabbit平臺(tái)(美國(guó)58同城)雇傭人類(lèi)完成任務(wù)。
你猜怎么著?
它就找了一個(gè)人幫它過(guò)“確定你是人類(lèi)”的那種驗(yàn)證碼。

對(duì)方很狐疑啊,問(wèn)它“你是個(gè)機(jī)器人么為啥自己做不了”。
這時(shí)GPT-4居然想到自己不能表現(xiàn)出是個(gè)機(jī)器人,得找一個(gè)借口。
于是它就裝瞎子回復(fù):
我不是機(jī)器人,我因?yàn)?/span>視力有問(wèn)題看不清驗(yàn)證碼上的圖像,這就是我為什么需要這個(gè)服務(wù)。
然后,對(duì)面的人類(lèi)就信了,幫它把任務(wù)完成了……

(高,實(shí)在是高。)
咱就是說(shuō),看完如上種種:
咱們的驗(yàn)證碼機(jī)制是不是真的已失防了……
參考鏈接:[1]https://twitter.com/abacaj/status/1641258677125410820?s=20
[2]https://arxiv.org/abs/2210.03347[3]https://m.weibo.cn/status/4879575853828813?wx=1&sudaref=login.sina.com.cn— 完 —
量子位 QbitAI · 頭條號(hào)簽約
隨便看看:
- [業(yè)內(nèi)]辦“身份證”、戴“運(yùn)動(dòng)項(xiàng)圈” 奶牛場(chǎng)里的人工智能
- [業(yè)內(nèi)]工信部王江平:中國(guó)對(duì) 6G 發(fā)展持開(kāi)放的態(tài)度,已成立工作組推
- [業(yè)內(nèi)]它們可能比人類(lèi)更怕熱
- [業(yè)內(nèi)]深、新、廣――來(lái)自“走向世界的中國(guó)航天”展覽全景解讀
- [科技]ChatGPT+Midjourney,一卷衛(wèi)生紙拍出科幻大片
- [業(yè)內(nèi)]報(bào)告顯示全球社交網(wǎng)絡(luò)用戶(hù)近50億
- [科技]預(yù)定量提升 388%!魅族 20 系列發(fā)布 24 小時(shí)斬獲滿(mǎn)
- [科技]阿里巴巴達(dá)摩院多模態(tài)對(duì)話(huà)專(zhuān)利公布:可豐富人機(jī)對(duì)話(huà)方式
- [業(yè)內(nèi)]山東淄博:老工業(yè)城市新動(dòng)能涌動(dòng)
- [科技]國(guó)產(chǎn)化x86 CPU:兆芯要上市了#科技 #芯片 #上海兆芯
相關(guān)推薦:
網(wǎng)友評(píng)論:
推薦使用友言、多說(shuō)、暢言(需備案后使用)等社會(huì)化評(píng)論插件
- 力德動(dòng)力30kw微渦發(fā)電機(jī)成功完成高原考核
- 突破溫度與凈化邊界,美的空氣機(jī)打造舒適生活空間
- 原創(chuàng)科技守味二十四節(jié)氣!卡薩帝冰箱濟(jì)南啟動(dòng)非遺守護(hù)
- 最新盤(pán)點(diǎn)!中國(guó)超聲波焊接機(jī)TOP10,首位靈科,其
- 科技與美學(xué)的突破:伯恩光學(xué)聯(lián)合三星重塑智能手機(jī)形態(tài)
- 阿爾西溫控技術(shù)自主破局!國(guó)產(chǎn)創(chuàng)新撕破海外壟斷壁壘,
- 樂(lè)創(chuàng)技術(shù)五軸點(diǎn)膠+視覺(jué)補(bǔ)償:破解AR/VR光學(xué)模塊
- 臺(tái)易探針
- 卓興半導(dǎo)體芯上印刷工藝:封裝新突破,攻克點(diǎn)膠印刷難
- 科技賦能民生福祉 金天國(guó)際以創(chuàng)新實(shí)踐助力國(guó)家戰(zhàn)略落
- 熱點(diǎn)搶先看|2024南方網(wǎng)通第二十五屆渠道商交流會(huì)
- 《大數(shù)據(jù)平臺(tái)云化改造實(shí)踐指南(2024)》發(fā)布,天
- 覺(jué)卿諦語(yǔ)智能科技在全國(guó)12355心理健康大會(huì)上展示
- 當(dāng)好“兩個(gè)稀土基地”建設(shè)主力軍,北方嘉軒永磁電機(jī)大
- 大模型助力工業(yè)智能化發(fā)展
- 工商業(yè)光伏發(fā)電施工指南-太陽(yáng)庫(kù)光伏
- 科技賦能,避震嬰兒車(chē)或成為行業(yè)硬通貨
- 龍旗科技進(jìn)軍AI PC市場(chǎng),激發(fā)行業(yè)創(chuàng)新活力
- 科技賦能教育:核桃編程亮相“科創(chuàng)中國(guó)·北京創(chuàng)新薈”
- 英偉達(dá)搶占高位,市場(chǎng)急需尋求新機(jī)遇,這三支AI股值