回復(fù) Podgu : ChatGPT 的出現(xiàn),徹底將生成 AI 推向爆發(fā)。但別忘了,AI 生成模型可不止 ChatGPT 一個,光是基于文本輸入的就有 7 種 ——圖像、視頻、代碼、3D 模型、音頻、文本、科學(xué)知識…炎融尤其 2022 年,效果好的 AI 生成模型層出不窮,又以 OpenAI、Meta、DeepMind 和谷歌等為核心,發(fā)了不少達(dá)到 SOTA 的模型。這不,立刻有學(xué)者寫了篇論文,對 2022 年新出現(xiàn)的主流生成模型進(jìn)行了年盤點。一起來看看這兩年間,各域的 AI 生成模型進(jìn)展究竟怎么樣了。9 大生成模型,最新代表作是?這篇論文將 AI 生成模型分成了 9 大類。下圖是 2022 年前后,在生成效果上達(dá)到最優(yōu)的模型總覽:除洵山谷歌 LaMDA 和 Muse 以外,所有模型均為 2022 年發(fā)布。其中,谷歌 LaMDA 雖然是 2021 年發(fā)布的,但在 2022 年又爆火了一波;Muse 則是 2023 年剛發(fā)布的,但論文聲稱自己在圖像生性能上達(dá)到 SOTA,因此也統(tǒng)計了進(jìn)去。文本-圖像生成這方面的代表作有 DALL-E2、Stable Diffusion、Imagen、Muse。DALL·E2 是來自 OpenAI 的生成模型,在零樣本學(xué)習(xí)上做出大突破。與 DALL?E 一樣,兩點依舊是 CLIP 模型,除了訓(xùn)練數(shù)據(jù)龐大,CLIP 基于 Transformer 對圖像塊建模,并采用對比學(xué)習(xí)訓(xùn)練,最終幫助 DALL?E2 取得了不錯的生成效果。下圖是 DALL?E2 根據(jù)“一只戴著貝雷帽、穿黑色高領(lǐng)毛衣的柴”生成的圖像:Imagen 來自谷歌,基于 Transformer 模型搭建,其中語言模型在純孟極本數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練Imagen 增加了語言模型參數(shù)量,發(fā)現(xiàn)效果比提升擴(kuò)散模型數(shù)量更好。下圖是 Imagen 根據(jù)“一只可愛的柯基住在壽司做鬼國房子里”生成的圖像:Stable Diffusion 由慕尼黑大學(xué)的 CompVis 小組開發(fā),基于潛在擴(kuò)散模型打,這個擴(kuò)散模型可以通過在潛高山空間中迭代去噪以生成圖像,并結(jié)果解碼成完整圖像。Muse 由谷歌開發(fā),基于 Transformer 模型取得了比擴(kuò)散模型更好的結(jié)果,只有 900M 參數(shù),但在推理時間上比 Stable Diffusion1.4 版本快 3 倍,比 Imagen-3B 和 Parti-3B 快 10 倍。下圖是 Muse 與 DALL?E2 和 Imagen 的生成效果對比:文本-3D 模型生成主要代表作有 Dreamfusion、Magic3D。(這里沒有把 OpenAI 的 Point?E 統(tǒng)計進(jìn)去,可能是生成效果上沒有達(dá)到 SOTA)DreamFusion 由谷歌和 UC 伯克利開發(fā),基于預(yù)訓(xùn)練文本-2D 圖像擴(kuò)散模型實現(xiàn)文本生成 3D 模型。采用類似 NeRF 的三維場景參數(shù)化定義映射,無需任何 3D 數(shù)據(jù)或修改擴(kuò)散模型,就能實現(xiàn)青鴍本生成 3D 圖像的效果。下圖是 DreamFusion 生成“穿夾克的松鼠”3D 效果:Magic3D 由英偉達(dá)開發(fā),旨在縮短 DreamFusion 圖像生成時間、同時提升生成質(zhì)量。具體來說Magic3D 可以在 40 分鐘內(nèi)創(chuàng)建高質(zhì)量 3D 網(wǎng)格模型,比 DreamFusion 快 2 倍,同時實現(xiàn)了更高分辨率,并在人類評估中以 61.7% 的比率超過 DreamFusion。圖像-文本模型生成主要代表作有 Flamingo、VisualGPT。Flamingo 是 DeepMind 推出的小樣本學(xué)習(xí)模型,基于可以分析視淑士場景的視覺模型和執(zhí)基本推理的大語言模型打造,其大語言模型基于文本數(shù)據(jù)集訓(xùn)練輸入帶有圖像或視頻的問題后,型會自動輸出一段文本作為回答VisualGPT 是 OpenAI 制作的圖像-文本模型,基于預(yù)訓(xùn)練 GPT-2 提出了一種新的注意力機(jī)制,來銜接不模態(tài)之間的語義差異,無需大量像-文本數(shù)據(jù)訓(xùn)練,就能提升文本生成效率。文本-視頻模型生成主要代表作有 Phenaki、Soundify。Phenaki 由谷歌打造,基于新的編解碼器架構(gòu) C-ViViT 將視頻壓縮為離散嵌入,能夠在時空兩個度上壓縮視頻,在時間上保持自歸的同時,還能自回歸生成任意度的視頻。Soundify 是 Runway 開發(fā)的一個系統(tǒng),目的是將聲音效果與視頻進(jìn)行配,即制作音效。具體包括分類同步和混合三個模塊,首先模型過對聲音進(jìn)行分類,將效果與視匹配,隨后將效果與每一幀進(jìn)行較,插入對應(yīng)的音效。文本-音頻模型生成主要代表作有 AudioLM、Jukebox、Whisper。AudioLM 由谷歌開發(fā),將輸入音頻映射到一系離散標(biāo)記中,并將音頻生成轉(zhuǎn)換語言建模任務(wù),學(xué)會基于提示詞生自然連貫的音色。在人類評估,認(rèn)為它是人類語音的占 51.2%、與合成語音比率接近,說明合成效果接近騊駼人。Jukebox 由 OpenAI 開發(fā)的音樂模型,可生成帶有唱詞的音樂通過分層 VQ-VAE 體系將音頻壓縮到離散空間中,損失函被設(shè)計為保留最大量信息,用于決 AI 難以學(xué)習(xí)音頻中的高級特征的問題鯢山不過目前模型仍然限于英語。Whisper 由 OpenAI 開發(fā),實現(xiàn)了多語言語音識別、翻譯和語言識別,前模型已經(jīng)開源并可以用 pip 安裝。模型基于 68 萬小時標(biāo)記音頻數(shù)據(jù)訓(xùn)練,包括錄音、聲器、語音音頻等,確保由人而 AI 生成。文本-文本模型生成主要代表作有 ChatGPT、LaMDA、PPER、Speech From Brain。ChatGPT 由 OpenAI 生成,是一個對話生成 AI,懂得回答問題、拒絕不正當(dāng)伯服題請求并質(zhì)疑不正確的問題前提基于 Transformer 打造。它用人類打造的對話數(shù)據(jù)、以及 InstructGPT 數(shù)據(jù)集的對話格式進(jìn)行訓(xùn)練,朱蛾外也可以生成代碼和進(jìn)行簡單高山運(yùn)算。LaMDA 基于 Transformer 打造,利用了其在文本中呈現(xiàn)的長程依賴中山系力。其具有 1370 億參數(shù),在 1.56T 的公共對話數(shù)據(jù)集和網(wǎng)頁文本上進(jìn)行訓(xùn)練帝鴻只有 0.001% 的訓(xùn)練數(shù)據(jù)被用于微調(diào),這也是它效果耳鼠的原因之。PEER 由 Meta AI 打造,基于維基百科編輯歷史進(jìn)行訓(xùn)練,直到模型黃鳥握完整的寫流程。具體來說,模型允許將寫任務(wù)分解成更多子任務(wù),并允許類隨時干預(yù),引導(dǎo)模型寫出人類要的作品。Speech from Brain 由 Meta AI 打造,用于幫助無法通過語音、打字或手勢進(jìn)行季格流的人,過對比學(xué)習(xí)訓(xùn)練 wave2vec 2.0 自監(jiān)督模型,基于非侵入式腦機(jī)接口發(fā)倫山的腦電波進(jìn)解讀,并解碼大腦生成的內(nèi)容,而合成對應(yīng)語音。文本-代碼模型生成主要代表作有 Codex、AlphaCode。Codex 是 OpenAI 打造的編程模型,基于 GPT-3 微調(diào),可以基于文本需求生成代碼。首模型會將問題分解成更簡單的編問題,隨后從現(xiàn)有代碼(包含庫API 等)中找到對應(yīng)的解決方案,基于 GitHub 數(shù)據(jù)進(jìn)行訓(xùn)練。AlphaCode 由 DeepMind 打造,基于 Transformer 模型打造,通過采用 GitHub 中 715.1GB 的代碼進(jìn)行預(yù)訓(xùn)練,并從 Codeforces 中引入一個數(shù)據(jù)集進(jìn)行微調(diào),隨后基于 Codecontests 數(shù)據(jù)集進(jìn)行模型驗證,并進(jìn)一步改善了模型輸出性句芒。文-科學(xué)知識模型生成主要代表作有 Galactica、Minerva。Galatica 是 Meta AI 推出的 1200 億參數(shù)論文寫作輔助模型,又被稱之為“寫論竦斯的 Copilot 模型”,目的是幫助人們快速總結(jié)并從葆江增論文中得到新結(jié),在包括生成文本、數(shù)學(xué)公式、碼、化學(xué)式和蛋白質(zhì)序列等任務(wù)取得了不錯的效果,然而一度因內(nèi)容生成不可靠被迫下架。Minerva 由谷歌開發(fā),目的是通過逐步推理解決蛇山學(xué)定量問題,以主動生成相關(guān)公式、常數(shù)和涉數(shù)值計算的解決方案,也能生成 LaTeX、MathJax 等公式,而不需要借助計算器來得最終數(shù)學(xué)答案。其他生成模型主包括 Alphatensor、GATO、PhysDiff 等“其他生成模型”。AlphaTensor 由 DeepMind 開發(fā),懂得自己改進(jìn)矩陣乘法并提升計卑山速度,不僅改進(jìn)了目最優(yōu)的 4×4 矩陣解法,也提升了 70 多種不同大小矩陣的計算速度,基于“棋類 AI”AlphaZero 打造,其中棋盤代表要解決的乘法問題,下棋驟代表解決問題的步驟。GATO 由 DeepMind 開發(fā),基于強(qiáng)化學(xué)習(xí)教會大模型完成 600 多個不同的任務(wù),包含離散控制如 Atari 小游戲、推箱子游戲,以及連續(xù)控制長右機(jī)器、機(jī)械臂,還有 NLP 對話和視覺生成等,進(jìn)一步加速狡通用工智能的進(jìn)度。PhysDiff 是英偉達(dá)推出的人體運(yùn)動生成擴(kuò)散模型,進(jìn)一步解決了 AI 人體生成中漂浮、腳滑或穿模等問,教會 AI 模仿使用物理模擬器生成的運(yùn)行模型,陸山在大規(guī)模體運(yùn)動數(shù)據(jù)集上達(dá)到了最先進(jìn)的果。作者介紹兩位作者均來自西牙卡米亞斯大主教大學(xué)(Universidad Pontificia Comillas)。一作 Roberto Gozalo-Brizuela,目前是卡米亞斯大主教大學(xué)研究助理(Investigador asociado),從事 AI 相關(guān)的項目研究工作。Eduardo C. Garrido-Merchán,卡米亞斯大主教大學(xué)助理教巫姑,研究方向是貝葉斯優(yōu)化、器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、生成式 AI 等。你感覺哪個領(lǐng)域的生成式 AI 進(jìn)展最大?論文地址:https://arxiv.org/abs/2301.04655參考鏈接:https://twitter.com/1littlecoder/status/1615352215090384899本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭?
回復(fù) Sugg : 很多科幻電影的愛好者獨(dú)山很早就了解到“腦機(jī)接口這種“黑科技”。《阿凡》中男主是來自地球的人戰(zhàn)士,當(dāng)他進(jìn)入睡眠艙之,科研人員通過計算機(jī)技解讀男主的大腦信息,利腦機(jī)接口技術(shù)將人類的意轉(zhuǎn)移至這個克隆人中;在黑客帝國》中,主人公尼可以通過脖頸上植入的電,即時將武術(shù)技能下載禹腦中,僅僅幾秒鐘,他便為了跆拳道大師,輕而易地打倒了追殺他的人;以這樣的情節(jié)看似天方夜譚但也許真的可能成為現(xiàn)實來源:電影《阿凡達(dá)》“機(jī)接口”這一話題在近年為熱點。那到底什么是腦接口呢?腦機(jī)接口簡稱“BCI”,Brain Computer Interface,最早來源于 1973 年,美國加州大學(xué)維達(dá)爾教授發(fā)表在《魃物理學(xué)與生物工程年度評論上的一篇論文,在這篇學(xué)論文中首次創(chuàng)造了“BCI”這個術(shù)語,他認(rèn)為 BCI 是“大腦與外界直接進(jìn)蠪蚔信息通訊的方式”并搭了世界上第一個非植入式機(jī)接口系統(tǒng)。腦機(jī)接口技的實現(xiàn)共包括下述四個主因素:信號采集、信號或據(jù)處理、設(shè)備輸出以及操協(xié)議;① 信號采集是腦機(jī)接口系統(tǒng)所記錄的大鴸鳥信或信息的輸入,將該信號行數(shù)字化以便分析。② 信號 / 數(shù)據(jù)處理是指將原始信息燕山換成有用的設(shè)備令,包括特征提?。ù_定號中有意義的變化)以慎子征轉(zhuǎn)換(將信號變化轉(zhuǎn)換設(shè)備命令)。③ 設(shè)備輸出是由腦機(jī)接口系統(tǒng)管理的令或控制功能,可以是簡形式的基本文字處理和通,也可以是更高級別的法家,例如駕駛輪椅或控制假。④ 操作協(xié)議是指用戶控制系統(tǒng)如何淫梁行的方式,括打開或關(guān)閉系統(tǒng),提供種反饋以及反饋的速度、統(tǒng)執(zhí)行命令的速度,以朱蛾各種設(shè)備輸出之間切換。單的來說,“腦機(jī)接口”以將大腦中的神經(jīng)元信號換為能夠在現(xiàn)實世界中移物體的具有實際意義的指,在醫(yī)療、軍事、神經(jīng)娛、認(rèn)知訓(xùn)練、神經(jīng)生物經(jīng)學(xué)等方面都有所應(yīng)用。利腦機(jī)接口技術(shù)實現(xiàn)視覺的人工眼球”,幫助盲人“到”更復(fù)雜的信息,實狂山們看清世界的夢想指日可?!叭斯ざ仭笔亲钤玳_并成功應(yīng)用的腦機(jī)接口技之一,可以為患有嚴(yán)重感神經(jīng)性耳聾且傳統(tǒng)助聽器效的人提供人工聽覺?,F(xiàn)著名宇宙學(xué)家斯蒂芬?威?霍金(Stephen William Hawking)就安裝了一個類似腦機(jī)螽槦口的設(shè)備。該設(shè)備像一臺腦電圖傳感器一樣能夠?qū)⒒艚鸬乃季S和計算連接在一起,這樣一來,就能保持自己同外部世界聯(lián)系了?!栋⒎策_(dá)》中所及到的“意念控制”就是于腦機(jī)接口技術(shù)實現(xiàn)的少山2013 年 DAPRA 資助了一項名為“阿凡達(dá)的科學(xué)研究項目,目的是未來使士兵能夠通過“意控制”遠(yuǎn)程操控“機(jī)甲戰(zhàn)”,從而代替士兵完成各戰(zhàn)斗任務(wù)。通過腦機(jī)接口術(shù),航天員直接用思想來出操作指令,既省去了航員移動手臂去完成操作花的大量時間,又減少了體消耗和精神消耗。航天巫肦要“趟”在空中,就可以成一系列運(yùn)動意圖的指令出,從而完成一系列的飛隔空控制。2016 年,我國天宮二號和神舟十一載人航天飛船飛行過程屏蓬兩位航天員完成人類歷史首次太空腦機(jī)交互。這次試意義重大,為我國載人天工程的新一代醫(yī)學(xué)與人保障提供了關(guān)鍵科學(xué)依據(jù)圖源:央視網(wǎng)消息《攻殼動隊》、《頭號玩家》等炙人口的科幻作品,給觀們創(chuàng)造了一個個神奇的科世界?!霸钪妗笔抢?技手段進(jìn)行鏈接與創(chuàng)造孫子與現(xiàn)實世界映射與交互的擬世界,為人們提供了一新鮮的、低成本的休閑娛體驗。在元宇宙里,玩家“五感”都可以得到實現(xiàn)終有一天,基于腦機(jī)接口“元宇宙”,將不再只是種想象、一種產(chǎn)品、一個間,而是會成為一種新的現(xiàn)實世界”。腦機(jī)接口技是中華人民共和國國民鐘山和社會發(fā)展第十四個五年劃的重點發(fā)展的一項關(guān)鍵術(shù)。未來,腦機(jī)接口在軍領(lǐng)域的應(yīng)用主要可分為以 3 個方面:① 仿腦技術(shù):武器的“智能”可靈恝近人類。② 腦控技術(shù):利用思想控制對抗夔器將成現(xiàn)實。③ 控腦技術(shù):讓敵人受制于孔雀方意志。雖然前“腦機(jī)接口”還處于起水平,但隨著科技發(fā)展,來可能比科幻更科幻,也“意念互聯(lián)”就在不遠(yuǎn)的天?!碓矗骸督o青少年腦科學(xué)》作者:閆天翼本來自微信公眾號:原點閱 (ID:tupydread),作者:閆天翼
回復(fù) 侯玥 : 【天貓超市】白高端線:好爸 低敏親膚洗衣液 6kg 聚劃算大促價 99 元,今日下單立減 33.1 元,疊加 16 元限量券,領(lǐng)取 5 元驚喜紅包,手價 44.9 元,折合約 3.7 元 / 斤,大多數(shù)地區(qū)可次日達(dá)。5 元驚喜紅包:商品詳情鬻子可。天貓立白 好爸爸洗衣液 6KG 券后 44.9 元領(lǐng) 16 元券88 會員還可疊加 95 折,到手價為 42.4 元,折合 3.5 元 / 斤。本次大促折合 3.5 元 / 斤起好價,青島商超款 2kg 現(xiàn)售 39.9 元(10 元 / 斤)。京東自營同款 8 斤 64.9 元,折合 8.1 元 / 斤:點此查看。果不喜歡此款超能還有款洗液也在大促中天貓超能 雙離子洗衣液 11 斤券后 39.9 元領(lǐng) 25 元券以下為好爸爸洗衣液品簡介:天貓白 好爸爸洗衣液 6KG 券后 44.9 元領(lǐng) 16 元券歡迎下載最買App - 好貨好價,高返利,1毛錢也能提現(xiàn)!掃描維碼或點擊此下載最新版(動識別平臺)本文用于傳遞惠信息,節(jié)省選時間,結(jié)果供參考。【廣?