中日韩欧美国产一区二区三区_日韩成人影院影音先锋_桃花在线观看免费观看视频_无码专区日韩精品系列视频_浪荡艳妇爆乳JUFD汗だく肉感_亚洲免费影视少妇_国产欧美亚洲另类_欧美亚洲成人特黄一级三区在线观看_永久免费、高清播放_精品孕妇在线观看视频

Language
400-996-7588
搜索

搜索發(fā)現(xiàn)

具身智能落地工業(yè)場景,人形不一定是最優(yōu)解

企業(yè)新聞
2024.10.22

1729576628756.jpg

關于人形機器人是否有用的爭論還在繼續(xù),比如,工業(yè)場景是否需要人形?

「如果工業(yè)場景有一個具備感知、認知、執(zhí)行的能力的智能體,人形并不一定是工業(yè)現(xiàn)場中的最優(yōu)解?!?/span>

「工業(yè)現(xiàn)場最初是為人類設計的,所以人形機器人可以第一時間進入到現(xiàn)場,但今天,工業(yè)現(xiàn)場的生產(chǎn)并不一定要為人設計。」

這是微億智造張志琦的觀點,他們剛剛推出了一款具身智能工業(yè)機器人「創(chuàng) TRON」,實現(xiàn)了 LLM 在機器人領域的技術落地和商業(yè)化。

大模型在工業(yè)場景,相比消費端,在數(shù)據(jù)上有更多的優(yōu)勢,「(大模型)集成到工業(yè)領域后,我們能夠在每個場景中積累數(shù)據(jù),并通過機器人載體有效執(zhí)行和落地,沉淀有價值的數(shù)據(jù)?!?/strong>

最近,在 Founder Park 直播間,F(xiàn)ounder Park COO 艾之與微億智造董事長&CEO 張志琦、捷勃特機器人副總裁&CTO 賀巖,一起聊了聊新產(chǎn)品「創(chuàng) TRON」誕生的幕后,以及工業(yè)機器人在今天商業(yè)落地的更多可能性。

文章基于直播整理,略有調(diào)整。

一些有趣的點:


今天國內(nèi)市場上的機械臂已經(jīng)很便宜了,但為什么企業(yè)還不用?很多老板吐苦水說,買了幾萬塊的機械臂,還得配一個月薪幾萬的工程師來調(diào)教它,而且訂單和產(chǎn)線經(jīng)常變化,工程師還需要時間去不斷調(diào)整。相比之下,招一個臨時工,或者讓老師傅帶一下,幾乎就可以立即上崗。這是現(xiàn)實中的情況。


具身智能工業(yè)機器人會改變行業(yè)對自動化的思考。傳統(tǒng)的流水線設計,把人當機器一樣去「使用」。通過流程和 SOP 標準化,去除個體差異。穩(wěn)定后,再逐步用機械設備替代人力。但當機器人具備人類的理解和認知能力,能夠基于感知來思考,同時在執(zhí)行側(cè)又能夠像人一樣靈活應對執(zhí)行任務,工作流要發(fā)生變化。


「創(chuàng)TRON」在設計上對標人類員工。人有時會犯錯,它也會,但有機制來糾正和提升。類似于自動駕駛的 L1-L5 級別,「創(chuàng) TRON」大概是 L2、L3 級別。它需要人類監(jiān)督,在執(zhí)行時,發(fā)現(xiàn)問題,及時糾正,而這些糾正會幫助模型在下一次的能力提升中表現(xiàn)得更好。


工業(yè)現(xiàn)場最初是為人類設計的,所以人形機器人可以第一時間進入到現(xiàn)場,但今天,工業(yè)現(xiàn)場的生產(chǎn)并不一定要為人設計。


工業(yè)現(xiàn)場的第一個問題就是要把賬算清楚。今天許多與人形機器人相關的成本,一部分是在執(zhí)行結(jié)構(gòu)上,另一部分是用了大量傳感器,如果我們把這種模式應用到工業(yè)現(xiàn)場,問題就很難解決,賬是算不過來的。所以我們給團隊設定了一個預設條件——不能使用貴的傳感器,也不能用更貴的技術來實現(xiàn)這些目標。


從 AI 公司成長為機器人公司很難,從機器人公司成長為 AI 公司也很難。像「創(chuàng) TRON」這種具身智能產(chǎn)品,必須是硬件與軟件、機器人與 AI 的深度結(jié)合。今天很多人形機器人公司動輒有 400-500 人的團隊,至少需要 200 多人的硬件團隊,100 多人的算法和軟件團隊,才能逐步將產(chǎn)品做起來。



1729575859390.jpg


01

「創(chuàng)TRON」:

有自主學習能力的具身智能工業(yè)機器人

艾之:這不是你們合作的第一款機械臂產(chǎn)品了,能不能請您先介紹一下,相比之前的產(chǎn)品,「創(chuàng)TRON」從功能到任務完成上,有哪些突破?

張志琦:「創(chuàng)TRON」這個產(chǎn)品是微億智造和捷勃特聯(lián)合推出的第一款具身智能工業(yè)機器人。為什么稱它為具身智能工業(yè)機器人,與傳統(tǒng)的機械臂有什么區(qū)別?這個機器人在使用的過程中,真正實現(xiàn)了從傳統(tǒng)的人工編程或手動拖動方式的示教過程,轉(zhuǎn)變?yōu)樽詣勇涞貓?zhí)行。這跟傳統(tǒng)機器人在傳統(tǒng)的機械臂中間加上視覺能力的方式有很大差別。


這款機器人就像一個學徒。一般在工業(yè)現(xiàn)場,師傅帶徒弟時,師傅演示一遍,徒弟在旁邊看一遍,然后自己操作一遍,如果操作正確,徒弟就算合格上崗了。我們的「創(chuàng)TRON」也是類似的模式,師傅做一遍,機器人通過視覺系統(tǒng)「看」一遍,然后在仿真系統(tǒng)里學習,再在真實物理環(huán)境中操作一遍,所有這些事情成功之后,最后把所有指令下達給工業(yè)機器人,工業(yè)機器人就能用更高效、更精準的方式完成所有工作。

這就是「創(chuàng)TRON」與傳統(tǒng)機器人之間的最大差異。過去我們看到的是冷冰冰的自動化設備,而今天的「創(chuàng)TRON」是一個活生生的、可以和人進行交互的智能化產(chǎn)品。

同時,它在執(zhí)行過程中如果遇到任何干擾,比如運行線路被阻擋、抓取過程中受到干擾,東西掉了、被拿走等等,它都可以自己感知、修正,繼續(xù)執(zhí)行任務。這是傳統(tǒng)自動化設備無法實現(xiàn)的,而具身智能的工業(yè)機器人有能力處理這類任務。

艾之:過去的自動化機械臂生產(chǎn)線上是不存在這樣的任務學習環(huán)節(jié)的。那傳統(tǒng)的自動化機械臂在生產(chǎn)線上,如何把一個任務分解為不同機械臂需要協(xié)作和執(zhí)行的指令?

賀巖:傳統(tǒng)工業(yè)機器人要在線上工作的話,實際上并不是簡單的把人替換成機器人。這是一個很復雜的過程。

首先,原始材料要規(guī)整地排列在固定的位置上,然后要有工程師為機器人編程,這是需要專業(yè)知識的,只有專業(yè)的機器人工程師才能編寫程序,告訴機器人去哪個點抓取物品,在哪個點安裝。每一步都要程序化地編好。

這個過程要求兩點:一是上料必須規(guī)整,二是編程初始化。這是傳統(tǒng)工業(yè)機器人替代工人的過程,非常復雜。而「創(chuàng) TRON」就像一個學徒,能在師傅示范下學習并完成任務,這是一個革命性的突破。

艾之:大家挺關心機器人在實際應用中的穩(wěn)定性,機器人在跟真實的人交互的時候,表現(xiàn)的穩(wěn)定性如何?

賀巖:實話實說,我們確實有失敗的案例,但我認為,失敗的案例在整個過程中給我們提供了很多學習機會。同時,我覺得「示教」這個切入點選得非常好。

正如志琦總提到的,大多數(shù)工業(yè)場景對可靠性、容錯性要求很高,而「示教」這件事本身是有一定容錯性的。比如我示范一次,你做錯了,我告訴你錯了,再做一遍,直到你做對為止。這個過程就像 ChatGPT 一樣,你回答錯了,我告訴你錯了,再來一次,直到你答對為止。在「示教」環(huán)節(jié),目前這個狀態(tài)下,它是可用的,并且能創(chuàng)造很大的價值。

艾之:對,在一些對容錯率要求相對寬松的場景里,它已經(jīng)達到了實際可用的狀態(tài)。

張志琦:我們在現(xiàn)場演示時分為兩部分,一部分是學習區(qū),另一部分是工廠的執(zhí)行區(qū)。坦白說,在學習過程中它確實有時會出錯。因為背后的操作流程是機器人先在仿真環(huán)境中學習,再在實際環(huán)境中執(zhí)行。就像人類員工,能力稍弱的徒弟第一次不一定能學會,沒學會,師傅就得再教一遍。而在每次教學的過程中,系統(tǒng)其實會通過這些失敗的樣本,進一步將數(shù)據(jù)回流到模型中,進行進一步提升。而在執(zhí)行區(qū),也就是工廠那一側(cè),成功率非常高,因為那部分是在高效環(huán)境下執(zhí)行的。

所以,「創(chuàng)TRON」這個產(chǎn)品本質(zhì)上就是對標人類員工的。人有時會犯錯,它也會,但我們有機制來糾正和提升。同樣的,我們的機器人在執(zhí)行時也有監(jiān)督機制,類似于自動駕駛的 L1-L5 級別的過渡,今天我們的產(chǎn)品大概是 L2、L3 級別。它需要人類監(jiān)督,在執(zhí)行時,發(fā)現(xiàn)問題,及時糾正,而這些糾正會幫助模型在下一次的能力提升中表現(xiàn)得更好。這是我們覺得比較有意思的一點。

當然,在實際現(xiàn)場我們也遇到過一些意外情況。比如這次國際工業(yè)博覽會上,很多媒體對設備感興趣,拿著閃光燈猛拍,結(jié)果我們突然發(fā)現(xiàn),一個機器人的「眼睛」暫時失明了,因為閃光燈太強烈了。這其實是個很好的 Badcase。接下來我們就要考慮怎樣讓模型更好地處理這種干擾,快速修正和恢復,確保在學習過程中能更有效地執(zhí)行。

所以,我們認為,AI 和具身智能類產(chǎn)品最不怕失敗,只有在這種模式下,才能有效提升模型能力。不過,我們需要解決的核心問題是,如何在工業(yè)現(xiàn)場中將這些失敗變?yōu)榭煽匾蛩兀瑥亩尞a(chǎn)品能夠真正落地和執(zhí)行。如果產(chǎn)品一直不穩(wěn)定,坦白講,像人類員工一樣,如果他一直不穩(wěn)定,早就被解雇了。如果我們的產(chǎn)品也不穩(wěn)定,肯定也沒人用。

因此,在示教的過程中,我們允許一定程度的失敗,人類在這個過程中會不斷對它進行矯正,一旦模型穩(wěn)定下來,它就能快速落地執(zhí)行,且效率極高。以前,我們可能需要編程來讓設備理解人的指令,要花費幾天甚至幾周時間。今天通過示教和修正,機械設備可以在幾個小時內(nèi)快速實現(xiàn)。


02 

工業(yè)機器人不需要是人形,

但需要比人做得好


艾之:作為一直深耕工業(yè)領域的人,具身智能概念火起來之后,給這個行業(yè)帶來哪些變化?

賀巖:具身智能這個概念興起之后,尤其是馬斯克公布了他的人形機器人計劃,讓人們對未來有了更高的期望,比如我可以做百萬臺甚至上千萬臺低成本的機器人。我切身的感覺是,可選的供應商變得越來越多了,因為越來越多供應商對這件事充滿了希望,會在之前比較小眾的零部件上投入更多資源。

對于我們來說,可以想象一下,如果人形機器人售價是 2 萬美金,那么單個手臂的成本可能會低至 2,000 美金,這樣的話,在很多場合,我們可能不需要整個人形機器人,只需要一個手臂就能完成很多任務,怎么算賬都算得過來。

張志琦:人形機器人火了之后,讓工業(yè)場景也變得更熱鬧了。大家看到打工人突然多了一個「鋼鐵之身」,能夠幫助我們解放人力。

傳統(tǒng)的流水線設計,把人當機器一樣去「使用」。通過流程和 SOP 標準化,去除個體差異。當這種模式穩(wěn)定后,再逐步用機械設備替代人力。但現(xiàn)在突然出現(xiàn)了一個「鋼鐵之身」,這個機器人具備人類的理解和認知能力,能夠基于感知來思考,同時在執(zhí)行側(cè)又能夠像人一樣靈活應對執(zhí)行任務。它在突然間就改變了我們對自動化的許多思考。

以前自動化追求的是高效率,犧牲的是柔性和個性,大家一直認為效率和柔性是矛盾的。而現(xiàn)在,好像來了一個新事物,可能有機會把效率和柔性統(tǒng)一起來。

柔性化:一般機器的小批量快速量產(chǎn)能力,相對于通用的定制化,需要有更多靈活性。

當然,目前人形機器人在工業(yè)現(xiàn)場的效率還不夠高,需要加快,還在努力解決柔性化的問題。但我們想通過「創(chuàng) TRON」這款產(chǎn)品,讓行業(yè)理解,實際上我們是有機會將柔性化和高效率結(jié)合起來的,因為這才是真正意義上工業(yè)的需求——就是要做到比人更好,才能真正用設備去替代人力。

艾之 :當我們談論具身智能這個概念時,大多數(shù)人可能首先想到的是人形機器人。具身智能工業(yè)機器人(Embodied Intelligent Industrial Robots, EIIR)這個品類是如何一步步被創(chuàng)造出來的?與傳統(tǒng)工業(yè)機器人的差別是什么?

賀巖:在工業(yè)機器人普及的過程中,調(diào)試和傳統(tǒng)示教是非常復雜的過程。企業(yè)如果要使用工業(yè)機器人,需要招聘有資質(zhì)、有專業(yè)背景且有經(jīng)驗的人,才能把機器人用起來,這極大限制了工業(yè)機器人的應用范圍。很多企業(yè)主寧愿用人,因為人可以適應各種隨意的來料,而且人還可以做別的事,只要去吩咐他就行了。

布置一個機器人是非常繁瑣的,如果有這樣一種示范教學的模式,工業(yè)機器人可以被應用的場合會大幅增多。

關于二者的分野,我覺得「智能」這個詞是有時效性的,比如說我們現(xiàn)在管手機叫「智能手機」,但是我覺得我女兒不會這么認為,她會覺得手機不就是現(xiàn)在這樣嗎,為什么還要強調(diào)智能兩個字?我們對具身智能的理解是,目標是讓它把我們操心的事情都干了。現(xiàn)階段的第一步任務是,怎樣更方便的向機器人傳達指定任務?不用專業(yè)支持就能夠把我想要的事情交給機器人來做。這是從傳統(tǒng)工業(yè)機器人向具身智能機器人邁出的重要的邁進。

張志琦:我從通俗的角度再聊一聊。我們在設計具身智能工業(yè)機器人時,實際上是根據(jù)我們在機器人使用過程中發(fā)現(xiàn)的許多問題來做的。

微億智造從成立以來就是一家使用機器人「很深」的企業(yè),我們最早是從產(chǎn)品外觀檢測開始,也在大量使用機器人來實現(xiàn)針對機構(gòu)側(cè)的要求,就像人的手一樣。同時,我們也在光學、AI、模擬方面做了很多能力的提升。

在使用機器人的過程中,首先就像賀總提到的,確實很難操作,必須有專業(yè)知識來進行有效調(diào)整。我們走訪了許多企業(yè)后發(fā)現(xiàn),不僅僅是我們難,整個制造業(yè)都難。很多企業(yè)老板寧愿雇個臨時工來解決生產(chǎn)力問題,也好過去買一個機械臂。以前是因為很多人覺得機械臂太貴,今天國內(nèi)市場上的機械臂已經(jīng)很便宜了,但為什么企業(yè)還不用?很多老板吐苦水說,買了幾萬塊的機械臂,還得配一個月薪幾萬的工程師來調(diào)教它,而且訂單和產(chǎn)線經(jīng)常變化,工程師還需要時間去不斷調(diào)整。相比之下,我今天招一個臨時工來,或者讓老師傅帶一下,幾乎就可以立即上崗。這是現(xiàn)實中的情況。

我們從很多第三方的市場報告中看到,每萬名工人的機械臂使用量,幾年前是 200-300 臺,現(xiàn)在達到 300-400 臺,甚至在發(fā)達制造地區(qū)達到了 400-500 臺。

這個數(shù)字看起來有點奇怪,為什么每萬名工人只用 500 臺機械臂?剩下的 9500 名工人到底在做什么?其實就是因為,傳統(tǒng)固化的機器人使用場景無法覆蓋那么多崗位。很多企業(yè)主跟我們聊,他們設定了指標,每年要用一萬臺機械臂替代工人,但生產(chǎn)主管覺得真的好難,不知道能在哪些場景使用,能用的場景都用了,但是真的還是有太多場景還是要依靠人來解決。雖然工人難招,相對流動性大,不斷要做培訓。

今天是否能有一臺設備能真正意義上像人一樣學習,還能在執(zhí)行過程中動態(tài)處理問題,最終以完成任務為核心?

這就是我們「創(chuàng) TRON」這款具身智能工業(yè)機器人的核心目標,希望它能像工人一樣通過學習完成工作,安裝到現(xiàn)場,跟老師學一遍,就能把活兒干了。

艾之:這里面的鴻溝其實是,教人比教機器要簡單太多了,專業(yè)人才的缺口應該仍然很大。高端人才一方面成本高,一方面供應量也未必能滿足工廠需求。因此,具身智能的核心定義應該是「像人一樣」。但到底是像人的外形,還是像人的思考和解決問題的能力?可能后者才是核心的概念。

張志琦:是的,這兩年大家對具身智能的理解越來越深入了,人形機器人也幫助了大眾理解具身智能的能力??吹揭粋€人形設備能夠在現(xiàn)場解決很多人做的事情,突然間對這個能力有很大認可。但在工業(yè)場景上,我們也要解決「如何算得過來賬」的問題。

我們的具身智能工業(yè)機器人基本上可以讓工廠在一個比較低的成本的情況下去應用,基于使用的過程積累數(shù)據(jù),不斷提升能力,從而真正讓這個產(chǎn)品不光是「算得過來」,同時產(chǎn)品本身的能力還能持續(xù)提升,這是這個閉環(huán)中的最核心的點。

艾之:你們覺得工業(yè)場景中最終需要人形機器人嗎?還是說結(jié)論并不一定?

張志琦:從我的觀點來看,人形機器人不一定是工業(yè)現(xiàn)場的最佳解決方案。機械臂不一定要是兩只手,也可能是四只手,甚至更多。也不一定要有雙足,可以是輪子或者其他更高效的移動方式。

工業(yè)現(xiàn)場最初是為人類設計的,所以人形機器人可以第一時間進入到現(xiàn)場,但今天,工業(yè)現(xiàn)場的生產(chǎn)并不一定要為人設計。

就像以前我們做勞動防護時還得帶上防毒面具,各方面考慮,它也不可能實現(xiàn) 24 小時不間斷的生產(chǎn)。今天這些設備都可以超越人的能力,不見得是人的形態(tài),但是它能夠更好地發(fā)揮效益。所以,人形并不一定是工業(yè)現(xiàn)場中的最優(yōu)解。如果有一個具備感知、認知、執(zhí)行的能力的智能體,工業(yè)現(xiàn)場可能更需要這樣的產(chǎn)品。

賀巖:我感覺可以把具身智能體比作硅基生物?,F(xiàn)在的情況有點像寒武紀時期的生物大爆發(fā),氧氣增加帶來生命的爆發(fā)式增長。現(xiàn)在的「氧氣」是算力、數(shù)據(jù)和算法,這些技術的成熟帶來了具身智能體的爆發(fā)式增長。

前段時間看到騰訊推出的「騰訊 5 號」養(yǎng)老機器人,這是一個家用機器人,主要是幫助老年人,但它不是雙足機器人。因為現(xiàn)在雙足機器人走路比老年人還要顫顫巍巍,怎么能幫助老年人呢?所以它的支撐結(jié)構(gòu)做得非常穩(wěn)固。其次,它沒有頭。當它幫助老人從輪椅轉(zhuǎn)移到床上時,如果有頭反而會成為干擾。沒有頭會讓人感覺更舒服。如果它長出一個頭來,反而顯得多余。

這樣的例子讓我看到未來多種多樣的硅基生物的可能性,具身智能體會以各種形態(tài)出現(xiàn),但最終會是什么形態(tài)我沒有辦法做出預測。

艾之:這有點像人類本身,不是在每個場景中都需要發(fā)揮所有能力。比如走路時是小腦在控制,讀論文時大腦的核心區(qū)域正在被激活。

其實有點像去把人這樣一個已經(jīng)進化得非常好的超級智能體的能力重新排列組合。如果只是單獨實現(xiàn)其中一個模塊的話,成本其實是要低很多的。不需要在每一個場景里面都放一個特別厲害的技工,或者說特別厲害的一個人。

我想稍微做一下推演,如果以機械臂為例,像自動駕駛一樣有 L1-L5 的分級,賀巖總,您覺得「創(chuàng) TRON」這款機器人大概屬于哪個級別?如果往更高的級別發(fā)展,它會是什么樣的?

賀巖:自動駕駛的過程,是隨著等級提升,對人的依賴越來越低。目前的工業(yè)機器人,是要有「駕照」才能用,需要專業(yè)操作人員才能使用。而「創(chuàng) TRON」可以實現(xiàn)在「沒有駕照」的情況下,在特定領域內(nèi),沒有專業(yè)背景的情況下,也能夠用起來。

L1,就像是在自動倒車入庫這樣的場景中,不用專業(yè)的技能,普通用戶也能自動完成。

L2、L3 的話,相當于在高速公路上跟車的這些功能,可以在沒有專業(yè)技能的情況下自動完成。我認為「創(chuàng) TRON」大概相當于 L2-L3 級別。

進化到 L4 或 L5 級別時,用戶只需要告訴機器人我要完成什么任務,完全不需要任何專業(yè)技能。那時,它就真的像一位聰明的工人了。


03

智能臂的新可能:

一個集裝箱里生產(chǎn) iPhone


艾之:具身智能工業(yè)機器人和消費類機器人是針對不同場景和目標設計的。兩者在技術路徑上應該有很大的區(qū)別吧?在發(fā)展過程中要攻克的技術難題,以及難題的優(yōu)先級,是否存在很大的不同?

張志琦:對,二者的技術路徑上和場景有一定的差別。

工業(yè)場景相對來說是一個閉環(huán)。它不像開放的世界那樣,可能會受到各種外界因素的干擾。

舉個例子,像消費類機器人在不同環(huán)境中幫助老人時,物理世界的干擾因素很多;但在工業(yè)場景中,在工廠內(nèi)部,干擾相對有限。

在工廠里,操作的對象可能是物料、生產(chǎn)設備,或者生產(chǎn)過程中的工人,環(huán)境相對封閉。它需要理解和處理的物理世界的量更加有限,這使得工業(yè)場景在模型訓練和技術實現(xiàn)上相對容易一些。但工業(yè)場景也有它的難點,比如對精度和效率沒有容忍度。在 C 端場景中,如果機器人沒抓住杯子,可以再試一次;但在工業(yè)場景中,任何錯誤和失誤都是不可接受的,精度必須極高,效率也必須算得過來。如果執(zhí)行速度太慢,工廠可能寧愿繼續(xù)使用人力,因為我們的競爭對手始終是人。

因此,我們要做的所有具身智能產(chǎn)品的核心目標就是,在工業(yè)現(xiàn)場中做得比人更好,這樣才能讓工廠接受并引入設備。這也是工業(yè)場景比生活場景更復雜的地方。

我們在某些方面相對容易,比如在目標對象的訓練、對世界模型和環(huán)境的理解上,工業(yè)場景的范圍更小,數(shù)據(jù)集也更小。但困難之處在于,執(zhí)行的操作精度和效率必須極高,因此需要更強的技術手段來落地實現(xiàn)。

兩者在技術路徑上存在差異,尤其是在落地性上,工業(yè)場景里有一個大挑戰(zhàn):工廠老板算不過來賬,他就不用。AI 產(chǎn)品都是越用越好的,數(shù)據(jù)越來越多,能力越用越強。如果一開始在商業(yè)化模式上算不過來,可能就變成了一個「秀場」,大家鼓個掌,但無法實際落地。

然而,一旦可以算得過來賬,能夠產(chǎn)生實際的數(shù)據(jù)和業(yè)務價值,它就會有巨大的市場潛力。因此,這一點是我們需要跨越的。

艾之:總結(jié)起來,核心就是成本、工作效率和任務執(zhí)行的準確度,要在這三者之間找到最優(yōu)解。當然這個成本并不是一個靜態(tài)的標價,而是在做所有的技術方案組合的時候,要去不斷計算的。產(chǎn)品上線之后,它至少要和人類表現(xiàn)得一樣好,甚至在某些任務上比人類更出色。

有觀眾問到,機械臂有了智慧后,是否可以降低配套設備的要求?因為產(chǎn)線上不只是機械臂,還有很多其他系統(tǒng)設備。

張志琦:這兩年我們也和很多大型制造集團交流過,包括像蘋果、特斯拉這樣在全球制造領域中相對走到最前端的技術部門。大家過去看到的生產(chǎn)線可能很壯觀,上百米長,充滿了機械設備整齊如一。但最近跟全球的這些客戶溝通的時候發(fā)現(xiàn),大家在這兩年的思路有很大變化,探討的其中一個新話題是:有沒有可能在一個集裝箱大小的空間內(nèi)完成一臺 iPhone 的生產(chǎn)?

艾之 :這是一個非常大膽的場景設想。

張志琦:如果能實現(xiàn)這個目標,將會對整個制造行業(yè)產(chǎn)生巨大的影響。過去我們聽過「黑燈工廠」的概念,但現(xiàn)在都很少提這個話題,因為大家突然間發(fā)覺它生產(chǎn)的東西很有限,它的柔性化程度較低。

黑燈工廠:Dark Factory,即智慧工廠,因為從原材料到最終成品,所有的加工、運輸、檢測過程均在空無一人的「黑燈工廠」內(nèi)完成,無需人工操作。

現(xiàn)在的問題是,能否有一個工廠,生產(chǎn)過程可以動態(tài)調(diào)配?

如果我今天雇了一幫工人來,今天培訓什么,他們就能干什么。明天再培訓其他內(nèi)容,他們就能生產(chǎn)其他的東西。從這個角度上說,人的柔性化程度是最高的。

如果我們把這些思路結(jié)合在一塊的話,你會發(fā)覺,這樣一來,原來的自動化設備只能做單一的任務,而未來應該能夠執(zhí)行多項任務,甚至如果下面有一個抽屜的話,它還能找到不同的工具完成各類操作。

這才是「在一個集裝箱里生產(chǎn)出一臺 iPhone」的核心點。

在集裝箱的這個范圍內(nèi),只要給到足夠的工具和材料,人也能干,但今天,我們能不能用這類的設備去干?這是我們在現(xiàn)在和將來,在智能制造上要去考慮的問題。

的確,具身智能設備的應用會簡化整個制造過程中上下游設備的要求。因為人和人之間能夠直接進行溝通和交流,具身智能設備之間同樣可以通過更靈活的方式完成各工序的銜接,從而進一步簡化流程。設想未來某一天,具身智能機器人被廣泛應用時,只需下發(fā)一個指令,只要有原材料的,這些設備就能自動化地完成生產(chǎn)任務。這正是我們對未來制造場景的美好愿景。


04

多模態(tài)大模型是智能臂落地關鍵,

工業(yè)場景不缺數(shù)據(jù)


艾之:微億團隊可能主要負責算法部分,讓機械臂學習人類的動作和任務,其中有哪些關鍵環(huán)節(jié)?大模型在這一過程中發(fā)揮了哪些作用?

張志琦:其實,這項技術能夠真正落地,本質(zhì)上得益于人工智能的進步。在過去的自動化領域,實現(xiàn)這種技術是不可能的。我們可以簡單拆解一下這個過程。首先,關鍵在于操作對象是什么,必須讓機械臂識別這個對象,讓它能夠操作。第二,有了這個操作對象之后,如何完成這個任務?在三維空間中,需要去動態(tài)規(guī)劃和執(zhí)行。因此,這個過程包括感知、認知、規(guī)劃、驅(qū)動和執(zhí)行,它會把每個部分都緊密結(jié)合。

在感知方面,我們會基于視覺的能力,以前的機械臂只能通過電機傳感信號了解自身的位置,而沒有視覺能力。但今天我們?yōu)闄C器人裝上了「眼睛」,它多了視覺的能力,不僅能感知操作對象,還能感知到自己和環(huán)境,在感知上我們就必須把三個感知的能力要融合在一起。

感知完成后,我們需要進行認知。以前的認知過程非常簡單,可能就像我們做質(zhì)檢時,認知只是在拍攝的圖片上進行分析和判別。但現(xiàn)在的認知必須結(jié)合三種不同的感知能力,真正理解整件事情。就像我們之前提到的,人類以目標和任務為核心,具體是怎么完成某項工作的?我們需要有效地將任務拆解為子任務,并在執(zhí)行過程中將這些任務重新整合在一起。

完成認知后,接下來就是規(guī)劃,需要用什么樣的流程和方式去完成這個任務,同時還要和機械臂更深度結(jié)合,把驅(qū)動和執(zhí)行有效地結(jié)合起來。在驅(qū)動和執(zhí)行的過程中,因為我們知道實際操作中可能會遇到干擾,或者出現(xiàn)異常,需要動態(tài)地修正和重新規(guī)劃,基于新的感知和認知,形成新的規(guī)劃和執(zhí)行。這個過程必須嚴絲合縫地形成高速執(zhí)行的結(jié)果,動態(tài)地完成過程中的規(guī)劃和修正,才能真正實現(xiàn)任務的落地執(zhí)行。

這與傳統(tǒng)自動化完全不一樣。傳統(tǒng)自動化就是通過編程,按照固定任務和結(jié)果執(zhí)行。而現(xiàn)在的流程,在各個環(huán)節(jié)中都需要大量的循環(huán)往復,把感知、認知、規(guī)劃、驅(qū)動和執(zhí)行緊密結(jié)合,才能真正完成任務。

因此,如果只從算法側(cè),微億是做不了這件事的,必須與捷勃特,特別是機械臂的本體之間進行深度的整合,才能有效結(jié)合動態(tài)規(guī)劃和執(zhí)行,把感知、認知與執(zhí)行機構(gòu)緊密銜接。只有這樣,才能將這些環(huán)節(jié)像人類一樣去操作、去落地。

艾之:在具身智能領域,我們都知道可能會有不同的技術路徑。有些原本專注于機器人制造的公司,在解決這一命題時會思考,算法如何更好地與機械本體的控制系統(tǒng)、驅(qū)動系統(tǒng)結(jié)合。能否更形象地展開一下,算法真正與機械本體深度融合的難點究竟在哪里?

賀巖:舉個例子,因為我們的攝像頭是安裝在機械臂上,相當于你的「眼睛」一直在移動。當你看到一幅畫面時,首先要知道我的眼睛到底在哪里,因為它不是固定的,而是動態(tài)的。因此,這需要一個非常高速的數(shù)據(jù)交互能力,系統(tǒng)能夠獲取攝像頭的當前位置,將這兩組數(shù)據(jù)拼起來,才能形成準確的空間感知,否則就會出現(xiàn)混亂。

另外,如果系統(tǒng)要規(guī)劃機械臂的運動,機械臂的物理能力是有上限的。如果速度過快,電機會損壞,所有的物理系統(tǒng)都有極限。我們需要在不超過物理極限的情況下,盡可能提高機械臂的效率,這就要求將動力學模型深度集成到這套系統(tǒng)中。這是一個非常深度的綁定,一般的合作關系很難打通,我們在一起緊密合作才實現(xiàn)了這樣的技術突破。

艾之:剛才提到的視覺模塊,它捕捉的是視頻的連續(xù)幀信息,還是靜態(tài)照片信息?

張志琦:其實我們是從連續(xù)的信息中抽取幀,一幀一幀地抽出來。

前面我們也談到,工業(yè)現(xiàn)場的第一個問題就是要把賬算清楚。今天許多與人形機器人相關的成本,一部分是在執(zhí)行結(jié)構(gòu)上,比如關節(jié)的成本很高。另一部分是,人形機器人在感知能力上比較強,它們用了大量傳感器,從激光雷達到 3D 相機,能裝的設備幾乎都裝上了,保證有足夠的信息量,提升設備的環(huán)境感知能力。但坦白說,這些傳感器都是成本。

如果我們把這種模式應用到工業(yè)現(xiàn)場,問題就很難解決,賬是算不過來的。所以我們給團隊設定了一個預設條件——不能使用貴的傳感器,也不能用更貴的技術來實現(xiàn)這些目標。

艾之:先把上限卡死。

張志琦:對,我必須設定一個上限,在受限的環(huán)境中解決問題。這增加了團隊的難度,比如在二維圖像的方案中,我們看到的都是一張張 2D 的照片。如何基于 2D 照片判斷對象物體的位置、擺放方式、與我們的相對距離。所有這些都需要將 2D 轉(zhuǎn)換為 3D 的空間信息,而且精度必須非常高。工業(yè)現(xiàn)場不能容忍超過 1 毫米以上的公差,否則機械臂就抓不起來,或者無法正確操作。因此,我們必須在受限的環(huán)境中實現(xiàn)這些目標,這是一個較大的難題。

正是因為完成了這項工作,具身智能工業(yè)機器人在成本上才與傳統(tǒng)工業(yè)機械臂接近。它沒有增加昂貴的感知設備,而是依靠算法能力,通過機器人的相對空間位置和視覺捕捉的對象物體畫面,同時參考對象物體的 3D CAD 圖紙,完成空間建模,從而進行 3D 空間計算、執(zhí)行。這背后的技術難度比較高。

就像前面提到,「AI 教母」李飛飛,最近也在做與空間智能相關的工作,通過一張 2D 照片就能理解背后的物理關系。今天,我們在工業(yè)現(xiàn)場實現(xiàn)了類似的方式,通過一張或一組連續(xù)的照片,判斷對象物體與機器人本體的相對位置、物理環(huán)境和空間坐標,完成特定任務。這是其中比較難的點。

艾之:這個模型是端側(cè)的小模型,還是多模態(tài)模型?它是由幾個模型配合完成的嗎?

張志琦:今天具身智能的難點在于它使用了大量不同能力的組合。比如說對象物體的識別,它涉及 2D 到 3D 的模型能力的轉(zhuǎn)化,但它本質(zhì)上是一個小模型,難點在于算法精度必須非常高,訓練數(shù)據(jù)集也要足夠小,訓練時間要短。

過去,我們的第一個版本需要一天的時間,通過拍攝幾千張不同位置的照片才能完成空間建模?,F(xiàn)在,我只需要 200 張以內(nèi)的照片,在幾個小時內(nèi)就能完成,這在速度上有了極大的提升,但本質(zhì)上仍是一個參數(shù)級不高的小模型。

同時,我們也有大模型在背后支持。當人類操作時,實際上處理的是一組連續(xù)的視頻,我們通過大模型技術來理解視頻中的語義,從而理解人類是如何操作對象物體的,再將這些操作拆解成不同的任務,進行編排和執(zhí)行。這是有大模型在背后支撐的。當然,這其中存在錯誤的概率,因為大家都知道,大模型在初期輸出時會有不穩(wěn)定性,有時它學錯了動作,還需要我們修正。

本質(zhì)上,這背后是由一個視頻語義理解的大模型來落地執(zhí)行。但在每個子任務級,它又是由一堆高精度的小模型指揮機器人完成不同的運動規(guī)劃任務的集合,過程中要去跟機器人自身運動的動力學算法打通,確保機器人在執(zhí)行時達到最高效率。所以在這個過程中,其實是融合了大量技術。

這也是為什么大家覺得具身智能產(chǎn)品「很難」,難點就在于,它必須將各種技術捏合在一起,才能完成特定任務。而且,還得把實驗室級別的技術和實際落地的工程化產(chǎn)品結(jié)合起來,因為最終落地的還是一個工程化的產(chǎn)品,要能夠被客戶使用。這是其中最難的部分。

艾之:感覺你們絕對是屬于務實派,直接坦誠地告訴我們,其實有些 badcase,不要抱太高的預期,不過在精度要求不那么高的場景下,已經(jīng)可以使用了。

你們團隊的研發(fā)風格也是,設定了明確的上限,堅守在這個成本范圍內(nèi)尋求最優(yōu)解,而不是無限制地投入研發(fā)經(jīng)費去追求更好的技術參數(shù)或零部件。因為即便投入再多,如果最終算不過來,也無法真正投產(chǎn)。

這種務實的思維,可能是來自長期扎根工業(yè)場景的經(jīng)驗。這個可能也是工業(yè)機器人出身的團隊,或者說一直扎根在工業(yè)場景里面的團隊去創(chuàng)新時,可能會有的一些不同的思維和切入角度。

剛才我們講了大致的實現(xiàn)路徑,我想請教一下賀巖總,您怎么看待微億和捷勃特的技術路徑與端到端模型算法的路徑?您對這些技術路徑的未來有怎樣的判斷?

賀巖:首先在端到端路徑上,它必須是在容錯率非常高的場景中,可以一步步走向?qū)嵱煤统墒?。而在工業(yè)成熟的場景中,我相信,不得不采用這種,一部分基于訓練,一部分基于規(guī)則的拼裝組合的方式。因為越多的落地場景,越多的數(shù)據(jù),就越能推動技術的發(fā)展。因為首先我得在一個場景中落地,越落地越有數(shù)據(jù),可能越成熟。

艾之:得先讓這個飛輪轉(zhuǎn)起來。

賀巖:對,而且在中國這樣一個制造業(yè)強國,我們有大量的數(shù)據(jù)源可以利用。所以只要這些數(shù)據(jù)被有效使用,我們就能逐步走向成熟。最終,這兩條路徑應該是殊途同歸的。但先得落地,接觸場景和布局是非常重要的,如果無法接觸到這些場景,就很難爬上這坡。

艾之:關于模型的能力。今天大模型能力還在不斷迭代,像 OpenAI 最近發(fā)布了新模型,我們看到了推理和 agent 能力的提升。這種基礎模型的提升,能否在工業(yè)場景中帶來同等比例的能力提升?

張志琦:是的,今天我們的「創(chuàng)TRON」1.0 在工業(yè)現(xiàn)場能應對的場景還是有限的。我們目前主攻四個場景:上料下料、裝配、打磨和質(zhì)檢。這些都是制造業(yè)中常見的場景。隨著基礎模型能力的提升,我們可以針對不同的工業(yè)場景,進一步提升能力,提高不同領域中的任務復雜度,逐步讓機器人越來越像有經(jīng)驗的人一樣應對各種場景。

所以從大模型的技術能力提升上來說,工業(yè)現(xiàn)場的場景化應用的能力也是會越來越豐富的。有時候大家談到工業(yè)大模型和通用化大模型,很多人覺得難,因為沒有足夠的數(shù)據(jù)。這也是工業(yè) AI 導入速度偏慢的原因之一。但通過具身智能工業(yè)集成,我們能夠在每個場景中積累數(shù)據(jù),并通過機器人載體有效執(zhí)行和落地,沉淀有價值的數(shù)據(jù)。

我們經(jīng)常開玩笑說,工業(yè)具身智能機器人是一個學徒,跟著老師傅去學習,其實就是把人腦里的知識倒出來,通過數(shù)字化載體記錄和儲存下來,以前好工人的經(jīng)驗是口口相傳的,而今天是,用一個有數(shù)字化能力的產(chǎn)品把這部分經(jīng)驗和知識沉淀下來。

所以,可以暢想一下,雖然目前我們只支持四個場景,但隨著底層模型能力的提升,我們能夠應對更多復雜場景,逐漸替代部分人工。

回過頭來看,具身智能工業(yè)機器人的目標非常簡單。如果今天某些地區(qū)有一萬名工人,有 500 臺機械臂,那我們的目標很簡單,就是希望通過機械臂替代這 9500 個工人,把人從整個制造的環(huán)節(jié)里完全釋放出來。

艾之:模型算法每次迭代更新需要多長時間?你們有具體數(shù)據(jù)或案例嗎?

張志琦:學習上需要花一些時間,切換上速度是極其快的。

目前,對于操作對象物體的處理,基本上是在小時級。機器人學習一遍后,基于任務的復雜度,也能在小時級完成所有模型構(gòu)建。一般在工廠培訓新員工也需要花半天時間,而我們的設備基本可以在同樣時間內(nèi)實現(xiàn)落地。但在執(zhí)行過程中,設備的效率一定比人高,一方面執(zhí)行速度更快,另一方面設備可以 7x24 小時不間斷工作。一旦學完一遍,產(chǎn)線的切換就可以在秒級完成,也就是可以非常快地在不同的模型之間進行有效的轉(zhuǎn)化。


05

以前是人適應機器,

現(xiàn)在是機器人去理解人


艾之:中國作為制造業(yè)大國,很多場景下人力成本仍然低于機器成本。我們現(xiàn)在有個大前提,就是希望成本盡量可控,讓機器人順利進入生產(chǎn)線。其次,我們需要大量的數(shù)據(jù),不斷完善和提升模型能力。

賀巖總,從您的角度來看,像「創(chuàng) TRON」這樣的機器人,或者未來更先進的版本,如何才能順利進入生產(chǎn)線?對于客戶來說,用新的解決方案替代掉老生產(chǎn)線上的方案,他們的核心動力是什么?如何讓他們更愿意接受這些新方案?這些客戶肯定是非常精打細算、成本敏感的,怎么讓他們愿意做出這種切換?

賀巖:對于成熟的生產(chǎn)線,如果沒有升級的需求,它們可能會繼續(xù)使用傳統(tǒng)方法。問題在于,很多工廠和企業(yè)主想用機器人,但用不起來。這限制了工業(yè)機器人適用的范圍。

「創(chuàng)TRON」的出現(xiàn)解決了幾個問題。首先,自動化設備,對上下料的要求不高。其次,我不需要招有學歷、有資質(zhì)的專業(yè)人員來實施這套系統(tǒng),這對企業(yè)來說是一個巨大的優(yōu)勢?,F(xiàn)在工業(yè)機器人替代工人的滲透率還很低,比如 1 萬名工人中只有五六百臺機器人,這是因為很多場景上,工業(yè)機器人根本就用不起來。

我相信,現(xiàn)在使用工業(yè)機器人的那些成熟生產(chǎn)線會繼續(xù)存在下去,但「創(chuàng)TRON」的目標市場是那些剩下的 9000 多個崗位。它能夠真正解決的是想用但是沒法用的企業(yè)主的問題。

張志琦:我再補充一下,坦白講,機器人市場每年的增長幅度其實有限。

近年來協(xié)作機械臂的興起,替代了一些傳統(tǒng)工業(yè)機械臂的場景,但協(xié)作機械臂的應用量仍然有限。以前它解決的最核心問題是安全性問題,比如在人和設備共處時,設備碰到人會自動停下來,避免傷害。盡管協(xié)作機械臂在一些生活場景中應用增加,但整體市場的增長量每年也就 20% 左右,這里面協(xié)作機械臂的量甚至蠶食了部分工業(yè)機械臂的市場份額。

這也明確地回應到剛才賀巖總提到的話題,今天其實仍然是一個傳統(tǒng)市場,為什么增長幅度沒有那么的快?就是因為太多的場景,不是今天的工業(yè)機器人或者工業(yè)機器人加上傳統(tǒng)的協(xié)作機器人能夠去覆蓋的場景,還是需要依靠人力去做。

而我們的「創(chuàng) TRON」這一類產(chǎn)品,一方面是能夠比傳統(tǒng)機器人在使用上更加簡潔。我們真正的目標市場是那些無法靠工業(yè)機器人或協(xié)作機器人解決問題的市場,因為這些場景需要靈活性和應對多種變化,而傳統(tǒng)工業(yè)機器人對此無能為力。但今天,我們有機會依靠具身智能產(chǎn)品,用人類的方式來完成這些任務。既然這些任務今天是由人來做的,我們就有機會用這類產(chǎn)品替代人力,實現(xiàn)自動化。這才是我們這款產(chǎn)品真正的目標市場和用戶群體。

艾之:確實有很多場景,大家想用機器人但覺得太難,甚至不是成本問題,而是技術能力的鴻溝問題,這在過去這一直是一個編程和翻譯的難題——如何將工藝翻譯成機械臂和機器人能理解的數(shù)字語言?

張志琦:現(xiàn)在很多專業(yè)人員的工作是「幫機器人理解業(yè)務和人類需求」,而「創(chuàng) TRON」這類產(chǎn)品的目標是讓機器去更好地理解人,而不是讓人去適應機器。這是是我們產(chǎn)品的核心點。

艾之:我有個外行問題,現(xiàn)在我們的機械臂像個學徒,去學習老師傅的工藝。那么,在工業(yè)制造領域,工藝的數(shù)字化水平大概是什么樣的?

賀巖:工藝是生產(chǎn)某個產(chǎn)品時專業(yè)的 know-how,關于「我怎么把這件事情做好」。

未來的生產(chǎn)應該是,機器人的使用者只需要知道如何生產(chǎn)出好的產(chǎn)品,只需要知道自己怎么把這個東西做好,然后能夠通過自己的專業(yè)語言讓機器人聽懂就可以了,而不需要懂得機器人的專業(yè)知識。這是「創(chuàng)TRON」的目標。

張志琦:對,其實這也涉及到另一個話題。

機器人市場發(fā)展了幾十年,很多海外頭部的機器人廠商已經(jīng)在不同的場景中已經(jīng)積累了大量經(jīng)驗,這些經(jīng)驗逐漸成為他們另一個最核心的盈利產(chǎn)品,就是所謂的工藝包或 SDK 庫。比如說在焊接或涂膠等領域,他們有很多這樣的庫,能夠幫助專業(yè)人員更好地翻譯業(yè)務上的訴求和需求,同時能夠在機器人運動控制和操作對象方面快速適應。然而,回到國內(nèi)來看,許多汽車廠商在這方面的積累相對有限。

為什么積累有限?首先,起點不同,國外廠商發(fā)展了幾十年,而國內(nèi)很多廠商相對年輕。其次,這與市場原則有關。因為工藝包本質(zhì)上是一個軟件包,軟件包的成本是很低的。今天,國外的機器人在硬件上已經(jīng)被國內(nèi)廠商卷到掙不到什么錢的程度了,但在這一部分軟件包上,還是保持了很大的利潤。而在國內(nèi),機器人工程師和集成商的人工成本還相對偏低,因此集成商往往不會購買國外的 SDK 庫和工藝包,而是手動調(diào)試,調(diào)整到能基本滿足需求的程度就可以了。但這樣做的柔性化程度會變得更低,機器人廠商也難以在這一領域積累經(jīng)驗。因此,這就是為什么在這類工藝包上的數(shù)據(jù)積累較少。

同時,國內(nèi)還有沒有機會解決這個問題呢?這也是一個「先有雞還是先有蛋」的問題。

可能一部分有支付能力的廠商不加思考地就選擇了國外的機器人和工藝包,能夠把這類場景覆蓋掉,這樣就沒有國產(chǎn)機器人的事了。但國產(chǎn)機器人廠商又因為集成商的手動調(diào)試,無法積累數(shù)據(jù),這就導致國產(chǎn)廠商難以在這方面進一步提升能力。

但是,像「創(chuàng) TRON」這樣的產(chǎn)品恰恰解決了這個問題,因為它能夠在數(shù)據(jù)能力上不斷積累,去對于生產(chǎn)中間的所有的過程數(shù)據(jù),不管是 good case 還是 bad case,它都可以有效記錄,不斷提升模型能力。

因此,以前想在這些場景中「彎道超車」其實是不太可能的。而今天通過 AI 技術,我們實際上是換了條道。依靠具身智能產(chǎn)品,我們有機會去實現(xiàn)這個目標。

艾之:確實,大模型技術讓我們看到了另一種可能性,就像從另一個坡爬上去,可能可以把中間的四五步并作兩三步,直接達到同樣的目標。因為像工業(yè) 4.0、柔性制造這些概念,已經(jīng)喊了很多年了,本身是從國外興起的。


06

我們既不怕被抄,

也歡迎大家來抄


艾之:從整個國外的產(chǎn)業(yè)基礎來看,他們的數(shù)字化和信息化積累還是非常扎實的。不過,可能他們也存在原有的路徑依賴,比如你們在工業(yè)博覽會上展示機械臂的時候,我聽說「四大家族」也都在。能不能給我們分享一下傳統(tǒng)工業(yè)機器人「四大家族」的最新嘗試?我們在全球范圍內(nèi)的競爭力現(xiàn)在處于什么樣的水平?

注:傳統(tǒng)工業(yè)機器人領域的「四大家族」指的是瑞士的 ABB、德國的 KUKA、日本的 FANUC(發(fā)那科)和安川電機(Yaskawa)。

賀巖:我們的展臺在「四大家族」展區(qū)的中心位置,因此我們也觀察了一圈。老實說,我們沒有看到像「創(chuàng) TRON」這樣的創(chuàng)新產(chǎn)品,至少在展會上沒有看到特別亮眼的具身智能技術。

張志琦:其實看完之后我們更加有信心了,哈哈。應該這樣說,「四大家族」確實有很大的包袱。

艾之:對,這就是我剛才提到的路徑依賴問題,之前他們的基礎太扎實了。

張志琦:坦白講,很多時候這種路徑依賴會抑制創(chuàng)新能力。所以今年看到的四大家族,還是在機器人的底層技術上不斷精進,比如運動控制和系統(tǒng)控制。機器人已經(jīng)發(fā)展了幾十年,這些方面能提升的空間是有限的。但反觀國產(chǎn)機器人的展館就熱鬧得多,各種類型的機器人都有,比如幫人按摩、針灸、沖咖啡的,各種各樣的展示非常豐富。

艾之:是的,沖咖啡的都是入門基礎款。

張志琦:對,現(xiàn)場很熱鬧。我們也看到一些廠商放的視頻,展示的功能和我們的「創(chuàng)TRON」有些接近,向大家展示大模型如何與機器人技術結(jié)合。但坦白說,在實際操作上,還沒有誰敢真正搬一臺設備到現(xiàn)場,和大家互動演示。這一點其實很有意思。我們的展臺上有很多友商,氣氛也很熱鬧。國外的機器人廠商和國內(nèi)的同行都來看,大家對我們的設備評價都很高。

艾之:剛才提到另辟蹊徑,找到了一些技術紅利,走了一條創(chuàng)新的路徑。想請教一個外行問題,如果別人想抄我們的技術,好抄嗎?

張志琦:本質(zhì)上來說,產(chǎn)品的理念和設計并不是別人完全想不到的。今天,「創(chuàng) TRON」這個產(chǎn)品的技術分解后,會發(fā)現(xiàn)其中有很多復雜問題,涉及技術、工程等一系列難題,必須將這些問題整合起來,才能真正落地。

從一家 AI 公司成長為一家機器人公司很難,從一家機器人公司成長為一家 AI 公司也很難。像「創(chuàng)TRON」這種具身智能產(chǎn)品,必須是硬件與軟件、機器人與 AI 的深度結(jié)合。今天很多人形機器人公司動輒有 400-500 人的團隊,至少需要 200 多人的硬件團隊,100 多人的算法和軟件團隊,才能逐步將產(chǎn)品做起來。

如果沒有這樣的團隊配置,基本上就是缺胳膊少腿,很難做到。我們在做具身智能工業(yè)集成時,如果沒有兩家在技術上的深度合作,這件事幾乎不可能實現(xiàn)。許多同行在工博會上看到我們的產(chǎn)品時,都說這確實很難做到。外行可能覺得機器人很聰明,但內(nèi)行看門道,他們能看出我們在技術上涉及了很多細節(jié),超越了很多技術能力已經(jīng)不錯的公司。

從我的角度來說,我希望「創(chuàng)TRON」這個產(chǎn)品能以點帶面。首先,它能引導微億和捷勃特的產(chǎn)品更好地向具身智能方向發(fā)展。其次,我也希望同行能看到這個產(chǎn)品的價值,進入這個賽道。工業(yè)賽道的天花板非常高,不僅是微億和捷勃特兩家公司能夠完成的。雖然門檻高,但如果大家一起努力前行,整個中國的制造業(yè)就有機會登上珠穆朗瑪峰。無論我們是從北坡攀登,還是友商從南坡攀登,或者我們?yōu)楹髞淼墓静瘸隽艘恍┠_印,讓他們能夠更快前進,對整個中國制造業(yè)登頂珠峰都有幫助。所以我們既不怕被抄,也歡迎大家來抄。

艾之:先把蛋糕做大再說,對吧?

賀巖:對,我從另一個角度稍微補充一下。

我們剛才說的門檻,首先是微億智造和捷勃特在工業(yè)場景中的深厚積累和理解。我們要做具身人工智能,但客戶到底需要什么,這需要我們在行業(yè)里深耕多年積累的經(jīng)驗。第二,是微億團隊對 AI 技術的強大把控能力。

再有,捷勃特機器人的自研率非常高。所以當微億智造問能否實現(xiàn)某個功能時,我們都能做到,因為所有的技術都是自主研發(fā)的。

還有一點非常重要,就是雙方之間深厚的互信。我把我的技術開放給你,你也開放給我,這都建立在彼此深層的信任基礎上。

所以,這幾方面都是很高的門檻。

艾之:未來你們的產(chǎn)品和技術路線上,可能會帶來什么樣的機械臂或具身智能工業(yè)機器人?

賀巖:首先我們要把「創(chuàng) TRON」這款產(chǎn)品真正落地。因為從成功率和效率的角度看,離「為客戶創(chuàng)造價值」,我們還有很多事可以做,如果能夠把這個事情做到更好,本身就是一件偉大、蠻有挑戰(zhàn)的事。從產(chǎn)品展示到找到種子客戶,再到讓客戶真正意識到這款產(chǎn)品的價值,這中間還有一段路要走,希望能踏實地把這條路走好,走穩(wěn)。

艾之:先讓更多的工廠和生產(chǎn)線用起來,這是關鍵。

張志琦:對的,其實按照我們和捷勃特的時間規(guī)劃,明年上半年我們計劃完成產(chǎn)品的小批量生產(chǎn),下半年會完成大批量生產(chǎn)。就像賀巖總說的,產(chǎn)品工程化過程中還有很多工作要快速落地和實現(xiàn)。同時我們的第一批種子客戶已經(jīng)逐步開始導入這些設備,完成第一期項目的落地。我們也希望在這批項目中盡快看到成果,為更多同行業(yè)甚至跨行業(yè)的客戶提供一個良好的基礎。

賀巖:從長遠來看,未來我們可能會結(jié)合力學和觸覺,現(xiàn)在我們已經(jīng)結(jié)合了視覺,接下來還會賦予機器人更多像人一樣的感覺——有眼睛、有大腦、再加上重量感。未來還有很多事情可以做。


(文章轉(zhuǎn)載自Founder Park)