久久精品无码一区二区WWW,91久久精品一区二区,黑人无码精品一区二区三区,se国产成人.com

icon

新聞 資訊

News and information

多模態(tài)技術(shù),釋放垂直AI軟件潛力的關(guān)鍵

發(fā)布時(shí)間:2024-10-25

  多模態(tài)技術(shù)正在改變垂直AI應(yīng)用??


  不久前,Bessemer提出了一個(gè)很有價(jià)值的觀點(diǎn): 


  垂直AI軟件將成為未來(lái)。


  說(shuō)起B(yǎng)essemer,熟悉SaaS行業(yè)的人可能并不陌生。它是美國(guó)SaaS領(lǐng)域最專(zhuān)業(yè)的投資機(jī)構(gòu)之一,在過(guò)去10年投資了200多家SaaS企業(yè)。


  為了更好講清楚垂直AI軟件的價(jià)值,Bessemer發(fā)布了垂直AI路線(xiàn)圖,總共四個(gè)部分。本文是Bessemer的垂直AI路線(xiàn)圖的第二篇文章。在這篇文章中,Bessemer會(huì)分享其對(duì)以下問(wèn)題的思考:


  多模態(tài)的垂直AI應(yīng)用的落地究竟有哪些影響?現(xiàn)在基于多模態(tài)技術(shù)的垂直AI應(yīng)用又有著哪些不錯(cuò)的落地案例?


  01 多模態(tài)技術(shù)正在改變垂直AI應(yīng)用??


  在過(guò)去12個(gè)月中,全球出現(xiàn)了許多新模型,它們?cè)诶斫庹Z(yǔ)境、減少幻覺(jué)以及整體推理能力方面進(jìn)步很大。尤其在語(yǔ)音識(shí)別、圖像處理和語(yǔ)音生成等方面,AI的能力正在逐漸接近人類(lèi)。這為AI解鎖了很多新的應(yīng)用場(chǎng)景。 


  語(yǔ)音功能


  在對(duì)話(huà)語(yǔ)音領(lǐng)域,模型發(fā)展取得了快速進(jìn)展:語(yǔ)音轉(zhuǎn)文本模型 (自動(dòng)語(yǔ)音識(shí)別) 和文本轉(zhuǎn)語(yǔ)音模型 (生 成語(yǔ)音) 。 


  目前,市場(chǎng)有數(shù)十家公司提供基于這些模型的語(yǔ)音服務(wù),這推動(dòng)了大量新的語(yǔ)音AI應(yīng)用程序的出現(xiàn)。 


  這些應(yīng)用程序大都依賴(lài)于所謂的“級(jí)聯(lián)架構(gòu)”,即先將語(yǔ)音轉(zhuǎn)錄為文本,然后將該文本輸入到LLM中以生成響應(yīng),最后將文本輸出反饋到生成語(yǔ)音模型中以產(chǎn)生音頻響應(yīng)。直到最近,這一直是構(gòu)建對(duì)話(huà)語(yǔ)音應(yīng)用程序的最佳方式。然而,這種方法有一些缺點(diǎn),比如它會(huì)有一定的延遲,同時(shí)失去用戶(hù)對(duì)話(huà)中表達(dá)的情感。 


  而現(xiàn)在,新一代語(yǔ)音原生模型已經(jīng)發(fā)布了,包括OpenAI的Realtime API (它支持通過(guò)GPT-4o進(jìn)行語(yǔ)音對(duì)語(yǔ)音交互) ,以及Kyutai的Moshi等多個(gè)開(kāi)源項(xiàng)目。 


  與之前的模型相比,語(yǔ)音原生模型的延遲明顯降低 (<500毫秒) 。它們還可以捕捉更多來(lái)自用戶(hù)的語(yǔ)境 (即語(yǔ)氣、情緒、情感等) ,并生成反映該語(yǔ)境的響應(yīng),使交流感覺(jué)更自然,并更有可能滿(mǎn)足用戶(hù)的需求。 


  在未來(lái)幾年內(nèi),隨著越來(lái)越多的對(duì)話(huà)式語(yǔ)音應(yīng)用基于這些全新改進(jìn)的模型構(gòu)建,我們預(yù)計(jì)對(duì)話(huà)式語(yǔ)音應(yīng)用的速度和質(zhì)量將大幅提升。 


  語(yǔ)音應(yīng)用案例


  現(xiàn)在語(yǔ)音轉(zhuǎn)錄的應(yīng)用已經(jīng)非常成熟了,端到端對(duì)話(huà)語(yǔ)音代理也取得了顯著的早期進(jìn)展,我們認(rèn)為這是語(yǔ)音AI解決方案的未來(lái)方向。接下來(lái),我們就來(lái)看看4個(gè)AI語(yǔ)音的應(yīng)用案例。 


  1)轉(zhuǎn)錄功能讓用戶(hù)有更多時(shí)間完成工作流程中的后續(xù)步驟 : 


  Bessemer投資組合公司Abridge率先推出了一款一流的醫(yī)療轉(zhuǎn)錄應(yīng)用程序,該應(yīng)用程序可以根據(jù)臨床對(duì)話(huà)生成醫(yī)療記錄,并確定適當(dāng)?shù)暮罄m(xù)行動(dòng),包括購(gòu)買(mǎi)處方藥、專(zhuān)家預(yù)約等,醫(yī)生可以把更多注意力轉(zhuǎn)移到患者護(hù)理上。 


  另一個(gè)很好的例子是Rillavoice,這家公司將人工智能引入了家庭服務(wù)垂直領(lǐng)域。Rillavoice的轉(zhuǎn)錄應(yīng)用程序記錄銷(xiāo)售人員和客戶(hù)之間的對(duì)話(huà),用于培訓(xùn)目的,這樣銷(xiāo)售經(jīng)理仍然可以提供有價(jià)值的指導(dǎo)反饋,而無(wú)需進(jìn)行非常耗時(shí)的面對(duì)面“陪同”。 


  2)用AI來(lái)承接銷(xiāo)售線(xiàn)索:


  到目前為止,我們看到的端到端語(yǔ)音代理最引人注目的用例之一是入站銷(xiāo)售。在很多特定的垂直場(chǎng)景 (如家庭服務(wù)企業(yè)或汽車(chē)經(jīng)銷(xiāo)商) 里,語(yǔ)音代理可以在下班后或其他銷(xiāo)售代表忙碌時(shí)接聽(tīng)客戶(hù)電話(huà),從而確保企業(yè)不會(huì)錯(cuò)過(guò)有價(jià)值的潛在客戶(hù)。這些功能比之前的語(yǔ)音機(jī)器人更智能和高效,無(wú)需銷(xiāo)售的代表的參與。 


  3)AI客服提升客戶(hù)體驗(yàn) : 


  AI客服一直是應(yīng)用比較多的場(chǎng)景。但許多用戶(hù)發(fā)現(xiàn),早期的交互式語(yǔ)音應(yīng)答(IVR)技術(shù)體驗(yàn)并不好。事實(shí)證明,現(xiàn)代語(yǔ)音代理更有效。 


  因?yàn)閭鹘y(tǒng)的IVR產(chǎn)品只能理解客戶(hù)對(duì)特定措辭的回應(yīng)意圖,但現(xiàn)代語(yǔ)音代理不同,無(wú)論客戶(hù)如何提問(wèn)或提出請(qǐng)求,現(xiàn)代語(yǔ)音代理都能提供正確的答案。這樣讓客服人員更有時(shí)間對(duì)應(yīng)付復(fù)雜的客戶(hù)問(wèn)題。 


  4)自動(dòng)撥打外撥電話(huà)以增加漏斗頂端:


  現(xiàn)在已經(jīng)出現(xiàn)了多種解決方案來(lái)自動(dòng)撥打銷(xiāo)售和招聘團(tuán)隊(duì)的外撥電話(huà)。通常,語(yǔ)音代理使用客戶(hù)陳述的標(biāo)準(zhǔn)來(lái)識(shí)別最有潛力的銷(xiāo)售線(xiàn)索或候選人,對(duì)線(xiàn)索進(jìn)行首次呼叫,然后將他們引導(dǎo)到與銷(xiāo)售人員或招聘人員的下一次會(huì)議。 


  讓人工智能接管外撥工作流程可以顯著增加可以聯(lián)系的線(xiàn)索數(shù)量,從而增加公司的漏斗頂端。隨著時(shí)間的流逝,銷(xiāo)售人員和招聘人員有更好的機(jī)會(huì)獲得最有潛力的線(xiàn)索。 


  唯一需要注意的事,有必要出臺(tái)相應(yīng)的法規(guī),規(guī)定AI只能向潛在客戶(hù)撥打電話(huà),以避免AI銷(xiāo)售的濫用。 


  在所有語(yǔ)音用例中,我們預(yù)計(jì)低延遲和理解用戶(hù)的情緒和情感將成為一件很重要的事情。此外,由于應(yīng)用場(chǎng)景的差異,AI語(yǔ)音解決方案在其他維度上也略有不同,例如實(shí)時(shí)協(xié)調(diào)跨多個(gè)底層模型的對(duì)話(huà)以?xún)?yōu)化成本和性能;支持全渠道通信、多種語(yǔ)言和實(shí)時(shí)翻譯。 


  在視覺(jué)方面,我們已經(jīng)看到了GPT-4 with vision (GPT-4V) 等模型的發(fā)展,這些模型可以解釋圖像并回答有關(guān)圖像的問(wèn)題,以及處理原始圖像和視頻的多模態(tài)模型。比如,谷歌的多模態(tài)模型Gemini 1.5 Pro已經(jīng)可以理解圖像和視頻中的輸入。 


  我們預(yù)計(jì),這些和類(lèi)似的模型將繼續(xù)提高性能并降低成本——這對(duì)應(yīng)用程序構(gòu)建者來(lái)說(shuō)是個(gè)好消息。  


  視覺(jué)和視頻的用例


  垂直應(yīng)用中視覺(jué)的應(yīng)用案例通常分為以下四類(lèi):數(shù)據(jù)提取、視覺(jué)檢查、設(shè)計(jì)和視頻分析。雖然數(shù)據(jù)提取是迄今為止視覺(jué)模型最成熟的用例,但我們?cè)谄渌I(lǐng)域也看到了新的應(yīng)用進(jìn)展:  


  1)從圖片、PDF或其他非結(jié)構(gòu)化文檔的圖像中提取數(shù)據(jù):


  分析和處理當(dāng)前的非結(jié)構(gòu)化數(shù)據(jù),AI可以減輕人類(lèi)繁瑣的數(shù)據(jù)輸入任務(wù)程。例如,Raft針對(duì)貨運(yùn)代理行業(yè)的平臺(tái)結(jié)合使用計(jì)算機(jī)視覺(jué)和LLM從PDF發(fā)票中提取關(guān)鍵信息,填充其客戶(hù)的企業(yè)資源規(guī)劃平臺(tái) (ERP) ,并自動(dòng)執(zhí)行發(fā)票核對(duì)和準(zhǔn)備海關(guān)申報(bào)單等下游任務(wù)。 


  2)提升目前人工檢查的效率 : 


  許多公司已經(jīng)使用AI來(lái)幫助簡(jiǎn)化人工檢查流程并更快地提供結(jié)果。比如,人工智能建筑平臺(tái)xBuild為住宅建筑和修復(fù)項(xiàng)目生成工作范圍包,然后與保險(xiǎn)公司合作獲得報(bào)銷(xiāo)批準(zhǔn)。xBuild使用受損屋頂?shù)恼掌头课菟{(lán)圖來(lái)生成報(bào)告,概述根據(jù)當(dāng)?shù)亟ㄖ?guī)范將屋頂恢復(fù)到正常狀態(tài)所需的修復(fù)范圍。其他應(yīng)用程序已使用人工智能和計(jì)算機(jī)視覺(jué)來(lái)自動(dòng)化施工圖中的質(zhì)量保證審查過(guò)程,幫助盡早發(fā)現(xiàn)錯(cuò)誤,以防止后期施工過(guò)程中出現(xiàn)代價(jià)高昂的項(xiàng)目變更。 


  3)生成2D和3D設(shè)計(jì) : 


  為建筑、工程和施工 (AEC) 行業(yè)服務(wù)的AI平臺(tái)數(shù)量急劇增加。一些公司正在使用AI進(jìn)行可行性評(píng)估,將擬建場(chǎng)地 (建筑物、停車(chē)場(chǎng)等) 的視覺(jué)描述與相關(guān)供應(yīng)成本相結(jié)合,根據(jù)后者的成本限制調(diào)整前者,反之亦然。 


  Snaptrude等其他解決方案可以創(chuàng)建建筑物的詳細(xì)3D設(shè)計(jì)圖像,接管通常由結(jié)構(gòu)工程師完成的重復(fù)性工作,讓他們有時(shí)間專(zhuān)注于更高級(jí)別的設(shè)計(jì)工作。詳細(xì)產(chǎn)品和基礎(chǔ)設(shè)施設(shè)計(jì)的自動(dòng)化不僅可以節(jié)省客戶(hù)寶貴的工程時(shí)間,還可以加強(qiáng)銷(xiāo)售提案并提高項(xiàng)目成功率。 


  4)視頻分析 : 


  生成和理解視頻的模型是視覺(jué)模型中最不成熟的,但它們正在迅速進(jìn)步。 


  在對(duì)象跟蹤、分類(lèi)甚至視頻內(nèi)容的自然語(yǔ)言搜索方面,視頻理解模型已經(jīng)變得相當(dāng)強(qiáng)大。這些模型甚至有些已經(jīng)完成商業(yè)化落地,比如用AI監(jiān)控視頻源以發(fā)現(xiàn)制造或工業(yè)環(huán)境中出現(xiàn)的安全違規(guī)行為。 


  但考慮到視頻模型的進(jìn)步的速度,未來(lái)幾年我們將看到更多令人印象深刻的AI應(yīng)用,并擴(kuò)展到更多的用例。尤其在機(jī)器人領(lǐng)域,視頻理解是機(jī)器人感知的關(guān)鍵組成部分。 


  在所有視覺(jué)用例中,創(chuàng)始人都應(yīng)避免將復(fù)雜性誤認(rèn)為價(jià)值。雖然AI解決方案總被認(rèn)為應(yīng)該應(yīng)用在自動(dòng)化特別復(fù)雜的工作流程中,但歸根到底,用戶(hù)價(jià)值還是看現(xiàn)有場(chǎng)景的工作流程適不適合自動(dòng)化。 


  如果設(shè)計(jì)自動(dòng)化解決方案需要與難以替代的核心系統(tǒng) (如Revit) 進(jìn)行繁瑣的集成,并且初始投資回報(bào)率較低,那么無(wú)論解決方案多么強(qiáng)大,都很難推動(dòng)銷(xiāo)售和采用。早期公司應(yīng)該從技術(shù)復(fù)雜程度較低、范圍較窄的產(chǎn)品開(kāi)始,然后再?gòu)哪抢镅由臁.?dāng)然,最佳路徑會(huì)因行業(yè)和用例而異,但要牢記權(quán)衡利弊。 


  02 人工智能代理的前景


  雖然早期的人工智能代理多少有些炒作的意味,但現(xiàn)在人工智能代理開(kāi)始有一些真正的落地進(jìn)展。隨著OpenAI o1模型的推出,代理能夠處理更多復(fù)雜的推理任務(wù)。 


  如今,代理在涉及重復(fù)任務(wù)和通信的文本、語(yǔ)音和視覺(jué)工作流中發(fā)揮著重要作用。但在未來(lái)一年,我們預(yù)計(jì)基于較新的推理模型構(gòu)建的應(yīng)用程序?qū)?huì)出現(xiàn),并發(fā)揮AI代理的真正潛力:自主處理復(fù)雜的工作流。 


  1)銷(xiāo)售和營(yíng)銷(xiāo) : 


  許多公司都推出了AI代理,可以為銷(xiāo)售團(tuán)隊(duì)尋找和聯(lián)系潛在客戶(hù)。這些代理的優(yōu)點(diǎn)在于,它們能夠進(jìn)行大量研究數(shù)據(jù),來(lái)識(shí)別高質(zhì)量的潛在客戶(hù) (通過(guò)對(duì)目標(biāo)公司、其員工和相關(guān)行業(yè)新聞進(jìn)行詳細(xì)的網(wǎng)絡(luò)搜索) ,然后使用這些研究結(jié)果來(lái)撰寫(xiě)相關(guān)且高度個(gè)性化的電子郵件。由于代理可以有效地執(zhí)行工作中的研究和推廣部分,同時(shí)保持相對(duì)較高的質(zhì)量,因此它會(huì)讓銷(xiāo)售人員將自己時(shí)間更多投入到跟蹤熱門(mén)銷(xiāo)售線(xiàn)索。 


  2)談判 : 


  AI代理在自動(dòng)完成多方談判方面展示了不錯(cuò)的前景。 


  Pactum等公司已經(jīng)開(kāi)發(fā)出能夠就供應(yīng)鏈案例協(xié)商法律和商業(yè)條款的人工智能代理。Pactum的代理可以與供應(yīng)商進(jìn)行談判以?xún)?yōu)化交易條款。我們也看到其他垂直AI公司在銷(xiāo)售和促銷(xiāo)領(lǐng)域采取了類(lèi)似的方法。在這里,代理根據(jù)既定標(biāo)準(zhǔn)與買(mǎi)家和供應(yīng)商進(jìn)行談判,例如批量購(gòu)買(mǎi)的折扣或快速付款計(jì)劃。 


  3)調(diào)查 : 


  企業(yè)網(wǎng)絡(luò)安全團(tuán)隊(duì)經(jīng)常被大量安全警報(bào)壓得喘不過(guò)氣來(lái),但現(xiàn)在有AI代理可以協(xié)助完成警報(bào)調(diào)查的初始階段。 


  這包括:從多個(gè)不同的系統(tǒng)收集有關(guān)事件的信息,研究可能涉及的惡意行為,總結(jié)事件并評(píng)估其嚴(yán)重程度。雖然大多數(shù)團(tuán)隊(duì)傾向于使用代理來(lái)處理風(fēng)險(xiǎn)較低的工作流程,但很明顯,隨著時(shí)間的推移,更復(fù)雜的代理可以處理越來(lái)越多需要信息收集和綜合的工作流程。 


  我們相信,與不需要這些解決方案的解決方案相比,處理需要跨多種模式進(jìn)行更復(fù)雜推理的任務(wù)和工作流程的代理將更有價(jià)值。 


  特別是,我們看到,通過(guò)巧妙的架構(gòu)決策以及將正確的模型、反饋回路等拼接在一起以提供一致的結(jié)果,可以提高代理工作流程的性能。代理性能并不完全取決于問(wèn)題中數(shù)據(jù)和計(jì)算的規(guī)模,因此對(duì)于早期創(chuàng)業(yè)公司來(lái)說(shuō),這是一個(gè)更具吸引力的機(jī)會(huì)。在所有情況下,鑒于底層模型的快速發(fā)展,在構(gòu)建技術(shù)護(hù)城河和確保靈活性之間取得適當(dāng)?shù)钠胶鈱⑹顷P(guān)鍵。 


  總的來(lái)說(shuō),越來(lái)越多垂直AI的創(chuàng)始人開(kāi)始研究利用AI多模態(tài)能力,來(lái)解決更廣泛的實(shí)際任務(wù)。與文本一樣,語(yǔ)音和視覺(jué)的底層模型將日益商品化,使公司在強(qiáng)大的基礎(chǔ)模型之上構(gòu)建應(yīng)用程序更具可持續(xù)性。我們相信,這波垂直AI應(yīng)用不僅會(huì)改變它們所服務(wù)的行業(yè)和垂直格局,也將從徹底改變我們工作和與世界互動(dòng)的方式。


本文來(lái)源:36氪

文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系我們及時(shí)刪除!