【台北訊,2025年4月9日】亞馬遜宣布推出一款全新的基礎模型Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使AI應用程式中的語音對話更貼近真人交流。該模型透過Amazon Bedrock上的新API提供,可簡化語音應用開發流程,例如客戶服務通話自動化及涵蓋旅遊、教育、醫療、娛樂等領域的跨產業AI代理(AI agents)。
在過去十餘年間,亞馬遜始終引領著語音技術的發展,致力於為對話式AI應用賦能,從打造全球領先的個人AI助手Alexa,到開發Amazon Web Services(AWS)的各類服務,如Lex、Polly和Connect等。然而,要讓語音AI為客戶創造更多實際價值,它必須能夠理解人類對話的微妙差異與複雜性。在對話中,文字本身承載意義,但若沒有聲音語境賦予其深度,僅憑文字往往難以傳達完整資訊。如何表達與表達什麼同樣重要,甚至更為關鍵。從過去到現在,透過AI實現這一點都是巨大挑戰。
Nova Sonic採用全新方法應對這些挑戰。它摒棄了使用多個不同模型的方式,而是將理解與生成功能統一於單一模型中。這種整合使模型能根據語氣、風格等聲音情境以及口語輸入調整生成的語音回應,進而實現更自然的對話。Nova Sonic甚至能理解人類對話的細微變化,包括說話者的自然停頓與猶豫,能在恰當時機做出回應,並能從容應對對話中的插話情況。
基於Amazon Nova Sonic建構的旅遊AI代理案例 這段對話展示客戶與虛擬旅遊助手討論夏威夷行程的場景。當客戶的語氣從興奮轉為擔憂費用時,AI的語調隨之變得更具安撫性,並即時調取相關價格資訊。