
最近搜看股票

報價
返回 放大 + 縮小 - | |
阿里通義千問開源新架構模型Qwen3-Next 訓練成本降90%
推薦 31 利好 62 利淡 14 滙港資訊
|
|
![]() |
|
<匯港通訊> 阿里巴巴(09988)旗下通義千問團隊發布下一代基礎模型架構Qwen3-Next,其訓練成本較密集模型Qwen3-32B大降逾90%,長文本推理輸送量提升10倍以上,並可支持百萬Tokens(詞元)超長上下文。 Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展(Scaling)的未來趨勢而設計,採用全新的高稀疏MoE架構,並對經典Transformer核心組件進行重構,創新採用線性注意力和自研門控注意力結合的混合注意力機制,實現模型訓練和推理的雙重性價比突破。 基於這一新架構,阿里通義「打樣」了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數800億僅啟動30億,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。 (ST) #Qwen3-Next (ST)新聞來源 (不包括新聞圖片): 滙港資訊 |
|
免責聲明 : 以上資訊僅供參考。AASTOCKS.com Limited對以上資訊的內容不承擔任何責任,對其準確性,完整性,品質,及時性,或可靠性不作任何陳述或予以認可,並明確表示不對任何由本資訊的全部或部分內容引致之損失或損害承擔任何法律責任或為其引起的損失負責。以上資訊或反映了相關文章或專題作者的的個人意見和觀點,並不代表AASTOCKS.com Limited的立場。以上資訊的任何內容均不構成AASTOCKS為任何投資作出招攬、提出要約、意見或推薦,或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務。投資者必須按其本身投資目標及財務狀況自行作出投資決定。
|