menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


LLM





    2025-06-26
  • 中國人工智慧 (AI) 新創公司深度求索(DeepSeek)尚未決定旗下下一代大型語言模型 R2 的正式發表時間,原因是執行長梁文峰對模型目前的性能表現仍不滿意。根據《The Information》周四 (26 日) 引述兩位知情人士報導,R2 原計畫於 5 月推出,作為大受歡迎的 R1 推理模型後繼版本,並希望能在程式碼生成與非英語語言推理方面有所突破。






  • 美股雷達

    Meta (META-US) 周三在一樁涉及其 Llama 人工智慧 (AI) 模型的重大版權訴訟中勝訴,打敗代表 13 位作者的原告方。但法官明確表示,他的判決僅限於此案。美國地區法官 Vince Chhabria 支持 Meta 的論點,認為該公司使用書籍來訓練其大型語言模型(LLM)的行為受到美國版權法合理使用原則的保護。






  • 2025-06-13
  • 美股雷達

    史丹佛大學電腦科學系教授吳恩達 (Andrew Ng) 周四 (12 日) 在 X 平台發表了一篇深度文章,詳細剖析了一個正在快速崛起的新職業——GenAI 應用工程師。這群人不僅能用 AI 積木塊快速搭建強大應用,還能借助 AI 編程助手以前所未有的速度開發軟體系統。






  • 2025-06-08
  • 美股雷達

    蘋果近期發表一項具指標性的 AI 研究報告,震撼揭露目前市場上號稱具備「推理能力」的 AI 模型,如 Claude Thinking、DeepSeek-R1、o3-mini,實際上只是進行「進階記憶遊戲」,根本談不上真正的邏輯推理。為了避開常見的訓練資料污染問題,蘋果研究團隊自訂了一組從未出現在資料集中的 邏輯謎題,用來測試 AI 模型是否具備真正的 理解與推理能力。






  • 2025-06-06
  • 科技

    美國史丹佛大學以人為本 AI 研究院今年 4 月發布第 8 份年度《AI 指數報告》,這份 456 頁的權威報告全面追蹤 2024 年全球 AI 發展脈絡,涵蓋技術研發、經濟影響、政策治理、公眾認知等八大方面,揭示 AI 正以「超預期速度」滲透人類社會。






  • 2025-06-03
  • 台股新聞

    針對 AI 產業的發展趨勢,台積電 (2330-TW)(TSM-US) 董事長魏哲家指出,AI 由軟體與硬體共同構成,無論是 ChatGPT 還是 DeepSeek 等大型語言模型 (LLM),最終都需仰賴台積電的晶片來提供運算,並重申全世界只要做 AI 的客戶,都正與台積電合作,我們的技術與生產能力都是全球第一,客戶也對我們高度信任,最後也補充只要多買我們股票就不會錯。






  • 2025-05-30
  • 基金

    中國大陸新創公司 DeepSeek 推出低成本 AI 人工智慧模型,引發市場對全球科技生態系統贏家將由誰當的關注。目前半導體股占 MSCI 世界資訊科技指數 1/3,富達國際對半導體長期看好,建議投資人可留意過去 2 年表現相對落後、但將預算導向 AI 基建發展的半導體股。






  • 2025-05-21
  • 台股新聞

    NVIDIA GTC Taipei 今 (21) 日登場,國泰金 (2881-TW) 去年推出「國泰生成式 AI 技術發展框架 GAIA」,更以 AI 即服務 (AI as a service, AIaaS) 策略,全面提升集團在數位、數據、技術轉型的效益,發展多元 AI 智能應用。






  • 2025-05-08
  • 美股雷達

    知名避險基金經理人、Tudor Investment 創辦人瓊斯 (Paul Tudor Jones) 因成功預言 1987 年 10 月股災而一戰成名,他近期警告,人工智慧 (AI) 的發展正迅速突破人類對科技的認知,可能在未來對人類構成極大威脅。






  • 2025-03-27
  • 美股雷達

    DeepSeek 在向來由西方國家主宰的人工智慧 (AI) 領域橫空出世後,中國大型語言模式 (LLM) 競爭持續升溫,阿里雲周四 (26 日) 推出「通義千問 (Qwen) 系列」的最新人工智慧模式。根據阿里雲官網公告,新的「Qwen2.5-Omni-7B」是一個多模態模型,即不僅能處理包括文字、圖像、音訊和視訊在內的輸入,還能同時產生即時文字和自然語音回應。






  • 2025-03-12
  • 科技

    AI 新創公司發表 Inception Labs 全球首個商用級擴散大語言模型 Mercury Coder,比當前的 LLM 速度更快 5 至 10 倍,並且以低成本提供高品質。現有的大語言模型(LLM)都採用自回歸方式工作,就像人類閱讀一樣,從左到右一個詞一個詞地生成文本。






  • 2025-03-11
  • 美股雷達

    路透周二 (11 日) 援引兩名知情人士消息報導,臉書母公司 Meta Platforms(META-US) 正在測試與台積電 (2330-TW)(TSM-US) 合作生產的自研人工智慧 (AI) 訓練晶片,目的是要降低對輝達 (NVDA-US) 的依賴、減少基礎設施成本。






  • 2025-03-10
  • 科技

    不久前,OpenAI、Anthropic 這樣的 AI 大廠還備受投資人追捧,每年投入數十億美元打造先進的大語言模型 (LLM),但近來矽谷投資風向改變,轉而追捧 AI 智能體 (AI Agent),曾經被瞧不起的 AI 應用公司,如今成了矽谷投資圈的當紅炸子雞。






  • 2025-02-27
  • DeepSeek 在開源周第四天一連更新 DualPipe、EPLB 以及深入分析 V3/R1 模型中計算與通信重疊機制的優化並行策略等三項專案,讓大模型訓練更快,成本更低,還能保持頂尖性能,值得一提的是,DualPipe 是由 Jiashi Li、Chengqi Deng 和梁文峰共同研發。






  • 2025-02-20
  • 科技

    馬斯克周二 (18 日) 發表 Grok-3,號稱「地球上最聰明 AI」,而近期爆紅的 DeepSeek 也沒閒著,在當天發表名為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的一項重要論文,介紹一種新的稀疏注意力機制(Natively Sparse Attention,NSA),用於提升長文本訓練和推理的效率,並具備硬體對齊和端到端訓練的特性。






  • 2025-02-17
  • 美股雷達

    最新研究顯示,全球 AI 算力持續提升,因輝達與超微半導體等 AI 晶片廠商紛紛推出加速器,加上一些新興勢力開始製造晶片,其中大語言模型最愛使用輝達 (NVDA-US) A100 晶片,谷歌 (GOOGL-US) 擁有逾 100 萬個跟 H100 晶片相當的算力。






  • 2025-02-15
  • 科技

    美媒《CNBC》周五 (14 日) 報導,隨著中國新創公司深度求索 (DeepSeek) 推出更便宜且高效的人工智慧 (AI) 模型,可能會重塑資料中心的需求,進一步促進這一已經蓬勃發展的行業。資料中心是數位轉型和大型語言模型 (LLMs) 訓練的核心基礎設施,分析師長期預測其將持續成長。






  • 2025-02-13
  • 台股新聞

    第一銀行因應金融機構上雲政策,始終對於雲端技術的採用具備市場敏銳度,早於 2022 年即運用 Amazon CloudFront 低延遲內容交付網路技術,提升公開網站對外反應速度及使用者體驗,並於銀行公會 2024 年 7 月公布「金融機構作業委外使用雲端服務自律規範」前,就同步規劃運用 Amazon Web Services (AWS) 雲端服務打造數據分析雲端平台,並於今年 2 月正式上線,成為首家建置數據分析雲端平台的公股銀行,展現數位轉型的決心。






  • 2025-02-06
  • 美股雷達

    Alphabet 旗下的 Google 周三 (5 日) 宣布更新其 Gemini 系列的大型語言模型 (LLM),並推出一款全新的低成本人工智慧 (AI) 模型,以對抗來自中國競爭對手 DeepSeek 的低價產品。Google 現在提供多個版本的 Gemini 模型,根據價格和效能有所區別。






  • 2025-01-21
  • 美股雷達

    歐洲最熱門的人工智慧 (AI) 新創公司之一的負責人表示,預計 AI 技術今年將超越大型語言模型 (LLM)。法國 AI 公司 Mistral 執行長孟許 (Arthur Mensch) 表示,他認為 2025 年 AI 產品重點將從模型轉向整合模型和上下文業務數據的「系統」。