AI Brief

AI的演進

Artificial Intelligence (AI) Evolution


Deep Learning (深度學習)


AI 的應用

CNN

  • Image Classification (影像分類)
  • Object Detection (物件偵測)

  • Pose Estimation (姿態估計)
  • Face Recognition (人臉識別)

GAN

  • Image Inpainting (修圖)
  • Deep Fake (換臉)
  • Stable Diffusion (生成圖片/影片)

RNN

  • Text-to-Speech(TTS) : 文字轉語音
  • Text-to-Text : Translation (翻譯), Text Generation(文本產生)
  • Generative Pretrained Transformers (GPT) : Q&A, Exam (考題問答)
  • Large Language Model(LLM): ChatGPT, Gemini, Grok Dataset: GSM8K (Grade School Math)

AI Competitions & Jobs


Generative AI (生成式人工智慧)

The 55 Best AI Tools for 2025 (Tried and Tested)

LLMs Timeline

AI agents comparison


Microsoft WHAM

Introducing Muse: Our first generative AI model designed for gameplay ideation


Large Language Model (大型語言模型)

Blog: An Opinionated Guide to Using AI Right Now

GPT-5.2

GPT‑5.2 Thinking 是我們迄今在真實專業情境中表現最出色的模型。在 GDPval⁠ 基準測試(橫跨 44 種職業、衡量定義明確的知識工作任務)中,GPT‑5.2 Thinking 創下業界新標準,並成為我們首個達到人類專家水準、甚至更勝一籌的模型。
GDPval⁠ 基準測試(橫跨 44 種職業、衡量定義明確的知識工作任務)

  • 具經濟價值的任務 : GPT‑5.2 Thinking 在 70.9% 的 GDPval 知識工作任務中,表現與頂尖業界專業人士不相上下,或更加優秀。
  • 寫程式 : GPT‑5.2 Thinking 在 SWE-bench Pro 上取得 55.6% 的最新業界領先成績
  • 事實準確度 : GPT‑5.2 Thinking 的幻覺 GPT‑5.1 Thinking 明顯降低。在一組來自 ChatGPT 的去識別化查詢中,含錯誤的回覆相對下降了 38%。
  • 長篇上下文 : GPT‑5.2 Thinking 是我們首個在 4-needle MRCR 測試(上下文長度可達 256k Token)中達到近乎 100% 準確度的模型。
  • 視覺 : 在 CharXiv Reasoning⁠(在新視窗中開啟) 中,模型需回答來自科學論文的圖表問題。在 ScreenSpot-Pro⁠(在新視窗中開啟) 中,模型需理解來自不同專業領域的圖形使用者介面高解析度螢幕截圖。
  • 工具呼叫 : GPT‑5.2 Thinking 在 Tau2-bench Telecom 上取得 98.7% 的最新業界領先成績,展示模型在長時間、多輪次任務中呼叫工具的可靠能力。
  • 科學與數學 : 在 GPQA Diamond⁠(在新視窗中開啟) 中,模型回答與物理、化學、生物相關的研究生級選擇題。在 FrontierMath⁠(在新視窗中開啟) 中,模型解答專家級數學問題。
  • ARC-AGI 2 : GPT‑5.2 Thinking 創下思路鏈模型的新紀錄,取得 52.9% 的分數。

Grok-4

  • 推理能力大幅提升:AIME 數學、GPQA 科學問答測試表現領先,擅長複雜問題解構。
  • 專用編碼模式(Grok 4 Code):現場展示即時編寫並執行 HTML 與 Python 程式。
  • 全面多模態互動:支援文字、圖像與語音輸入,新增即時圖像生成。
  • 即時資料檢索(RAG 架構):與 X 平台整合,即時獲取新聞、趨勢貼文進行回答。
  • Hybrid Transformer-MoE 架構:提升運算效率與任務專業化。
  • 超大規模訓練:使用 xAI Colossus 超級電腦,訓練資源達 25 萬顆 Nvidia H100 GPU。

Gemini-3

Introducing the Gemini 2.5 Computer Use model
Prompt: From https://tinyurl.com/pet-care-signup, get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

Claude Opus 4.5


DeepSeek V3.2


AIGC (AI Generated Content)

Text-to-Image

  • Grok Image 0.9

Text-to-Video


AGI - Artificial General Intelligence (通用人工智慧)

AGI stands for Artificial General Intelligence. It’s a theoretical level of AI development where a machine can understand, learn, adapt, and implement knowledge across a wide range of tasks, much like a human being.
Paper: Levels of AGI: Operationalizing Progress on the Path to AGI
Paper: GAIA: a benchmark for General AI Assistants

  • 推理型 LLM 的出現,加速了對 AGI 到來的那一天的想像。
  • AGI 更像是一種「資源」,而非「工具」
  • AGI 將使公司更傾向於裁員並停止招聘新人,因為人類勞動力不再具有經濟價值。

LLM Reasoning

Reinforcement Pre-Training

Microsoft and China AI Research Possible Reinforcement Pre-Training Breakthrough

Nested Learning


AI News

2026

2025

2024


AI的影響


AI的未來

Elon Musk latest interview


CES 2025 Jenson Keynote

AI Ascent 2025

長文導讀紅杉資本給創業者的戰略建議:AI 如何成為下一個兆元經濟?


AI Enpowerment (賦能)


Humanoid Robots(人形機器人)

Optimus Gen3

Walker S2


Figure 03


ADAM (DeepMind’s RoboTool)

Paper: ADAM: a robotic companion for enhanced quality of life in aging populations


NVIDIA Isaac GR00T N1


WRC 2025



This site was last updated January 16, 2026.