AI 模型文章

Doubao Seed Evolving模型评测：豆包首款无限进步模型

豆包出了没有版本号、升级自动生效的 Doubao Seed Evolving，主打 1M 超长上下文、长程任务和 Token 效率。围绕数据分析网站、三国战役回放、视频生成和简历制作四个场景实测，记录它的速度、稳定性以及目前可用的边界。

2026-07-28

Kimi K3 深度实测：一句话做 3D 和视频的极限

深度实测 Kimi K3：在 GPT 5.5/5.6 降智龟速期，K3 的整体表现强到惊喜。重点验证了一句话生成 3D 建模与视频的能力，梳理 3D 建模的惊艳表现与视频生成的可用边界，并对比其他模型在同类任务上的差距。

2026-07-23

Deepseek V4 技术报告解读：百万 token、1/9 的价格，AI 进入平权时代

2026年4月24日，DeepSeek V4 发布了。它在高难数学、编程竞赛以及编程真实问题验证集中超出了gpt 5.4 xHigh、Claude Opus-4.6Max ，但在专家级知识和推理、终端任务、工具使用能力中落后。

2026-05-06

DeepSeek 新论文剧透 V4 新框架！发现推理资源错配，用闲置资源增强AI性能

网传 DeepSeek V4 最快本周发布。就在所有人盯着 V4 的参数、能力、benchmark 时，DeepSeek 却悄悄和北大在 ArXiv 上发了一篇论文：这是一个新的推理框架。它解决了一个更根本的问题：显卡明明够快，为什么 AI 还是会卡？这其实是推理系统的KV-Cache读取瓶颈，论文表示不是算得慢，而是搬得慢，性能被KV-Cache Storage I/O主导。当...

2026-03-04

Agentic Engineering时代到来：GLM 5.0发布，Agent Team + Kimi K2.5/GLM 对比实测100个小游戏网站

GLM 5.0上线了！！学界与业界正逐渐形成一种共识，大模型从写代码、写前端，进化到写工程、完成大任务，即从“Vibe Coding”变革为“Agentic Engineering”。 GLM-5 正是这一变革的产物：在 Coding 与 Agent 能力上，取得开源 SOTA 表现，在真实编程场景的使用体感逼近 Claude Opus 4.5，擅长复杂系统工程与长程 Agent 任务。 ...

2026-01-27

AI大模型的下半场：上下文学习，腾讯首席科学家姚顺雨加入后首篇论文CL-bench发布

这是GPT-5.1 (High）在CL-bench基准测试中的得分。但这个低分，却是GPT、Claude、Gemini、Kimi、Qwen这些前沿模型中的最好成绩，这些模型平均分仅为17.2%。 CL-bench是腾讯混元团队与复旦联合团队最新发布的基准测试，专门评测语言的上下文学习能力。它的目的验证模型在真实世界工作的能力。不要去卷什么乱七八糟的参数，来试试当个生活做题家。毕竟只有...

2026-02-05

DeepSeek-OCR2视觉文档理解的革命性突破

DeepSeek-OCR2 视觉文档理解的革命性突破 📅 2025年1月发布当传统OCR还在按"左上到右下"的机械顺序扫描文档时，DeepSeek-OCR2已经学会了像人类一样"阅读"。这款仅3B参数的开源模型，以的准确率登顶OmniDocBench，用 1/7的token消耗实现了超越Gemini的性能。更重要的是，它将企业级文档理解的成本降低了 💡 核心洞察：DeepSeek-OC...

2026-01-30

把Kimi K2.5逼到极限：前端设计超强，人人都能做PPT啦！

在前天Kimi K2.5发布了，这次Kimi K2.5对标的是国外顶级的模型，包括GPT 5.2（xhigh）、Claude Opus 4.5以及Gemini 3 Pro。跨学科的硬核推理、实用的网页浏览、交互和调研Agent拿到了第一代码、图像和视频能力上逼近第一梯队，其中部分测试中超越了国外的顶尖大模型，例如例如长视频场景。这次Kimi K2.5最强大的变化是将视觉理解和推理融...

2026-01-30

DeepSeek OCR 2发布，和Engram共同构成V4架构？

1月27日，DeepSeek在自己官方的Github仓库开源了Deepseek OCR 2 https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf https://github.com/deepseek-ai/DeepSeek-OCR-2 Deepseek OCR 2的核心突破 Deeps...

2026-01-28

阿里千问最强模型来了！性能比肩GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro，4项基准测试排名第一

昨天晚上，阿里悄然发布了一款新模型，Qwen3-Max-Thinking。这个模型的参数规模超过了1万亿，预训练数据达到36T tokens。在19项权威基准测试中，其性能可媲美GPT-5.2-Thinking、Claude-Opus-4.5 和Gemini 3 Pro等顶尖模型。上图是我重制后的表格,我们可以看到在4项基准测试中，千问的表现超过了GPT-5.2、Claude Opus...

2026-01-27