AI 模型

共 8 篇文章

Deepseek V4 技术报告解读:百万 token、1/9 的价格,AI 进入平权时代

Deepseek V4 技术报告解读:百万 token、1/9 的价格,AI 进入平权时代

2026年4月24日,DeepSeek V4 发布了。 它在高难数学、编程竞赛以及编程真实问题验证集中超出了gpt 5.4 xHigh、Claude Opus-4.6Max ,但在专家级知识和推理、终端任务、工具使用能力中落后。

DeepSeek 新论文剧透 V4 新框架!发现推理资源错配,用闲置资源增强AI性能

DeepSeek 新论文剧透 V4 新框架!发现推理资源错配,用闲置资源增强AI性能

网传 DeepSeek V4 最快本周发布。 就在所有人盯着 V4 的参数、能力、benchmark 时,DeepSeek 却悄悄和北大在 ArXiv 上发了一篇论文: 这是一个新的推理框架。它解决了一个更根本的问题: 显卡明明够快,为什么 AI 还是会卡? 这其实是推理系统的KV-Cache读取瓶颈,论文表示 不是算得慢,而是搬得慢,性能被KV-Cache Storage I/O主导。 当...

Agentic Engineering时代到来:GLM 5.0发布,Agent Team + Kimi K2.5/GLM 对比实测100个小游戏网站

Agentic Engineering时代到来:GLM 5.0发布,Agent Team + Kimi K2.5/GLM 对比实测100个小游戏网站

GLM 5.0上线了!! 学界与业界正逐渐形成一种共识,大模型从写代码、写前端,进化到写工程、完成大任务,即从“Vibe Coding”变革为“Agentic Engineering”。 GLM-5 正是这一变革的产物:在 Coding 与 Agent 能力上,取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。 ...

AI大模型的下半场:上下文学习,腾讯首席科学家姚顺雨加入后首篇论文CL-bench发布

AI大模型的下半场:上下文学习,腾讯首席科学家姚顺雨加入后首篇论文CL-bench发布

这是GPT-5.1 (High)在CL-bench基准测试中的得分。 但这个低分,却是GPT、Claude、Gemini、Kimi、Qwen这些前沿模型中的最好成绩,这些模型平均分仅为17.2%。 CL-bench是腾讯混元团队与复旦联合团队最新发布的基准测试,专门评测语言的上下文学习能力。 它的目的验证模型在真实世界工作的能力。 不要去卷什么乱七八糟的参数,来试试当个生活做题家。 毕竟只有...

DeepSeek-OCR2视觉文档理解的革命性突破

DeepSeek-OCR2视觉文档理解的革命性突破

DeepSeek-OCR2 视觉文档理解的革命性突破 📅 2025年1月发布 当传统OCR还在按"左上到右下"的机械顺序扫描文档时,DeepSeek-OCR2已经学会了像人类一样"阅读"。这款仅3B参数的开源模型,以 的准确率登顶OmniDocBench,用 1/7的token消耗 实现了超越Gemini的性能。更重要的是,它将企业级文档理解的成本降低了 💡 核心洞察:DeepSeek-OC...

把Kimi K2.5逼到极限:前端设计超强,人人都能做PPT啦!

把Kimi K2.5逼到极限:前端设计超强,人人都能做PPT啦!

在前天Kimi K2.5发布了,这次Kimi K2.5对标的是国外顶级的模型,包括GPT 5.2(xhigh)、Claude Opus 4.5以及Gemini 3 Pro。 跨学科的硬核推理、实用的网页浏览、交互和调研Agent拿到了第一 代码、图像和视频能力上逼近第一梯队 ,其中部分测试中超越了国外的顶尖大模型,例如例如长视频场景。 这次Kimi K2.5最强大的变化是 将视觉理解和推理融...

DeepSeek OCR 2发布,和Engram共同构成V4架构?

DeepSeek OCR 2发布,和Engram共同构成V4架构?

1月27日,DeepSeek在自己官方的Github仓库开源了Deepseek OCR 2 https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf https://github.com/deepseek-ai/DeepSeek-OCR-2 Deepseek OCR 2的核心突破 Deeps...

阿里千问最强模型来了!性能比肩GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro,4项基准测试排名第一

阿里千问最强模型来了!性能比肩GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro,4项基准测试排名第一

昨天晚上,阿里悄然发布了一款新模型,Qwen3-Max-Thinking。这个模型的参数规模超过了1万亿,预训练数据达到36T tokens。 在19项权威基准测试中,其性能可 媲美GPT-5.2-Thinking、Claude-Opus-4.5 和Gemini 3 Pro等顶尖模型。 上图是我重制后的表格,我们可以看到在4项基准测试中,千问的表现超过了GPT-5.2、Claude Opus...