
2月9日,即梦上线 Preview图片模型,将联网检索、精准编辑、逻辑推理三项能力融合进图像生成,支持2K图片生成。
2月6日,字节跳动小范围内测Seedance 2.0视频模型,一张图+一句话可生成带有原生音频的多镜头序列视频。冯骥称,这是目前地表最强的视频生成模型,没有之一。
2月6日,Anthropic发布Claude Opus 4.6,上下文提升至100万token,具备自适应思考能力,在编程、金融分析、办公软件操作等领域表现不俗。
2月4日,可灵AI正式迈入3.0时代,多模态输入输出一体化,实现原生创作。视频3.0新增智能分镜功能,可自动调度景别与机位,图片3.0 Omni新增深度叙事与组图批量创作功能。
2月4日,上海AI实验室开源了万亿参数科学多模态大模型Intern-S1-Pro,在奥赛级数理推理、五大科学学科(化学、材料、生命、地球、物理)及真实科研场景中表现卓越。
2月4日,阿里开源了专为编程智能体打造的高效混合专家(MoE)模型 Qwen3-Coder-Next,不仅能理解需求、编写代码,还能与环境交互、完成任务——从生成可玩的网页游戏,到部署服务并自动测试。
2月4日,昆仑天工发布「天工Skywork桌面版」(测评文),优先支持Windows系统,这是一款真干活、能干活的AI,可跨格式理解并处理电脑中的文档、图片、视频等文件,实现多任务并行与内容生成。
2月2日,阶跃星辰发布并开源了最新的基座模型Step 3.5 Flash,具备强大的推理能力与Agent智能,专为Agent而生。
2月2日,阿里Qoder团队上线首个定制模型Qwen-Coder-Qoder,紧贴Qoder的Agent框架、工具与场景进行了大规模强化学习训练。
1月30日,Vidu发布支持16s音视频的Vidu Q3模型 ,多镜头自由切换,节奏、情绪、叙事一气呵成,多语言对话,多语种文字渲染,专为漫剧、短剧、影视剧创作设计。
1月29日,阿里Qwen发布并开源语音识别模型Qwen3-ASR ,支持52种语言与方言识别,覆盖中文22种地方口音及多国英语变体,在嘈杂环境、歌唱场景下均表现稳定。
1月29日,MiniMax发布Music 2.5,在「段落级强控制」与「物理级高保真」两大技术难题上实现突破——让创作更准,让音乐更真。
1月28日,昆仑天工发布Mureka V8 (测评文),模型基于MusiCoT技术体系,在旋律完整性、人声表现力、编曲层次及混音质感上实现突破,生成效果达到可直接发布水准。
1月28日,阿里通义开源发布Z-Image模型,专注于解决AI绘画风格单一、人像同质化等痛点,模型支持从写实到动漫的多元风格生成,通过原生架构优化,显著提升对LoRA、ControlNet等微调方法的兼容性。
1月27日,Kimi发布并开源K2.5模型(测评文),代码能力显著升级,从单一 Agent 进化到了Agent集群。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。
1月27日,DeepSeek开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。
1月26日,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,该模型采用全新测试时扩展机制,推理性能提升同时更经济,并大幅增强原生Agent能力,模型对话时可自主调用工具。
1月26日,Clawdbot在Github上开源(实操攻略),项目支持自部署AI助手,通过网关连接聊天软件(如WhatsApp、Telegram)与多款AI模型(Claude、GPT等),并集成日历管理、邮件处理、自动化任务等技能,首个实现“对话式”个人助理。
1月26日,腾讯混元发布混元图像3.0模型,采用混合专家架构,支持图片编辑、多图融合等多样化视觉创作功能。
1月22日,通义千问团队开源Qwen3-TTS系列语音生成模型,全面支持音色克隆、音色创造与拟人化语音生成。
1月22日,百度发布文心大模型5.0,采用原生全模态统一建模技术,具备文本、图像、音频、视频等信息的全面理解与生成能力。
1月22日,腾讯CodeBuddy Code 2.0版本发布,不仅开放了SDK支持被集成,还全面拥抱开发者社区生态,支持Plugin插件市场,还能在隔离沙箱环境中安全运行。
1月22日,阶跃星辰(StepFun)开源10B参数多模态模型Step3-VL-10B,模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平,其创新的并行协调推理机制(PaCoRe)显著提升复杂任务处理能力。
1月20日,MiniMax Agent发布桌面版,推出AI原生工作台(测评文)。支持Windows和Mac系统,可深度打通本地文件与环境,实现本地与云端任务的无缝协同。
1月19日,安克与飞书联合发布AI录音豆,支持多语言转写翻译、会议纪要自动生成,能将录音内容智能分析为鱼骨图等可视化图表,自动同步至飞书多维表格。
1月15日,千问App上线多项AI办事功能(测评文),应用深度接入淘宝、支付宝、高德、飞猪等阿里生态业务,可实现AI点外卖、购物、订机票酒店等实用功能。
1月15日,阶跃星辰开源语音推理模型Step-Audio-R1.1,是全球首个开源原生语音推理模型,具备深度语音推理和实时响应能力,可端到端理解音频内容并进行复杂逻辑推理。
1月14日,智谱开源图像生成模型GLM-Image,首次在国产昇腾Atlas 800T A2芯片上完成全流程训练。采用“自回归+扩散解码器”混合架构,尤其擅长汉字生成任务。
1月14日,PixVerse发布全球首个实时世界模型PixVerse R1(测评文),模型支持无限流生成、多模态交互与即时响应,最高支持1080P分辨率。
1月14日,商汤科技正式上线「办公小浣熊APP」iOS移动版应用(测评文)。APP主打移动办公场景下的AI生产力工具,支持用户通过手机进行复杂表格数据分析、语音输入快速记录,并实现电脑与手机间的任务无缝接力。
1月12日,Anthropic发布Claude Cowork,作为Claude Code面向非开发者的衍生版本。工具允许用户授权Claude访问电脑指定文件夹,使其能在其中读取、编辑和创建文件。
12月30日,腾讯混元开源翻译模型Tencent-HY-MT1.5系列版本,包含1.8B和7B两个模型,支持33种语种互译及5种民汉/方言。
12月26日,MiniMax开源发布MiniMax M2.1模型(测评文),在多语言编程、全栈开发、Web与App开发以及Agent能力方面表现卓越。
12月23日,智谱开源发布新一代大模型GLM-4.7,在编码、推理与智能体能力上有显著提升。
12月18日,字节跳动发布Agent模型Seed1.8(测评文),模型集成搜索、代码生成与图形界面交互等多元能力,支持图文输入并具备原生视觉理解功能。
12月16日,通义万相发布Wan 2.6视频模型,国内首个支持角色扮演功能的视频生成。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。
12月1日,DeepSeek开源发布DeepSeek-V3.2,推理能力媲美Gemini-3.0-Pro,首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。
K2.5系列模型上线后,Kimi编程和Office能力带来大幅提升,叠加其优秀的搜索能力,一直是我常用的AI之一。
依托字节体系,豆包下载量和月活数长期排全国第一,特别适合新用户使用,尤其是视频通话功能特别好用。
比如阶跃擅长视觉推理;元宝擅长与微信打通,且推出了相当多的实用功能;MiniMax擅长Agent;文心擅长写作与视觉识别;Z.ai擅长coding,且性价比超高。
。火山引擎提供了包括Seedace、Seedream、Seed语言模型
也还不错,特别适合0代码开发,可直接生成真实应用,有后台,有数据库,还有支付功能。
),Coding和Agentic能力大为提升,除了创建网页应用外,在office三件套上也有显著提升,交付质量极高。
比如,我让他搜索50个精品skills,它调用多个助手给活,一次性把结果给到了我。
体验地址:/span
Kimi的搜索能力一直很强(有自己的医疗、财经和学术数据库),幻觉低,是国内
2)可灵3.0。可灵最新版已升级至3.0,各方面能力进一步提升,价格略贵。
1)Kimi PPT。审美能力大幅提升,海外版还可以使用NBP模型生成图片版PPT,加上自身不俗的搜索能力,Kimi PPT一直是我推荐给朋友的主要PPT工具。
2)Skywork。Skywork网页版和桌面版均可生成PPT,擅长搜索,页面美观,在office领域一直评价很高。
用Lovart做PPT也不错(测评文),它可以调用NBP模型生成图片版PPT,非常精美,还可以自由修改。另外,的Genflow做PPT(测评文),也很好使。
1)夸克。支持超级AI框、AI相机、深度搜索等功能,可解万千问题,检索质量高,提供富媒体排版。
1)ima copilot。腾讯推出的AI智能工作台,可基于公众号、B站和知识库广场进行写作,支持即时编辑、扩写、润色。
通过浏览器插件方式使用,支持双语显示,降低原网页“侵入性”,可自行接入API模型(测评文)。
汇集了市面上几乎所有的AI产品,分类清晰、产品丰富、更新几十,可随时查找需要的AI。
剪映数字人支持对口型,可自由调节数字人的形象、音色、景别以及背景,付费。蝉镜性价比较高。
谷歌后来居上,带来了非常全面且强劲的Gemini 3.0 Pro模型,在多个基准上霸榜,遥遥领先第二名和第三名(测评文)。
这三个模型都还不错,性能全球领先,但价格较贵(也可考虑flash版,比较亲民),而且都需要美国身份证。
Cowork算是桌面Agent的起源,配合Claude模型能大幅提高生产力。不过,需要Pro版会员才能体验。
大香蕉算是生图领域的真神,时至今日,依然没有模型能追上NBP。使用NBP,基本都要付费,建议在Lovart上使用。
。OpenAI开启了一种新的叙事,Sora 2可以直出各种短视频,镜头、叙事完整。放到今天,依然没什么模型能追上。
歌全面赶超,在视频领域也拿出了相当亮眼的模型,而且是第一个做出音视同出的视频模型。IM电竞,IM电竞官网,IM电竞注册,电竞投注平台,电竞博彩,英雄联盟竞猜