第17页_文章博客_碳水AI导航

清华携手面壁智能重磅开源！首款中文APP专精GUI Agent，覆盖高德、B站、小红书

随着人工智能技术的迅猛发展，智能化交互成为移动互联网的新焦点。近日，清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI，这是全球首个针对中文APP精细优化的开源GUI（图形用户界面）Agent。该项目不仅展示了国产AI技术的硬核实力，还为安卓生态的智能化升级提供了全新可能。模型地址：https://huggingface.co/openbmb/Agent

AI快讯

2025-05-15

OpenAI 升级 ChatGPT：正式引入GPT-4.1 代码能力超强

OpenAI宣布其最新AI模型GPT-4.1及GPT-4.1mini正式在ChatGPT平台上线，为全球用户带来更强大的编码能力和指令执行体验。这一消息引发了AI领域的广泛关注，标志着ChatGPT在功能与性能上的又一次飞跃。GPT-4.1:专为编码与高效任务打造OpenAI表示，GPT-4.1是一款高度优化的AI模型，特别在编码任务和指令遵循方面表现出色。相较于此前发布的GPT-4o，GPT-4

AI快讯

2025-05-15

AI自我进化神器！Self-Refine让GPT-4输出飙升20%，无需训练即可搞定！

Self-Refine方法因其通过自我批评与反思显著提升大语言模型（LLM）输出质量，再度成为AI研究热点(https://arxiv.org/abs/2303.17651)。这一创新框架让单一LLM通过生成、反馈、优化的循环，自主迭代输出，无需额外训练或外部工具即可实现约20%的性能提升。观察到Self-Refine对包括GPT-4在内的先进模型均有效，引发了开发者与研究者的广泛讨论。

AI快讯

2025-05-14

中国版Cursor！腾讯推出 AI 编程助手 CodeBuddy

腾讯推出了一款新的代码助手插件 ——CodeBuddy3.0。这款产品与微信小程序的开发工具实现了深度整合，标志着腾讯在开发者生态中的又一重要布局。CodeBuddy 并不是一个独立的集成开发环境（IDE），而是一个可安装在各种开发工具中的插件，方便开发者在不同的编码平台上使用。CodeBuddy主要亮点之一是其创新的 Craft 模式。该模式使得 AI 能够自主理解用户需求，并完成多文件的代码生

AI快讯

2025-05-14

逆天改命！Flow-GRPO 让图像生成模型秒变 “大神”

家人们，今天必须给你们唠唠科研界的一项超酷新成果 ——Flow-GRPO!这东西可不得了，它就像是给图像生成模型打了一针 “超级进化剂”，直接让它们从 “青铜” 一路飙升到 “王者”。想知道它是怎么做到的吗?快搬好小板凳，听我细细道来!图像生成模型的 “成长烦恼”现在的图像生成模型，比如基于流匹配（Flow matching）的那些，理论基础那叫一个扎实，生成的高质量图像也让人眼前一亮。

AI快讯

2025-05-14

全球首款设计Agent Lovart内测！一句话搞定Logo、视频、品牌全套

5月12日，Lovart AI正式宣布推出全球首款设计Agent，定位为文生图领域最具创新性的产品形态。作为一款集成图像、视频和音乐模型的AI设计工具，Lovart通过自然语言指令实现从任务拆解到最终输出的全链路自动化设计，彻底颠覆传统设计工作流。观察到，Lovart的Beta测试已在全球引发热烈反响，吸引了设计师、营销团队和初创企业的广泛关注。体验地址：https://lovart.ai

AI快讯

2025-05-14

字节跳动发布统一图像定制框架DreamO：集成换装、换脸与风格迁移

字节跳动在Hugging Face平台正式开源了全新图像定制框架DreamO，这一框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能，为AI图像编辑领域带来了全新的技术突破。整理了最新信息，深入解析DreamO的核心亮点及其对行业的潜在影响。框架亮点:一站式图像定制解决方案DreamO被设计为一个统一的图像定制框架，支持多样化的编辑任务，并通过灵活的参数设置实现无缝整合。

AI快讯

2025-05-14

阿里MNN神更新！移动端开源多模态AI支持Qwen-2.5，文本图像语音全搞定！

阿里巴巴开源项目MNN（Mobile Neural Network）发布了其移动端多模态大模型应用MnnLlmApp的最新版本，新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用，支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务，以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到，MNN的此次更新进一步推动了多模态AI

AI快讯

2025-05-14

新一代开源视觉编码器 OpenVision 发布：超越 CLIP 与 SigLIP 的强大选择

加州大学圣克鲁兹分校近日宣布推出 OpenVision，这是一个全新的视觉编码器系列，旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的发布为开发者和企业带来了更多灵活性和选择，使得图像处理和理解变得更加高效。什么是视觉编码器?视觉编码器是一种人工智能模型，它将视觉材料（通常是上传的静态图像）转化为可被其他非视觉模型(如大型语言模型)理解的数值

AI快讯

2025-05-14

Sakana AI 扔出重磅炸弹：让机器像人一样“持续思考”

人工智能领域最近迎来了一项引人关注的新进展。总部位于东京的 Sakana AI 发表了一篇题为《连续思维机器》（Continuous Thought Machines）的论文，提出了一种旨在让机器模拟生物大脑复杂神经活动和“持续思考”能力的新模型。这篇论文的核心观点是挑战当前深度学习中对时间动态的简化处理，试图将神经元层面的时序处理和同步机制重新引入，使“神经时序”成为人工智能模型的基础。

AI快讯

2025-05-14