清华携手面壁智能重磅开源!首款中文APP专精GUI Agent,覆盖高德、B站、小红书

随着人工智能技术的迅猛发展,智能化交互成为移动互联网的新焦点。近日,清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI,这是全球首个针对中文APP精细优化的开源GUI(图形用户界面)Agent。该项目不仅展示了国产AI技术的硬核实力,还为安卓生态的智能化升级提供了全新可能。模型地址:https://huggingface.co/openbmb/Agent

OpenAI 升级 ChatGPT:正式引入GPT-4.1 代码能力超强

OpenAI宣布其最新AI模型GPT-4.1及GPT-4.1mini正式在ChatGPT平台上线,为全球用户带来更强大的编码能力和指令执行体验。这一消息引发了AI领域的广泛关注,标志着ChatGPT在功能与性能上的又一次飞跃。GPT-4.1:专为编码与高效任务打造OpenAI表示,GPT-4.1是一款高度优化的AI模型,特别在编码任务和指令遵循方面表现出色。相较于此前发布的GPT-4o,GPT-4

AI自我进化神器!Self-Refine让GPT-4输出飙升20%,无需训练即可搞定!

Self-Refine方法因其通过自我批评与反思显著提升大语言模型(LLM)输出质量,再度成为AI研究热点(https://arxiv.org/abs/2303.17651)。这一创新框架让单一LLM通过生成、反馈、优化的循环,自主迭代输出,无需额外训练或外部工具即可实现约20%的性能提升。观察到Self-Refine对包括GPT-4在内的先进模型均有效,引发了开发者与研究者的广泛讨论。

中国版Cursor!腾讯推出 AI 编程助手 CodeBuddy

腾讯推出了一款新的代码助手插件 ——CodeBuddy3.0。这款产品与微信小程序的开发工具实现了深度整合,标志着腾讯在开发者生态中的又一重要布局。CodeBuddy 并不是一个独立的集成开发环境(IDE),而是一个可安装在各种开发工具中的插件,方便开发者在不同的编码平台上使用。CodeBuddy主要亮点之一是其创新的 Craft 模式。该模式使得 AI 能够自主理解用户需求,并完成多文件的代码生

逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”

家人们,今天必须给你们唠唠科研界的一项超酷新成果 ——Flow-GRPO!这东西可不得了,它就像是给图像生成模型打了一针 “超级进化剂”,直接让它们从 “青铜” 一路飙升到 “王者”。想知道它是怎么做到的吗?快搬好小板凳,听我细细道来!图像生成模型的 “成长烦恼”现在的图像生成模型,比如基于流匹配(Flow matching)的那些,理论基础那叫一个扎实,生成的高质量图像也让人眼前一亮。

全球首款设计Agent Lovart内测!一句话搞定Logo、视频、品牌全套

5月12日,Lovart AI正式宣布推出全球首款设计Agent,定位为文生图领域最具创新性的产品形态。作为一款集成图像、视频和音乐模型的AI设计工具,Lovart通过自然语言指令实现从任务拆解到最终输出的全链路自动化设计,彻底颠覆传统设计工作流。观察到,Lovart的Beta测试已在全球引发热烈反响,吸引了设计师、营销团队和初创企业的广泛关注。体验地址:https://lovart.ai

字节跳动发布统一图像定制框架DreamO:集成换装、换脸与风格迁移

字节跳动在Hugging Face平台正式开源了全新图像定制框架DreamO,这一框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能,为AI图像编辑领域带来了全新的技术突破。整理了最新信息,深入解析DreamO的核心亮点及其对行业的潜在影响。框架亮点:一站式图像定制解决方案DreamO被设计为一个统一的图像定制框架,支持多样化的编辑任务,并通过灵活的参数设置实现无缝整合。

阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!

阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到,MNN的此次更新进一步推动了多模态AI

新一代开源视觉编码器 OpenVision 发布:超越 CLIP 与 SigLIP 的强大选择

加州大学圣克鲁兹分校近日宣布推出 OpenVision,这是一个全新的视觉编码器系列,旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的发布为开发者和企业带来了更多灵活性和选择,使得图像处理和理解变得更加高效。什么是视觉编码器?视觉编码器是一种人工智能模型,它将视觉材料(通常是上传的静态图像)转化为可被其他非视觉模型(如大型语言模型)理解的数值

Sakana AI 扔出重磅炸弹:让机器像人一样“持续思考”

人工智能领域最近迎来了一项引人关注的新进展。总部位于东京的 Sakana AI 发表了一篇题为《连续思维机器》(Continuous Thought Machines)的论文,提出了一种旨在让机器模拟生物大脑复杂神经活动和“持续思考”能力的新模型。这篇论文的核心观点是挑战当前深度学习中对时间动态的简化处理,试图将神经元层面的时序处理和同步机制重新引入,使“神经时序”成为人工智能模型的基础。