全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答
最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。
火山引擎推出开源 MCP Servers,助力大模型应用开发
近日,火山引擎宣布推出一款名为 MCP Servers 的大模型生态平台,并将其开源。这一举措使得企业可以轻松将自研工具按照 MCP 协议进行封装并上传共享,形成一个良性的 “用生态” 与 “建生态” 的循环。火山引擎MCP Servers 可被视为一个 “大模型工具超市”,集成了大量高质量的 MCP 协议适配工具,涵盖了搜索、数据库和业务系统 API 等多个高频场景。
KEEP颠覆视频人脸超分辨率!全新SOTA模型融合卡尔曼滤波,细节与时序一致性完美突破!
Hugging Face社区发布了一项突破性技术——KEEP(Kalman-inspired Feature Propagation),一款专为视频人脸超分辨率设计的新模型,被誉为该领域的全新SOTA(State-of-the-Art)。通过创新的卡尔曼滤波灵感架构和跨帧注意力机制,KEEP在恢复人脸细节和保持时序一致性方面实现了显著突破,超越传统方法。
VS Code 宣布开源 GitHub Copilot Chat 扩展,加速 AI 编程
微软在 Build2025大会上宣布了一项重大举措:Visual Studio Code(VS Code)将开源 GitHub Copilot Chat 扩展,并以 MIT 许可证发布。这一决定标志着 VS Code 在 AI 驱动开发领域的进一步开放与创新,旨在通过社区协作打造一个透明、高效的 AI 代码编辑平台。开源 GitHub Copilot Chat 扩展:社区驱动的 AI 创新
谷歌Gemini网页版对话搜索全面上线,移动端逐步推出,重塑AI搜索新体验 aibase AIbase基地
谷歌宣布正式向全球所有用户推出Gemini网页版对话搜索功能,标志着其基于Gemini2.5的AI搜索体验进入全面普及阶段。这一功能允许用户通过自然语言进行多轮对话式搜索,取代传统关键词查询,提供更智能、直观的答案。谷歌同时透露,移动端对话搜索功能也将逐步上线,进一步扩展Gemini的覆盖范围。AIbase综合最新动态,深入解析这一功能的技术亮点及其对全球搜索生态的深远影响。
微软Build大会上宣布推出 50 多种 AI 工具,用于构建“代理网络”
在今日上午举行的年度Build开发者大会上,微软正式发布了一项全面的AI代理战略,旨在将其定位为新兴“开放代理网络”的核心。这家科技巨头一口气推出了超过50项人工智能工具和平台,覆盖其包括GitHub、Azure、Windows和Microsoft365在内的全线产品,核心目标是赋能开发者构建能够在有限人工干预下自主决策并完成任务的智能系统。
谷歌Jules测试版全球上线!挑战Codex,AI自主生成PR,每天5次免费任务
谷歌在全球范围内推出Jules测试版,一款基于Gemini2.5的AI编码代理,定位为OpenAI Codex的直接竞争对手。Jules能够自主分析代码库、制定多步骤计划并生成GitHub拉取请求(PR),每天提供5次免费任务,显著提升开发者效率。AIbase综合最新社交媒体动态,深入解析Jules的技术亮点及其对AI编码工具市场的潜在冲击。Jules核心功能:自主编码与GitHub无缝集成Jul
Google NotebookLM 正式推出 iOS 版本,Gemini 2.5 Flash 赋能
Google 正式宣布其人工智能驱动的笔记与研究助手工具 NotebookLM 推出 iOS 版本,与 Android 版本同步上线。这一消息恰逢 Google I/O2025开发者大会前夕,标志着 NotebookLM 从桌面端向移动端的重大扩展,为用户提供更便捷的跨平台研究体验。以下是 AIbase 整理的最新资讯,带您深入了解这一全新移动应用的亮点与功能。
Bright Data MCP 服务器发布,集成超过30种强大工具
Bright Data 正式推出其开源 Model Context Protocol(MCP)服务器,集成超过30种强大工具,助力 AI 代理无缝访问、搜索、爬取和交互网络数据,避免常见的 IP 封锁和访问限制问题。这一创新解决方案迅速引发行业关注,成为 AI 代理与实时数据交互的关键桥梁。AIbase 整理最新资讯,带您深入了解 Bright Data MCP 服务器的核心功能与潜力。
Salesforce BLIP3-o重磅登陆Hugging Face!全开源多模态模型,图像理解与生成一统江湖!
Salesforce AI Research在Hugging Face平台正式发布BLIP3-o应用,这款全开源的统一多模态模型家族以其卓越的图像理解与生成能力引发业界热议。BLIP3-o通过创新的扩散变换器架构,结合语义丰富的CLIP图像特征,不仅提升了训练效率,还显著优化了生成效果。AIbase综合最新社交媒体动态,深入解析BLIP3-o的技术突破及其对AI生态的影响。BLIP3-o核心:统一
闽公网安备35020302036513号