第3页_文章博客_碳水AI导航

字节跳动推出的AI视频生成模型 Seedance 1.0悄然超越谷歌 Veo 3

在近期的人工智能视频生成领域，字节跳动（TikTok 的母公司）悄然发布了一款名为 Seedance1.0的新模型，该模型在独立的评测中已经超越了谷歌最新推出的 Veo3。Veo3以其音频合成和电影级工具而受到广泛关注，但 Seedance1.0的技术实力却令人刮目相看，成为视频生成的领头羊。Seedance1.0的研究论文中详细介绍了该模型的创新之处。字节跳动的团队通过对空间和时间层的解耦，结合

AI快讯

2025-06-19

Midjourney推首个视频生成模型V1：最长支持21秒，每月10美元

Midjourney 正式发布其首个 AI 视频生成模型 V1，标志着这家以图像生成闻名的公司迈向多媒体创作领域的全新里程碑。作为全球领先的 AI 创意平台，Midjourney 的此次发布引发了数字艺术与视频创作者的广泛关注。从静态到动态:V1模型的核心功能Midjourney V1视频生成模型主打图像到视频（Image-to-Video， I2V）功能，用户可通过其网页界面上的“Anima

AI快讯

2025-06-19

MiniMax Agent重磅发布！从“给我代码”到“告诉我需求”，AI智能代理革新工作流！

近日，一款名为 MiniMax Agent 的全新通用智能代理正式推出，旨在为复杂长期任务提供高效解决方案，引发了行业内广泛关注。MiniMax Agent:通用智能代理的突破之作MiniMax Agent 是一款专为解决长期复杂任务设计的智能代理，具备专家级的多步骤规划能力、灵活的任务分解机制以及端到端的执行效率。其设计理念是将AI打造为一个“可靠的队友”，为用户提供无缝支持。据悉，该产品已在内

AI快讯

2025-06-19

稀宇科技MiniMax推出视频生成模型Hailuo 02

稀宇科技在视频生成领域取得新进展，正式推出全新视频生成模型Hailuo02。据悉，Hailuo02在处理高度复杂场景如体操动作时表现出色，是目前全球唯一能够实现此类效果的模型。自去年8月底展示视频生成模型Demo网页以来，稀宇科技推出的海螺视频产品已帮助创作者生成超过3.7亿个视频，此次Hailuo02的推出进一步降低了视频创作门槛，提升了创作质量。Hailuo02背后的核心架构为Noise-aw

AI快讯

2025-06-18

苹果新Speech API转录速度惊人，胜过OpenAI Whisper 55%

科技媒体 macstories 发布了一篇关于苹果新推出的 Speech API 的博文，引发了业界的广泛关注。通过对一段时长34分钟、大小达7GB 的4K 视频文件进行转录测试，结果显示，苹果的新 Speech API 仅耗时45秒，速度远超其他同类工具。相较之下，OpenAI 的 Whisper 转录时间为101秒，苹果的技术优势可见一斑，提升了约55% 的效率。苹果在2025年全球开发者大会

AI快讯

2025-06-18

百度首推双数字人互动直播间，文心大模型4.5T驱动多模态技术新突破

近日，百度在人工智能领域再下一城，推出了全球首个双数字人互动直播间。这一创新应用基于百度文心大模型4.5Turbo（以下简称4.5T），通过语言、声音和形象的多模态高度融合，实现了数字人与用户之间的自然、流畅互动，为直播行业带来了全新可能。AIbase结合网络最新信息，深入解析这一技术突破及其对行业的深远影响。双数字人直播间:多模态技术的全新舞台百度双数字人互动直播间是文心大模型4.5T的最新应用

AI快讯

2025-06-18

多模态AI席卷网络，DeepMind Veo 3与GPT-4o引领增长新引擎

近年来，多模态AI技术以其强大的跨领域能力，逐渐成为科技行业的增长引擎。谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o，通过结合文本、图像、视频甚至音频的生成能力，不仅提升了用户体验，还在全球范围内引发了广泛关注和流量激增。以下，AIbase将为您梳理来自网络的最新信息，深入剖析多模态AI如何推动技术与商业的双重突破。DeepMind Veo3:视频生成新标杆，流量增长1

AI快讯

2025-06-18

腾讯LeVo来袭！媲美Suno 4.5的AI唱歌模型，支持零样本音色克隆

腾讯AI团队推出了一款令人振奋的AI唱歌模型LeVo，以其强大的音色克隆、分轨生成和高保真音乐表现引发业界热议。据悉，LeVo在多项关键指标上可媲美行业领先的Suno4.5，为中国AI音乐生成技术赢得一席之地。媲美Suno4.5:LeVo的硬核实力LeVo由腾讯AI实验室研发，采用语言模型（LM）架构，结合LeLM和音乐编解码器，能够并行生成混合音轨(融合人声与伴奏)或双轨音轨(人声与伴奏分开)。

AI快讯

2025-06-18

前谷歌 CEO 投资的初创公司发布240亿参数化学推理模型，准确率超越多种领先模型

在人工智能领域，大模型的研究不断进展，尤其是在推理能力的提升上。最近，由前谷歌 CEO 埃里克・施密特投资的初创公司 FutureHouse，开源了一个名为 ether0的化学任务推理模型，参数规模高达240亿。这一模型在不需要额外领域预训练的情况下，通过后训练技术，展现出强大的化学领域能力，尤其是在数据需求上相比于传统领域专用模型显著减少。推理模型的应用不仅限于简单的选择题测试，FutureHo

AI快讯

2025-06-18

月之暗面发布全新开源模型 Kimi-Dev-72B，打破编程基准记录

月之暗面（Moonshot AI）宣布推出其新开源模型 Kimi-Dev-72B，这一模型专注于软件工程任务，并在 AI 编程基准测试 SWE-bench Verified 中创下了全球最高的开源模型成绩。Kimi-Dev-72B 以仅72亿参数量的设计，成功超越了刚发布不久的 DeepSeek-R1，后者的参数量高达671亿。在 SWE-bench Verified 测试中，Kimi-Dev-7

AI快讯

2025-06-18