第21页_文章博客_碳水AI导航

AI视频生成工具stablevideo超详细使用教程来了（附stablevideo公测地址）

日前，Stable AI官方的SVD视频生成平台stable video正式面向公众开启公测，所有用户可以体验。据了解，这个平台的功能是在SVD模型基础上增加了镜头控制的能力，让用户可以更灵活地生成视频。在公测阶段，每天用户可以享有150的免费额度，可以用来生成15个视频。本文将跟大家分享stable video公测地址，以及stable video详细的使用教程。

AI教程

2025-05-06

从零开始，用Coze图像流打造一本300元的个性化儿童艺术相册（附详细教程）

最近，我在推特上看到一个非常有创意的AI项目，通过人工智能技术，将孩子的照片和历史上十多位伟大画家的风格相结合，生成一本个性化的儿童书籍。这种画册的意义在于拉近了孩子和艺术家们的距离，将他们自己置身于名家画作中。用来教育孩子了解历史上的著名画家真是再好不过了。网站地址:https://selfarama.com/books/my-book-of-art-history 可以看到，国外这家网站它生

AI教程

2025-05-06

他在48小时内构建并可盈利的AI应用，无需编码就能搞定

赚钱思路本案例分享了一个如何在48小时内使用无代码工具从头开始构建盈利的人工智能产品。开发者明确了一个需要解决的痛点:播客主持人对嘉宾一系列访问需求，并开发了为播客主服务的 AI 研究助手案。48小时开发的产品很快的收获两位付费客户，一位是29美元的计划，另一位是300美元的年度计划，总共是329美元。尽管与利润目标相差甚远，但该项目展示了如何专注于解决真正的问题并尽早验证它，从而快速有效地开发出

AI教程

2025-05-06

AI音乐创作赚钱案例：他用Suno创作歌曲获得3.5万播放盈利600元

赚钱思路通过AI技术创作音乐，利用市场研究确定受欢迎的音乐类型，然后在各大音乐平台发布，通过播放量获得版税收入。YouTube博主@ericlamideas 个人就进行了30天的 AI 音乐实验，包括找市场、用 Suno 创作、制作专辑封面并上传，未推广却获近35000次播放及83美元版税（约600元），还提及防范分销商诈骗等。适合人群适合对音乐产业感兴趣，愿意尝试新技术进行音乐创作和分发的个人或

AI教程

2025-05-06

告别“扁平”AI！TesserAct 给AI装上4D大脑，让机器人真正看懂三维世界！

你是否注意到，那些让我们惊叹不已的AI虽然能写诗作画，却对我们生活的三维空间理解有限?当今大多数AI世界模型仍在二维平面中"思考"，它们能识别照片中的猫咪，却难以理解物体在空间中的位置、形状与深度。这种"二维诅咒"严重限制了AI，特别是机器人在现实世界中的应用能力。来自UMass Amherst、HKUST和哈佛的研究团队带来了突破性解决方案——TesserAct，一个真正能够理解四维世界的AI模

AI快讯

2025-05-06

谷歌DeepMind：大模型明知到最优解，但还是故意绕了一圈

现在的大模型（LLMs）已经非常智能。写文章、编代码、当医生、当老师，样样精通。于是乎，有人就想了:既然它们这么聪明，能不能让它们自己做决定，当个“智能体”呢?比如，在复杂的环境里自己探索、自己解决问题。毕竟，大家觉得LLMs肚子里有“世界知识”，不需要手把手教也能猜到怎么干。

AI快讯

2025-05-06

Excel MCP Server上线可通过Claude等客户端直接操作Excel文件

一款名为Excel MCP Server的开源工具近日引发热议。这款基于**模型上下文协议（Model Context Protocol， MCP）**开发的服务器，允许用户通过AI助手直接操作Excel文件，无需安装微软Excel软件即可实现高效的表格处理。GitHub项目地址为:https://top.aibase.com/tool/excel-mcp-server

AI快讯

2025-05-06

Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活

在图像生成领域，Midjourney 近期推出了一项名为 “Omni-Reference”（全向参考）的新功能，为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版，更是赋予用户在创作过程中对图像元素的精准控制。核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统，为用户提供了前所未有的创作控制力。

AI快讯

2025-05-06

英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升

近日，英伟达在 Hugging Face 平台上推出了其最新的自动语音识别（ASR）模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升，还将开源理念与商业应用相结合，吸引了广泛关注。超强转录能力Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。据称，该模型能够在仅仅一秒内完成60分钟音频的转录，极大提高了语音处理的速度。

AI快讯

2025-05-06

DeepSeek-Prover-V2-671B 模型开源，数学推理领域迎来新突破

中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮，正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型，专为数学推理和问题解决设计，展现了 DeepSeek 在高效 AI 开发上的持续创新能力。

AI快讯

2025-04-30