AI快报:百度推出“绘想”创作平台及MuseSteamer工具;阿里巴巴发布全身数字人模型OmniAvatar,全面升级音频体验

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音

Step-Audio-AQAA 是一个开源的端到端语音大模型,能够直接从原始音频输入生成自然流畅的语音输出,显著提升了人机交互的体验。该模型由双码本音频标记器、骨干 LLM 和神经声码器三部分组成,能够高效处理语音中的复杂信息,为未来的智能语音应用奠定了坚实的基础。

image.png

【AiBase提要:】

🔊 Step-Audio-AQAA 可以直接从音频输入生成自然语音,提升人机交互体验。

📊 模型架构由双码本音频标记器、骨干 LLM 和神经声码器三个模块组成,能够高效捕捉语音中的复杂信息。

🎤 Step-Audio-AQAA 的推出标志着语音交互技术的重要进展,为未来智能语音应用提供了新思路。

详情链接:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

2、百度发布“绘想”平台与MuseSteamer:AI生成视频,一张图即可搞定专业级大片!

百度发布“绘想”平台与MuseSteamer,通过生成式AI和多模态技术提供全面的视频生成解决方案,满足搜索、广告等场景需求。MuseSteamer具备强大的可控性和高性价比,用户只需上传图片即可生成专业级视频内容,极大简化了视频制作流程。

image.png

【AiBase提要:】

🎥 MuseSteamer支持音视频一体化生成,实现电影级制作效果。

🔄 支持连续10秒动态视频生成,提升创作效率。

🖼️ 用户仅需上传一张图片即可生成专业级视频内容。

详情链接:https://huixiang.baidu.com/

3、浙大与阿里联合发布OmniAvatar:音频驱动全身数字人模型震撼登场

浙大与阿里联合发布的OmniAvatar模型在音频驱动数字人技术上取得重大突破,能够生成自然流畅的全身数字人视频,尤其在歌唱场景中表现出色。该模型支持通过文本提示精细控制生成细节,并具备多场景应用潜力,为营销、教育及娱乐等领域带来创新可能。

【AiBase提要:】

🎧 音频驱动技术实现全身数字人视频生成

🎨 支持文本提示控制细节,提升灵活性

🌐 开源项目为商业场景提供广阔应用空间

4、百度搜索迎来十年来最大改版:AI智能框、百看、AI助手全面进化

百度搜索进行了十年来最大规模的改版,引入了智能框、百看和AI助手等创新功能,显著提升了用户的搜索体验和创作能力。

【AiBase提要:】

🧠 智能框支持千字输入,增强多模态交互能力。

🎥 百看功能升级,支持混合内容输出和智能体服务。

📽️ AI助手新增视频通话功能,提升创作与搜索能力。

5、xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布

xAI在开发者控制台中新增了对Grok4及Grok4Code的引用,预示着下一代人工智能模型的发布即将来临。Grok4被描述为‘全能型AI的巅峰之作’,而Grok4Code则专注于编程优化。这两款模型的引用表明其公开发布已进入最后准备阶段。

image.png

【AiBase提要:】

🧠 Grok4作为xAI的旗舰模型,专注于自然语言处理、数学推理和综合推理能力的提升。

💻 Grok4Code专为编程优化,计划与代码编辑器无缝整合,提高开发效率。

🌐 xAI通过API提供Grok4访问权限,未来将扩展至多模态能力,降低开发者整合门槛。

6、Gemini Live重磅升级!无缝连接Google应用,智能生活触手可及

Gemini Live的升级通过与Google生态系统的深度整合,提升了用户的智能交互体验,同时兼顾了隐私保护,展现了其在智能助手领域的潜力。

【AiBase提要:】

📱Gemini Live将与Google Maps、Calendar等应用深度整合,提升跨应用操作效率。

🧠支持多模态交互,如扫描信息自动生成任务或日程,增强实用性。

🔒Google注重隐私保护,用户可自主管理权限以确保数据安全。

7.武汉首发全国首辆 AI 外卖配送车,配送效率大幅提升

武汉推出全国首辆搭载 AI 技术的外卖配送车 —— 智音车,配送效率提升显著,标志外卖行业的技术革新。

【AiBase 提要:】

🚚 智音车在武汉首发,配备北斗双频芯片,提升外卖配送效率。

📈 外卖小哥配送效率提升30%,日均多赚80元。

🛰 定位精度高达1米,智音车技术前景广阔。

8、Anthropic年化收入已达40亿美元,较年初增长近4倍、与 Cursor 竞争加剧

文章指出,AI独角兽Anthropic年化收入已达40亿美元,较年初增长近四倍,同时其竞争对手Cursor也在积极扩展业务,双方竞争加剧。Cursor依赖Anthropic的技术,并通过引入高管和创新提升竞争力。人工智能技术的快速发展推动了编程工具的需求增长,各公司都在争夺市场份额。

【AiBase提要:】

🤖 Anthropic年化收入达到40亿美元,较年初增长近四倍。

🔄 Cursor通过引入Anthropic的高管增强市场竞争力。

📈 人工智能技术快速发展,编程工具需求持续增加。

猜你喜欢

探索不思议迷宫获取独眼巨人的详细教程与步骤揭秘
探索不思议迷宫获取独眼巨人的详细教程与步骤揭秘

不思议迷宫独眼巨人怎么获得?很多小伙伴都不太了解,为了大家能够更好的体验游戏,今天91小编给大家带来了独眼巨人获取步骤一

侍魂胧月传说寒霜之龙的PVE与PVP场景适应性分析与对比研究
侍魂胧月传说寒霜之龙的PVE与PVP场景适应性分析与对比研究

侍魂胧月传说寒霜之龙PVE-PVP场景适配分析

和平精英城区对抗选择技巧推荐,如何在城区刚枪中取得胜利?
和平精英城区对抗选择技巧推荐,如何在城区刚枪中取得胜利?

和平精英是一款反恐军事竞赛体验手游,但是不少小伙伴都不知道在手游中如何选城区刚枪呢?下面就跟着梦之都小编来看看吧!和平精

使命召唤手游无后座装备搭配推荐与实战解析
使命召唤手游无后座装备搭配推荐与实战解析

使命召唤手游无后座配件搭配方案

剑网3指尖江湖无法连接服务器时该如何解决以及常见问题处理方法详解
剑网3指尖江湖无法连接服务器时该如何解决以及常见问题处理方法详解

剑网3指尖江湖手游大家都玩了吗?很多玩家都在问剑网3指尖江湖进不去怎么办?小编为大家带来了剑网3指尖江湖连接不上服务器解

烟雨江湖如何才能加入拘魂阁?详细解析拘魂阁的进入条件与要求
烟雨江湖如何才能加入拘魂阁?详细解析拘魂阁的进入条件与要求

烟雨江湖拘魂阁是很多玩家想要加入的门派,需要哪些条件呢,91单机小编给大家带来《烟雨江湖》加入拘魂阁方法攻略的详细介绍!

王者荣耀扇上生花击败特效的隐藏任务触发攻略及技巧详解
王者荣耀扇上生花击败特效的隐藏任务触发攻略及技巧详解

王者荣耀扇上生花击败特效隐藏任务触发方式

2000年前的游戏体验:新手玩家必备的全攻略与玩法分享
2000年前的游戏体验:新手玩家必备的全攻略与玩法分享

2000年前手游开局的玩法究竟是什么呢?在2000年前手游中不少萌新小伙伴们对此也都是非常好奇的呢!那么不清楚的话接下来

大王不高兴护法回火系统实用避坑技巧及最佳阵容推荐全攻略
大王不高兴护法回火系统实用避坑技巧及最佳阵容推荐全攻略

大王不高兴护法回火系统避坑指南及阵容推荐

在大千世界手游中,如何选择开局属性以获得最佳游戏体验
在大千世界手游中,如何选择开局属性以获得最佳游戏体验

大千世界手游开局选项怎么选呢?许多玩家都不是很清楚,接下来小编为大家带来一篇大千世界手游开局选项属性加成一览。1扮演角色