5月28日AI日报

Suno悄悄更新了新模型v3.5，并且还在X上放出了最新功能的视频，继各大模型退出的图生图后，Suno发了一个“声生声”模型，支持将日常生活中的任何声音生成一段好听的旋律。

Open-Sora1.1发布，新版本模型带来了显著提升，尤其在视频生成质量和时长方面，能生成最长约21秒视频。

过去一天，国内外AI行业还有哪些热点值得关注呢？让乌鸦君带你一起看看吧。

/ 01 / 国内要闻

1）北大、腾讯推出ReVideo：通过动作和内容精确编辑视频

来自北京大学和腾讯的研究团队及其合作者，提出一种“重塑视频”（ReVideo）尝试，通过指定内容和动作，在特定区域进行精确的视频编辑。ReVideo解决了内容和动作控制之间的耦合和训练不平衡问题，在几种精确的视频编辑应用中具有良好的性能，包括部改变视频内容，同时保持动作不变等。

2）荣耀即将推出首款搭载谷歌Gemini AI的智能手机，预计面向海外市场

荣耀终端有限公司的一位发言人透露，即将推出的设备将集成谷歌Gemini AI、文本到图像生成工具Imagen 2等生成式AI服务，并且由Google Cloud提供相关的服务支持。

3）基于蚂蚁百灵大模型，支付宝发布智能车机产品“领航”

支付宝正式推出全新智能车机产品“领航”，该产品是蚂蚁百灵大模型在车载场景的首次应用，可通过AI技术自主理解语意、识别并执行用户意图、完成交易闭环。支付宝表示，该产品已面向行业试点开放，未来将联合车企。

4）实时识别物体的模型YOLOv10升级：识别延迟减少46%

清华团队接棒的YOLO系列已推出实时识别物体模型YOLOv10。v10相比v9版本，参数降低25%，识别延迟减少46%。YOLOv10通过消除非最大抑制（NMS）的依赖性，实现了无NMS的训练和低推理延迟。

5）同济大学首个“知识大模型”CivilGPT上线

近日，在同济大学建校117周年之际，首个“知识大模型”CivilGPT正式发布。CivilGPT大模型构建了垂域高质量语料集，基于千亿级基础模型进行训练，形成了具备土木工程领域专业知识的首个垂域大模型。

6）摩尔线程GPU千卡集群完成30亿参数大模型实训

摩尔线程、无问芯穹联合宣布，双方已经正式完成基于国产全功能GPU千卡集群的3B规模大模型“MT-infini-3B”实训，该模型基于摩尔线程国产全功能GPU MTT S4000组成的千卡集群，以及无问芯穹的AIStudio PaaS平台打造。

/ 02 / 海外动态

1）Open-Sora 1.1发布视频质量提升，生成时长延长至21秒

一位推友@LinBin46984 在X上表示，Open-Sora1.1发布。此次模型带来了显著提升，尤其在视频生成质量和时长方面。新版本模型能生成最长约21秒视频，使用高质量视觉数据和字幕训练，提升对世界运作的理解。CausalVideoVAE架构优化提高性能和推理效率。

GitHub地址：https://github.com/PKU-YuanGroup/Open-Sora-Plan

2）Suno更新V3.5版本，一句话生成一首4分钟的歌曲

3）OpenAI解散安全团队后成立监督委员会，Sam Altman领导

OpenAI宣布成立由Sam Altman领导的委员会，并已开始训练其下一个人工智能模型。新委员会将用时90天来评估其AI模型的安全性和保障措施。在全体董事会审查之后，OpenAI将公开分享已采纳的建议。

4）Canva上线多个好用功能：文本生成插画、自动剪辑视频精华片段

Canva设计平台最新更新旨在提升专业团队和工作空间的吸引力，包括重新设计平台、推出企业版、提供AI风格匹配功能等。更新内容涵盖多项功能和改进，使设计工作更高效便捷。

5）InstructAvatar：实现文字生成指定面部的表情和动作

InstructAvatar 是一项最新的对话形象生成模型，通过文本引导方法实现了对情感和面部动作的细粒度控制，提升了虚拟形象的互动性和泛化能力。该模型在细粒度情感控制、口型同步质量和自然性方面优于现有方法，能指定面部的表情和动作，为生成具有情感表达的2D虚拟形象带来了突破性进展。

6）Netflix CEO：抢你饭碗的不是AI，而是熟练使用AI的人

Netflix CEO Ted Sarandos在接受《纽约时报》采访时表示，他并不认为AI未来有一天会取代编剧、演员和导演，但精通AI的人可能会取代人们的工作。

原文标题 : 乌鸦AI日报（5月28日）

相关推荐