Suno悄悄更新了新模型v3.5,并且还在X上放出了最新功能的视频,继各大模型
Open-Sora1.1发布,新版本模型带来了显著提升,尤其在视频生成质量和时长方面,能生成最长约21秒视频。
过去一天,国内外AI行业还有哪些热点值得关注呢?让乌鸦君带你一起看看吧。
/ 01 / 国内要闻
1)北大、腾讯推出ReVideo:通过动作和内容精确编辑视频
来自北京大学和腾讯的研究团队及其合作者,提出一种“重塑视频”(ReVideo)尝试,通过指定内容和动作,在特定区域进行精确的视频编辑。ReVideo解决了内容和动作控制之间的耦合和训练不平衡问题,在几种精确的视频编辑应用中具有良好的性能,包括
2)荣耀即将推出首款搭载谷歌Gemini AI的智能手机,预计面向海外市场
荣耀终端有限公司的一位发言人透露,即将推出的设备将集成谷歌Gemini AI、文本到图像生成工具Imagen 2等生成式AI服务,并且由Google Cloud提供相关的服务支持。
3)基于蚂蚁百灵大模型,支付宝发布智能车机产品“领航”
支付宝正式推出全新智能车机产品“领航”,该产品是蚂蚁百灵大模型在车载场景的首次应用,可通过AI技术自主理解语意、识别并执行用户意图、完成交易闭环。支付宝表示,该产品已面向行业试点开放,未来将联合车企。
4)实时识别物体的模型YOLOv10升级:识别延迟减少46%
清华团队接棒的YOLO系列已推出实时识别物体模型YOLOv10。v10相比v9版本,参数降低25%,识别延迟减少46%。YOLOv10通过消除非最大抑制(NMS)的依赖性,实现了无NMS的训练和低推理延迟。
5)同济大学首个“知识大模型”CivilGPT上线
近日,在同济大学建校117周年之际,首个“知识大模型”CivilGPT正式发布。CivilGPT大模型构建了垂域高质量语料集,基于千亿级基础模型进行训练,形成了具备土木工程领域专业知识的首个垂域大模型。
6)摩尔线程GPU千卡集群完成30亿参数大模型实训
摩尔线程、无问芯穹联合宣布,双方已经正式完成基于国产全功能GPU千卡集群的3B规模大模型“MT-infini-3B”实训,该模型基于摩尔线程国产全功能GPU MTT S4000组成的千卡集群,以及无问芯穹的AIStudio PaaS平台打造。
/ 02 / 海外动态
1)Open-Sora 1.1发布 视频质量提升,生成时长延长至21秒
一位推友@LinBin46984 在X上表示,Open-Sora1.1发布。此次模型带来了显著提升,尤其在视频生成质量和时长方面。新版本模型能生成最长约21秒视频,使用高质量视觉数据和字幕训练,提升对世界运作的理解。CausalVideoVAE架构优化提高性能和推理效率。
GitHub地址:https://github.com/PKU-YuanGroup/Open-Sora-Plan
2)Suno更新V3.5版本,一句话生成一首4分钟的歌曲
Suno悄悄更新了新模型v3.5,并且还在X上放出了最新功能的视频,继各大模型退出的图生图后,Suno发了一个“声生声”模型,支持将日常生活中的任何声音生成一段好听的旋律。
3)OpenAI解散安全团队后成立监督委员会,Sam Altman领导
OpenAI宣布成立由Sam Altman领导的委员会,并已开始训练其下一个人工智能模型。新委员会将用时90天来评估其AI模型的安全性和保障措施。在全体董事会审查之后,OpenAI将公开分享已采纳的建议。
4)Canva上线多个好用功能:文本生成插画、自动剪辑视频精华片段
Canva设计平台最新更新旨在提升专业团队和工作空间的吸引力,包括重新设计平台、推出企业版、提供AI风格匹配功能等。更新内容涵盖多项功能和改进,使设计工作更高效便捷。
5)InstructAvatar:实现文字生成指定面部的表情和动作
InstructAvatar 是一项最新的对话形象生成模型,通过文本引导方法实现了对情感和面部动作的细粒度控制,提升了虚拟形象的互动性和泛化能力。该模型在细粒度情感控制、口型同步质量和自然性方面优于现有方法,能指定面部的表情和动作,为生成具有情感表达的2D虚拟形象带来了突破性进展。
6)Netflix CEO:抢你饭碗的不是AI,而是熟练使用AI的人
Netflix CEO Ted Sarandos在接受《纽约时报》采访时表示,他并不认为AI未来有一天会取代编剧、演员和导演,但精通AI的人可能会取代人们的工作。
原文标题 : 乌鸦AI日报(5月28日)