前OpenAI首席科学官Ilya Sutskever宣布成立致力于开发安全超级智能技术的企业Safe Superintelligence(SSI)。Sutskever表示,SSI的第一个产品将是安全的超级智能。
根据GS Statcounter数据,截至今年4月,谷歌的搜索引擎市场份额降至86.99%,是自2009年以来的最低点,似乎是受通用AI助手和新AI搜索玩家影响。
过去一天,国内外AI行业还有哪些热点值得关注呢?让乌鸦君带你一起看看吧。
/ 01 / 大模型
1)北大推出全新机器人多模态大模型,面向通用和机器人场景的高效推理和操作
HMI Lab依托北京大学视频与视觉技术国家工程研究中心等平台,推出端到端机器人MLLM—RoboMamba,它利用 Mamba模型提供机器人推理和行动能力,同时保持高效的微调和推理能力。研究人员将视觉编码器与Mamba集成在一起,通过共同训练将视觉数据与语言嵌入对齐,使模型具有视觉常识和与机器人相关的推理能力。
论文:RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
2)英伟达的Lumina-T2X图像生成应用于Confyui中
基于Stable Diffusion开发的ConfyUI开始使用英伟达的Lumina-T2X图像生成技术,从试用来看,开源模型Lumina-T2X在美学表现和图像质量上与业界领先的MJ V6相差无几。
3)首个AI高考评测出分,GPT-4o拿下第二名
上海人工智能实验室和司南评测体系发布了AI模型参加高考“语数外”全卷能力测试的结果。该测试选取了6个开源模型以及GPT-4o进行,采用了全国新课标I卷。评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)三个模型成为前三甲,得分率均超过 70%。
然而数学科目全员不及格,InternLM2-20B-WQX得分75(满分150)最高,超过GPT-4o的73分。
4)Kimi将启动Context Caching上下文缓存内测
Kimi宣布,Context Caching功能即将启动内测。这一创新功能将支持长文本大模型,并通过高效的上下文缓存机制,为用户提供前所未有的体验。Context Caching技术可以通过缓存重复的Tokens内容,大幅度降低用户在请求相同内容时的成本。
5)中国电信发布单体稠密万亿参数语义模型Tele-FLM-1T
中国电信人工智能研究院(TeleAI)联合北京智源人工智能研究院,发布全球首个单体稠密万亿参数语义模型Tele-FLM-1T,成为国内首批发布稠密万亿参数大模型的机构。结合模型生长和损失预测等技术,这一系列模型在算力资源的使用上,仅消耗了业界普通训练方案的9%。
/ 02 / AI应用
1)谷歌搜索份额降至86.99%,或受通用AI助手和新AI搜索玩家影响
根据GS Statcounter数据,截至2024年4月,谷歌的搜索引擎市场份额似乎已降至86.99%,是自2009年以来的最低点,很大程度上谷歌的份额正在被通用AI助手和新的AI搜索玩家所蚕食。
2)AI独角兽月之暗面进军北美,推出2款AI新产品,虚拟陪伴和音乐视频生成工具
月之暗面一直在开发针对美国市场的产品,包括在苹果和谷歌应用商店上架的人工智能角色扮演聊天应用Ohai,以及音乐视频生成器Noisee的网站。目前还不清楚这家初创公司何时会推出海外版聊天机器人。
据悉,月之暗面在中国的主要竞争对手之一MiniMax已经通过人工智能聊天应用Talkie在美国拓展业务。
3)TikTok推AI内容工具套件,写脚本、剪视频、数字人全包
TikTok推出Symphony AI内容工具套件,该套件能在60秒内生成多种TikTok视频预览,支持多语言翻译和视频编辑。Symphony Digital Avatars帮助品牌扩展创意策略,提供真实人物头像。套件还可以发现趋势、提供创意指导、激发灵感、编写脚本,并给出优化建议。
4)AI生图可“量身定制”!华为清华联手推个性化生成技术PMG
华为与清华大学合作推出了名为PMG的个性化生成技术,该技术利用用户历史行为和偏好,生成符合用户需求的多模态内容,如表情包、T恤设计图、电影海报等。
5)百度文库新产品橙篇支持10万字长文生成
百度文库宣布,全新产品“橙篇”首创10万字长文生成及多模态编辑能力。据介绍,在超长图文理解上,橙篇可实现超长文本无损理解,支持用户一次性上传100个多种格式、单个最大200MB的文件,并支持基于上传内容进行快速总结、问答和创作。
6)Meta推出AI音频水印工具,能鉴别AIGC音频和真人音频,已在GitHub开源
Meta创建了一个名为“AudioSeal”的新系统,可以在AI生成的音频中嵌入名为“水印”的隐藏信号,旨在检测网络上的AI生成内容。该工具能识别出一小时播客中可能由AI生成的音频片段。工具已在GitHub上开源供人下载,并能为AI生成的音频添加水印。
7)AI设计工具Kittl:输入文字提示即可生成图标、剪贴画等
Kittl是一款AI驱动的设计平台,利用先进算法和机器学习,用户可通过简单文本提示创建高质量设计元素,无需复杂技能和软件操作。提供矢量标志图标、令人惊叹的图像和剪贴画,高级文本编辑,魔法着色,即用型模板。用户可访问插图、字体、照片、图标、纹理等无限内容,轻松拖放并自定义。
8)ChatGPT进化版Siri今年无缘上线!苹果正打造史上超薄iPhone 17
苹果AI将在今年晚些时候推出,预计将持续到2025年。据知情人士透露,苹果正设计一款更轻薄的iPhone 17,计划于2025年推出。令人期待的Siri与ChatGPT的整合,新功能如Siri在设备上查找内容、精准控制设备和APP等,也不会在9月份立即上线。
/ 03 / 投融资情报
1)Ilya官宣成立新公司SSI,首个产品将是安全的超级智能
前OpenAI首席科学官Ilya Sutskever周三宣布,与曾在OpenAI的同事以及前苹果人工智能部门负责人、Cue联合创始人携手,共同成立致力于开发安全超级智能技术的企业Safe Superintelligence(SSI)。Sutskever表示,SSI特别之处在于,它的第一个产品将是安全的超级智能,在此之前不会做其他事情。
2)Hinton官宣加盟AI初创公司:用AI探索新材料,ML大牛担任联创
图灵奖得主、深度学习之父Geoffrey Hinton加入英国AI新材料公司CuspAI,担任顾问,利用AI设计新型碳捕获材料以解决气候变化问题。此公司也与LeCun领导的Meta FAIR实验室展开合作,并获得了3000万美元的种子轮融资。
3)法国在欧洲生成式AI资金处于领先,伦敦拥有三成GenAI初创数量
据风险投资公司Accel和Dealroom分析师分析了欧洲和以色列的221家初创公司,发现法国初创企业在生成式人工智能领域迄今已筹集29亿美元,超过了欧洲任何国家和以色列。近期的融资包括Mistral AI(筹集了6.4亿美元)、"H" (筹集了2.2亿美元的种子轮)、Poolside(据报道正在筹集一轮大额融资)。此外,初创公司约27%在伦敦创建。
/ 04 / AI基础设施
1)谷歌研究院获CVPR2024最佳论文,商汤科技50篇论文入选
全球人工智能计算机视觉领域顶级国际会议CVPR正在美国举办,共有来自全球的2719篇论文被接收,录用率为23.6%。共有2篇论文获得最佳论文等奖项,团队成员分别来自谷歌研究院、加州大学圣地亚哥分校、南加州大学、剑桥大学及布兰迪斯大学。
商汤科技及联合实验室的50篇论文选,其中9篇被录用为Oral、Highlight,论文研究成果重点聚焦于推动视觉语言基础模型的提升及多模态技术,其中有多篇涉及自动驾驶、机器人等前沿方向。
2)Flash Diffusion适用于任何扩散模型,实现几步图像生成
Flash Diffusion方法为图像生成技术带来突破,它加速了预训练扩散模型生成过程,表现出色且高效多才多艺。研究人员采用可调整的分布和对抗目标等创新手段,提高预测模型定位和计算效率。该方法适应不同骨干网络,显著减少采样步骤同时保持高质量生成。
3)吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
吴恩达团队最新研究评估了多模态基础模型在10个数据集的上下文学习表现,揭示了批量查询可显著降低每个示例的延迟和推理成本,同时实现性能提升。发现表明,利用大量示例可以快速适应新任务和新领域,无需传统微调。
4)李开复谈报考AI专业:AI专业很多工作也能被AI取代
零一万物CEO李开复近日接受采访,结合最近高考填报志愿的热点,他谈到了“是否应该去报考人工智能相关专业”的问题,表示“适合的去做,不适合的不该去做”,实际上AI专业很多工作都可以被AI取代。李开复建议,学AI先学编程,其次,无论报考什么专业,都要把大模型当作自己最好的伙伴。
原文标题 : 乌鸦AI日报:OpenAI灵魂人物Ilya创办SSI;谷歌搜索份额降至86.99%,15年内最低