1、Adobe 正在为其 Firefly 系列开发一个生成式 AI 视频模型,这将为其 Premiere Pro 视频编辑平台带来新工具
与 Adobe 之前许多有关 Firefly 的公告不同,公司新的视频生成工具没有确定的发布日期——无论是测试版还是其他版本——只知道它们将在“今年”推出。虽然这家创意软件巨头展示了其视频模型目前的能力,通过一个早期视频演示,但它计划将 Premiere Pro 与其他提供商的 AI 模型集成,并不是确定的事情。
Adobe 反而称其视频预览中的第三方 AI 集成为对“未来”可能的样子的“早期探索”。其想法是根据 Adobe 的说法,为 Premiere Pro 用户提供更多选择,允许他们使用像 Pika 这样的模型来延长镜头,或者在为他们的项目生成 B 卷时使用 Sora 或 Runway AI。Adobe 还表示,其内容凭证标签可以应用于这些生成的剪辑上,以识别使用了哪些 AI 模型来生成它们。
2、Adobe 使用 Midjourney 数据,训练文生图模型
据彭博社报道,Adobe 正在使用 Midjourney 的图片,训练其文生图模型 Firefly。
消息人士透露,关于使用 Midjourney 的 AI 生成图片来训练 Firefly 模型在 Adobe 内部一直存在非常大的分歧。即使在 Firefly 开发的早期阶段,一些员工也不同意 Adobe 将 AI 生成的图像纳入到Firefly 训练数据中。
在用于训练 Firefly 的 Adobe Stock 数据库中,有 5700 万条数据被标记为 AI 生成的,这约占数据库中图像总数的 14%。而此前 Adobe 发言人指出,用于训练 Firefly 的图像中只有 5% 来自其他平台创建的 AI 图
3、字节跳动旗下 AI “豆包”推出新版本
据字节跳动豆包官网,豆包新版本加入了图片生成、阅读与总结、帮我写作功能。此外,还推出了 Windows、Mac 客户端和 Chrome 插件。可在豆包官网“抢先体验”进入新版本。
字节跳动旗下的视频生成式 AI Dreamina 开始大规模测试
目前,Dreamina 的官网页面已经正式发布了视频生成的入口。可以通过图片或者文本生成视频。
链接:https://dreamina.jianying.com/ai-tool/home
4、通义千问320亿参数模型开源
近日,阿里云开源了通义千问Qwen1.5-32B。
基础能力方面,Qwen1.5-32B模型在MMLU、GSM8K、HumanEval、BBH等多个测评中表现优异,性能接近通义千问720亿参数模型,远超其他300亿级别参数量模型。
Chat模型方面,Qwen1.5-32B-Chat模型在MT-Bench评测得分超过8分,与通义千问720亿参数Chat模型之间的差距相对较小。
多语言能力方面,阿里表示,选取了包括阿拉伯语、西班牙语、法语、日语、韩语等在内的12种语言,在考试、理解、数学及翻译等多个领域做了测评。Qwen1.5-32B的多语言能力只略逊于通义千问720亿参数模型。
此前,通义千问已开源5亿、18亿、40亿、70亿、140亿和720亿参数尺寸的大模型。其中,几款小尺寸模型可便捷地在端侧部署,720亿参数模型拥有业界领先的性能。Qwen1.5-32B模型旨在性能、效率和内存占用之间达到理想平衡,为下游应用提供更好的解决方案。
5、360 智脑 7B 参数大模型开源,支持 50 万字长文本输入
360 公司日前在 GitHub 上开源了 360 智脑 7B(70 亿参数模型)。360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练,以中文、英文、代码为主,开放 4K、32K、360K 三种不同文本长度。360 表示,360K(约 50 万字)是当前国产开源模型文本长度最长的。
在英文大海捞针测试(将关键信息插入一段长文本的不同位置,再对该关键信息提问,从而测试大模型的长文本能力的一种方法)中,7B-360K 模型达到 98% 以上的准确率。360 仿照 SuperCLUE-200K 测评基准构造了中文大海捞针测试,同样做到了 98% 以上的准确率。
此前,周鸿祎表示,前段时间大模型行业卷文本长度,100 万字“很快将是标配”。“我们打算将这个能力开源,大家没必要重复造轮子,定为 360K 主要是为了讨个口彩。”他还自称“开源的信徒”,信奉开源的力量。
6、淘宝苹果 Vision Pro 版上线:“身临其境”查看商品
淘宝在 App Store 上线了 Vision Pro 版本,可以通过 Vision Pro 将商品投影到现实中查看,并与其他商品对比。
使用 Vision Pro 逛淘宝可以获得 3D 立体的购物体验,Vision Pro 识别到平面之后,商品会吸附在平面上,同时有真实世界的光影效果。用户可以自行放大缩小查看商品细节,也可以选择 1:1 比例模拟物品在真实世界的大小。
Vision Pro 版淘宝可以同时展示多个商品,方便用户进行比较,还可以直观地看到物品的长宽高数据。同时,该应用还支持搜索物品并识别物品的形状和大小。
7、一加、OPPO 手机将引入谷歌 Gemini 模型,提供新闻摘要、AI 工具箱等功能
谷歌近日举办的 Cloud Next 主题演讲中,宣布和 OPPO、一加公司合作,为其 2024 款手机产品提供 Gemini AI 模型支持。
谷歌在活动中表示通过和 OPPO、一加品牌的合作,进一步在手机领域拓展 Gemini 模型,将现有 Pixel 8、Pixel 8 Pro 上的一些独占功能扩展到两家品牌的手机产品中。
谷歌在活动中透露了一些 AI 相关的功能,包括新闻摘要、录音机摘要以及“AI 工具箱”,此外 OPPO 和一加表示会通过合作进一步探索 AI 技能,包括为社交媒体平台生成内容等。
8、xAI 发布 Grok-1.5 视觉能力预览
X 旗下的 AI 公司 xAI 宣布隆重推出 Grok-1.5V,其第一代多模式模型。除了强大的文本功能之外,Grok 现在还可以处理各种视觉信息,包括文档、图表、屏幕截图和照片。Grok-1.5V 很快就会向早期测试者和现有 Grok 用户推出。
Grok-1.5V 在多个领域(从多学科推理到理解文档、科学图表、图表、屏幕截图和照片)与现有的前沿多模态模型具有竞争力。xAI 表示,我们对 Grok 理解物理世界的能力感到特别兴奋。Grok 在我们新的 RealWorldQA 基准测试中表现优于同行。
评论(0)