2023 年:人工智能年
毫无疑问,人工智能在 2023 年掀起了波澜,在这里我们重点关注今年最重要的故事,这些故事将塑造这个开创性行业的未来:
更正:在 2023 年 12 月 22 日发布的原始博文中,标题“AI 发布”引起了混乱,因为内容除了发布之外还包含公告和更新。我们澄清了文本和信息图的标题。Stability AI 开源其 LLM 的提及被排除在信息图表之外,但保留在文章中,强调了其在促进可访问性而不是专注于技术改进方面的重要性。该信息图最初展示了 xAI 初创公司的成立,现已因不相关而被删除。此外,由于本文重点关注软件,因此未提及 Apple Vision Pro。我们还将 Midjourney V.6 包含在列表中,因为它是最新版本。 这些调整旨在提高准确性和连贯性。对于任何混乱,我们深表歉意,并感谢您的理解!
人工智能的进步
在今年的人工智能进步领域,取得了显着的进展,改进了现有技术,而不是引入类似于 前一年的 ChatGPT 或图像生成器的突破性创新。虽然没有令人惊叹的效果,而且真正的通用人工智能 (AGI) 还很遥远,但今年标志着之前的突破和即将到来的更强大的东西之间的中间阶段。为了展示这一演变,我们精心制作了一个视觉时间表,突出显示了塑造今年人工智能的最显着的人工智能进步:
图像生成
- Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 支持多样化的视觉内容创作,包括插图、艺术概念和照片处理。 Adobe Firefly集成到 Photoshop 中,使 AI 大众化,立即将其力量扩展到广泛的用户群。文本效果功能的发布 也标志着一个重大进步,允许用户将样式或纹理应用于单词和短语。
- Midjourney: Midjourney 的 V.5 模型标志着图像生成领域的一个里程碑,展示了更高的效率、一致性和更高的分辨率。最新的 alpha 版本Midjourney V.6带来了额外的增强功能,例如更准确的提示跟随、增加的模型知识和较小的文本绘制能力。
- DALL·E 3:DALL·E 3 基于 ChatGPT 构建, 简化了图像生成,无需复杂的提示工程。此外,ChatGPT还引入了一项功能,可以帮助用户完善提示并根据反馈进行图像调整。
- Shutterstock.AI: 库存图片巨头 集成了人工智能功能,允许用户将提示转换为许可就绪的图像。Shutterstock 通过表彰和奖励有贡献的艺术家,在道德人工智能领域迈出了第一步。
视频生成
- Stability AI: Stability AI 推出了 Stable Video Diffusion,这是一种开创性的生成视频模型,可在 GitHub 上进行开源访问。与人工智能图像生成趋势相似 ,稳定视频扩散模型很可能在大部分人工智能生成视频的创建中发挥关键作用。
- HeyGen: 人工智能初创公司推出了 一款用于语音克隆、嘴唇运动调整和视频语言翻译的工具。
- Runway Gen-2: Runway 推出了 Gen-2 模型,使用户能够轻松地从文本提示、图像或其他视频生成完整的视频。看看下面的例子。
- Pika 和 Pika 1.0:随着最初的发布,Pika 获得了 50 万用户,每周生成数百万个视频。随后Pika 1.0中升级的AI模型 使用户能够创建和编辑各种风格的视频,包括3D动画、动漫、卡通和电影。
- Meta 的编解码器头像: Meta 的 用于视频中 3D 人脸的像素编解码器头像 (PiCA) 模型让我们更接近照片级真实感远程呈现。
文本生成
- Bard 和 Gemini: Google 的 Bard 在聊天机器人领域添加了类人的情感和情感。谷歌的 Gemini被引入巴德聊天机器人并在多模式数据集上进行训练, 成为“最有能力”的人工智能模型,也是 OpenAI 的 ChatGPT 的最接近的竞争对手。
- Grok: Elon Musk 的初创公司 xAI通过推出“Grok” ——一个幽默、叛逆、通过 𝕏 平台提供实时知识的聊天机器人, 标志着对人工智能开发的承诺,并有可能与 OpenAI 竞争 。xAI 承诺 Grok旨在回答其他人工智能系统拒绝的挑衅性问题。
- OverflowAI: Stack Overflow 的 OverflowAI 增强了知识管理,支持在 Visual Studio Code 和 Slack 中通过 AI 搜索相关答案。
- Llama 2: Meta 发布了 Llama 2,这是其下一代开源大型语言模型,展示了增强的效率。Meta 经过微调的 LLM 还针对对话用例进行了优化,并且在大多数基准测试中都优于其他开源模型。
- GPT-4: OpenAI 的 GPT-4 现在可以处理图像输入、生成字幕、分类、在来回对话中收听和响应,并支持 实时网页浏览。OpenAI 还扩展了对插件的支持,培育了一个充满开源竞争对手的环境。GPT-4 是 OpenAI 开发 AGI 之旅的下一步。
- Mistral 7B: Mistral AI 今年估值约20亿美元, 发布了Mistral 7B,这是一个挑战GPT-4和Claude 2的大型语言模型。Mistral AI强调开放的技术方法,提供免费下载其模型。
- Mixtral 8x7B: Mistral AI 还推出了 Mixtral 8x7B,这是一种具有开放权重的高质量稀疏混合专家模型 (SMoE),具有 46.7B 总参数,开创了模型的开放性,增强了真实性并减少了偏差。
- Yi-34B llm: 今年 估值为 10 亿美元,李开复的初创公司01.AI 发布了 Yi-34B,这是一种开源神经网络,其参数数量显着高于竞争模型,强调了其成本效益。
其他进步:
- Segment Anything Model (SAM): Meta AI 提出了 SAM,这是一种无需额外训练即可“切出”图像中物体的分割模型,强调了其适应性。SAM 在庞大的数据集上进行了训练,展示了其在对象分割方面的强大性能。
- 直接偏好优化(DPO): DPO 是一种稳定且高效的方法,用于微调大规模无监督语言模型和教学文本到图像模型。它无需复杂的人类反馈强化学习(RLHF)即可实现精确控制。
- Zephyr LM 对齐的直接蒸馏: Zephyr-7B是蒸馏直接偏好优化 (dDPO) 的结果,为具有 7B 参数的聊天模型设定了基准,无需大量训练即可增强意图对齐。
- 自主人工智能代理: 自主人工智能代理已 成为一种显着趋势,展示了向先进和自主人工智能系统的变革性转变。人工智能代理被认为是 AGI 的第一眼,因为它们可以根据用户的目标生成自我指导的任务和指令,并自主地处理它们,直到实现目标。
- EvoDiff: 微软的 EvoDiff是一个开源 AI 框架,用于快速且节省成本的蛋白质生成,有望在治疗和工业应用方面取得进步。
- 稳定音频: Stability AI 推出了 一款工具,可以根据简单的文本提示生成简短的高质量音频剪辑。
- GPT Store、Copyright Shield、ChatGPT Bot Constructor: OpenAI 推出了 GPT Store 来销售定制 GPT 机器人、Copyright Shield 来支付与版权侵权索赔相关的法律费用,以及用于定制 ChatGPT 版本的无代码平台。
- Stability AI 开源了其法学硕士: Stability AI 开源了其模型StableLM-Alpha 和 Stable Vicuna,这些模型以其在生成文本和代码方面的令人印象深刻的性能而闻名。Stable Vicuna 是第一个使用人类反馈强化学习 (RLHF) 进行训练的开源聊天机器人。此外,Stability AI 还推出了 SDXL Turbo,一种实时文本到图像生成模型。
合作伙伴
在充满活力的 2023 年,行业领导者之间出现了重大合作,塑造了未来的轨迹。以下是定义 2023 年人工智能格局的顶级合并和合作伙伴关系:
Stability AI and Init ML
Stability AI 通过收购 Init ML迈出了重大一步 ,Init ML 是流行编辑应用程序 ClipDrop 背后的大脑。目标很明确:将 Stability AI 的先进技术集成到 ClipDrop 的生态系统中。此次合作已经促成了SDXL Turbo 的开发。
Runway and Getty Images
Runway 与 Getty Images 建立 战略合作伙伴关系,推出新的视频生成模型 RGM(The Runway 和 Getty Images 模型)。该模型将 Runway 的人工智能功能与 Getty Images 的授权创意内容库相结合。此次合作旨在彻底改变内容创建工作流程,使公司能够生成适合其品牌形象的高质量、定制视频。
Snowflake and Neeva
数据仓库平台的主要参与者 Snowflake 收购了 Neeva,这是一家以使用生成式人工智能增强搜索体验而闻名的初创公司。Neeva 最近关闭了其基于订阅的无广告搜索引擎。Neeva 的创始人也承认说服用户尝试新搜索引擎的挑战。
Shutterstock 和 OpenAI
Shutterstock 和 OpenAI 承诺 延长 6 年的合作伙伴关系。OpenAI 获得了 Shutterstock 的高质量数据,通过各种图像、视频和音乐库丰富了其模型训练数据集。Shutterstock 继续利用 OpenAI 的技术,推出了 Shutterstock 的 AI 图像生成工具。
法律环境
在不断发展的人工智能法律领域,2023 年面临着充满不确定性和持续争论的局面。随着新挑战的出现,围绕版权、公司政策和更广泛的监管框架的讨论仍在继续,塑造了人工智能法律格局的轮廓。以下是 2023 年最重要的法律问题:
欧洲人工智能法案
欧盟 推出了世界上第一部综合性法律《人工智能法案》来规范人工智能的使用。该法案根据人工智能系统带来的风险对它们进行分类,并制定了相应的法规。虽然《人工智能法案》已经暂时达成一致,但其实施面临延迟,要到 2025 年才会开始执行。
美国版权局对人工智能生成内容注册的立场
美国版权局采取了果断立场, 拒绝 对人工智能算法“Midjourney”创建的图像进行版权注册。此次驳回开创了先例,声称仅由人工智能创作、没有人类参与的人工智能艺术品没有资格获得版权保护。同样, 美国版权局发布了 关于人工智能辅助作品的指南,明确人类使用人工智能工具创作的作品可能有资格获得版权保护。该指南确认,应根据人类在这些作品创作中的作用是否具有决定性来评估人类使用人工智能工具创作的作品。
“目前,现有的法律体系还不准备承认人工智能创作的作品的版权,因为人工智能从现有数据中学习,而这些数据的权利属于其他人,对所有权的归属提出了挑战。通过国家开展的调查,公众参与将推动解决这一问题的做法预计将于明年得到发展。如果没有更广泛的公众参与,现在很难独立解决这个问题。”Daria Kuznetsova,Everypixel 公司律师
麦肯锡 还发布了一张全面的图表,记录了 2023 年最重要的人工智能治理相关政策和监管工作。该视觉表示强调了 2023 年在塑造人工智能法律格局方面的重大贡献。
辩论
2023 年充满了有趣的辩论和讨论,应对人工智能领域的不确定性和不断变化的规范。随着行业发展的进程,这些争论变得不可避免,并预示着即将出现更多发人深省的对话和挑战。以下是定义这一年的一些最值得注意的辩论:
ChatGPT 的公司限制
出于安全和隐私考虑,包括摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行在内的主要金融机构都 限制了 ChatGPT 的使用。这反映了一个更广泛的趋势,即公司向员工发出有关企业环境中人工智能应用相关法律考虑因素的警告。
OpenAI 使用低薪员工
《时代》杂志的调查揭露了 OpenAI 与 Sama 的合作, 在肯尼亚雇用低薪工人 为 ChatGPT 筛选敏感内容。这一揭露引发了有关工人待遇以及内容审核对心理健康影响的伦理问题。
OpenAI 领导层交接
山姆·奥尔特曼的离开 和快速回归上个月成为头条新闻。随着 Sam Altman 因与董事会沟通不一致而辞职,OpenAI 展开了领导层换届。临时首席执行官米拉·穆拉蒂 (Mira Murati) 与大多数员工一起主张奥特曼回归。这种前所未有的情况引起了广泛关注,引发了人们对转型背后的真正原因和未来影响的疑问。
Adobe 和 Figma
Adobe 200 亿美元收购 Figma 的计划 遇到了监管障碍,促使欧盟委员会和英国竞争与市场管理局就潜在的反垄断问题展开调查。拟议交易的影响也超出了设计考虑范围,因为 Adobe 在客户数据平台方面的主导地位引起了首席信息官 (CIO) 对其对云软件支出的潜在影响的担忧。然而, 由于在欧洲和英国获得反垄断批准方面存在挑战, Adobe 放弃了该交易 ,导致 Figma 支付了 10 亿美元的终止费。
摄影师黑客入侵世界摄影奖
摄影师鲍里斯·埃尔达格森 (Boris Eldagsen) 提交了人工智能生成的艺术作品,扰乱了索尼世界摄影奖的举办。埃尔达格森拒绝接受该奖项引发了关于人工智能生成图像在传统摄影比赛中的地位的争论,挑战了人们对真实性和创造力的看法。
转载自:https://journal.everypixel.com/2023-the-year-of-ai
评论(0)