【犀语课堂】2023年底你必须知道的AI进展
大型模型在人工智能领域掀起了一场风暴,2023年被大家称为AGI元年。从令人叹为观止的机器翻译,到书写不同创意文本的超凡能力,这些强大的预训练语言模型一直在突破计算机所能实现的任务极限。
临近年末,是时候让我们回过头来,了解2023年重新定义人工智能格局的大模型进展:
1、具有128K上下文的GPT-4Turbo
OpenAI于3月份发布了GPT-4的第一个版本,并于7月份向所有开发人员开放了GPT-4。11月,OpenAI推出了该模型的下一代GPT-4Turbo的预览版,供开发伙伴进行试用。
GPT-4Turbo能力更强,训练数据截至2023年4月的数据集。它具有128k Token上下文窗口,因此可以在单个提示中容纳相当于300多页文本的内容。OpenAI还优化了其性能,因此与GPT-4相比,能够以便宜3倍的输入价格和便宜2倍的输出格提供GPT-4Turbo服务。
GPT-4Turbo通过各个平台中API中的gpt-4-1106-preview进行试用。
2、带视觉输入的 GPT-4 Turbo V
GPT-4 Turbo 的视觉输入版本可以接受图像作为聊天API 中的输入,从而实现生成标题、详细分析现实世界图像以及阅读带有图形的文档等功能。例如,开发者使用这项技术,可以帮助盲人或弱视人士完成日常生活任务,例如识别产品或浏览商店。开发人员可以通过 API 中的 gpt-4-vision-preview 来访问此功能。GPT-4 V的定价取决于输入图像的大小。例如,将 1080×1080 像素的图像传递给 GPT-4 Turbo 的成本为 0.00765 美元。
图:OpenAI GPT模型发展路径
(来源:https://arxiv.org/pdf/2303.18223.pdf)
3、Anthropic 的 Claude 2.1 基础模型
Anthropic 的 Claude 2.1 基础模型支持 200,000 个令牌,相当于大约 150,000 个单词,或超过 500 页的文档。在将大量信息上传到 Claude 2.1 时,用户可以汇总、执行问答、预测趋势,并比较、对比、起草业务计划,分析复杂合同的多个文档。与 Claude 2.0 相比,Claude 2.1 将开放式对话和文档问答的虚假陈述中的幻觉减少了 50%,将错误回答减少了 30%,将错误得出文档支持特定主张的比率降低了 3–4 倍。
Claude 2.1 在理解和总结方面也做出了有意义的改进,特别是对于需要高精度的长而复杂的文档,例如法律文件、财务报告和技术规范。
4、Google推出的Gemini
Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准测试中都具有最先进的性能,特意强调了 Gemini”原生多模态 natively multimodal“的特性,可以理解复杂的书面和视觉信息。Google 以 Gemini 为引擎,将其代码生成系统 AlphaCode 升级到了 2.0 版本,具有动态编程能力,即一步步将复杂的编程问题分解为更简单的子问题进行解决。
5、HuggingFace Zephyr 开源大模型
HuggingFace H4团队专注于研究和开发大模型,三周前,H4团队发布了Zephyr 7B模型的Alpha版本:Zephyr 是一个典型的生成式语言大模型,被训练为充当人类的助手。Zephyr-7B-α是基于Mistral 7B的微调版本,其多项性能优于 GPT-3.5、Llama-13B-chat、Falcon-40B 和其他开源语言大模型。
10月28日,H4团队发布了Zephyr 7B模型的Beta版本,其性能进一步提升,目前在主要评测中均优于所有主流的大语言模型,包括gpt-3.5-turbo、Llama 70b等,在AlpacaEval基准测试中与gpt-4不相上下。而Zephyr 7b 比 Gpt-3.5 模型规格小25 倍。
6、Mistral AI
Mistral 7B: Mistral AI今年推出了 Mistral 7B,一个具有挑战性的大语言模型,旨在与 GPT-4 和 Claude 2 竞争。Mistral AI 采用开放技术策略,允许用户免费下载该模型,以促进技术共享和创新。Mixtral 8x7B,这是一个高质量的稀疏混合专家模型(SMoE),具备开放的权重参数,拥有总计 46.7B 参数,这标志着模型在提高真实性和减少偏见方面开放性的一大步。
此外,2023年人工智能在各个方向都获得了快速进展,我们摘录了Everypixel Journal 概括的 Air Street Capital 团队的年度 AI 报告,全文参见Founder Park及腾讯科技的报道。
研究:技术突破及其能力
GPT-4:OpenAI 最新模型 GPT-4 脱颖而出,成为功能最强大的 AI 模型,其显著优于 GPT-3.5,并在编码能力方面表现出色。
自动驾驶:Wayve 的LINGO-1 为驾驶增加了视觉-语言-动作维度,有可能提高自动驾驶系统的透明度和推理能力。
文本到视频生成:VideoLDM 和MAGVIT 引领文本到视频生成的竞赛,各自使用不同的方法——diffusion 和 transformer。
图像生成:诸如 InstructPix2Pix 和 Genmo AI 的「Chat」之类的助手通过文本指令实现更受控和直观的图像生成和编辑。
AI 在医学中的作用日益增强:像Med-PaLM 2 这样的模型展示了 AI 在医学中的重要性日益增强,甚至在特定任务中超过了人类专家。谷歌的 Med-PaLM 2 通过 LLM 改进、医学领域微调和提示策略实现了新的最先进的结果。多模态数据集 MultiMedBench 的集成使 Med-PaLM 能够将其功能扩展到基于文本的医学问答之外,展示了其适应新医学概念和任务的能力。此外,最新的计算机视觉技术在疾病诊断中显示出有效性。
RLHF:人类反馈强化学习仍然是一种主要的训练方法。这种方法在增强 LLM 安全性和性能方面发挥了重要作用,OpenAI 的 ChatGPT 就是一个例子。然而,研究人员正在探索减少对人类监督需求的替代方法,以解决与成本和潜在偏差相关的担忧。这些替代方法包括从自己的输出中学习的自我改进模型以及减少对 RLHF 依赖的创新方法,例如使用精心设计的提示和响应来微调模型。
LLaMa-2:虽然商业模型主导着该领域,但正在进行的努力集中于通过开源方法来生产高性能模型,Meta 的 LLaMa 系列就是一个例子。
AI 产品的进展
在今年的 AI 进展方面,重点在于改善现有技术,而非引入类似于去年的 ChatGPT 或图像生成器那样的革命性创新。虽然没有令人震撼的效果,且真正的通用人工智能(AGI)尚未实现,但今年标志着从之前的重大突破向更强大的未来过渡的中间阶段。为了展示这种发展趋势,我们制作了一个视觉时间线,强调了今年在 AI 领域最为显著的进展:
图片来源:Everypixel Journal
图像生成
Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 推动了多样化视觉内容的创作,如插画、艺术构思和照片编辑。集成到 Photoshop 中的 Adobe Firefly 使 AI 技术普及化,让更多用户能够轻松使用。其发布的文本效果功能也是一个重要进展,它允许用户给文字和短语添加风格或纹理。
Midjourney: Midjourney 的 V.5 模型在图像生成领域达成了重要里程碑,展现了更高的效率、连贯性和分辨率。它的最新alpha 版本,Midjourney V.6,进一步增强了功能,比如更精准地响应用户输入(prompt)、提高了模型的知识水平和简易的文本绘制能力。
DALL·E 3:基于 ChatGPT 的 DALL·E 3 简化了图像生成过程,避免了复杂的用户输入(prompt)设置。此外,ChatGPT 还推出了一项功能,帮助用户优化输入内容,并根据反馈调整图像。
Shutterstock.AI: 知名库存图片平台Shutterstock.AI 加入了 AI 功能,使用户能将输入内容转换成可授权的图像。Shutterstock 在推动伦理 AI 方面迈出了重要一步,对贡献的艺术家给予认可和奖励。
视频生成
Stability AI:Stability AI 推出了 Stable Video Diffusion,这是一个具有里程碑意义的视频生成(generative video)模型,可在 GitHub 上开源访问。类似于AI图像生成的趋势,Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。
HeyGen:这家AI创业公司推出了一款用于语音克隆的工具,能够调整视频中的唇部运动并进行语言翻译。
Runway Gen-2:Runway 发布了Gen-2模型,使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。下面的例子就是一种展示。
Pika 和 Pika 1.0:在首次发布时,Pika 吸引了超过五十万用户,每周生成数百万视频。在 Pika1.0 中,升级后的 AI 模型使用户能够以多种风格(包括 3D 动画、动漫、卡通和电影)创作和编辑视频。
Meta 的像素编解码头像(PiCA):Meta的 Pixel Codec Avatars(PiCA)模型为视频中的 3D 人脸提供了更加逼真的远程传输体验。
2024十大预测
① 利用生成式人工智能制作视觉效果,制作一部好莱坞式的大片。
② 一家生成式人工智能媒体公司因在2024年美国大选期间滥用而受到调查。
③ 自我提升的AI智能体在复杂环境中碾压SOTA(例如游戏、工具使用、科学)。
④ 科技IPO市场开始松动,至少有一家专注于人工智能的公司(例如Databricks)上市。
⑤ 生成式人工智能扩展热潮导致一个团队花费超过10亿美元来训练单个大型模型。
⑥ 美国FTC或英国CMA以垄断为由调查微软/OpenAI交易。
⑦ 除了高级别自愿承诺,全球人工智能治理的进展有限。
⑧ 金融机构推出GPU债务基金,替代风险资本的股权投资进行融资。
⑨ 一首人工智能生成的歌曲跻身Billboard榜单前10名或Spotify 2024年热门歌曲排行榜。
⑩ 随着推理工作量和成本的大幅增长,大型人工智能公司(如OpenAI)收购了一家专注于推理的人工智能芯片公司。
公司介绍
上海犀语科技有限公司采用领先的自然语言处理(NLP)、图像识别 (OCR)、知识图谱(KG))、文本内容智能生成(AIGC)、大数据(BD)分析技术,通过深入分析企业的数智化转型需求,形成从底层文本的数据清洗和数据结构化到算法模型的训练管理以及行业智能化应用,确保信息披露质量,紧跟监管合规动态,提升执业质量和工作效率。将AI技术结合行业专家经验打造AI深度学习平台、技术能力应用、产品解决方案,形成犀语特色的行业数据库、事件推理图谱等,可以有效规避风险,加速企业投研的数智化转型。
联系我们
商务咨询(需求对接、产品试用)
请联系:电话400-920-3707
或邮箱 marketing@alphainsight.ai