艺术档案 > 艺术背景 > 中国如何缺席ChatGPT盛宴

中国如何缺席ChatGPT盛宴

2023-03-17 16:10:52.972　来源: 红博士说作者：

中国如何缺席ChatGPT盛宴

ChatGPT 编年史

我们如何错过GPT盛宴

GPT大语言模型能实现AGI吗

连载话题预告（第二篇章24小时内发布）

ChatGPT编年史

我们来梳理一个时间轴。ChatGPT是对话式UI + GPT–3.5系列模型，我们以最具代表性的论文、模型、API为主线，梳理到今天。

2020之前

- 2017年6月，Google发布Transformer论文。

- 2017年6月，7月，OpenAI发布人类喜好的强化学习算法、PPO算法，都是ChatGPT用到的算法。

- 2018年6月，OpenAI发布GPT-1.

- 2018年11月，Google发布BERT，此后NLP领域主要基于这个框架研究下游任务。

- 2019年2月，OpenAI发布GPT-2，OpenAI获得了自信，此后专注于GPT.

2020年

- 年初，Covid-19爆发。

- 1月，OpenAI发布语言模型的Scaling Law（概念：模型能力跟参数规模、数据规模强相关），OpenAI获得了在数据和参数规模上Scaling-up的信心。

- 5月，GPT-3论文发布。

- 6月，GPT-3 API发布。

- 9月，ChatGPT的关键原型算法相关论文发布。

- 12月，欧洲机构发布用于GPT-3复现的开源数据集。

2021年

- 7月，OpenAI发布Copilot原型算法。

- 8月，Codex API发布。

- 11月，GPT-3 API Public Release，不对中国开放。

2022年

- 1月，GPT-3.5 API (text-davinci-002)发布，该模型经过Github代码的训练加持，推理能力显著提升（该假设的因果关系待学术界论证），经过Alignment技术的加持，Follow人类指令的能力显著提升，输出结果有用性和无害性显著提升。

- 3月，GPT-3.5论文发布，公开Alignment算法。

- 5月，OpenAI Codex已经被70个应用使用，包括微软收购的Github的Copilot.

- 8月，Stability AI开源StableDiffusion，文生图的算法的效果可用、速度可行、代码开源同时发生，引爆图片生成。一时间，在中国，AIGC似乎就是图片生成的代名词。

- 9月，Sequoia Capital发布Generative AI: A Creative New World博客。

- 中国研究人员和开发者，没有OpenAI的API权限。但图片生成却人人都可以尝试，于是互联网似乎只注意到了图片生成，对GPT大语言模型的关注度进一步下降。

- 经过接近一年的API接入和UI探索、近一年的思维链（Chain of Thought）等Prompt Engineering技术试错、模型加速等技术（如Flash Attention、Fixed-Point）带来的成本和延迟下降，GPT-3.5的模型潜力得到开发（变得Better、Faster and Cheaper）, Copy.ai, Jasper等文本生成类公司的产品逐渐成熟。

- 11月，OpenAI发布GPT3.5 API的新模型(text-davinci-003).

- 12月1日，ChatGPT发布。Musk等名流开始谈论ChatGPT，引爆英文互联网。

- 12月初，中国互联网的自媒体逐渐开始讨论ChatGPT，主要以翻译twitter的方式。知乎上有学者开始反思。一周后，关注指数下降，两个月来只剩下AI自媒体把ChatGPT作为自己的主要关注内容。

2023年

- 1月，微软宣布投资OpenAI数十亿美元，并将GPT加入全家桶。

- 2月，中国春节结束，微软和Google你方唱罢我登场，纳斯达克财报季，AI被反复提起。中国互联网是认识微软的，ChatGPT引爆中国互联网，关注指数飙升。

值得注意的是，2020年以来这三年，正是OpenAI的GPT发展、壮大、产品化的三年。

我们如何错过GPT盛宴？

历史回顾完了，那么为什么我们（中国，尤其是AI社区）没有更早地意识到，OpenAI技术在应用层面的突破性？

意识到问题需要同时具备哪些条件：

1. 能够看且懂OpenAI、DeepMind、Google等机构的论文（代表人群：研究员）

2. 能够使用OpenAI的API探索论文里的模型（代表人群：研究员里的尝鲜者）

3. 对硅谷的敏感性，经常看大家在用OpenAI的API做什么产品（代表人群：VC）

这三类人在中国，我们粗估一下，第一类，大概有1/100,000，第二类大概是第一类里的1/1,000，第三类大概是1/1,000,000. 三个条件，缺少一个，都无法意识到OpenAI发展到哪一步了。有哪个团队汇集了这三种人，并且他们有充分的碰撞？有哪个人是具备了这三种属性？雪上加霜的是，研究人员三年来没有出国参加过学术会议交流，甚至很多人连线上会议都没有参加，学术会议的两大主题是论文展示和社交，AI类会议有规模很大的企业展览、Demo展示，去现场能获取到很多信息。

我们继续深挖。第一类人群中，又分成NLP（自然语言处理）研究人员，其他AI研究人员（比如计算机视觉、语音识别、机器学习）。

中国NLP的研究群体里，基本上是把语言模型（尤其是BERT，而不是GPT）拿去应用在NLP的各种下游任务上，在学术界就是刷榜发论文，在工业界，就是拿去做客服机器人、写稿机器人、角色扮演机器人，研究方法也完全不同于GPT精髓——Scaling-up和Alignment。（几乎）没有人是把大语言模型（LLM）当做通用人工智能（AGI）的一种可能性来研究的。

其他AI研究人员，比如计算机视觉，大部分人还是专注在图像上，即使是用Transformer，也是解决图像的问题，比如用Transformer来做自动驾驶、图像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年从Tesla裸辞，以独立研究员的身份，投身于大语言模型。（最新消息：2月9号，Karpathy宣布重新加入OpenAI）

Karpathy曾经说他过去十年痴迷于AI中取得最快进展的方向，并且曾经对语言模型非常感兴趣，但是却忽视了scaling up的力量，那就是简单的Objective（next word）+简单的结构（Transformer）+ 足够的参数+足够的数据(web text)，一个语言模型可以涌现出在小规模状态下看不到的能力，他曾像其他人一样（他应该指早期的OpenAI），一度以为强化学习是AGI的路径，到头来却发现大语言模型是看起来最有希望的路径。在此之前，语言模型的研究人员，把精力过多地放在了具体任务上。

仔细分析AI领域的另一个重要群体——计算机视觉（Computer Vision)群体。在2012年开始的深度学习浪潮里，计算机视觉一直是应用最广、商业化最成功的方向，吸引了太多AI研究员的精力，从图像分类、检测、分割到识别，从图像到视频，从高层视觉到底层视觉，我们在卷积神经网络上卷出了一个又一个新高度。一个YOLO目标检测框架，被迭代到原作者都放弃了，还有人给推到了v7版本。最具代表性的是计算机视觉的登月工程——自动驾驶，它需要成像、识别、合成、建图、规划等几乎所有的视觉AI技术加持，从CNN时代到Transformer时代，不断地拉更多的人下水，但直到今天，全自动驾驶的方案仍未收敛。马斯克定义的问题是对的，自动驾驶是一个real-world AI问题，但显然特斯拉的方案并没有为全自动驾驶准备好。

NLP圈的小家碧玉，CV圈的隔行隔山，出国交流减少，互联网交流不通。这些因素叠加起来，整个中文世界，形成了一个信息茧房。10年来，我们以为自己积攒了AI算法、数据、应用的优势，如今情况变成了中美扩大的技术鸿沟。这时候，我们甚至没有一个新闻调查，把这件事的来龙去脉，挖它个底朝天。

另一个问题是，我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据？比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。

我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText（开源版本）,数据是从Reddit论坛上收集的URL，再把内容抓取下来。Common Crawl是一个开放的互联网数据存档（英文占一半，中文大概5%）。其他一些代表性的数据包括Wikipedia维基百科，Books开放图书，Stack Exchange 技术问答社区，Github 代码，ArXiv论文，RealNews 新闻存档，PubMed 医疗数据。可以看到，由中文互联网产生的数据，比例低到可以忽略。这也困扰了很多试图训练中文大模型的研究员，但实际上，ChatGPT的用中文沟通的能力，已经远超那些专门的中文大语言模型了，背后原因是GPT隐式学到的翻译能力。

没有好的中文数据，我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生，需要开放的社区，我们似乎无解。

GPT大语言模型能实现AGI吗？

基于GPT的LLM，仅仅依赖语言，大概率无法实现AGI，而只是“通往AGI的高速公路的一个出口（Yann Lecun）”。但LLM足以把互联网基础设施搞个天翻地覆，它同时具备了Logic和Memory。Logic是理解能力（这里指非结构化文本处理，如Bing New使用的Summarize能力），Memory是对高频知识的记忆，显然Memory可以分为片上和片外，片上有限，而片外无限。下一步，我们只需要专注于把LLM的Logic提升到极致，把大部分低频Memory offload到模型以外，配以搜索等查询技术，就可以实现对整个互联网前后端的重构。我们远远没有吃尽scaling-law的红利，限制我们的，只有集成电路的摩尔定律和制造能力、能源的价格、数据的获取。

集成电路方面，以Chiplet为代表的系统摩尔定律还不够，人们需要能够Scaling-up的Foundry。

能源方面，太阳能和风能 + 能源存储能够解决很多问题，更加激动人心的是以Helion为代表的核聚变技术，则有机会把能源价格降低一个量级，然后更多。

数据方面，目前的GPT模型依赖互联网文本数据，这会用尽，没关系，现实世界的数据是无限的，我们需要找到一种有效利用现实世界数据的方案。这其实一直在OpenAI的蓝图中。

OpenAI的诞生和发展，是硅谷顶级资本、顶级科学家和硅谷价值观的盛宴。我们将在下篇详细探讨。

回到我们自己。有流畅分享的环境，才有高质量的社区和语料；有自由探索的环境，才有兼具情怀和勇气的人。钱，至少对顶尖企业家、机构、科学家，不关键。

ChatGPT已经有成为移动互联网之后新的平台革命的潜力。一个重要的问题是，How can we win next time?

在技术往AGI奇点逼近的过程中，如果世界要分裂，时间会是我们的朋友吗？

连载话题预告

今天先写到这儿。本文调研和思考主要部分完成于11月20日前后，通过近期关注中外对GPT的反应，逐渐沉淀成文。

计划中：

- 起底 OpenAI

- AI Alignment

- AI与资本主义

- AI与教育

- AGI时代的人

By 红博士, 2023年2月8日 23:30

第一次发有48000阅读，82组留言讨论，286点赞，249在看，增长最快的时候突然不可见。2月10日修改合规后重新发布。

第二次发有57000阅读，93组留言讨论，497点赞，327在看，缓慢增长的时候突然只有运营者可见。2月12日修改后重新发布。

预告：第二篇章预计24小时内发布。

【声明】以上内容只代表原作者个人观点，不代表artda.cn艺术档案网的立场和价值判断。

上一篇: 互联网的未来：Web.. 下一篇: 奇点大学创始人戴曼迪..

网友评论

共 0 评 >> 我要留言

中国如何缺席ChatGPT盛宴

网友评论

艺术背景热门推荐

本类最新文章

中国如何缺席ChatGPT盛宴

网友评论

艺术背景 热门推荐

本类最新文章

艺术背景热门推荐