AI时代,大语言模型下的机会与不适

1 评论 5777 浏览 20 收藏 51 分钟

近几个月,人们一次次在被AI技术实际应用刷屏的同时开始产生专业领域的工作者即将被取代的恐惧。如何沉着面对AI时代下的机会与不适?希望作者在本文的阐释能够带给你一些启发。

2013年,iPhone搭载多点触摸屏幕技术开创了一个全新的智能手机界面交互模式,由此孕育了移动互联网。

而2022年年底的ai绘画到近几个月,ChatGPT生成的文章,Copilot 生成的代码,Midjourney、Stable Diffusion和DALL-E 仅靠一些关键词就能快速生成图片,人们一次次在被ai技术实际应用刷屏的同时开始担心在不久的未来人类的绝大部分工作是否要被人工智能替代。

同一时间,各个行业巨头也纷纷下场,前有Google图像生成模型Imagen,Meta的文本转视频模型的Make-A-Video,微软则另辟蹊径,将 DALL-E 2 内置在新服务 Microsoft Designer 中,满足普通用户的邀请函、明信片等日常设计需求。

人们在面临科技带来的便利的同时伴随着专业领域的工作者即将被取代的恐惧。

这次我们来聊聊AI时代下的机会与不适。

ChatGPT、Mid-Journey、Stable Diffusion 等 AI 超级应用的出现,标志着加速计算和AI技术的成熟已迈入成熟,看着一连串陌生的单词,做完互联网打工人的我们,虽然不太明白到底意味着什么,但也真切感受到我们的生活或将发生如电影《I, Robot》的变化和恐惧。

AI正以一个前所未有的速度滲入各行各业,推动一场一场新的科技革命。

经过近几年AI技术的不断发展,强大算力和先进的大语言模型为AI提供了合适的应用平台,促使各个头部厂商重新构建自己的产品和商业模型,市面上常见到的AI工具如图:

另一方面人性中对于安全、稳定的追求,致使更多人对AI工具及产生的内容持观望态度或抗拒新的改变。

,随着各个头部公司投入的资源,如英伟达、微软、Google、Adobe以及国内互联网等厂商在相差无几的时间里相继退出各自的AI服务,在当今内卷到不行的时代【如果不想被人颠覆,就要先颠覆别人】或许我们应该先放下怀疑、抗拒,了解这次的新技术。

01 AI的技术发展史

人们都在说是今年是一个AIGC(AI generated content)爆发的时代,讨论度最高的几款工具ChatGPT、Stable Diffusion、Mid-Journey等都可以被称为AI,那么什么是AI?

AI是指利用人工智能技术生产内容,也就是说我们在互联网上浏览到的信息内容制作者从人【UGC(User-generated Content)用户原创内容,以提倡个性化为主要特点】或机构【PGC(Professional Generated Content)专业生产内容,内容设置及产品编辑均非常专业】变成了通过各种类型的人工智能工具制造出来。

1. 从深度模型概念GAN到Transformer深度学习模型架构

AI的概念于2014年由人工智能专家Ian Goodfellow在一次酒后想到的,可以基于CNN(深度卷积神经网络,通过问题开始学习一个陌生事物,提取特征)深度模型概念GAN【Generative(生成) Adverserial(对抗) Nets(网络)】,通过GAN将两个神经网络进行对抗,即生成器与判别器

生成器通过输入生成图像即用于生成“造假数据”,判别器用于判断数据的真伪,在训练过程中,两者交替进行,使得生成器生成的图像越来越逼真,而判别器的判别能力也越来越强,如果想了解更多关于GAN算法模型可以点击查看更详细的解释,涉及到模型算法等专业性内容这里不做过多说明。

GAN算法做为当时AI技术革命的基础,后来被广泛运用到图像生成(Ai换脸)、高清重建、黑白电影上色、视频生成、语音合成、图像风格转换等等领域,被称为21世纪最强大的算法模型之一,Ian Goodfellow也成为了AI领域最知名的专家之一。

2015年开始,GAN开始被投入实际运用中,相关的论文也爆发式增长,也成为AI生成图像、处理图像任务里最常见的算法模型。

同一年,一家被“钢铁侠”埃隆·马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔等一众硅谷大佬投资的公司 OpenAI 成立

当时 OpenAI 的初衷是预防人工智能带来的灾难性影响推动人工智能发挥积极作用

2016年,OpenAI推出了自己的AI训练架构 Universe,通过网络利用全世界的游戏、网页和其他应用,来测量和训练AI的普通智力,使得AI 智能体可以通过虚拟键盘和鼠标像人类一样使用电脑进行任何维度的自我学习解决任何问题

当时的AI 技术虽然在特定领域很强大,但一旦超过这个特定领域就无法工作,即AI 技术逃脱不了“窄AI”的范畴,比如AlphaGo可以在围棋轻松赢过任何人,却没有办法玩其他棋类游戏。

直到2018年,Transformer(深度学习模型)架构的发展改变了NLP(自然语言处理)技术的发展。

在NLP领域中主要存在三种特征处理器——CNN、RNN以及Transformer,Transformer抛弃了传统CNN和RNN神经网络,整个网络结构完全由Attention机制以及前馈神经网络组成,使得Transformer不同于CNN的单向处理数据,可以并行处理所有输入数据更快、更高效。

另一方面Transformer的自我注意机制,通过捕获句子中单词或标记之间的关系,提高语言翻译和情感分析任务中的表现,更好的处理自然语言任务中的长文本或语音序列。一定程度上解决了传统RNN等序列模型中长序列计算效率低下、梯度消失等问题。

此时的OpenAI也推出在NLP(自然语言处理)领域打造的模型GPT系列,第一款产品GPT-1也在2018年正式推出。

GPT-1不同于其他AI模型之处,在于他的“半监督”,在此之前的NLP模型中,AI需要基于特定任务对大规模数据进行学习,而这些数据需要人为“监督”,进行数据标注

GPT-1则可以在一开始先进行无监督的学习预训练,通过对数据的学习增强语言能力,最后进行部分监督的微调。简单来说,就是GPT-1可以用更少的资源和数据进行更有效率的学习,但当时的GPT-1一方面由于训练数据的有限,一方面性能并不算好,并没有到达对话的能力。

2020年OpenAI推出了GPT-3,相较于前两代,GPT-3的参数超过1750亿个(GPT-2约为15亿个参数)相当于人脑神经连接的十分之一。另一方面GPT-3使用人类反馈优化语言模型RLHF(Reformer Language model with Hybrid Flow)通过监督学习强化学习的组合方式对ChatGPT进行微调,将强化学习和人类反馈结合到NLP中,以最小化无益、失真或偏见的输出。

当语言模型经过RLHF预训练后,可以对一段对话生成不同的响应,同时让人对结果进行排名。RLHF的关键3个步骤如下:

  1. 预训练一个语言模型(LM)+有标签数据微调
  2. 收集数据,训练奖励模型
  3. 用强化学习针对奖励模型优化策略

预训练语言模型的使用提升的GPT-3性能,使其能够识别更深层次的文本含义,通过不断地监督学习、人工纠错、强化学习进行对话模拟,自然而然的与人类进行对话并进行反馈,最终形成越来约接近人类语言的模型

另一方面图像生成领域,虽然GAN已经可以生产较高质量的图片及内容,但效率较低,另一方面生成的图像也始终难以令人满意。而Transformer架构的出现,使得图像合成领域告别了GAN时代,迎来了NLP(Natural Language Processing,自然语言处理)计算机视觉技术相结合,产出更贴合用户需求的图片。

上面关于AI的进化过程中,除了GAN语言Transformer架构,还有关于语言模型的训练,那么什么是NLP(natural language process,自然语言处理)?为何在年初突然各大公司纷纷开始搭建自己的大语言模型?

2. 从自然语言模型(NLP)到大语言模型(LLM)

在系列电影《猩球崛起》中,由于病毒大范围的扩散,猩猩会因病毒变得聪明,而受感染的人类则会失去语言能力且智商大幅降低,直至称为猩猩的奴隶。

其中的反派上校说到“病毒不会杀死我们,但会夺走那些之所以使我们称为人类的东西,我们的语言我们的思想,它会把我们变成野兽。”可见语言对于人类文明存在的重要。

语言作为人类特有的用来表达情感交流思想工具,是一种特殊的社会现象,由语音、词汇和语法构成。语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,而文字是记录语言的书写符号系统

在人类长期的进化过程中,采用一套共同的符号表达方式以及处理规则进行沟通,交流观念、意见、思想。其中符号以视觉、声音、触觉的方式进行信息传递,现代人类拥有现在的高度文明,并不是当代人类的独立创作,离不开前人对于自己发明成果的记录与留存,使得我们可以在前人的基础上进行迭代与新的创造。

当然人类也并非天生具备语言能力,需要后天经过学习才能获得。

语言模型(language model,LM)是根据客观事实而进行的语言抽象数学建模,通过计算句子(单词序列)的概率或序列中下一个单词的概率的模型。自然语音模型(natural language process,NLP)则是从人类的角度,人与人人与计算机交际的语言问题,语句是否正常合理。

当一句话种的单词总是顺序出现,每个单词通过前面所有单词计算出概率,把所有这些单词的概率相乘,总概率数值越大,说明越像人类语言,语言模型协助解决了AI出现的语句是否合理。而语言模型也经历从专家语法规则性模型统计语言模型,进而到神经网络语言模型阶段。

专家语法规则性模型-(至80年代)

在计算机编程语言的初期,通过归纳针对自然语言的语法规则方式建立模型,多应用在提升语音识别和机器以及机器翻译的性能。

整个过程中需要人先从数据中获取知识,归纳出规则,写出来交给机器,然后机器来执行这套规则,从而完成特定的任务。

但由于自然语言本身的多样性及口语化,随着时间性发展不同语法或流行语的迭代,以及空间性不同国家地区语言语法的本地话,同时人本身强大的纠错能力,导致语法规则急剧膨胀,没办法持续迭代使用。

传统的自然语言处理系统主要依靠人工基于上述组成元素来编写出各种规则,从实践结果来看,这种方式耗时耗力,而且效果并不理想。

在图像识别领域也同样存在。例如,在图像识别领域的早期,如果要识别一只猫,那么首先就要提取和制定出猫的各种特征规则。

由于猫的形态多种多样,而且当出现遮拦、扭曲等情况时,人工提取特征将会变得更困难。

统计语言模型-(至00年代)

计算句子(单词序列)的概率或序列中下一个单词概率的模型,通过给定的上文来预测句子的小一个词,如果预测的词和下一个词一致,那么上文+该词出现的概率比上文+其他词的概率更大,则系统判断上文+该词则更为合理,即概率高的语句比概率低的语句更像人类语言。

与上阶段统不同的是,统计语言模型由之前的需要通过人转述知识变成了机器自动从数据中学习知识,再加上大量的语料数据。

神经网络语言模型-(至今)

在统计语言模型的基础上,通过网络的叠加和特征的逐层提取,可以表征除了词法外,相似性、语法、语义等多方面的表示。

相较于传统网络,神经网络模型可以处理单词之间的长期依赖关系,捕捉到单词的上下文及句子中其他单词的关系,同时随着时间的推移神经网络语言模型可以使用更多数据自主进行学习迭代,而传统语言模型则需要手动更新以提高其准确性。

ChatGPT现阶段的自然语言模型正是“神经网络语言模型”阶段。

2023年很多公司基于深度学习架构,通过大量的文本数据训练,从而拥有包含了数十亿参数规模庞大的大语言模型LLM(Large Language Model),用来处理多种自然语言任务,目的在于让机器能听懂人的命令、遵循人的价值观,意味着AI的使用并不局限于专用领域,而是通用任务,即通过自然语言链接人与机器,满足机器能够独立、准确理解完成相应指令同时完成自主学习,比如文本总结分类、问答、对话等等。而人的角色也会从教导者逐渐转向监督者,甚至从人机协作、机器向人学习,发展为人向机器学习,甚至由机器拓展人类。

目前常见的大语言模型有:

GPT-3(OpenAI):Generative Pre-trained Transformer 3(GPT-3)最著名的LLM(Large Language Model)之一,拥有1750亿个参数使用单向语言模型预训练。该模型在文本生成、翻译和其他任务中表现出显著的性能,在全球范围内引起了热烈的反响。

BERT(谷歌):Bidirectional Encoder Representations from Transformers(BERT),该模型基于谷歌的大语言模型LaMDA驱动,使用双向方法从一个词到左右两边捕捉上下文,使得各种任务的性能提高,适合于理解类、做理解类、某个产经的具体任务,如情感分析和命名实体识别。

T5(谷歌):文本到文本转换器(T5)是一个LLM,该模型将所有的NLP任务限定为文本到文本问题,简化了模型适应不同任务的过程。T5在总结、翻译和问题回答等任务中表现出强大的性能。国内许多大型语言模型都采用T5模式。

ERNIE 3.0 文心大模型(百度):百度推出的大语言模型ERNIE 3.0首次在百亿级和千亿级预训练模型中引入大规模知识图谱,提出了海量无监督文本与大规模知识图谱的平行预训练方法,底层逻辑是通过百度智能云提供服务,吸引企业和机构客户使用API和基础设施,共同搭建AI模型、开发应用,实现产业AI普惠。

而现在的大型语言模型也多应用于提升AI的自动回复能力意图识别能力优化人机交互的体验以及其他更多的实际使用场景。

3. AI 绘画-文本生成图像

在美国科罗拉多州博览会的艺术比赛中,参赛者 Jason Allen 使用AI绘画工具MidJourney生成的作品《空间歌剧院(Théâtre D’opéra Spatial)》获得了数字艺术奖项的第一名。在当时引起极大的争议,甚至有人提出“艺术消亡”的言论,但随后两名评审表示即使提前得知此事,也依旧会把首奖颁给Allen。

在实际创作过程中这张画也不是一次性完成的,整个绘制过程中经过了上千次修改、完善,花费了将近80个小时才完成。

而差不多时间段Stable Diffusion、Disco diffusion等多个高精度、高效率的AI绘画平台开始在全世界范围内引起关注。

很多人理解的AI绘画应该一键生成完全符合用户心中所想的图像,而在实际操作过程中需要通过不断输入关键信息生成图像,其操作逻辑跟画家进行创作有很大的区别。

实际上AI绘画与ChatGPT等大型语言模型相似,都需要操作人对于想要的图像先进行抽象化文字理解,比如画面的构图、曝光、置景、角度等都需要先通过哪些精准化、具像化的语言表达出抽象的画面,整个创作过程也需要多次的人为干预优化,进行多次输入调整,而系统则根据对于语义理解能力充分的数据标注细节处理用户的Prompt提示词相互作用,才能得到符合操作人的想要的画面。

我们在各大社交媒体会看到各种各样的不同风格对应的Prompt提示词整理,因此如果你使用MidJourney生产的画面差强人意不妨先找找对应风格的描述词(比如主题、媒介、背景、灯光、颜色、气氛、视角、构图、艺术风格等等)。

因此AI图像的生成不是简单的结果,更多是将操作人进行表达的过程。而由于自然语言中的语义表达比词组空间更大,AI对于语义的理解和人类本身不可避免的会出现偏差,因此AI绘画的本质是协作与表达,因此在使用Midjourney过程中描述词越详细,生成的图片相对也就越精准

当你需要修改AI生成图像的某一细节时,就需要重新修改Prompt,而我们无法知道AI是否将你输入的Prompt拆解成对应图片上的修改,也就无法保证此次输入修改是否有效,因此在Midjourney生成图片后还是需要经过ps、ai等工具进行二次加工,或许才能得到我们想要最终效果。

AI绘画并非在近两年才开始投入研究,也并非一开始就采取文本生成图像的方式,在算力和模型不断的技术迭代下,促使各个公司及相关人员不断尝试构想实现产品落地及商业模式,因此Chat GPT、Midjourney等AI工具的出圈及更新迭代的速度并非一蹴而就:

  1. 2012年,吴恩达和Jef Dean使用1.6万个CPU以及来自YouTube的1000万个猫脸图片来训练当时最大的深度学习网络,耗时3天,用来指导计算机画出猫脸,最终得到模型,以及一张非常模糊的猫脸。正式开启深度学习模型支持AI绘画这个“全新”的研究方向。
  2. 2015年,Google开源项目deep dream,根据AI指令,完成迷幻超现实图画。同一年,智能图像识别,通过算法识别并标记图像中的对象,而同时一群研究员开始尝试思考反向操作用文本生成图像
  3. 2016年,模型Diffusion Models提出使用随机扩散过程生成图像。
  4. 2021年1月,OpenAI 公布了DALL-E,底层技术为Diffusion Models,奠定了扩散模型在这一波技术发展中的重要性。
  5. 2022年2月,由somnai等开源社区工程师开始训练自己的AI生成器-Disco  D infusion,此后相当多的基于此的产品出现。
  6. 2022年3月,由Disco diffusion的核心开发参与建设的AI生成器Midjouney正式发布。
  7. 2022年4月,OpenAI旗下人工智能在线绘图应用DALL·E 2公测。
  8. 2022年7月,stability.ai 开源了stable-diffusion,这是目前可用性最高的开源模型,很多商业产品都基于此,如 NovelAI。10月18日,Stability.ai 宣布完成1.01 美金的种子轮融资,估值达10亿美金。

我们可以看到市面上有各种各样的AI绘图工具,Midjouney、Stable Diffusion、Disco Diffusion等等。相较于其他同类型的AI 绘画工具,Midjourney通过社群的形式,注册Discord账号之后即可进入到Midjourney频道,加入公测服务器开始使用了。

使用方式也很简单,用户只需要输入命令提示符,1min左右就可以得到对应的高品质图片。

Midjouney借助Discord社区持续迭代,大量免费试用新用户涌入,有时甚至会导致付费用户的服务器瘫痪。低用户门槛,简单上手的使用方式,以及快速得到反馈使得即使Midjourney即使叫停了免费试用,需要用户花费每月30美元的费用,也依旧抵挡不了大量用户对于Midjourney AI绘画的着迷。

而Midjouney公司也靠着订阅服务在没有融资的情况下,实现年营收1亿美元。

在Stable Diffusion发布前,AI绘画最好的开源工具是Disco Diffusion,但Disco Diffusion存在生成速度慢、成本高昂、生成图片逻辑差导致的画面结构混乱等等问题,而且无法生成人和物体。Stable Diffusion解决了Disco Diffusion存在的这些问题,另一方面Stable Diffusion作为免费的开源工具,用户可以进行本地配制,能够保证信息安全,配制出合适的数据库后,AI定向学习画画风格,完成定向风格图片的批量生产。

虽然Stable Diffusion相对Midjourney都有着高可控性,但要驾驭Stable Diffusion,需要在服务器或本地端布置一个强大的计算环境供其运行。

也就是说,即使你有强大的想象里,没有强大的自然语言学习、处理能力,以及AI算力作为支持,依然无法使用Stable Diffusion。

因此如果是完全新手可以先尝试Midjourney体验AI绘图工具,但如果有很大的工作商业需求,则可以选择Stable Diffusion部署定制自己的AI绘画数据库。

02 关于AI的不同声音

在AI讨论如火如荼的当下,很多人已经体验过AI生成文字或AI绘画,对于AI的使用感受、担心、发展各个行业开始出现不同的声音。

1. 学术论文剧本创作

一开始ChatGPT被人们关注到除了ChatGPT无障碍的对话模式外,很多学生开始使用ChatGPT完成论文,甚至得到A+的高分。老师们不得不仔细辨别,学生的作业是否使用ChatGPT完成。

在纽约和西雅图的公立学校系统,学校的wifi网络和设备上已经全面禁止ChatGPT。港大也明令禁止使用chatGPT或其他AI工具上课、做作业或考试。

如果必须使用,需事先获得相关课程导师书面许可,违反上述临时措施的行为被视为【潜在抄袭】行为;如果教师怀疑学生使用hatGPT,可要求学生讨论相关论文或作品,设额外的补充口试、新增课堂考试等。

学生使用ChatGPT完成作业、论文等,可以轻松的解决一些需要查询,思考的问题。

但在学校方面则认为这项技术对于没有使用ChatGPT的同学来说是首先是不公平的,另一方面使用人工智能帮助完成作业及论文这种行为在当时没有明确的规定是否属于抄袭行为

而对于学生来说,过度依赖人工智能完成课程,在整个学习过程中无法发展出自己的逻辑推理、批判性思维和语言技巧,同时也会失去独立自主的学习过程以及对知识的验证过程

而28所英国大学已经明确规定禁止在论文和课程作业中使用Chatgpt,否则将被视为学术不端行为。现在很多学校已经在尝试加入AI 相关的课程或更换其他考核方式,比如课堂作业、手写论文、小组作业和口试等。

ChatGPT除了可以用来完成课业论文,也可以用来写小说、诗歌或进行编剧。

当地时间5月2日,美国编剧协会(WGA)和好莱坞等影视巨头谈判宣告破裂。11500名协会成员举着统一制作的标语牌,涌上纽约和洛杉矶的街头,进行罢工游行。而他们抗议的并不是AI,而是那些幕后使用、训练AI的电影公司。

由于AI的生成并不是基于自主创作,而是在于喂给机器相关文笔、故事梗概、画面风格的基础上进行的【模仿创作】,所有的创作都是建立在现有的数据基础上,而对于很多创作者来说相当于用自己的作品,断送了自己的生计。这就牵扯到版权问题,之后会有专门的说明讨论。

2. 自动化编程导致程序员将被取代

CSDN 曾提出自动化编程的 5 个等级:

  1. 第一个等级(C1):基于当前行代码自动补全。
  2. 第二个等级(C2):编写代码时 AI 可以预测下一行代码。
  3. 第三个等级(C3):基于自然语言生成代码;基于自然语言完成编程语言翻译功能。
  4. 第四个等级(C4):高度自动编程。可以基于自然语言生成项目及注释,基于自然语言生成模块及注释,基于自然语言生成函数及注释,函数、模块、项目粒度自动化测试生成;主流编程语言正确互译;基于当前行代码生成下一行代码;代码调试 (bug 定位及正确修正建议);基于当前行代码自动补全;代码检查(自然语言提示问题)。
  5. 第五个等级(C5):完全自动编程。可以基于自然语言生成系统及注释;基于自然语言生成项目及注释;基于自然语言生成模块及注释;基于自然语言生成函数及注释;函数、模块、项目、系统粒度自动化测试生成;全编程语言最佳互译;基于当前行代码生成下一行代码;代码调试 (bug 定位以及自动修正);基于当前行代码自动补全;代码检查(自然语言精准提示问题);代码自动最佳纠错。

目前对于程序员来说,ChatGPT更像是最强辅助,使用ChatGPT可以在几秒内解决编码的代码补全、编译错误、语法错误等问题,并在不同语言和框架下,提供有关如何使用特定语言、API和框架的信息等等(也就是C1-C3的部分工作)。

但ChatGPT只能用于快速、准确地调用事实答案,帮助提升程序员的生产力,没有办法适用于需要【逻辑推理】等高精度需求的任务领域。也就是在最终仍然需要人类确认和测试代码的正确与否并进行修改。

而初级程序员将被取代的情况早在十几年前就已经出现了,很多企业很早就已经开始用低代码开发的方式节省时间,而GPT的出现让这种趋势更加明显,创造性较低的开发活动很容易被取代。但对于没有系统学习过编程的小白用户来说,编程的门槛也相对容易了很多。

其他类似金融、律师、教育等职业也是类似情况,AI降低了我们与某些专业性职业的门槛距离,他可以准确、快速的找到专业性信息,将信息数据结构化,替代基础的信息收集及普及工作,但还是需要更高专业的相关人员进行信息补充与校正,以提供真实的、不同场景下的解决方案。

3. 设计行业

由于Midjourney、Stable Diffusion等AI 绘画工具的爆火,使得设计、原画、插画等设计师感到岌岌可危,在AI 绘画工具的加持下,仿佛人人都可以进行高质量的创作。

一部分画手对于AI绘画采取抵制、排斥的态度,而有些则开始尝试将AI绘画作为生产力,试图从另一个方向突破。

各大公司则态度明显很多,都在再尝试使用Midjourney、Stable Diffusion等AI 绘画工具实现降本增效,降低低端重复工作内容的投入比例。

但在实际的执行过程中还是会有各种各样的问题,由于AI无法理解画面元素与元素之间的关系,画面的视觉统一性无法保证、生成的内容不可控、无法进行特定部分的修改等等,比如衣服上的褶皱、logo、特定花纹、纹路等等,需要有专门的人进行修改,使得AI 绘画好像并不像传说中的那么容易应用于商业领域。

这是由于AI 绘画的底层逻辑其实是自然语言模型,AI对于语义的理解和人类本身不可避免的会出现偏差。

技术的进步,伴随了旧工作形式的消失,同时也伴随了工作内容的出现,上面我们大概了解到部分AI对部分职业的影响。而AI和人类也对现在的工作进行了评估,并引用“暴露值”(Exposure)这一新的标准来来评估哪些工作形式将被AI将取代。

接下来我们来聊一聊,AI 影响下对已有职业的影响及新职业的产生。

03 AI带新的工作方向

蒸汽机刚诞生时,部分纺织工人对机器给人类带来人类失业的灾难感到愤怒,并砸毁了机器。

在一开始人们确实会因为新技术的诞生导致大量传统工作消失,但新的进步终究会创造出更好的工作岗位,实现新的经济增长和创造力。

当时的工业革命创造了大量的高度自动化的机器,替代体力劳动,使得人类开始从事大量脑力劳动工作,而AI的出现也导致很多工作职业受到影响。

1. AIOE暴露值评估工作是否会被AI工具影响

3月20日,在人类评估和GPT-4共同调研评估的结果中显示,口译员和笔译员、调查研究人员、数学家、新闻分析师、记者和新闻工作者等职业受GPT技术影响最大,其次是作家、税务人员、书信员、区块链工程师、法律秘书和行政助理等行业。

调研过程中使用AIOE(AI Occupational Exposure),引入了“暴露值”(Exposure)这一新的标准来衡量确定工作和行业对AI进步的“暴露”,其定义为使用GPT模型及其相关技术是否会将人类执行特定任务所需的时间减少50%

  1. E0:没有暴露。
  2. E1:直接暴露,仅使用大型语音模型(比如GPT-4 聊天界面),可以将时间至少减少50%。
  3. E2:间接暴露,单独使用大型语音模型无法达到效果,但在它的基础上开发额外软件(比如图形生成),可以将时间减少50%。

E0等级,主要包括体力劳动,比如:

最终,人类评估员将15种职业的“暴露值”标记为100%,即使用GPT技术将使人类执行该职业中特定任务所需的时间减少50%,包括作家、数学加、保税员、金融量化分析师、网页与数字界面设计师等。

GPT-4则将86种职业的“暴露值”标记为100%,包括数学家、会计与审计、新闻从业者、临床数据助理、法律秘书和行政助理、气候变化政策分析师等,是人类评估结果的近6倍。

总体来说,如果工作对科学方法判断性思维依赖性较强,那么就不会过多接触GPT技术,而如果涉及编程和写作技能,就会更容易接触GPT技术或受影响。

而从行业层面来看,受GPT技术影响最大的五大行业依次为证券商品合同和其他金融投资行业、保险行业、数据处理托管行业、信息服务行业、出版业。

而受影响最小的五大行业则是以体力劳动著称的行业,比如农业和林业、木制品制造业、伐木业、食品制造业、采矿业(不包括石油和天然气)。也就是说收入越高的“白领”越可能收到影响,原因在于,这部分人群更可能接触和需要使用ChatGPT和相关工具。

2. AI带来的新机会

之前人们的猜想是,随着科技的进步大量体力劳动工作将被取代,之后是认知劳动,而随着AI的到来促使我们提前进入了新的时代,而最不受影响反而是体力劳动。

另一方面,AI也催生了新的职业,由于AI的缺点,比如编造事实、无法进行逻辑推理等等,在真实的工作场景中,AI只有有可能出错,就无法放任其独立完成工作。

因此AI 的火爆同样也带来了新的热门高薪职业,如提示词工程师、AI训练师等职位,也成为了近段时间招聘的热门:

  • 提示工程师——负责开发和优化人工智能提示算法的工程师,训练大模型。需要具备对人工智能、自然语言处理、机器学习等技术的深刻理解,以及对人类语言表达的熟练掌握。日常工作为各种应用和平台设计,优化提示词,以提高用户的使用体验和效率。
  • 人工智能训练师——为机器学习模型设计和实施训练计划,即让机器人懂用户在说什么。使用一系列的方法来改善机器学习模型的性能,包括数据清洗、超参数调优、正规化等。还会负责从可用数据中提取,筛选和编写有意义的结构,以便训练机器学习模型,并解决训练中出现的问题。另一方面需要收集有关机器学习技术的最新进展,不断改进训练方法,以提高模型的准确性和可靠性。
  • AI代码整理员——将AI生成的代码进行整理、纠错,最终获得一个完整、逻辑上能跑通的代码文档。(大学生兼职)
  • AI作图家——通过AI作图工具“midjourney”,根据需求提炼关键词,通过提示词或关键词,让工具生成一副画。拆分关键词是这个工作的核心,关键词越精细,做出的画越符合想要的。同时需要对生成的图片进行细节修改。
  • AI叙事员——利用基于ChatGPT的AI工具去写网文、故事。需要先想象一个故事背景,然后将这个故事进行细枝末节的拆分,必须要拆分的足够详细,这样可以让AI反馈出的文字更加详尽和真实。

随着AI的爆火,作为一个全新的工具,AI的影响已经自然而然的开始蔓延到各个阶层和角落,而另一方面我们也需要看到AI的风险与局限。

04 AI的局限与潜在风险

1. AI的局限

无论是文生文还是文生图,AI 以自然语言模型以及大量数据算力为基础,本身还是在理解、信息数据方面存在问题。ChatGPT可以快速、准确、持续的进行信息的收集、整理、反馈,但同时也会犯些明显的错误,包括编造信息,因此在真实工作环境中必须要有相关人员监督其工作,无法独立完成工作。

而在AI绘画方面,生成图片的随机性、无法进行细节调整、对输入Prompt输入信息用户的认知依赖、指向性差(无法生成数字或精确到像素)等,都需要在生成的图片上进行二次加工或作为创意概念灵感使用,无法直接作为商用结果进行上线使用。

2. AI的潜在风险

在3月底,包括2018年图灵奖得主 Yoshua Bengio、马斯克、史蒂夫·沃兹尼亚克、Skype 联合创始人、Pinterest 联合创始人、Stability AI CEO等多位知名人士签名支持,呼吁所有AI实验室立即暂停至少6个月的时间,不要训练比GPT-4更强大的AI系统。

而在这个暂停期间需要AI 实验室和独立专家共同制定和实施一套共享的先进AI设计开发安全协议,这些协议应该由独立的外部专家严格审核和监督。

在AI 进步如此神速的当下,相关的监督、审计手段却依然迟迟没有跟上,也就是说没人能保证AI工具及使用AI工具的过程中的安全性。呼吁信中提出疑问:

  • 我们应该让机器充斥我们的信息渠道,传播宣传和谎言吗?
  • 我们应该将所有工作都自动化,包括那些令人满足的工作吗?
  • 我们应该发展可能最终超过、取代我们的非人类思维吗?
  • 我们应该冒失控文明的风险吗?

需要注意的是这封倡导信并不是说暂停AI的发展,而是希望将研究开发重点放在提高现有强大、先进系统的准确性、安全性、可解释性、透明度、稳定、一致、可信度和忠诚度。并在信中提出需要AI开发人员与政府合作,至少需要:

  • 专门负责AI有能力的新机构;
  • 监督和跟踪高性能人工智能系统和大型计算能力池
  • 用来帮助区分真实与合成的出处及水印系统,并跟踪模型泄漏;
  • 强大的审计和认证生态系统;
  • 人工智能造成的伤害责任;
  • 为技术人工智能安全研究提供强大的公共资金;
  • 资源充足的机构来应对人工智能将造成的巨大经济和政治破坏(尤其是对民主的破坏)。

附上原信件链接,希望了解更多的同学可以自己查看,《Pause Giant AI Experiments: An Open Letter》。

而另一方面AIGC模型的完成和完善依赖于大量的数据训练,而用于训练的数据中往往包含受版权保护的内容(比如图片版权商图库里的图片、知名艺术家的作品等等),另一方面艺术家是否有被AI模仿的意愿。

因此对AI生成物用于商用的版权问题一直存在诸多争议。而通过AI生产的图片版权到底是归用户、平台或是需要版权注册后才拥有或者以CC0(知识共享许可协议)协议发布,不同的平台或用户都有自己的一套想法。

直到2023年3月16日,美国版权局(USCO)发布的美国法规第202部分,才有说明AI自动生成的作品,不受版权法保护

USCO表示,作者通过Photoshop进行的创作图片作品是受保护的,从最初的构思到完成创作,在整个过程中有人工参与进行创作。而AI工具自动生成的作品,整个过程由机器人自动完成,并且训练的数据需要基于人类创作的作品,因此不受版权法保护。

而国内目前还没有明确的法律关于AI生成物的版权问题。

也就是说无论是通过何种AI工具生成的剧本、小说、画作、音乐等等创作,任何人都无法拥有版权,任何人都可以进行使用。

05 尾声

还没有试过任何AI工具,可以先接触下ChatGPT、Midjourney或其他AI工具,但目前ChatGPT需要进入OpenAI官网,根据提示进入ChatGPT页面。

目前暂不支持国内手机号,需要第三方平台辅助接码,如果想快速体验可以尝试Notion或Writesonic等门槛低的其他平台。Midjourney同样的情况目前有大量的教程怎样注册使用及关键词讲解,这里也不做过多说明。

历史上的数轮创新浪潮从来没有淘汰人类,也并未导致大规模失业,反而使劳动需求空前增加。

比如,机器虽然部分替代了人工耕种,却也围绕农业机械催生并联通了制作、维修等上下游行业,每个行业都包含大量的工作岗位。电脑普及后,数字经济、平台经济在今天依然在扩展着我们的生活和工作的边界。

对于AI的探索从来不是突然的爆发,技术跟新带来更多的可能,或许更多时候我们需要保持对技术的乐观及敏感,在不断的局势变化中找到自己的方向。

资源来源:

  • 《penAI CEO最新访谈,3万字全文详述技术、竞争、恐惧和人类与AI的未来》
  • 《LLMs 大语言模型是对实体世界的抽象》
  • 《什么是LLM大语言模型?Large Language Model,从量变到质变》
  • 《transformer通俗理解》
  • 《什么是GAN(生成对抗网络)?》
  • 《别让 GPT-4 再进化!马斯克带头签署千人联名信,紧急呼吁 AI 实验室立即暂停研究 》
  • 《当 AI 冲击自动化编程,谁将成为受益者?》
  • 《“你的AI侵犯了我的版权”:浅谈AIGC背后的版权保护问题》

作者:查无此人;公众号:9号自习室;知乎专栏:9号自习室。

本文由 @9号自习室 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 该文章从展示AI技术的进步,讨论了人们在面对这种进步时的机会和担忧。通过提供一些例子和细节,也展示了AI技术对我们生活的潜在影响和应用领域。然而,文章没有深入探讨技术对社会的影响,如失业率增加等问题。

    来自江苏 回复