00:00

{"text":[[{"start":null,"text":"<div class=\"n-content-layout card-container\" data-layout-name=\"card\" data-layout-width=\"fullWidth\"><div class=\"n-content-layout__container\"><h3></h3><div class=\"n-content-layout__slot\" data-slot-width=\"true\"><p class=\"is-mixed\" id=\"id-0\">本文为我们《AI变革》(The AI Shift)新闻通讯的网络版文章。高级订阅用户可在此注册，每周四通过邮件收到该通讯。标准订阅用户可在此升级为高级订阅，或浏览《金融时报》的全部新闻通讯。</p></div></div></div>"}],[{"start":8.96,"text":"欢迎回到《AI变革》，在这里我们每周深入探讨AI与就业背后的故事。我们此前已经写过一些内容——带着略微怀疑的视角——讨论经济学家是如何得出那些引人注目的估算，判断哪些岗位“暴露”在AI带来的冲击之下。今天我们要更进一步：究竟是谁（或者更准确地说，是“什么”）在决定AI是否有能力完成某一项具体任务？而这些评估本身又有多一致？"}],[{"start":37.44,"text":"<h1>约翰写道</h1>"}],[{"start":38.669999999999995,"text":"在过去一两年里，已有数十项登上头条的研究纷纷声称，我们是否正处在白领工作大规模消失的边缘，AI是否已经开始侵蚀毕业生岗位，等等。撇开这些博眼球的标题不谈，一个小细节是：绝大多数此类研究所依据的，其实都是同一套关于各类岗位“受AI影响程度”的评分。而再往下看脚注，就会发现这些“受影响程度”评分究竟是如何算出来的。"}],[{"start":67.05,"text":"一个经常被忽略的关键细节是：在目前最常用、被引用最广的职业暴露指数中——这一指数源自OpenAI研究人员在2024年的一项研究——关于AI在多大程度上能够完成某项具体任务（撰写报告、解读图像、给员工下达指示等）的评估，实际上是由AI自己给出的。更确切地说，是由OpenAI较早期的模型之一GPT-4给出的。"}],[{"start":92.06,"text":"让大型语言模型来承担成千上万项任务暴露水平的分类工作，本身完全站得住脚。但一个重要且迄今几乎无人探讨的问题是：不同的AI模型是否会得出相同的评估结果？美国西北大学(Northwestern University)的Michelle Yin在一项新研究中发现，答案往往是一个响亮的“不会”。"}],[{"start":113.37,"text":"Michelle Yin选取了美国职业分类体系中的全部705个岗位，然后让四个不同的模型——最初的GPT-4，以及来自OpenAI、Anthropic和谷歌(Google)的更新模型——按照最初那篇OpenAI研究中完全相同的方法来评估这些岗位在多大程度上暴露于AI自动化之下。具体做法是判断各岗位的组成任务能否通过当前面向消费者的AI工具被显著加快。"}],[{"start":139.64000000000001,"text":"她发现分歧之大出乎意料：对高风险岗位占比的估算，从不到15%（由Gemini评估）到50%（由Claude评估）不等。对于具体职业，这种差距尤其明显，而受影响最大的也不出所料是白领岗位。例如，在OpenAI 2024年的研究中，由GPT-4评分时，经济学家被认为只有10%的岗位“暴露”于风险；其后继模型GPT-5则给出略高于50%的比例，而Claude的评估则高达80%。"}],[{"start":171.10000000000002,"text":"这些差异会对我们如何理解AI是否以及如何真正影响劳动力市场产生重要的后续影响。若使用原始评分来评估职业暴露程度，我们发现AI对就业的负面影响较弱；若改用Gemini的评估，结果则转为略微正向影响，暴露程度最高的岗位反而出现了就业增长。Michelle Yin强调，这些截然不同的叙事完全基于同一套数据和方法，唯一的变化只是由哪个AI模型来给出暴露评分。"}],[{"start":200.44000000000003,"text":"值得庆幸的是，这一问题有一个相对直接的解决方案：在分析理论上的AI暴露对现实世界造成的影响时，应当同时采用多个不同模型对“暴露程度”的评估结果。正如Michelle Yin指出的，不同模型之间的结果差异本身可能是有价值的信息，它表明研究发现反映的是AI模型自身的特性，而不是劳动力市场的特征。而当不同模型给出相同的结论时，我们就更有理由相信，自己看到的是一个较为扎实、具体的现象。"}],[{"start":232.29000000000002,"text":"在阅读Michelle Yin的研究时，我还意识到，这一问题的不同变体同样适用于其他一些仍在进行的劳动力市场争论，其中就包括居家办公兴起的影响。几天前发表的一篇论文指出，与其说是AI，不如说是远程办公的兴起，更能解释过去几年初级岗位招聘大幅下滑的现象。值得注意的是，作者认为，他们的分析之所以得出这一结果而其他研究没有，一个原因在于，他们对某一职业“受到远程办公冲击程度”的衡量，是基于实际招聘广告中是否提供远程或混合办公选项；而其他研究使用的则是理论上的评估方法（由人工完成，但在概念上与AI的分类方法类似）。"}],[{"start":275.49,"text":"萨拉，在我看来，整个关于AI导致工作被取代的研究领域都有点像：你看得越近，画面反而越模糊。你读完这项研究后，有什么感受？"}],[{"start":286.38,"text":"<h1>萨拉写道</h1>"}],[{"start":287.58,"text":"约翰，我就不在这里重复我为何认为这些关于AI“暴露度”的衡量本来就该持保留态度的所有理由了（如果有人错过了，可以在这里看到）。但是，Michelle Yin这项非常有意思的研究让我想到一个更广泛的问题：在其他使用大型语言模型来提出重要建议或作出关键决策的领域里，是否也能发现类似的“模型分歧效应”？"}],[{"start":311.47999999999996,"text":"欧盟《通用数据保护条例》(GDPR)规定，人们有权要求对某些对其产生深远影响的自动化决策进行“人工复核”，例如能否获批贷款，或者求职申请能否进入下一轮。"}],[{"start":323.78,"text":"但我在想，将来人们是否也会开始坚持要获得第二、第三个“AI意见”。例如，把自己的求职申请交给依赖不同底层模型的系统再运行一遍，以查看是否会得出不同的决定。"}],[{"start":338.38,"text":"情况未必像这样简单：“如果这个决策依赖于OpenAI的模型，请现在改用谷歌和Anthropic的模型再跑一遍。”首先，并不是所有“AI”系统都依赖具有不确定性的LLM。很多系统会使用为特定目的设计的专有模型组合。以HireVue为例，这家公司是最大的一批自动化招聘软件提供商之一，它使用多种不同的第三方和自有模型，把求职者的视频面试转成文本，对文本进行分析，并根据“适应能力”或“解决问题能力”等多项指标给求职者打出“胜任力”分数。"}],[{"start":374.92,"text":"不过，这的确是一个很有意思的思路。我认为，至少它强化了这样一种主张：当AI参与作出影响人们生活的决策时，应当要求企业最大限度地披露其“底层机制”究竟如何运作。"}],[{"start":389,"text":"约翰，我确实有一个问题想请教你。看起来Yin在测试的新模型，对有多少任务可以被自动化持更乐观的态度。这是不是因为这些更新的模型在更广泛的任务上确实更有能力？那么，从唱反调的角度来看，它们给出更高的暴露估计这一点，本身是不是其实也是很有价值的信息？"}],[{"start":411.56,"text":"<h1>约翰回答道……</h1>"}],[{"start":412.97,"text":"谢谢你，萨拉，你提到按特定模型请求评审的观点非常有意思。就你问到的新模型是否更看好AI能力这一点来看，确实似乎存在这种情况。总体而言，在这项研究中，GPT-5对各类任务和岗位的AI暴露程度评估，大约是原始研究中其前代模型的两倍，而在所测试的模型里，最新的Claude 4.5则是评估最为激进的一个。"}],[{"start":438.02000000000004,"text":"正如你所推测的那样，Michelle Yin认为，这在一定程度上是因为较新的模型“了解”自身能力范围的扩展，并掌握了GPT-4训练数据中尚未包含的一些新兴AI能力信息；从这个意义上说，更高的暴露得分确实可能更有用。不过，我要补充两点需要注意的地方。"}],[{"start":457.98,"text":"其中一点是，任务评估与实际测得的现实世界AI使用情况最接近的模型，恰恰是最早的GPT-4。不过，这可能是因为这些模型的评估本身就具有前瞻性；也许等我们回头再看时，2026年模型给出的评分会更贴近2028年的实际使用。"}],[{"start":477.79,"text":"更重要的一点在于：其中一些分歧似乎源于对“AI能完成哪些任务”这一问题的更广泛理解差异。Claude尤其确信，AI工具可以在各类岗位上管理和监督人类员工，并将从首席执行官到工厂一线主管等职业评为高度暴露。这样的判断本身并非荒谬，但当Gemini将同样的岗位评为极低暴露时，很可能说明它们在理解这一问题时采用了截然不同的思路。"}],[{"start":506.02000000000004,"text":"<h1>延伸阅读</h1>"}],[{"start":null,"text":"<ol><li><p class=\"is-mixed\" id=\"id-25\">伊桑•莫里克(Ethan Mollick)撰写了一篇<a href=\"https://www.oneusefulthing.org/p/choosing-to-stay-human\">颇具见地的文章</a>，讨论我们在使用AI时有必要有意识地养成健康的习惯，使其能够强化我们的长处，而不是让我们变得越来越不像人类。（约翰）</p></li><li><p class=\"is-mixed\" id=\"id-26\">我们的同事艾莉舍娃•基辛(Ellesheva Kissin)撰写了一篇非常有意思的“<a href=\"https://www.ft.com/content/d82d2a5c-74ab-4eb9-a658-fd5467e71670?syn-25a6b1a6=1\">深度阅读</a>”文章，探讨AI如何改变咨询行业。（萨拉）</p></li></ol>"}],[{"start":null,"text":"<div class=\"n-content-layout card-container\" data-layout-name=\"card\" data-layout-width=\"fullWidth\"><div class=\"n-content-layout__container\"><h3 class=\"is-text-only\" id=\"id-27\">为你推荐的新闻通讯</h3><div class=\"n-content-layout__slot\" data-slot-width=\"true\"><p class=\"is-mixed\" id=\"id-28\"><strong>《Lex新闻通讯》</strong>——Lex是本报的投资专栏，由屡获殊荣的撰稿人撰写，解析本周关键主题并提供分析。请<a href=\"https://ep.ft.com/newsletters/subscribe?newsletterIds=56657d10e4b04e04251004fd\">在此</a>注册订阅</p><p class=\"is-mixed\" id=\"id-29\"><strong>《Working It》</strong>——每周三发送至你收件箱的职场进阶指南。点击<a href=\"https://ep.ft.com/newsletters/subscribe?newsletterIds=62039b7ea31d6577a31f70df\">此处</a>订阅</p></div></div></div>"}]],"url":"https://audio.ftcn.net.cn/album/a_1780156195_3194.mp3"}

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

{"text":[[{"start":null,"text":"

本文为我们《AI变革》(The AI Shift)新闻通讯的网络版文章。高级订阅用户可在此注册，每周四通过邮件收到该通讯。标准订阅用户可在此升级为高级订阅，或浏览《金融时报》的全部新闻通讯。

"}],[{"start":8.96,"text":"欢迎回到《AI变革》，在这里我们每周深入探讨AI与就业背后的故事。我们此前已经写过一些内容——带着略微怀疑的视角——讨论经济学家是如何得出那些引人注目的估算，判断哪些岗位“暴露”在AI带来的冲击之下。今天我们要更进一步：究竟是谁（或者更准确地说，是“什么”）在决定AI是否有能力完成某一项具体任务？而这些评估本身又有多一致？"}],[{"start":37.44,"text":"

约翰写道

"}],[{"start":38.669999999999995,"text":"在过去一两年里，已有数十项登上头条的研究纷纷声称，我们是否正处在白领工作大规模消失的边缘，AI是否已经开始侵蚀毕业生岗位，等等。撇开这些博眼球的标题不谈，一个小细节是：绝大多数此类研究所依据的，其实都是同一套关于各类岗位“受AI影响程度”的评分。而再往下看脚注，就会发现这些“受影响程度”评分究竟是如何算出来的。"}],[{"start":67.05,"text":"一个经常被忽略的关键细节是：在目前最常用、被引用最广的职业暴露指数中——这一指数源自OpenAI研究人员在2024年的一项研究——关于AI在多大程度上能够完成某项具体任务（撰写报告、解读图像、给员工下达指示等）的评估，实际上是由AI自己给出的。更确切地说，是由OpenAI较早期的模型之一GPT-4给出的。"}],[{"start":92.06,"text":"让大型语言模型来承担成千上万项任务暴露水平的分类工作，本身完全站得住脚。但一个重要且迄今几乎无人探讨的问题是：不同的AI模型是否会得出相同的评估结果？美国西北大学(Northwestern University)的Michelle Yin在一项新研究中发现，答案往往是一个响亮的“不会”。"}],[{"start":113.37,"text":"Michelle Yin选取了美国职业分类体系中的全部705个岗位，然后让四个不同的模型——最初的GPT-4，以及来自OpenAI、Anthropic和谷歌(Google)的更新模型——按照最初那篇OpenAI研究中完全相同的方法来评估这些岗位在多大程度上暴露于AI自动化之下。具体做法是判断各岗位的组成任务能否通过当前面向消费者的AI工具被显著加快。"}],[{"start":139.64000000000001,"text":"她发现分歧之大出乎意料：对高风险岗位占比的估算，从不到15%（由Gemini评估）到50%（由Claude评估）不等。对于具体职业，这种差距尤其明显，而受影响最大的也不出所料是白领岗位。例如，在OpenAI 2024年的研究中，由GPT-4评分时，经济学家被认为只有10%的岗位“暴露”于风险；其后继模型GPT-5则给出略高于50%的比例，而Claude的评估则高达80%。"}],[{"start":171.10000000000002,"text":"这些差异会对我们如何理解AI是否以及如何真正影响劳动力市场产生重要的后续影响。若使用原始评分来评估职业暴露程度，我们发现AI对就业的负面影响较弱；若改用Gemini的评估，结果则转为略微正向影响，暴露程度最高的岗位反而出现了就业增长。Michelle Yin强调，这些截然不同的叙事完全基于同一套数据和方法，唯一的变化只是由哪个AI模型来给出暴露评分。"}],[{"start":200.44000000000003,"text":"值得庆幸的是，这一问题有一个相对直接的解决方案：在分析理论上的AI暴露对现实世界造成的影响时，应当同时采用多个不同模型对“暴露程度”的评估结果。正如Michelle Yin指出的，不同模型之间的结果差异本身可能是有价值的信息，它表明研究发现反映的是AI模型自身的特性，而不是劳动力市场的特征。而当不同模型给出相同的结论时，我们就更有理由相信，自己看到的是一个较为扎实、具体的现象。"}],[{"start":232.29000000000002,"text":"在阅读Michelle Yin的研究时，我还意识到，这一问题的不同变体同样适用于其他一些仍在进行的劳动力市场争论，其中就包括居家办公兴起的影响。几天前发表的一篇论文指出，与其说是AI，不如说是远程办公的兴起，更能解释过去几年初级岗位招聘大幅下滑的现象。值得注意的是，作者认为，他们的分析之所以得出这一结果而其他研究没有，一个原因在于，他们对某一职业“受到远程办公冲击程度”的衡量，是基于实际招聘广告中是否提供远程或混合办公选项；而其他研究使用的则是理论上的评估方法（由人工完成，但在概念上与AI的分类方法类似）。"}],[{"start":275.49,"text":"萨拉，在我看来，整个关于AI导致工作被取代的研究领域都有点像：你看得越近，画面反而越模糊。你读完这项研究后，有什么感受？"}],[{"start":286.38,"text":"

萨拉写道

"}],[{"start":287.58,"text":"约翰，我就不在这里重复我为何认为这些关于AI“暴露度”的衡量本来就该持保留态度的所有理由了（如果有人错过了，可以在这里看到）。但是，Michelle Yin这项非常有意思的研究让我想到一个更广泛的问题：在其他使用大型语言模型来提出重要建议或作出关键决策的领域里，是否也能发现类似的“模型分歧效应”？"}],[{"start":311.47999999999996,"text":"欧盟《通用数据保护条例》(GDPR)规定，人们有权要求对某些对其产生深远影响的自动化决策进行“人工复核”，例如能否获批贷款，或者求职申请能否进入下一轮。"}],[{"start":323.78,"text":"但我在想，将来人们是否也会开始坚持要获得第二、第三个“AI意见”。例如，把自己的求职申请交给依赖不同底层模型的系统再运行一遍，以查看是否会得出不同的决定。"}],[{"start":338.38,"text":"情况未必像这样简单：“如果这个决策依赖于OpenAI的模型，请现在改用谷歌和Anthropic的模型再跑一遍。”首先，并不是所有“AI”系统都依赖具有不确定性的LLM。很多系统会使用为特定目的设计的专有模型组合。以HireVue为例，这家公司是最大的一批自动化招聘软件提供商之一，它使用多种不同的第三方和自有模型，把求职者的视频面试转成文本，对文本进行分析，并根据“适应能力”或“解决问题能力”等多项指标给求职者打出“胜任力”分数。"}],[{"start":374.92,"text":"不过，这的确是一个很有意思的思路。我认为，至少它强化了这样一种主张：当AI参与作出影响人们生活的决策时，应当要求企业最大限度地披露其“底层机制”究竟如何运作。"}],[{"start":389,"text":"约翰，我确实有一个问题想请教你。看起来Yin在测试的新模型，对有多少任务可以被自动化持更乐观的态度。这是不是因为这些更新的模型在更广泛的任务上确实更有能力？那么，从唱反调的角度来看，它们给出更高的暴露估计这一点，本身是不是其实也是很有价值的信息？"}],[{"start":411.56,"text":"

约翰回答道……

"}],[{"start":412.97,"text":"谢谢你，萨拉，你提到按特定模型请求评审的观点非常有意思。就你问到的新模型是否更看好AI能力这一点来看，确实似乎存在这种情况。总体而言，在这项研究中，GPT-5对各类任务和岗位的AI暴露程度评估，大约是原始研究中其前代模型的两倍，而在所测试的模型里，最新的Claude 4.5则是评估最为激进的一个。"}],[{"start":438.02000000000004,"text":"正如你所推测的那样，Michelle Yin认为，这在一定程度上是因为较新的模型“了解”自身能力范围的扩展，并掌握了GPT-4训练数据中尚未包含的一些新兴AI能力信息；从这个意义上说，更高的暴露得分确实可能更有用。不过，我要补充两点需要注意的地方。"}],[{"start":457.98,"text":"其中一点是，任务评估与实际测得的现实世界AI使用情况最接近的模型，恰恰是最早的GPT-4。不过，这可能是因为这些模型的评估本身就具有前瞻性；也许等我们回头再看时，2026年模型给出的评分会更贴近2028年的实际使用。"}],[{"start":477.79,"text":"更重要的一点在于：其中一些分歧似乎源于对“AI能完成哪些任务”这一问题的更广泛理解差异。Claude尤其确信，AI工具可以在各类岗位上管理和监督人类员工，并将从首席执行官到工厂一线主管等职业评为高度暴露。这样的判断本身并非荒谬，但当Gemini将同样的岗位评为极低暴露时，很可能说明它们在理解这一问题时采用了截然不同的思路。"}],[{"start":506.02000000000004,"text":"

由谁来决定AI取代哪些工作？

约翰写道

萨拉写道

约翰回答道……

延伸阅读

为你推荐的新闻通讯

FT商学院

相关话题

由谁来决定AI取代哪些工作？

约翰写道

萨拉写道

约翰回答道……

延伸阅读

为你推荐的新闻通讯

FT商学院

相关话题

您可能感兴趣的文章