大语言模型-基础与前沿.pdf

下载本文档

阅读 60
下载 5
格式 pdf
大小 25.83 MB
约122页
2025-03-31 发布于湖北
收藏
评论
点赞(0)
赚钱
举报

第1章大语言模型：辩论、争议与未来发展方向大语言模型（Large Language Model，LLM）可以说是过去10年中最重要的机器学习（Machine Learning，ML）创新。新一代的大语言模型，如ChatGPT和GPT-4模型（OpenAI， 2023b），已经发展为极具影响的产品，以其前所未有的能力在世界范围内掀起了一场风暴，它可以生成类似人类的文本、对话，在某些情况下还可以进行类似人类的推理。 LLM有广泛的潜在应用，可以提高各种行业的效率。例如，在医疗保健领域中，GPT-4模型和其他LLM可以分析大量的医疗数据，为诊断和治疗提供更明智的决策；在金融领域中，LLM可以通过分析市场趋势和预测股票价值发挥作用；在市场营销领域中，像GPT-4模型这样的LLM可以提供个性化的建议和广告素材；在教育领域中，GPT-4模型可以为学生量身定制学习计划。 LLM的另一个重要应用是解释蛋白质的氨基酸序列，这有助于加深我们对这些基本生物成分的理解。LLM在理解DNA和化学结构方面也有帮助。此外，LLM还被整合到机器人技术中，为软件开发人员提供帮助。例如，DeepMind的Gato（Reed et al，2022）——一个基于LLM的模型，通过对600多个独特任务的训练，让机械臂学会了如何堆积木。这种多功能性使LLM能够在游戏或聊天机器人动画等不同的环境中有效运行。LLM是一种多功能的工具，可以自动执行各种任务，包括数据录入、内容创建和客户服务等。通过这种方式，员工可以得到解放，从而专注更高层次的职责，最终提高使用LLM的企业的效率和生产力。 LLM正在迅速地向前发展。GPT-4模型是这一领域的新发展成果之一，它拥有一系列有别于之前的模型的新颖功能。由于GPT-4模型具有从文本、图像和音频等不同输入中学习的能力，因此它具有高度的适应性和全面性。凭借先进的推理和逻辑思维能力，它可以处理需要更高级认知技能方面的复杂任务。此外，GPT-4模型改进了记忆和微调过程，使其能够更好地理解对话或文本的上下文，并轻松地为特定任务定制人工智能模型。它还改进了多语言能力，能够处理和理解多种语言。在本章中，我们将探索LLM的迷人世界。LLM是人工智能研究领域的一项重大发展，它使得机器能够执行各种语言任务，并取得了令人印象深刻的成果。我们将探索这个新时代的曙光，并围绕LLM在意识方面的潜力展开讨论。我们还将讨论LLM的层次结构、具身化（embodiment）和落地（grounding）的作用，以及LLM中的世界模型、沟通意图和系统性的重要性。最后，我们将着眼于LLM研究的未来发展方向，考虑其进一步发展和应用的潜力，同时探讨具有意识的机器所涉及的伦理问题。 1.1 新时代的曙光人工智能（Artif icial Intelligence，AI）的最终目标是创造出能够以类似于人类交流的方式进行对话的机器。这些机器被称为自然语言理解（Natural Language Understanding，NLU）系统。它们被视作人工智能的顶峰，因为语言被认为是人类智慧的缩影。在人工智能和自然语言处理（Natural Language Processing，NLP）中，NLU研究经历了乐观和失望的交替时期（Bowman et al，2022）。然而，最近在NLU技术方面取得的进展让人们对创造出能像人类一样交谈的机器重拾信心。这些系统被称为大语言模型、大型预训练模型或基础模型（foundation model）。它们是具有数十亿个参数（权重）的深度神经网络，在庞大的自然语言语料库中进行“预训练”。这些语料库包括海量的Web数据、在线图书和其他包含TB级数据的数据集。在训练过程中，这些神经网络的任务是利用一种称为“自监督学习”的方法预测输入句子的隐藏部分。由此产生的网络是一个复杂的统计模型，能够反映出训练数据中单词和短语之间的关系。得益于新一代的NLU系统，人们对于创造“会说话的机器”的信心空前高涨。ChatGPT是迄今为止非常先进的会话智能体（agent），其优势确实令人印象深刻。这可以从下面的例子中得到证明。问：给定一串数字1、11、21、1211，下一个数字是什么？答（ChatGPT于2023年3月24日测试）：序列中的下一个数字是111221。要想知道这个数字是如何得到的，可以看看数列中的上一个项：1211。这个项可以理解为“一个1，一个 2，两个1”，从而得出数列的下一个项：111221。这个项可以理解为“三个1，两个2，一个1”。序列的模式是每一项都描述了前一个项。例如，第四项描述第三项，即计算第三项中每个数字出现的次数，然后将这些数字写成一个新数字。所以，为了找到序列中的第五项，我们需要计算在第四项（1211）中每个数字出现的次数，即“一个1，一个2，两个1”。然后，我们将其写成序列的下一个项：111221。问：李先生有4个儿子。每个儿子都有一个妹妹。李先生有多少个孩子？答（ChatGPT于2023年3月28日测试）：李先生有5个孩子。这个谜题是一个典型的诡计问题，它基于这一事实：问题的措辞可以有不同的解释。初看上去，问题似乎是在问李先生共有多少个儿子，也就是4个。然而，问题接着指出，每个儿子都有一个妹妹，这意味着李先生的孩子中只有一个女孩。因此，李先生的孩子总数是4个儿子加1个女儿，等于5个孩子。问：两年前，我的年龄是弟弟的三倍。三年后，我的年龄将是弟弟的两倍。我们现在各自的年龄是多少？答（ChatGPT于2023年3月28日测试）：假设你现在的年龄是“x”，你弟弟现在的年龄是“y”。从第一条信息中，我们知道，两年前，你是“x-2”岁，你弟弟是“y-2”岁。我们还知道，当时你的年龄是你弟弟的三倍，所以我们可以建立以下方程： x-2=3(y-2) 展开这个方程可以得到： x-2=3y-6 x=3y-4 从第二条信息中，我们知道，三年后，你将是“x+3”岁，你弟弟将是“y+3”岁。我们被告知，届时你的年龄将是你弟弟的两倍，所以我们可以建立以下方程： x+3=2(y+3) 展开这个方程可以得到： x+3=2y+6 x=2y+3 我们现在有两个方程和两个未知数。我们可以通过代入法，用一个变量来求解另一个变量： 3y-4=2y+3 y=7 将y=7代入任一方程，我们就可以解出x： x=2y+3=17 因此，你现在17岁，你弟弟7岁。两年前，你15岁，你弟弟5岁；三年后，你20岁，你弟弟10岁。如上所示，大语言模型能够通过解决数学和推理问题来回答人类的问题，同时还能为其答案提供解释。此外，这些模型还能生成语法正确、语义连贯、文体流畅的文本。

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

Q：已扫码付款购买某文档，但购买成功后没有显示下载入口?

A：建议您微信注册登录后购买，不要再次付款。出现该问题的概率很低，联系客服会尽快解决。

Q：如何查询已购买的文档和支付明细？

A：在您的“个人中心-我的订单”里，您可以查看到自己的文档购买记录。

Q：购买后如何下载？

A：在您的“我的订单”里，您可以下载购买的文档到本地。

Q：文档下载后打不开？

A：推荐使用Edge、Chrome内核浏览器下载。下载成功后，使用较高版本 office 或 wps 打开文档。如果文档扩展名不符，修改文档扩展名即可解决。

Q：下载后文档与页面展示有差异？

A：文档的总页数、文档格式和文档大小以系統显示为准，发生争议时，平台客服以系统显示作为判断依据。

Q：文档购买后可以申请退款吗？

A：所有收费文档都可以先部分预览再购买，且平台自身不编辑或修改文档内容，也不对该等内容的真实性、有效性负责。请您谨慎选择所需内容后支付。除因文档自身质量问题外（如：文档出现空白、乱码、内容缺失或下载后内容不一致、无法正常显示、损坏无法打开等情形），付费文档不予退换。