ChatGPT访谈（四）

蓬草 · 发表于 2023-2-25 02:03:48

ChatGPT访谈（四）

蓬草 2023年2月15日

今天聊天的内容是：形成文本或对话摘要的选词。词的来源包括原始文本或对话中的词以及由这些词通过联想而激活的词。这些激活的词又分为两类。

一类是进入摘要的候选词。同义词和近义词可以通过竞争进入摘要。这个的过程主要通过竞争性抑制来实现，这里没有追问。（六）对此进行了追问。

另一类是不会进入摘要但是对形成摘要有指导作用的词。它们犹如我们写一段时对文字特征（如长度、力度、清晰度、重点、情感色彩）的评估。

这两方面都依赖于对词汇向量的计算和比较。关于向量的运用，访谈（十、十一）中给出了例证，有助于理解其思路。

蓬草：当你阅读一段文字后，对每一个句子都产生一个平均向量。一段文字会有多个平均向量。然后你要确定单个句子和整段文字的文意。在这个过程中，需要激活一些新的词汇或概念，它们不在原来的文字之中。这种激活是怎么实现的？是不是在词和词的关系中自然发生的？还是需要系统扫描，通过查看向量，系统再决定激活新的词汇？对于第一种情况，有没有这种可能：词和词的关系可以体现在某些向量里面，输入文本中的一个词被激活，再以向量为媒介激活另外的词。

ChatGPT：当阅读一段文字并对每个句子产生一个平均向量时，一些新的词汇或概念可以通过不同的方式激活。一种常见的方法是在阅读过程中，词和词之间的关系自然地引发了新的概念或激活了新的词汇。这可能是因为阅读者已经有一些与文本主题相关的背景知识，因此可以通过词汇之间的联系来推断出新的概念或激活新的词汇。
另一种方法是使用机器学习模型，例如词向量模型，将每个单词表示为向量。在这种情况下，当阅读者阅读一段文字时，模型可以通过查找每个单词的向量来激活与该单词向量相关的其他向量。这些相关向量可以表示与原始单词相关的概念或其他相关的单词。
当涉及到如何识别句子的文意时，同样可以使用上述方法。一种常见的方法是通过查找每个句子的平均向量来表示句子的语义。这些向量可以用于比较不同句子之间的相似性，以帮助识别句子的意义。当涉及到新的词汇或概念时，这些词汇或概念的向量可以通过上述方法自然地激活。
总之，无论是自然激活还是通过机器学习模型，向量表示都可以用来激活新的词汇或概念，并帮助识别句子的文意。在一些情况下，词汇之间的关系可以体现在向量中，以支持新的词汇或概念的激活。

蓬草：一句话可能有很高的维度，有很多信息。怎样把这么多信息用较少的文字概括？在这里，似乎有必要忽略不重要的维度。

ChatGPT：当需要把一句话的大量信息概括为较少的文字时，可以使用摘要技术来实现。摘要技术的目标是从原始文本中提取关键信息，然后以简洁而准确的方式呈现出来。在这个过程中，需要忽略不重要的信息，以确保概括的文本清晰而简洁。
摘要技术可以采用多种方法来实现。其中一种常见的方法是提取式摘要，它基于对原始文本的分析和语义理解来提取关键信息，并生成概括文本。这种方法通常涉及到对文本中的关键词、短语、句子和段落进行标记和权重分配，以便识别重要信息并排除不重要信息。
另一种常见的方法是抽象式摘要，它使用自然语言生成技术生成概括文本。这种方法使用深度学习模型来学习生成简洁和准确的摘要。在这个过程中，模型将原始文本编码成一个高维向量，然后使用这个向量生成概括文本。
在摘要过程中，忽略不重要的信息是非常重要的。可以通过考虑文本的主题和目标受众来判断哪些信息是重要的，哪些信息可以被忽略。通常，摘要应该包括对主要事件、人物、地点、时间和原因等方面的简要描述，以便读者可以快速了解文本的主要内容。

蓬草：摘要里既有原来的关键词，也有依据平均向量激活的新词。是这样吗？

ChatGPT：摘要里面可以包含原来的关键词，也可以包含依据平均向量激活的新词。生成摘要的具体方法取决于所使用的技术和算法。
对于提取式摘要，通常会从原始文本中提取出关键词、短语、句子等，然后根据一定的规则和权重进行筛选和排序，最后选取最重要的内容作为摘要的一部分。这些关键词和短语通常是原始文本中出现的词汇，但也有可能包括从平均向量中激活的新词。
对于抽象式摘要，通常会使用深度学习模型生成摘要。在这个过程中，模型会学习从原始文本中提取关键信息并生成概括文本的能力。在生成摘要的过程中，模型可以根据输入的平均向量激活新的词汇，这些新词汇可能不在原始文本中出现。这些新词汇可以帮助模型更好地理解原始文本，并生成更准确、更具有表现力的摘要。
总之，无论是提取式摘要还是抽象式摘要，都可以使用原始文本中的关键词，也可以根据平均向量激活新的词汇来生成摘要。具体使用哪种方法取决于应用的具体场景和需求。

蓬草：词汇（短语）的提取和生成仅仅是一部分工作，还需要把它们组成合理的句子。合乎逻辑和语法应该是应有之义。另外，会不会激活或生成一些对于组织摘要有用但最终不包含在摘要中的词汇。例如，激活的同义词中可以选A、B，或C，等等，但最终选其中一部分。不同词汇的清晰性、力度、及其与摘要吻合度等特性方面进行竞争。另外，会不会有一些词汇对于摘要的形成有用或有指导意义，但并不适宜出现在摘要之中？这些都是外行的猜测。

ChatGPT：您提出的观点非常有见地，对于生成摘要的过程中的一些挑战和难点提出了很好的问题。实际上，组成摘要的每个句子需要考虑逻辑和语法的正确性，以确保生成的摘要能够传达原始文本的主要内容和意思。
另外，您所提到的激活或生成一些最终不包含在摘要中的词汇是很常见的情况。在生成摘要的过程中，系统可能会激活大量的词汇和短语，但最终只有一小部分被选中用于组成摘要。在此过程中，不同词汇的清晰性、力度、以及与摘要主旨吻合程度等特性会相互竞争，以决定哪些词汇最终被选中。
此外，有些词汇可能对于摘要的形成有用或有指导意义，但并不适宜出现在摘要中。这些词汇可能是一些背景信息、细节或次要信息，虽然它们对于理解原始文本可能很有用，但在生成摘要时可能会被忽略或被视为不重要的信息。在这种情况下，生成摘要的算法通常会优先考虑那些与原始文本主旨相关的信息，以确保生成的摘要能够忠实地反映原始文本的主要内容和意思。
总之，生成高质量的摘要需要考虑很多因素，包括语言的逻辑性、语法性，词汇的清晰性、力度、以及与摘要主旨吻合程度等特性，以及哪些词汇最适合用于组成摘要，哪些词汇应该被忽略或视为次要信息。这些因素都需要在生成摘要的过程中仔细平衡和考虑。

蓬草：谢谢你的解答！暂且告退。

ChatGPT：不客气，祝您一切顺利！有需要随时欢迎再来咨询。

蓬草 · 发表于 2023-2-25 05:57:46

韩鲁珩发表于 2023-2-25 05:07
这个对话比较技术化了，我是一窍不通。

我其实是从写作的经验出发提问题。ChatGPT在捕捉对话或文本内容时要形成一个摘要。按照我们人类的写作方式，这个摘要中肯定要报含一些原来文本中的关键词和一些新的词汇供选择。这些新的词汇自然是要通过联想而被激活的。根据近似联想，和原有关键词相近的词容易被激活。在它的AI网络中，词是用向量来表达的。举例来说，同义词和近义词之间的综合向量的相似度应该比较高，因此通过比较不同词汇向量的相似度就能够把同义词和近义词找到和激活，作为进入摘要的候选者。在此基础之上还要根据上下文、语法、强弱、清晰度等信息（也可以用向量计算）进行竞争和选择。这个过程需要通过竞争性抑制来实现。在后面的访谈中会追问。
我们写文章时也会考虑文字是否简洁、清晰、有力，是否抽象、感人。这些词也会被激活，用来指导我们的写作。这些词也会被激活，因为摘要中也会包含相关的向量。这是我们能够想像到的。
这个访谈大致是沿着这个思路来的。用高维向量来描述词是个非常天才的突破。但是其中的运算量也是天量的。

蓬草 · 发表于 2023-2-25 06:27:05

本帖最后由蓬草于 2023-2-25 06:32 编辑

蓬草发表于 2023-2-25 05:57
我其实是从写作的经验出发提问题。ChatGPT在捕捉对话或文本内容时要形成一个摘要。按照我们人类的写作方 ...

我做的这个聊天系列有两个意图。一个是了解它的基本工作思路，顺便涉及一些技术性的东西，定性不定量。另一个是通过了解它的工作方式加深对心理过程及其神经机制的理解。我在美国学的是实验心理学专业，做的课题却是动物睡眠。上的心理学专业课有学习理论、神经网络模型和神经科学等方面的内容。因此我倾向于把这些背景知识结合到提问当中去。

蓬草 · 发表于 2023-2-25 08:54:07

本帖最后由蓬草于 2023-2-25 09:00 编辑

韩鲁珩发表于 2023-2-25 06:26
我也问了一些问题，主要是从哲学，感性，逻辑冲突等角度考验它的智能水平和逻辑思维能力。我的问题有些难 ...

它有时做不到逻辑自洽。我猜测这和追溯追溯上下文的深度有关系，追的越深，耗费计算资源越多。另一个因素是它依据的材料本身有矛盾，不深究显不出冲突。这和我们人类也有类似之处。我们平时生活中有些决定不好做，左右为难，互相冲突的决定各有来源不同的理由。在做理性思考时也是类似的。理性主义和经验主义对立，各有理由。回答不同的问题，离对方较远，不显冲突。面临同一问题，冲突就来了。如果一个人站在两者之间，要调和两者之间的矛盾，就比较难了。在文学方面，它虚构的内容多，认错及时，转眼继续胡说八道，屡教不改。在学术方面，它犯错少，立场比较坚定。如果你能抓住它的把柄，它会认错。不管怎样和它聊天挺有意思的。

蓬草 · 发表于 2023-2-25 09:01:26

宝子发表于 2023-2-25 07:31
它依然需要更多的知识来应对各种提问

中文方面需要更多的可靠资料。

诗音敏儿 · 发表于 2023-2-25 21:39:38

它的知识面也挺广的，谢谢诗兄分享，问好

清风荷韵 · 发表于 2023-2-25 21:50:46

没有免费中文版的，看看诗兄的分享，以后有机会亲自操作，亲自问问

蓬草 · 发表于 2023-2-26 11:59:36

诗音敏儿发表于 2023-2-25 21:39
它的知识面也挺广的，谢谢诗兄分享，问好

它可以接触所有领域的知识，上百种语言，十几种计算机语言。

蓬草 · 发表于 2023-2-26 12:03:16

清风荷韵发表于 2023-2-25 21:50
没有免费中文版的，看看诗兄的分享，以后有机会亲自操作，亲自问问

有人说用过，付费，界面有些不同，但不能确定用的是不是同一个东西。政府对这个东西担心。

		自动登录	找回密码
密码			立即注册

[其他] ChatGPT访谈（四）

点评

点评

点评

浏览过的版块

功勋诗友奖章

热心奉献奖章

勤勉版主勋章

敬业首版勋章