自然语言处理(NLP)—— 符号方法与符号语言

1. 符号方法

1.1 雅各布森的结构主义

        雅各布森的结构主义是一种语言学理论,它强调了语言结构中的两个基本维度:轴与范畴。这两个维度是理解雅各布森结构主义的核心概念。

1.1.1 轴向对立

        句法轴(Syntagmatic Axis):这一轴向关注的是语言单元如何在句子中按照一定的顺序组合。它涉及到语言元素在实际语言使用中如何线性地排列组合,即一个单词在句子中与其它单词的相邻关系。例如,在“La fille mange la pomme”(女孩吃苹果)这个句子中,“La fille”、“mange”、“la pomme”按照一定的顺序组合在一起,形成一个完整的意义。

        范畴轴(Paradigmatic Axis):这一轴向关注的是语言单元在抽象或概念层面上如何相互替换或关联。它基于选择的概念,即在特定的语境下,某个语言元素可以被其它具有相似功能或属性的元素所替换。例如,在句子“La fille mange la pomme”中,"fille"(女孩)可以被"meuf"(姑娘)、"dame"(夫人)或"chenille"(毛毛虫,虽然这里可能语义不合适)所替换,这些替换发生在概念或选择的层面上,而不是实际的句子结构中。

1.1.2 语言单元和组合方式

        雅各布森的结构主义不仅定义了语言的基本单位,还强调了我们需要一种机制来组合这些单位。这意味着语言的创造性和多样性不仅仅在于语言元素本身,还在于我们如何通过不同的方式将它们组合起来,以创造新的意义。在句法轴上,这种组合体现为语法结构;而在范畴轴上,则体现为词汇选择和替换的可能性。

        通过对句法轴和范畴轴的理解,我们可以更深入地分析和理解语言的结构和功能,以及语言元素是如何在不同的语境中发挥作用的。雅各布森的这一理论为现代语言学和语言分析提供了一个重要的分析框架。

1.2 结构主义

        结构主义是一种理论框架,它强调了在各种人类文化中普遍存在的底层结构。它起源于语言学领域,后来扩展到文学理论、人类学、心理学、历史学等多个学科领域。结构主义者认为,所有文化现象都可以通过分析其内在结构来理解。以下是结构主义在不同领域的主要代表人物及其贡献:

1.2.1 费迪南·德·索绪尔(Ferdinand de Saussure): 语言学(1916)

        索绪尔被认为是现代结构主义的奠基人。他在语言学中提出了区分语言(langue)和言语(parole)的理论,强调了研究语言系统中元素之间相互关系的重要性,而非仅关注这些元素本身。

1.2.2 弗拉基米尔·普罗普(Vladimir Propp): 俄罗斯童话(1929)

        普罗普通过分析俄罗斯民间故事的基本结构,识别出了故事中的固定角色和情节函数,这是将结构主义方法应用于文学分析的早期尝试。

1.2.3 克洛德·列维-斯特劳斯(Claude Lévi-Strauss): 人类学(1949)

        列维-斯特劳斯将结构主义应用于人类学,尤其是对神话的研究,强调神话中普遍存在的普遍结构和二元对立。

1.2.4 罗兰·巴特(Roland Barthes): 文学研究

        巴特的工作涉及符号学和文本分析,他研究了文学和日常文化中的符号系统,探讨了意义是如何在这些符号系统中产生的。

1.2.5 雅克·拉康(Jacques Lacan): 精神分析

        拉康将结构主义原理引入精神分析,强调无意识结构如何影响人的欲望和身份构建,他特别强调了语言在形成个体心理中的作用。

1.2.6 米歇尔·福柯(Michel Foucault): 历史

        福柯研究社会机构和知识体系的历史,探讨了权力、知识和社会实践之间的关系,虽然他后期对结构主义持批判态度。

1.2.7 让·皮亚杰(Jean Piaget): 心理学

        皮亚杰研究儿童认知发展,强调认知结构如何随着儿童成长而发展和变化。

1.2.8 尼古拉·布尔巴基(Nicolas Bourbaki): 数学

        布尔巴基是一个由法国数学家组成的集体笔名,他们致力于数学的形式化和结构化,尽管布尔巴基本身不直接涉足结构主义理论,但他们的工作体现了结构主义对于分析和分类系统的普遍兴趣。

        结构主义在20世纪中叶对人文和社会科学产生了深远的影响,它提供了一种理解人类文化和社会现象的新方式,通过揭示看似

2. Formal Languages符号语言

        符号语言,也称形式语言,是计算机科学和数学中的一个重要概念,用于描述和分析计算系统的语言结构。形式语言是通过一套规则或语法定义的一组字符串,它们在计算和编程中起着关键作用。以下是符号语言的关键方面及其相关概念:

2.1 基本概念

2.1.1 字母表(Alphabet)

        字母表是一个有限的符号集合,这些符号是构成语言的基本单位。例如,二进制字母表由 {0, 1} 组成,英文字母表则由 {a, b, c, ..., z} 组成。

2.1.2 字符串(String)

        字符串是字母表中符号的有限序列。例如,对于字母表 {a, b},字符串 "ab" 和 "bba" 都是合法的字符串。

2.1.3 语言(Language)

        语言是由字母表中的符号构成的字符串集合。形式语言是根据特定规则或语法生成的字符串集合。例如,{a, aa, aaa} 是一个简单的形式语言。

2.2 形式语法(Formal Grammar)

        形式语法是一套生成规则,用于定义符号语言的结构。形式语法通常由以下四个组成部分构成:

        终结符(Terminal symbols):语言的基本符号,不可再分。
        非终结符(Non-terminal symbols):用于表示中间结构,可以进一步分解。
        开始符号(Start symbol):语法生成的起点。
        生成规则(Production rules):定义如何从一个符号生成其他符号。

        一个典型的例子是上下文无关文法(Context-Free Grammar,CFG),它的生成规则可以用推导树表示。

2.3 语言分类(Chomsky Hierarchy)

        诺姆·乔姆斯基(Noam Chomsky)提出了一个分类体系,根据生成规则的复杂性,将形式语言分为四类:

        1. 类型0语言(Type 0 Languages):无限制文法,能够生成任何语言。
        2. 类型1语言(Type 1 Languages):上下文相关文法(Context-Sensitive Grammar),生成规则的长度可以变化,但必须保证产生的字符串长度不减少。
        3. 类型2语言(Type 2 Languages):上下文无关文法,规则的左侧必须是一个单独的非终结符。
        4. 类型3语言(Type 3 Languages):正则文法(Regular Grammar),规则更为严格,通常用于描述正则语言。

2.4 正则语言(Regular Languages)

        正则语言是形式语言中最简单的一类,由正则文法生成。正则语言可以用正则表达式(Regular Expressions)描述,并且可以由有限状态自动机(Finite State Automata)识别。正则表达式是一种用于匹配字符串的强大工具,广泛应用于文本处理和编译器设计。

2.5 上下文无关语言(Context-Free Languages)

        上下文无关语言由上下文无关文法生成,能够描述许多编程语言的语法。它们比正则语言复杂,但仍然可以被高效解析。上下文无关语言通常使用推导树和解析器(Parsers)来处理,广泛应用于编译器设计和自然语言处理。

2.6 应用与重要性

        形式语言在计算机科学和数学中有着广泛的应用:

        编程语言设计:形式语法用于定义编程语言的语法规则,确保代码的正确性和可解析性。
        编译器构造:编译器使用形式语言和语法分析技术将高级编程语言翻译为机器代码。
        自动机理论:形式语言与自动机理论密切相关,用于研究计算模型和算法的性质。
        自然语言处理:形式语言和语法用于解析和生成自然语言文本,促进人机交互和语言理解。

        通过形式语言和结构主义理论的结合,我们可以更系统地理解语言的本质和功能,从而推动计算机科学和人文科学的发展。这些理论工具不仅帮助我们解析和构建语言系统,还为我们提供了新的视角去探索人类认知和文化的深层结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/850187.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ARM Cache 与 MMU 系列文章 7.7 – ARMv8/v9 MMU Table 表分配原理及其代码实现 1】

请阅读【ARM Cache 及 MMU/MPU 系列文章专栏导读】 及【嵌入式开发学习必备专栏】 文章目录 MMU Table 表分配原理及其代码实现虚拟地址空间 Region的配置系统物理地址位宽获取汇编代码实现MMU Table 表分配原理及其代码实现 假设当前系统中需要映射多个region,其中第一个要映…

【Linux】进程4——进程状态

1.进程状态 什么是状态? 每个人都有状态——颓废,阳光,积极向上。。。。 进程也有状态 在操作系统中,由于进程的数量是非常多的,而系统的资源又非常少,所以不可能每一个进程在每时每刻都会处于上处理机运…

【python报错】list indices must be integers or slices, not tuple

【Python报错】list indices must be integers or slices, not tuple 在Python中,列表(list)是一种常用的数据结构,用于存储一系列的元素。当你尝试使用不支持的索引类型访问列表元素时,会遇到list indices must be in…

OS复习笔记ch7-3

承接上文我们讲完了页式管理和段式管理,接下来让我们深入讲解一下快表和二级页表 快表 快表和计算机组成原理讲的Cache原理如出一辙。为了减少访存的次数,OS在访问页面的时候创建了快表(Translation Lookaside Buffer ,简称TLB&…

pikachu靶场全流程

目录​​​​​​​ 暴力破解: 1.基于表单的暴力破解: 2.验证码绕过(on server): 3.验证码绕过(on client): token防爆破: XSS: 1.反射型xss(get): 2.反射性xss(post): 3.存…

354. 俄罗斯套娃信封问题

Problem: 354. 俄罗斯套娃信封问题 文章目录 思路解题方法复杂度Code 思路 这个问题可以转换为最长递增子序列(Longest Increasing Subsequence,LIS)问题。先对信封按宽度升序排序,当宽度相同时,按高度降序排序。然后在…

Elasticsearch之写入原理以及调优

1、ES 的写入过程 1.1 ES支持四种对文档的数据写操作 create:如果在PUT数据的时候当前数据已经存在,则数据会被覆盖,如果在PUT的时候加上操作类型create,此时如果数据已存在则会返回失败,因为已经强制指定了操作类型…

RPA影刀 | 设置当前时间

1. 新建流程 2. 创建指令 指令1:获取当前日期时间 指令3:日期时间转文本 %Y:年 %m:月 %d:日期 其他字符自由添加。 常用格式如下: %Y年%m月%d日%Y-%m-%d%Y_%m_%d%Y%m%d 3. 运行流程

【办公类-04-02】华为助手导出照片读取拍摄时间分类导出,视频不行)

背景需求 今天我用QQ相册导出照片,但是始终在转圈,手机上无法跳出“连结“”的提示,换了台式和笔记本都无法传输。(明明5月14日还可以导出的) 最后我只能用华为传输助手,把照片快速提取出来了。 使用原来…

从记忆到想象:探索AI的智能未来

引言 人工智能(AI)在信息处理、数据分析和任务自动化等方面展现了强大的能力。然而,在人类独有的记忆和想象力领域,AI仍然有很长的路要走。加利福尼亚大学戴维斯分校的心理学和神经科学教授查兰兰加纳特(Charan Ranga…

STM32编程:实现LED灯闪烁(基于手写SDK的方式)

项目结构 stm32f10x.h 文件 //寄存器的值常常是芯片外设自动更改的,即使CPU没有执行程序,也有可能发生变化 //编译器有可能会对没有执行程序的变量进行优化//volatile表示易变的变量,防止编译器优化, #define __IO volati…

算法训练营day50

题目1&#xff1a;198. 打家劫舍 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int rob(vector<int>& nums) {vector<int> dp(nums.size(), 0);dp[0] nums[0];if(nums.size() < 2) return dp[0];dp[1] max(nums[0],nums[1]);for(int…

Linux(Rocky)下 如何输入中文(切换中文输入法)教程

RockyLinux如何输入中文&#xff08;切换中文输入法&#xff09; 注意 在字符画界面的Linux系统中 默认不具备中文输入法的功能 需要SSH或其他远程工具来实现 问题 可能大家有的时候安装了一个虚拟机之后 想切换中文输入法 但是一直找不到方法 下面将利用Rocky9.2作为演示…

Failed to build causal-conv1d -- 离线安装(mamba_ssm)

Building wheels for collected packages: causal-conv1d Building wheel for causal-conv1d (setup.py) … error error: subprocess-exited-with-error python setup.py bdist_wheel did not run successfully. │ exit code: 1 ╰─> [8 lines of output] torch.__versi…

苹果将推出“Apple Intelligence”AI系统,专注于隐私和广泛应用|TodayAI

据彭博社报道&#xff0c;苹果公司将在下周的 WWDC 2024 开发者大会上揭晓其全新的 AI 系统——“Apple Intelligence”&#xff0c;该系统将适用于 iPhone、iPad 和 Mac 设备。这一新系统将结合苹果自身技术和 OpenAI 的工具&#xff0c;为用户提供一系列新的 AI 功能&#xf…

独立游戏之路 -- TapTap广告收益损失和常见问题

一个操作带来的TapTap广告收益损失 一,收益损失1.1 广告入口1.2 损失对比二,常见问题2.1 有展现量没有预估收益 /eCPM 波动大?2.2 新建正式媒体找不到预约游戏2.3 聚合模式由于没有回传 oaid 无数据2.4 每日观看次数限制是否有限制一,收益损失 1.1 广告入口 TapTap广告联…

【JAVASE】日期与时间类(下)

三&#xff1a;LocalDateTime 相当于LocalDate类&#xff0c;在LocalDateTime类的对象中还可以封装时、分、秒和纳秒&#xff08;1纳秒是1秒的十亿分之一&#xff09;等时间类型。 例如&#xff0c;创建LocalDateTime对象 &#xff0c; LocalDateTime date LocalDateTi…

动手学深度学习29 残差网络ResNet

动手学深度学习29 残差网络ResNet ResNet代码ReLU的两种调用1. 使用 torch.nn.ReLU 模块2. 使用 torch.nn.functional.relu 函数总结 QA29.2 ResNet 为什么能训练处1000层的模型ResNet的梯度计算怎么处理梯度消失的 QA ResNet 更复杂模型包含小模型&#xff0c;不一定改进&…

git 空仓库笔记

标识身份&#xff0c;建议先完成 Git 全局设置 git config --global user.name “账号” git config --global user.email “email” 方式一&#xff1a;克隆仓库 git clone https://url/your.git cd your_path touch README.md git add README.md git commit -m "add …

Shell以及Shell编程

Shell的任务 ①分析命令&#xff1b; ②处理通配符、变量替换、命令替换、重定向、管道和作业控制&#xff1b; ③搜索命令并执行。 内部命令&#xff1a;内嵌在Shell中。 外部命令&#xff1a;存在于磁盘上的独立可执行文件。 #&#xff01;/bin/bash #! 称为一个幻数&…