运维常见的22个故障排查和10个问题解决技巧大汇总!

        作为运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个运维工程师良好的习惯。每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报。

下面汇总了做项目过程可能出现的故障及解决方法,看看是否与你有共鸣,并对你有帮助?

常见问题解决技巧

1.shell脚本不执行

问题:

某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错。看了下,脚本很简单,也没有常规性的错误,报“:badinterpreter:Nosuchfileordirectory”错。

看这错,我就问他是不是在windows下编写的脚本,然后在上传到linux服务器的……果然。

原因:

在DOS/windows里,文本文件的换行符为rn,而在nix系统里则为n,所以DOS/Windows里编辑过的文本文件到了nix里,每一行都多了个^M。

解决:

1)重新在linux下编写脚本;

2)vi:%s/r//g:%s/^M//g(^M输入用Ctrl+v,Ctrl+m)

附:sh-x脚本文件名,可以单步执行并回显结果,有助于排查复杂脚本问题。

2.crontab输出结果控制

问题:

/var/spool/clientmqueue目录占用空间超过100G

原因:

cron中执行的程序有输出内容,输出内容会以邮件形式发给cron的用户,而sendmail没有启动所以就产生了/var/spool/clientmqueue目录下的那些文件,日积月累可能撑破磁盘。

解决:

1)直接手动删除:ls|xargsrm-f;

2)彻底解决:在cron的自动执行语句后加上>/dev/null2>&1

3.telnet很慢/ssh很慢

问题:

某天研发某同事说10.50访问10.52memcached服务异常,让我们检查下看网络/服务/系统是否有异常。检查发现系统正常,服务正常,10.50ping10.52也正常,但10.50telnet10.52很慢。同时发现该机器的namesever是不起作用的。

原因:

becauseyourPCdoesn’tdoareverseDNSlookuponyourIPthen…whenyoutelnet/ftpintoyourlinuxbox,it’lldoadnslookuponyou。

解决:

1)修改/etc/hosts使hostname和ip对应;

2)在/etc/resolv.conf注释掉nameserver或者找一个“活的”nameserver。

4.Read-onlyfilesystem

问题:

同事在mysql里建表建不成功,提示如下:

mysql>createtablewosontest(colddname1char(1));ERROR1005(HY000):Can’tcreatetable‘wosontest’(errno:30)

复制

经检查mysql用户权限以及相关目录权限没问题;用perror30提示信息为:OSerrorcode30:Read-onlyfilesystem

可能原因:

1)文件系统损坏;

2)磁盘又坏道;

3)fstab文件配置错误,如分区格式错误错误(将ntfs写成了fat)、配置指令拼写错误等。

解决:

1)由于是测试机,重启机器后恢复;

2)网上说用mount可解决。

5.文件删了磁盘空间没释放

问题:

某天发现某台机器df-h已用磁盘空间为90G,而du-sh/*显示所有使用空间加起来才30G,囧。

原因:

可能某人直接用rm删除某个正在写的文件,导致文件删了但磁盘空间没释放的问题

解决:

1)最简单重启系统或者重启相关服务。

2)干掉进程

/usr/sbin/lsof|grepdeletedora25575data33uREG65,654294983680/oradata/DATAPRE/UNDOTBS009.dbf(deleted)

复制

从lsof的输出中,我们可以发现pid为25575的进程持有着以文件描述号(fd)为33打开的文件/oradata/DATAPRE/UNDOTBS009.dbf。在我们找到了这个文件之后可以通过结束进程的方式来释放被占用的空间:echo>/proc/25575/fd/33

3)删除正在写的文件一般用cat/dev/null>file

6.find文件提升性能

问题:

在tmp目录下有大量包含picture_*的临时文件,每天晚上2:30对一天前的文件进行清理。之前在crontab下跑如下脚本,但是发现脚本效率很低,每次执行时负载猛涨,影响到其他服务。

!/bin/sh
find/tmp-name“picture_*”-mtime+1-execrm-f{};

复制

原因:

目录下有大量文件,用find很耗资源。

解决:

!/bin/sh
cd/tmptime=date-d“2dayago”“+%b%d”ls-l|grep“picture”|grep“不能识别此Latex公式:
time”|awk‘{print
NF}’|xargsrm-rf

复制

7.获取不了网关mac地址

问题:

从2.14到3.65(映射地址2.141)网络不通,但是从3端的其他机器到3.65网络OK。

原因:

arp
AddressHWtypeHWaddressFlagsMaskIface192.168.3.254etherincompletCMbond0

复制

表面现象是机器自动获取不了网关MAC地址,网络工程师说是网络设备的问题,具体不清。

解决:

arp绑定,arp-ibond0-s192.168.3.25400:00:5e:00:01:64

复制

8.http服务无法启动一例

问题:

某天研发某同事说网站前端环境http无法启动,我上去看了下。报如下错:

/etc/init.d/httpdstartStartinghttpd:[SatJan2917:49:002011][warn]moduleantibot_moduleisalreadyloaded,skippingUseproxyforwardasremoteip:true.Antibotexcludepattern:.*.[(js|css|jpg|gif|png)]Antibotseedcheckpattern:login(98)Addressalreadyinuse:make_sock:couldnotbindtoaddress[::]:7080(98)Addressalreadyinuse:make_sock:couldnotbindtoaddress0.0.0.0:7080nolisteningsocketsavailable,shuttingdownUnabletoopenlog[FAILED]

复制

原因:

1)端口被占用:表面看是7080端口被占用,于是netstat-npl|grep7080看了下发现7080没有占用;

2)在配置文件中重复写了端口,如果在以下两个文件同时写了Listen7080

/etc/httpd/conf/http.conf/etc/httpd/conf.d/t.10086.cn.conf

复制

解决:

注释掉/etc/httpd/conf.d/t.10086.cn.conf的Listen7080,重启,OK。

9.toomanyopenfile

问题:

报toomanyopenfile错误

解决:

终极解决方案

echo“”>>/etc/security/limits.confecho“*softnproc65535″>>/etc/security/limits.confecho“*hardnproc65535″>>/etc/security/limits.confecho“*softnofile65535″>>/etc/security/limits.confecho“*hardnofile65535″>>/etc/security/limits.confecho“”>>/root/.bash_profileecho“ulimit-n65535″>>/root/.bash_profileecho“ulimit-u65535″>>/root/.bash_profile

复制

最后重启机器或者执行ulimit-u655345&&ulimit-n65535

10.ibdata1和mysql-bin致磁盘空间问题

问题:

2.51磁盘空间报警,经查发现ibdata1和mysql-bin日志占用空间太多(其中ibdata1超过120G,mysql-bin超过80G)

原因:

ibdata1是存储格式,在INNODB类型数据状态下,ibdata1用来存储文件的数据和索引,而库名的文件夹里的那些表文件只是结构而已。

innodb存储引擎有两种表空间的管理方式,分别是:

1)共享表空间(可拆分为多个小的表空间文件),这个是我们目前多数数据库使用的方法;

2)独立表空间,每一个表有一个独立的表空间(磁盘文件)

对于两种管理方式,各有优劣,具体如下:

①共享表空间:

优点:可以将表空间分成多个文件存放到不同的磁盘上(表空间文件大小不受表大小的限制,一个表可以分布在不同步的文件上)

缺点:所有数据和索引存放在一个文件中,则随着数据的增加,将会有一个很大的文件,虽然可以把一个大文件分成多个小文件,但是多个表及索引在表空间中混合存储,这样如果对于一个表做了大量删除操作后表空间中将有大量空隙。对于共享表空间管理的方式下,一旦表空间被分配,就不能再回缩了。当出现临时建索引或是创建一个临时表的操作表空间扩大后,就是删除相关的表也没办法回缩那部分空间了。

②独立表空间:在配置文件(my.cnf)中设置:innodb_file_per_table

特点:每个表都有自已独立的表空间;每个表的数据和索引都会存在自已的表空间中。

优点:表空间对应的磁盘空间可以被收回(Droptable操作自动回收表空间,如果对于删除大量数据后的表可以通过:altertabletbl_nameengine=innodb;回缩不用的空间。

缺点:如果单表增加过大,如超过100G,性能也会受到影响。在这种情况下,如果使用共享表空间可以把文件分开,但有同样有一个问题,如果访问的范围过大同样会访问多个文件,一样会比较慢。如果使用独立表空间,可以考虑使用分区表的方法,在一定程度上缓解问题。此外,当启用独立表空间模式时,需要合理调整innodb_open_files参数的设置。

解决:

1)ibdata1数据太大:只能通过dump,导出建库的sql语句,再重建的方法。2)mysql-binLog太大:①手动删除:删除某个日志:mysql>PURGEMASTERLOGSTO‘mysql-bin.010′;删除某天前的日志:mysql>PURGEMASTERLOGSBEFORE’2010-12-2213:00:00′;②在/etc/my.cnf里设置只保存N天的bin-log日志expire_logs_days=30//BinaryLog自动删除的天数

复制

故障排查汇总

1、Linux系统安装初始状态时,找不到硬盘,并无法进入下一步安装 答: 进入COMS设置,找到硬盘设置的相关选项,并设置为兼容模式

2、Linux系统安装时,在硬盘分区完成后,无法继续安装 答: 硬盘分区不符合安装要求,你可能忘记创建根分区或swap交换分区了,这一点与Windows系统的安装有区别

3、Linux系统安装时,制定安装中,软件包的选择感觉困惑,安装完成后发现不符合我们的要求,有些组件没有安装,而不需要的组件却装上了 答: 对Linux系统的了解还太少,反复安装多次后,自然掌握自如

4、代理服务器的配置过程中,发现有些过滤规划未起作用 答: (1)先检查对应的功能模块是否加载成功;

(2)默认策略是否设置恰当;

(3)iptables命令语法是否有错;

(4)过滤规划顺序可能不当,需调整。

5、代理服务器和防火墙的配置完成后,启动服务,可以访问Internet,但不能访问DMZ区的服务 答: (1)关闭iptables服务,看是否可以访问,如果不能,检查连通性,若能访问,说明iptables规则有问题,集中检查过滤规则的配置与顺序

6、再次配置好iptables过滤规则后,重启iptables服务后,发现原有的规则全部丢失 答:

(1)修改/etc/sysconfig/iptables-config配置文件,

将IPTABLES_SAVE_ON_RESTART=”no”改为yes;

(2)用iptables-save > /etc/sysconfig/iptables命令保存。

7、在交换机上划分VLAN后,不能访问外网 答:VLAN的网关未设置或设置不正确

8、在配置DNS服务中,named服务无法启动 答: 造成问题可能性:

(1)/etc/named目录下缺少必要文件;

(2)/var/named目录下缺少必要文件;

(3)named账户权限问题。

解决方法:

缺少的文件必须复制到位,启动文件必须将权限设置为named账户和组账户

9、在配置DNS服务中,无法正确解析域名或IP地址 答: (1)检查并修改/var/named下的正向解析区文件和反向解析区文件中的语法与记录设置;

(2)检查/etc/named.conf配置中的zone区域声明编写是否有误;

(3)检查是否安装了bind-chroot软件包,如安装了,区域数据库文件应在/var/named/chroot/var/named目录中;

(4)检查/etc/resolv.conf配置文件是否设定了正确的nameserver。

10、dhcpd服务启动时,提示“No subnet declaration for eth0(10.10.10.2)” 答:说明eth0的IP地址设置不对,不在dhcp服务的作用域范围内,必须将eth0的IP设置为作用域范围内的IP地址

11、在配置DHCP服务时,配置了多个作用域,结果只有一个作用域的地址可以分配,其他不能分配成功 答:说明主机的网络接口卡只有一个,如有3个作用域,需配置3个网卡接口eth0、eth1和eth2,分别对应3个作用域。这是使用超级作用域的一种配置方法

12、MySQL数据库的安装不能成功,总是提示软件的依赖关系,造成所要安装的软件包不能顺利安装 答:说明所要安装的软件包需要其他组件或共享库的支持,MySQL的rpm包安装方式本身就繁琐一些,要求安装的软件包比较多,包之间的依赖关系非常明显,根据提示找到需要的组件包并安装,安装时要注意软件包顺序

13、测试Web服务,访问主站点时,无网页出现,但已经连接上服务器 答:在httpd.conf主配置文件中的“DocumentRoot”选项的设置不当,如/var/www/html/,最后的“/”不能加

14、远程客户端无法访问samba共享目录,共享目录在本地测试成功 答: 关闭iptables服务

15、Samba的smb服务已经启动成功,访问samba某个共享目录时,提示错误信息“NT_STATUS_BAD_NETWORK_NAME” 答: 说明共享目录没有创建或不存在

16、Samba的smb服务已经启动成功,提示错误信息“NT_STATUS_ACCESS_DENIED” 答: 提示访问被拒绝,可能是登录的用户名或密码有误,或是iptables启动了,关闭防火墙

17、Samba的smb服务已经启动成功,提示错误信息“NT_STATUS_LOGON_FAILURE” 答: 不允许当前用户访问当前共享目录,说明此共享目录设置只允许特定用户访问

18、FTP服务配置了本地用户上传,但在上传数据到对应目录时,提示被拒绝 答: 可能该用户账户对上传目录没有写权限

19、配置允许本地账户登录FTP后,root账户无法登录,并提示“500 OOPS:cannot change directory:/root”的错误信息,而其他本地账户可以登录FTP 答: 检查是否启用了SELinux安全系统,并禁止SELinux,可以编辑/etc/selinux/config文件,将配置项SELINUX=enforcing改为disabled

20、使用邮件客户端可以发送邮件,但不能接收邮件 答: 检查pop3服务是否启动

21、mount命令挂载NFS服务的共享目录,很久也没有响应,NFS服务是正常的 答: portmap服务没有启动,必须启动该服务

22、本地测试mount挂载NFS共享成功,但在其他客户主机mount连接时不成功 答: 关闭iptables服务,再测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/97826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTPS工作过程,国家为什么让http为什么要换成https,Tomcat在MAC M1电脑如何安装,Tomcat的详细介绍

目录 引言 一、HTTPS工作过程 二、Tomcat 在访达中找到下载好的Tomcat文件夹(这个要求按顺序) zsh: permission denied TOMCAT的各部分含义: 引言 在密码中一般是:明文密钥->密文(加密) &#xff…

机器学习笔记 - 深入研究spaCy库及其使用技巧

一、简述 spaCy 是一个用于 Python 中高级自然语言处理的开源库。它专为生产用途而设计,这意味着它不仅功能强大,而且快速高效。spaCy 在学术界和工业界广泛用于各种 NLP 任务,例如标记化、词性标注、命名实体识别等。 安装,这里使用阿里的源。 pip install spacy…

三十二、【进阶】hash索引结构

1、hash索引结构 (1)简述: hash索引,就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中。 (2)图示: 2、hash索引结构…

elasticsearch深度分页问题

一、深度分页方式from size es 默认采用的分页方式是 from size 的形式,在深度分页的情况下,这种使用方式效率是非常低的,比如我们执行如下查询 1 GET /student/student/_search 2 { 3 "query":{ 4 "match_all":…

Ansible系列 | Ansible变量详解

Ansible系列 | Ansible变量详解 1. 在Inventory中定义变量2. 在Playbook中定义变量2.1. 通过vars关键字定义变量2.2. 通过vars_files关键字引入变量文件2.3. 通过vars_prompt来实现人机交互3. 内置变量3.1. hostvars3.2. group_names3.3. groups3.4. inventory_hostname与inven…

【算法练习Day15】平衡二叉树二叉树的所有路径左叶子之和

​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:练题 🎯长路漫漫浩浩,万事皆有期待 文章目录 平衡二叉树二叉树的所有路径…

周总结【java项目】

项目进度: 学习了JavaFX,下载了sceneBuilder辅助工具构建窗口(目前建立了登陆,注册,忘记密码的界面),然后是学习了MySQL的连接,现在的项目是刚连上数据库; 下一步&…

多线程锁-synchronized字节码分析

从字节码角度分析synchronized实现 javap -c(v附加信息) ***.class 文件反编译 synchronized同步代码块 >>>实现使用的是monitorenter和monitorexit指令 synchronized普通同步方法 >>>调用指令将会检查方法的ACC_SYNCHRONIZED访问标志是否被设置&#xf…

【项目】5.1阻塞和非阻塞、同步和异步 5.2Unix、Linux上的五种IO模型

5.1阻塞和非阻塞、同步和异步(网络IO) 典型的一次IO的两个阶段是什么?数据就绪和数据读写 数据就绪:根据IO操作的就绪状态 阻塞非阻塞 数据读写:根据应用程序和内核的交互方式 同步异步 陈硕:在处理IO的…

华为云API自然语言处理的魅力—AI情感分析、文本分析

云服务、API、SDK,调试,查看,我都行 阅读短文您可以学习到:人工智能AI自言语言的情感分析、文本分词、文本翻译 1 IntelliJ IDEA 之API插件介绍 API插件支持 VS Code IDE、IntelliJ IDEA等平台、以及华为云自研 CodeArts IDE&a…

Mac os 点击桌面 出现黑边框 解决

1、桌面黑框效果 2、解决:设置为 仅在台前调度中

img标签src动态绑定资源失败问题

img标签src动态绑定资源失败问题 需要采用require的方式进行 在 Vue 中,require 是一个通用的模块加载函数,用于在运行时(客户端或服务器端)引入模块。它通常用于加载 JavaScript 文件、JSON 数据、静态资源等。 组件使用&#xf…

6.01 定时任务,关闭超时订单

步骤1:创建定时任务类 import com.imooc.service.OrderService; import com.imooc.utils.DateUtil; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.scheduling.annotation.Scheduled; import org.springframework.s…

mysql在Ubuntu中新增用户配置

打开终端(Terminal)。 使用超级用户权限登录到 MySQL 服务器。如果您知道MySQL的root用户密码,可以运行以下命令并输入密码: sudo mysql -u root -p 如果您没有设置MySQL root密码,可以直接使用以下命令登录&#xff…

读书笔记--未来简史关键金句和阅读感悟

借着国庆假期,终于有时间研读了尤瓦尔.赫拉利的《未来简史》,作者的写作方式、文笔、观察视角都是我喜欢的类型,作者从古到今,谈到了上帝、神、宗教、科技、生物、智人到未来的超人智神(数据主义)&#xff…

Elasticsearch:时间点 API

Elasticsearch:时间点 API-CSDN博客 在今天的文章中,我将着重介绍 Point in time API。在接下来的文章中,我将介绍如何运用 PIT 来对搜索结果进行分页。这也是被推荐使用的方法。 Point in time API 默认情况下,搜索请求针对目标…

水波纹文字效果动画

效果展示 CSS 知识点 text-shadow 属性绘制立体文字clip-path 属性来绘制水波纹 工具网站 CSS clip-path maker 效果编辑器 页面整体结构实现 使用多个 H2 标签来实现水波纹的效果实现&#xff0c;然后使用clip-path结合动画属性一起来进行波浪的起伏动画实现。 <div …

Android 使用 registerForActivityResult() 打开系统相册或相机获取图像

一、简介 当使用了 AndroidX 后&#xff0c;发现 startActivityForResult() 标记为过时了&#xff0c;而是推荐我们使用 registerForActivityResult() 函数。 registerForActivityResult() 函数是 Android 中用于启动 Activity 结果回调的新方式。这个函数的目的是简化在 Act…

CSS基础语法之盒子模型

目录 一、 选择器 1.1 结构伪类选择器 1.1.1基本使用 1.1.2 :nth-child(公式) 1.2 伪元素选择器 二、 PxCook 三、盒子模型 3.1 盒子模型-组成 3.2 边框线 3.2.1四个方向 3.2.2 单方向边框线 3.3 内边距 3.4 尺寸计算 3.5 外边距+版心居中 3.6 清除默认样式 3.7…

11.3 读图举例

一、低频功率放大电路 图11.3.1所示为实用低频功率放大电路&#xff0c;最大输出功率为 7 W 7\,\textrm W 7W。其中 A \textrm A A 的型号为 LF356N&#xff0c; T 1 T_1 T1​ 和 T 3 T_3 T3​ 的型号为 2SC1815&#xff0c; T 4 T_4 T4​ 的型号为 2SD525&#xff0c; T 2…