aix linux运维,运维老司机分享的八个AIX日常运维经验及案例

5e9437dec1b5eb35114fac339bb0eb8e.png

原文来自微信公众号:AIX专家俱乐部

【经验分享】在AIX启动时,打开debug模式

经常遇到aix无法启动,但又不知道pending在哪,因此打开启动过程的debug模式,对于诊断问题有很大的帮帮助。下面是打开debug的方法:

打开启动debug先进入微码模式(启动界面中输入8)

boot -s trap

进入kdb

dbgopt

选择要debug的内容

重新进入kdb

输入g

分享者:崔增顺

【经验分享】odm库修复方法

cc522026d5760661f9818e51ef30cc0a.png

分享者:崔增顺

【经验分享】如何收集filemon数据

filemon -O all -o filemon.out;sleep 30;trcstop

语法:

filemon [ -d ] [ -i Trace_File -nGennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ]

#filemon-o fm.out -O all ; sleep 30 ; trcstop

输出结果保存在fm.out 中。输出字段说明如下:

最活跃的文件

 #MBs 此文件在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。

 #opns 在测量周期内的文件的打开次数。

 #rds 文件读取调用的次数

 #wrs 文件写入调用的次数

 file 文件名称(文件路径全称在详细报告中)。

 volume:inode 文件驻留的逻辑卷和在相连文件系统总的 i-node 数目。此字段可以被用来把文件和在详细的 VM 段报告中显示的其相应的永久段关联起来。此字段对在执行过程中创建和删除的临时文件可以为空。

最活跃的段

 #MBs 此段在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。

 #rpgs 从磁盘读入段中大小为 4-KB 的页面数

 #wpgs 从段中写入磁盘大小为 4-KB 的页面数(page out)

 #segid 内存段的 VMM 标识

 segtype段的类型:工作段、永久段(本地文件)、客户机段(远程文件)、页表段、系统段或者包含文件系统数据的指定永久段。

 volume:inode 对永久段来说,包含相关文件的逻辑卷名称和文件的 i-node 数目。此字段可以被用来把段和在详细的文件状态报告中显示的其相应的文件关联起来。对非永久段来说,此字段为空。

最活跃的逻辑卷

 util 逻辑卷使用率。

 #rblk 从逻辑卷读取的大小为 512 字节的块数。

 #wblk 写入逻辑卷大小为 512 字节的块数。

 KB/s 每秒钟平均传送速率,单位 KB。

 volume 逻辑卷名称。

 description 文件系统安装点或是逻辑卷类型(paging, jfslog, boot,or sysdump)。例如,逻辑卷 /dev/hd2 是/usr类型;/dev/hd6 是 paging 类型以及 /dev/hd8 是 jfslog 类型。有时也可能出现被压缩的这个字眼。这意味着所有的数据在被写入磁盘前都会以 Lempel-Zev(LZ)压缩技术自动压缩,在从磁盘读取时则自动解压缩。

最活跃的物理卷

 util 物理卷使用率。

注:逻辑卷 I/O 请求在物理卷 I/O 请求前后启动。总的逻辑卷使用率将会看起来比总的物理卷使用率高。使用率用百分比表示,0.10 是指 10% 的物理卷在测量时间间隔内繁忙。

 #rblk 从物理卷读取的大小为 512 字节的块数。

 #wblk 写入物理卷大小为 512 字节的块数。

 KB/s 每秒钟平均传送速率,单位 KB。

volume 物理卷名称。

 description 有关物理卷类型的简单描述,例如, SCSI 多媒体 CD-ROM 驱动器或 16位SCSI 磁盘驱动器。

文件系统的安装点(mount point)及文件的i节点(inode)可与命令ncheck一起使用,来找出相对应的文件。

分享者:崔增顺 张文正

【案例分享】/dev/null 2>&1 文件过大导致根目录爆满

在日常检查维护过程中,发现小机分区/目录89%,90%,

du -axg / |sort -rn|head

查找出/根目录下最大的10 个文件,发现 ‘/dev/null 2>&1’文件非常大,占比达60%,而且rootvg所剩余的空间不足,无法进行扩容。在IBM官网查询手册以及证实后,发现此文件不停增大为AIX6.1的系统BUG。在观察了近1个月后,在和童确认。在dfkdr分区上进行尝试删除。之后,,进行删除操作。根目录恢复正常。

http://www-01.ibm.com/support/docview.wss?uid=nas74d33539b559cc0308625792900533a8f

Description

The /var/opt/tivoli/ep/rusntime/nonstop/bin/cas_src.sh script writes a file “/dev/null 2>&1” which might fill up the / filesystem.

This happens with agents that have the following cas.agent fileset version:

cas.agent 1.4.2.32

Common Agent Services Agent

Work-around and fix notes are detailed below.

判别是否存在BUG

lslpp -L cas.agent

可看到Level为1.4.2.32,C F

BUG脚本为

cat /var/opt/tivoli/ep/runtime/nonstop/bin/cas_src.sh

else

CAS_SRC_LOG=”/dev/null 2>&1”

fi

Bug 2 : After installing TL7 and at system reboot, the Director agent is automatically enabled.

处理方式:

1.disable cas_agent 操作命令: stopsrc –s cas_agent

2.disable the cas_agent entry in /etc/inittab 操作命令:chitab “cas_agent:2off:/usr/bin/startsrc –s cas_agent >/dev/null 2>&1”

3.在/dev下执行rm nul*1

分享者:ACDante

【案例分享】多CEC柜 9117-570更换FSP后报无法开机,代码报B1551380

原因:没有按HMC流程更换FSP,换上去的FSP的”processing unit identifier”记录的是B2,B2设置只能支持单柜,不支持多CEC柜。

解决:powered off状态时,进入ASM把”processing unit identifier”改为B3。

Note: This feature is available only when the system is powered off. This operation resets the service processor.

To change the processing unit identifier, do the following:

1.On the ASMI Welcome pane, specify your user ID and password, and click Log In.

2.In the navigation area, expand System Configuration.

3.Select Processing Unit Identifier.

4.Enter the desired information into the 2-character text area. Supported processing unit identifiers are shown in the following table:

04d2fd05f07d1168947c92081bd1d917.png

5.Note: Processing unit IDs are not applicable for IntelliStation® POWER® 185, 7037-A50, and the 7031-D24 and 7031-T24enclosure models.

6.Click Save settings to complete the operation.

分享者:姜恒

【案例分享】AIX6100-06-06系统bug引起down机

某机器操作系统版本6100-06-06,系统down机,生成dump文件。

Problem:

System crash with following stack

CRASH INFORMATION:

CPU 3 CSA F00000002FF47600 at time of crash, error code

for

LEDs: 30000000

pvthread+02BD00 STACK:

[00009500].simple_lock+000000 ()

[00450E24]netinfo_unixdomnlist+000824 (??, ??, ??, ??,

??, ??)

[0451214C]netinfo+00006C (??, ??, ??, ??, ??, ??)

[004504DC]netinfo+0000FC (??, ??, ??, ??)

[00003850]ovlya_addr_sc_flih_main+000130 ()

[kdb_get_virtual_memory] no real storage @

FFFFFFFFFFFEF20

[100002640]0000000100002640 ()

[kdb_read_mem] no real storage @ FFFFFFFFFFF5E30

bug原因

File lock is taken before checking whether the file type is

socket.

该故障因netstat -f unix 命令引起系统 crash, 是iBM bug 引起

建议单独提升bos.mp64包补丁包或者整体升级到6100-06-12-1339(SP12)

官网解释:

IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06

http://www-01.ibm.com/support/docview.wss?uid=isg1IV09793

File lock is taken before checking whether the file type is

socket.

分享者:qb306

【案例分享】一次HACMP的回车

记得印象很深刻的一次,当时并没有陪过HACMP,但维护的环境中有一台出报的系统找到了我。当时是打电话联系当时做这套系统的技术支持。逐步检查HACMP的配置,检查后。本来应该推出,但是当时手抖。习惯性的敲了回车。什么配置都没有改动。但是却报了错说让我重启生效,那时候才知道HACMP无论配置有没有改动。敲了回车就认为是修改了配置。要重启。

分享者:pysx0503

【案例分享】某企业HACMP软件,在网络交换机变更是引起down机

某企业HA cluster log, IP switch down时引起双节点halt,系统版本7100-03-03,HA版本6.1sp13

Error description

In HACMP 6 with rsct.core.utils 3.1.4.9 or higher, if all

IP networks are lost and at least one non-IP network is

functioning, the Group Services subsystem will core dump when

trying to send packets to be routed through Topology Services

(across the non-IP connection). This will cause a node halt.

Customers with PowerHA 7, or HACMP 6 customers with no non-IP

networks (such as rs232 or disk) are not in danger. Also this

will not happen if only one node is still running, since there

will be no other cluster members to send messages to.

日志如下

Nov 21 01:35:46 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.mbpHK/ONs/o.Ama/……………….:::Reference ID:

:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i

nterface name en2 Adapter offset 1 Adapter IP address 192.200.192.52

Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv1 192.200.192.52

Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv1 192.200.192.52 0

Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv2 192.200.192.53

Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv2 192.200.192.53 0

Nov 21 01:40:34 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.GgpHK/DLG.o.Ama/……………….:::Reference ID:

:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i

nterface name en0 Adapter offset 0 Adapter IP address 102.200.192.52

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: Called, state=ST_UNSTABLE, provider token 1

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GsToken 2, AdapterToken 3, rm_GsToken 1

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GRPSVCS announcment code=512; exiting

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 CHECK FOR FAILURE OF RSCT SUBSYSTEMS (topsvcs or grpsvcs)

Nov 21 01:40:36 masterserv1 daemon:err|error haemd[15204586]: LPP=PSSP,Fn=emd_gsi.c,SID=1.4.1.37,L#=1395, haemd: 2521-032 Cannot d

ispatch group services (1).

Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Unexpected termination of clstrmgrES.

Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Halting system immediately!!!

原因是补丁IV55293: HAGSD CORE DUMP WHEN IP NETWORKS LOST, 需要升级rsct文件集。

官网解释:

http://www-01.ibm.com/support/docview.wss?uid=isg1IV55293

分享者:qb306

本文链接:http://www.yunweipai.com/11845.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/433197.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php 区块链算法_PoW/BFT等5种主流区块链共识算法的开源代码实现

共识算法是实现自主产权区块链的必不可少的关键环节,本文列出社区中相对成熟的区块链共识算法开源实现,包括BFT共识、Raft共识、Paxos共识、PoW共识等,可供希望开发自主产权区块链的团队参考学习。相关推荐:区块链开发系列教程1、…

[每日一题] 11gOCP 1z0-052 :2013-09-1 RMAN-- repair failure........................................A20...

转载请注明出处:http://blog.csdn.net/guoyjoe/article/details/10859315 正确答案:D 一、模拟上题的错误: 1、删除4号文件 [oraclemydb ~]$ cd /u01/app/oracle/oradata/ocm/ [oraclemydb ocm]$ rm -rf users01.dbf2、…

kafka集群 kubernetes_为什么 Kubernetes 如此受欢迎?

点击上方蓝色“火丁笔记”关注我们,设个星标,每天学习全栈知识在撰写本文时,Kubernetes 已有 6 年历史[1]了,在过去的两年中,它的流行度不断提高,一直是最受欢迎的平台之一[2]。今年,它成为最受…

android 动画 返回,Android“菜单图标变返回”动画

此例用到SVG动画,其中涉及三个XML文件,分别为:Vector矢量图,objectAnimator动画,以及一个animated-vector文件将前两个文件联合起来。1.在drawable文件夹下新建vector文件描述矢量图android:height"200dp"an…

全志A10 Bootload加载过程分析

A10的启动过程大概可分为5步:BootRom,SPL,Uboot,Kernel,RootFileSystem。本文只关注镜像的加载过程,分析RootRom->SPL->Uboot的启动流程。系统上电后,ARM处理器在复位时从地址0x000000开始…

android老 电池,为什么安卓手机不会因为电池的老化而降频呢?

前段时间,苹果手机的降频事件也是闹的沸沸扬扬,库克也为此进行了公开道歉,各位的吃瓜群众也是看的不亦乐乎,于是,也有不少的小伙伴会问:“为什么安卓手机不会因为电池的老化而降频?”今天&#…

android 5.0.1 libdvm.so,Android逆向进阶—— 脱壳的奥义(基ART模式下的dump)

本文作者:i春秋作家HAI_ZHU000 前言市面上的资料大多都是基于Dalvik模式的dump,所以这此准备搞一个ART模式下的dump。Dalvik模式是Android 4.4及其以下采用的模式,之后到了Android 5.0 之后就是ART模式,关于这两个模式的详细内容&…

android+3.0新加的动画,Android动画片

使用Android两年多了,工作中的动画也动能应付,自认为Android中的动画自己也能用个八九不离十,结果我在学习[Periscope点赞效果](http://www.jianshu.com/p/03fdcfd3ae9c)的时候发现动画的这些高级功能我从没用过、也没见过,静下来…

在线打开html文件,html是什么文件?html文件怎么打开?

html是什么?html即超文本标记语言,现在大多网页都是html的格式。而所谓的html文件是一种超文本文件,其中超文本可以是图片或音乐等非文字元素,使用很广泛。但是很多用户都不太明白html是什么文件?也不清楚html文件要如…

gsoap使用心得! (win32)

最近换了个工作环境,现在在大望路这边上班,呵,刚上班接到的任务就是熟悉gsoap!废话少说,现在开始gSoap学习!gSOAP是一个夸平台的,用于开发Web Service服务端和客户端的工具,在Window…

html怎么置顶导航栏,css怎么实现滚动页面导航栏固定在顶部

css怎么实现滚动页面导航栏固定在顶部(吸顶效果)功能:当网页向下滚动时,导航栏一直在固定在顶部一、css设置这里主要用到css中position中的relative与fixed;其中relative是生成相对定位的元素,相对于其正常位置进行定位。fixed是生…

numpy读取csv_Numpy——IO操作与数据处理

一、问题?大多数数据并不是我们自己构造的,存在文件当中。我们需要工具去获取,但是Numpy其实并不适合去读取处理数据,这里我们了解相关API,以及Numpy不方便的地方即可。二、Numpy读取genfromtxt(fname[, dtype, commen…

android 中radiogroup滑动切换,巧妙实现缺角radiogroup控制多个fragment切换和滑动

在android开发中,用一个radiogroup控制多个fragment切换是十分常见的需求。但是如果fragment是一个ListView,如何保证滑动的时候通过缺角可以看到下面的listview是一个难点。直接上图:(1)完美效果(2)较差效果另外,不妨假设缺角的高度是5dp&am…

荣耀智慧屏评测 鸿蒙OS加持,荣耀智慧屏评测:鸿蒙OS加持 面向未来的超智能电视...

原标题:荣耀智慧屏评测:鸿蒙OS加持 面向未来的超智能电视 来源:TechWeb.com.cn当华为选择在今年公布鸿蒙OS系统后,很多人都在期待它的庐山真面目。无论是以后非常时期不再受制于人,或是循序渐进将系统过渡给自家设备&a…

2021河南固高高考成绩查询,河南信阳最好的4所高中,前三所学霸如云,看看有没有你的母校?...

河南省信阳市处于豫之南,鄂之北。南边是连绵的群山,北边是广袤的平原。千里淮河,曲折盘旋,它的源头便是这里。都说信阳是一个神奇的地方,一点儿也不为过,狮河穿城而过,周围群山环抱,…

磁盘的磁道(Track)

写这篇文章,主要是为了解决长久以来的一个困惑。由此也可以看出偶以前确实不太聪明。 哈哈(虽然现在仍然还是) 以前见到的很多磁道的示意图都是这样的:注意标线的位置,“指向一条线”,我当时的理解好像是这条线就是磁道。还有的解…

centos 卸载_CentOS安装mysql

安装mysql第一步,查看是否安装:rpm -qa| grep mysql-server没有我们就开始安装,点击 这里,获取下载页面,按照图示选择合适的版本:第二步,进入/usr/local/soft/目录,在里面执行wget 下…

细数改善WPF应用程序性能的10大方法

WPF(Windows Presentation Foundation)应用程序在没有图形加速设备的机器上运行速度很慢是个公开的秘密,给用户的感觉是它太吃资源了,WPF程序的性能和硬件确实有很大的关系,越高档的机器性能越有优势。 程序性能改善不是一蹴而就的&#xff…

javaweb宿舍管理系统源码_宿舍信息管理系统展示

宿舍信息管理系统今天整理学习笔记的时候发现了自己当时学SSM框架的时候写了一个简单的Javaweb宿舍信息管理系统,虽然现在看来写的不是很好,但今日写此文章也算是纪念自己的第一个SSM小项目了,话不多说,直接开始。项目简介&#x…

Qt UDP的初步使用

为了使用Qt自带的Socket进行网络编程,先必须熟悉Socket编程的原理,另外还需对Qt一些基本类的操作比较熟悉。由于刚接触不久,所以还是以看人家的代码来学习。这次主要是学Qt下UDP的编程,且熟悉一些Qt下代码的编写流程,所…