IBM aix+tsm崩塌抢修过程记录

山东鼎际信息技术有限公司

知识库 / Knowledge base

IBM aix+tsm崩塌抢修过程记录

来源: | 作者:advertising-100 | 发布时间: 2021-06-25 | 1069 次浏览 | 分享到:

系统异常不能登录，错误代码0555，文件系统损坏，6点找系统备份带，6-11点尝试各种恢复，1、通过磁带备份，HDISK0引导系统，hd2文件系统的超级块全都损坏，尝试磁带恢复系统，由于硬件

存在不稳定性，在磁带引导是出现不读磁带设备，识别不到硬盘情况，其中占用很多时间在等待启动识别重启操作，在7点钟左右就发现硬件的异常，IBM定配件，10点30，配件送到，更换主板、硬盘背板、磁带机背板，更换后设置system name,vpd信息等，这时在1点左右，准备两种方案，1.570新环境搭建，2，旧环境恢复，4点20左右旧环境开始恢复，大约要2个多小时

故障机修复后，通过光盘引导，以hdisk1导入，rootvg中逻辑卷信息都能看到，access rootvg and start shell before mount filesystem，rootvg可以激活，各文件系统超级块能够fixed是干净的，cd /tmp

创建临时目录tusr,mount /dev/hd2 /tmp/tusr,使用绝对路径执行/tmp/tusr/bin/ls报命令not found, df发现 /dev/hd2使用率1%，显然不对，没有数据量。然后通过磁带恢复，恢复很忙，大约3个小时，最终报错media surface error ,系统能启动，文件系统mount点都成了 /mnt/home /mnt/usr ......,

NAS数据导入数据库，5点30开始准备

凌晨20分钟备机570到现场

4点钟TSMserver搭建完成，数据库未回复

4点50 570备机上架，准备回复数据库数据

loopmount -i TSMCLI.iso -o "-V cdrfs -o ro" -m /isomount

手册恢复步骤

LED 551, 555, and 557 - Corrupted file system, corrupted JFS log, and so on.

1. Follow the procedure described in Section 3.3.3, “Accessing a system that will not

boot” on page 37, to access the rootvg before mounting any file systems (Option 2

on the Maintenance screen).

2. Verify and correct the file systems as follows:

fsck -y /dev/hd1

fsck -y /dev/hd2

fsck -y /dev/hd3

fsck -y /dev/hd4

fsck -y /dev/hd9var

3. Format the JFS log again by using the command:

/usr/sbin/logform /dev/hd8

4. Use lslv -m hd5 to find out the boot disk.

5. Recreate boot image by using the command:

bosboot -a -d /dev/hdiskn

Where n is the disk number of the disk containing boot logical volume.

恢复时的几张截图

下面截图是第一次用磁带机恢复系统，恢复启动时很慢，有时识别不到磁带机还有硬盘，下面截图应该是没有识别到磁带机。

当晚更换了主板、磁带机笼子背板、硬盘背板，通过磁带引导，通过hdisk0加载rootvg,报hd2的primary superblock 和secondary superblock都已经损坏，无法修复。更换主板、笼子、背板后，

通过磁带引导，access rootvg and start shell before mount filesystem，rootvg，hdisk1加载rootvg，报如下做图所示，rootvg可以varyon,很高兴，lg_dumplv 逻辑卷控制块lvcb损坏到时没影响，

通过access rootvg and start shell引导，进入下右图所示，不能启动shell

hdisk1加载时所有文件系统显示都是好的。在tmp目录下建新目录挂载点，mount /dev/hd2 /tmp/tusr,df显示tusr使用率为1%,显然不对，

最后恢复操作系统，如下右图所示，提示media surface error，恢复了3个小时左右，但是最后提示报错，恢复完成启动，df输出入下下左图

上边这个状态是不是能恢复好了，没有验证

M48调整，由于换了新的机器，新的HBA卡，WWWN换了，zone要做调整,所有有旧HBAwn的zone调整下即可

zoneshow找到之前HBA卡所在的zone

zoneshow|grep oldwn

aliasadd "tsmserv1","newwn"

aliasremove "rsmserv1","odlwn"

其实就是更新alias,有这个alias的zone就不需要zoneadd了，没有的需要zoneadd "zone","tsmserv1"

cfgsave

cfgenable

恢复数据库，报时间戳的错误，后来是升级一个TSM小版本，其实是重新安装了,6.2.2，然后通过修改一个参数，把最后一条报错屏蔽掉，(bug),数据库恢复成功。

恢复成功后启动TSM，会报若干信息错误，无非是之前的信息没有了，因为没有回滚db2日志，不影响备份

虚拟带库四个机械臂识别不到，通过在虚拟带库里边，取消机械臂-保存-然后选择，在服务端就识别到了，相当于对这个磁带机文件（设备）复位一下。

定义所有path

3584驱动用的是12.8.8,执行tapeutil没有这个命令，不知道为什么，新版本取消了？

library重新定义，volu要重新审计一遍，audit volu stg=ods_vpool，时间很长，不重新审计会影响到过期处理，迁移这些操作，对继续备份没有影响，library重新定义后,volume状态有很多变成了

private,需要update成scratch状态。

周六，下午1点到客户

有几个虚拟带库及物理带库的path定义不上，errpt报，unable to obtain reserving host information,errno ebusy

有被占用，lanfree path已经删除，然后再把lanfree节点的agent进程kill掉，把unknown状态的驱动器删除掉，物理带库的驱动器路径就可以定义了，看来是驱动器被什么给占用了.

但是虚拟带库的几个还是不行

errpt报错如下

然后重启虚拟带库，10.141.6.191 root/admin #menu reboot system

最后决定重启虚拟带库

客户虚拟带库IP 10.141.6.191

root/admin

#menu

重启操作系统。

重启虚拟带库后，定义path正常，至此所有path都正常了

很多节点都是missing状态，由于server从新安装了，密码更新了，虽然还是admin，客户端进程很多都停止了，有的还需要dsmc验证下密码。

完了做了些收尾工作，db2备份的转移，tsmdata的镜像，

tsm 中有ods ods2两个节点，对应IP都是2.5同一个，../../api/bin64/dsm.sys文件定义了两个节点，要分别启动，

../../api/bin64/dsm.opt中定义了

servername tsmserver

../../ba/bin/dsm.opt中定义了

servername tsmods

上一篇： IBM DS4000......

下一篇： DPLAR动态分区下......

地址：中国（山东）自由贸易试验区济南片区经十路7000号汉峪金谷人工智能大厦

鲁ICP备2021018946号