iş, hobi, teknik ve daha fazlası...


VIO IV90168 Hatası: Data Storage Interrupt, Processor


Bir kaç gün önce enteresan bir sorunla karşılaştım.

Yedekli yapıda kurduğum iki adet IBM Power 8 fiziksel sunucudaki AIX LPAR'lara I/O paylaşımı yapan ve her fiziksel sunucuda yedekli olarak bulunan Virtual I/O sunuculardan (VIOS) ikisi aynı anda yeniden başladı.

Aynı fiziksel IBM Power 8 sunucudaki VIOS'ın aynı anda kapanması ciddi bir soruna işaret olduğu için ve ona bağlı tüm AIX LPAR'ların da kapanmasına neden olacak kadar da kritik olduğu için hemen incelemeye başladım. VIOS'a bağlandığımda "errpt" çıktısında aşağıdaki hatayı gördüm. Hemen ardından da IBM'e Severity 1 olarak arıza kaydı açtım.


    LABEL:          DSI_PROC
    IDENTIFIER:     9D035E4D

    Date/Time:       Thu Mar  3 17:12:38 2017
    Sequence Number: 132
    Machine Id:      00FA86B24C00
    Node Id:         fecisvio11p
    Class:           S
    Type:            PERM
    WPAR:            Global
    Resource Name:   SYSVMM

    Description
    DATA STORAGE INTERRUPT, PROCESSOR

    Probable Causes
    SOFTWARE PROGRAM

    Failure Causes
    SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

    Detail Data
    DATA STORAGE INTERRUPT STATUS REGISTER
    0000 0000 0A00 0000
    SEGMENT REGISTER, SEGREG
    0000 7FFF FFFF D080
    DATA STORAGE INTERRUPT ADDRESS REGISTER
    0000 0000 0000 0008
    EXVAL
    0000 0000 0000 0086

Bir gün sonra diğer fiziksel IBM Power 8 sunucudaki yedekli VIOS'lardan bir tanesi aynı hatayı vererek, yeniden başladı. Bu sefer diğer VIOS ayakta olduğu için AIX LPAR'larda herhangi bir kesinti yaşanmadı.

Fakat iki ayrı fiziksel IBM Power sunucuda birbirinden bağımsız üç VIO sunucusunun aynı hatayı vererek yeniden başlamasına neden olan neydi? Tek ortak yönleri aynı sürümde olmalarıydı: VIOS 2.4.4.20.

İki gün sonra IBM'in Level 2 destek ekibinden sorunun kaynağının ethernet sanallaştırmasını sağlayan SEA (Shared Ethernet Adapter) kodundaki memory buffer hatasından kaynaklandığını öğrendim. Bu hataya göre SEA'nın memory buffer'ının PowerVM Hypervisor'ına aktarılırken, mbuf flag'ının temizlenmemesi neden oluyordu.

Bana önerdikleri efix'i VIOS'lara geçtim. O zamandan beridir de VIOS'larım sorunsuz çalışıyorlar.

Sorununun 2.2.0 ve üzeri VIOS'larda olabileceğini düşünüyorum. Ben belirttiğim gibi 2.4.4.20 kullanıyorum. Siz de ortamlarınızda VIOS 2.2.0 veya üzeri kullanıyorsanız, sorun yaşamadan önce bu efix'i geçmenizi öneririm. Aşağıdaki adreste sorunla ilgili ayrıntılı bilgiyi görebilirsiniz.

http://www-01.ibm.com/support/docview.wss?uid=isg1IV90168

Bu sorunu yaşamamak için efix dosyasını buradan indirebilirsiniz.

Hepinize sorunsuz bir gün diliyorum.

person_pin