Загадочные явления на SBx908 AW 5.3.2

Все об операционной системе следующего поколения, разработанной Allied Telesis

Модератор: Allied Telesis Russia

Загадочные явления на SBx908 AW 5.3.2

Сообщение P0werM1nd » 30 сен 2009, 13:54

Добрый день

Вчера сконфигурил эту железочку под тривиальные задачи.
Сегодня ночью делали перекоммутацию на новую схему с х908.
Перекоммутация завершилась но когда я попытался зайти по телнету на х908 то попытка завершилась неудачей.

Спускаюсь на узел а там картина маслом - на х908 не горит ни один линк, подключение по консольному проводу не дало никаких результатов.

К сожалению логов не сохранилось но при возвращении старой схемы и запуска х908 на холостую выдавалось вот что

после стандартного
Код: Выделить всё
Bootloader 1.0.9 loaded
Press <Ctrl+B> for the Boot Menu

Reading filesystem...
Loading flash:r1-5.3.2-0.2.rel...
Verifying release... OK
Booting...
Starting base/first...                                  [  OK  ]

           ______________   ____
        /\ \            / /______\
      /   \ \_      __/ /| ______ |
    /      \ |     |  /  | ______ |
  /         \ \   / /     \ ____ /
/______/\____\ \/ /____________/

Allied Telesis Inc.
AlliedWare Plus (TM) v5.3.2
Original release filename: r1-5.3.2-0.2.rel
Built: Thu Aug 27 14:31:34 NZST 2009 by: maker@awpmaker07-dl

Mounting virtual filesystems...                         [  OK  ]
Mounting static filesystems...                          [  OK  ]
Mounting flash...                                       [  OK  ]
Checking NVS filesystem...                              [  OK  ]
Mounting NVS filesystem...                              [  OK  ]
Starting base/dbus...                                   [  OK  ]
Starting base/syslog...                                 [  OK  ]
Starting base/loopback...                               [  OK  ]
Starting base/sysctl...                                 [  OK  ]
Starting base/appmond...                                [  OK  ]
Starting base/portmapper...                             [  OK  ]
Starting base/cron...                                   [  OK  ]
Starting hardware/openhpi...                            [  OK  ]
Starting hardware/timeout...                            [  OK  ]
Starting base/autofs...                                 [  OK  ]
Starting base/inet...                                   [  OK  ]
Starting base/modules...                                [  OK  ]
Received event baseboard.found
Received event hardware.done
Starting network/startup...                             [  OK  ]
Starting hardware/openhpilog...                         [  OK  ]
Starting network/trigger...                             [  OK  ]
Starting network/election.timeout...                    [  OK  ]
Starting network/stackd...                              [  OK  ]
Received event network.enabled

Initializing HA processes:
exfx, hostd, openhpid, auth, bgpd, cntrd, epsr
hsl, imi, irdpd, lacp, lldpd, loopprot, mstp
nsm, ospfd, pdmd, pimd, ripd, ripngd, rmon
vrrpd

Received event network.initialized
09:39:24 awplus appmond[984]: Process 'exfx' (pid 1421) failed healthchecks and is being terminated
09:39:25 awplus-1 VCS[1169]: No neighbouring members found, Unit may be in a standalone configuration
09:39:25 awplus-1 VCS[1169]: Startup speed can be improved by adding 'no stack 1 enable' to configuration
09:39:25 awplus-1 VCS[1169]: Member 1 (0000.cd28.52bb) has become the Active Master
Received event vcs.elected-master


вот такая странность
Код: Выделить всё
Assigning Active Workload to HA processes:
cp: /sys/class/boardinfo/boardinfo09/device/macaddress: No such file or directory

Bootup failed, r
Do you wish to cancel the reboot? (y) :
09:39:40 awplus openais: Waiting for debug snapshot file sync.
openais: Completed debug snapshot file sync.
09:40:30 awplus openais: Completed debug snapshot file sync.

Kernel panic - not syncing: Aiee, killing interrupt handler!
Rebooting in 5 seconds..


После ребута - тоже самое. И так 2 раза.

Экспериментальным путем пытаюсь вычислить где проблема. Вытыкаю все 8 модулей - проблемы нет
Втыкаю 4 из 8 модулей - проблемы нет
Втыкаю еще 2 модуля - проблемы нет
Втыкаю последние 2 (т.е. возвращаю всё на исходное состояние) - ... проблема кудато исчезла.

Вопрос - что это за сообщение???

Код: Выделить всё
Assigning Active Workload to HA processes:
cp: /sys/class/boardinfo/boardinfo09/device/macaddress: No such file or directory

Bootup failed, r
Do you wish to cancel the reboot? (y) :
09:39:40 awplus openais: Waiting for debug snapshot file sync.
openais: Completed debug snapshot file sync.
09:40:30 awplus openais: Completed debug snapshot file sync.

Kernel panic - not syncing: Aiee, killing interrupt handler!
Rebooting in 5 seconds..


Почему проблема имеет "плавающий" характер?

Как её прогнозировать и предотвращать?

Какие комментарии можете дать? ибо на сегодняшней перекоммутации потеряли достаточно абонентского времени, т.к. у нас была возможность бэкапа на старую схему то мы ею воспользовались но такой возможности после запуска в эксплуатацию х908 может не оказаться.
P0werM1nd
 
Сообщения: 18
Зарегистрирован: 16 сен 2009, 14:10

Сообщение P0werM1nd » 30 сен 2009, 13:58

если интересно то могу прислать появившиеся во флеше файлики
491442 -rw- Sep 30 2009 09:30:11 imish-r1-5.3.2-0.2-1254302861-7048.tgz
260933 -rw- Sep 30 2009 08:40:06 hsl-r1-5.3.2-0.2-1254299973-1181.tgz
1338 -rw- Sep 30 2009 04:00:46 kernel-r1-5.3.2-0.2-1254283246.core.txt
791 -rw- Sep 30 2009 03:43:40 kernel-r1-5.3.2-0.2-1254282220.core.txt

Там же были дампы *.tgz но они были нечаянно удалены
P0werM1nd
 
Сообщения: 18
Зарегистрирован: 16 сен 2009, 14:10

Сообщение Ginodman Mikhail » 30 сен 2009, 15:08

присылайте дампы, плюс вывод sh tech на support_ru@alliedtelesis.com. в самих XEM ничего не было вставлено при проверке?
Ginodman Mikhail
Site Admin
 
Сообщения: 2538
Зарегистрирован: 29 янв 2008, 14:32
Откуда: AlliedTelesis Moscow

Сообщение P0werM1nd » 01 окт 2009, 08:29

Добрый день

Разобрался с проблемой самостоятельно, но хотелось бы кое что уточнить

Когда я загружал х908 без модулей (и она благополучно загружалась)
то интуитивноя догадывался что проблема в файловой системе потому что не делалось CP, не скидывался дамп, не делался sync

Посмотрев вот это
Код: Выделить всё
663 552,00   -rw-   Sep   30   2009   9:51:25   exfx-r1-5.3.2-0.2-1254304214-1391.tgz
48 431,00   -rw-   Sep   30   2009   9:50:24   debug-boot-failed-r1-5.3.2-0.2-1254304215.tgz
1 896,00   -rw-   Sep   30   2009   9:50:24   exception.log
50 627,00   -rw-   Sep   30   2009   9:44:41   debug-boot-failed-r1-5.3.2-0.2-1254303873.tgz
60 922,00   -rw-   Sep   30   2009   9:39:40   debug-boot-failed-r1-5.3.2-0.2-1254303566.tgz
491 442,00   -rw-   Sep   30   2009   9:30:11   imish-r1-5.3.2-0.2-1254302861-7048.tgz
260 933,00   -rw-   Sep   30   2009   8:40:06   hsl-r1-5.3.2-0.2-1254299973-1181.tgz
62 684,00   -rw-   Sep   30   2009   8:39:51   debug-boot-failed-r1-5.3.2-0.2-1254299972.tgz
60 034,00   -rw-   Sep   30   2009   4:31:04   debug-boot-failed-r1-5.3.2-0.2-1254285049.tgz
1 338,00   -rw-   Sep   30   2009   4:00:46   kernel-r1-5.3.2-0.2-1254283246.core.txt
48 469,00   -rw-   Sep   30   2009   3:56:04   debug-boot-failed-r1-5.3.2-0.2-1254282956.tgz
48 379,00   -rw-   Sep   30   2009   3:51:39   debug-boot-failed-r1-5.3.2-0.2-1254282691.tgz
791,00   -rw-   Sep   30   2009   3:43:40   kernel-r1-5.3.2-0.2-1254282220.core.txt
10 633,00   -rw-   Sep   29   2009   13:13:59   default.cfg
3 507 901,00   -rw-   Sep   22   2009   12:15:32   gui_531_31.jar
74,00   -rw-   Sep   21   2009   8:30:47   d1up.scp
77,00   -rw-   Sep   21   2009   8:29:48   d1down.scp
14 637 411,00   -rw-   Sep   18   2009   8:23:06   r1-5.3.2-0.2.rel
46 932,00   -rw-   Jan   27   2009   10:00:13   new908.cfg
46 456,00   -rw-   Dec   29   2008   8:02:09   sdta
518 387,00   -rw-   Oct   30   2008   4:20:31   tech-support.txt.gz
13 283 624,00   -rw-   Oct   13   2008   20:42:15   r1-5.2.2-0.3.rel
12 398 250,00   -rw-   May   28   2008   7:50:33   r1-5.2.1-0.5.rel
57,00   -rw-   Apr   23   2008   12:52:10   gc_thresh3.sh
12 599 020,00   -rw-   Apr   14   2008   9:18:44   r1-5.2.1-0.4.rel      

В сумме 58 848 320,00 - т.е. почти полностью забитая flash (64mb)

Я удалил несколько дампов и прошивок и начал экспериментировать
включением/выключением модулей. Но эксперименты естественно удались потому что места на флешке стало предостаточно.

Собственно проблема решена, объяснение найдено, благодарю за внимание.

Если я прав то остался вопрос - почему воткнутые модули съедают место на флешке и сколько?
P0werM1nd
 
Сообщения: 18
Зарегистрирован: 16 сен 2009, 14:10

Сообщение Ginodman Mikhail » 01 окт 2009, 09:32

без присланной информации я не могу сказать правы ли вы. если повторится, то пришлите то, что просил выше
Ginodman Mikhail
Site Admin
 
Сообщения: 2538
Зарегистрирован: 29 янв 2008, 14:32
Откуда: AlliedTelesis Moscow

Сообщение P0werM1nd » 01 окт 2009, 10:45

выслал
P0werM1nd
 
Сообщения: 18
Зарегистрирован: 16 сен 2009, 14:10

Сообщение P0werM1nd » 01 окт 2009, 10:47

Ginodman Mikhail писал(а):присылайте дампы, плюс вывод sh tech на support_ru@alliedtelesis.com. в самих XEM ничего не было вставлено при проверке?

в XEM на момент проверки ничего вставлено не было
P0werM1nd
 
Сообщения: 18
Зарегистрирован: 16 сен 2009, 14:10

Сообщение Ginodman Mikhail » 09 окт 2009, 12:19

есть подозрение на flash.
можете все удалить, затем выполнить тест flash?

Bootloader 1.0.9 loaded
Press <Ctrl+B> for the Boot Menu

Bootup Stage 1 Diagnostics Menu:

0. Restart
1. Full RAM test
2. Quick RAM test
3. Battery backed RAM (NVS) test
4. Bootloader ROM checksum test
----------------------------------
7. Bootup stage 2 diagnostics menu
----------------------------------
8. Quit to U-Boot shell
9. Quit and continue booting

выбирайте 7

Entering stage 2...

Bootup Stage 2 Diagnostics Menu:

0. Restart
2. Test FLASH (Filesystem only)
4. Erase FLASH (Filesystem only)
5. Card slot test
----------------------------------
8. Quit to U-Boot shell
9. Quit and continue booting
---

выполните 4, затем 2

затем все восстановите
нажав ctrl+d в месте

Bootloader 1.0.9 loaded
Press <Ctrl+B> for the Boot Menu

и выполнив загрузку по пункту 1 с tftp
Boot Menu:

------------------------------------------------------
B. Boot backup software
------------------------------------------------------
0. Restart
1. Perform one-off boot from alternate source
2. Change the default boot source (for advanced users)
3. Update Bootloader
4. Adjust the console baud rate
5. Special boot options
6. System information
7. Restore Bootloader factory settings
------------------------------------------------------
9. Quit and continue booting

Enter selection ==> 1
Ginodman Mikhail
Site Admin
 
Сообщения: 2538
Зарегистрирован: 29 янв 2008, 14:32
Откуда: AlliedTelesis Moscow


Вернуться в Многозадачная OC AlliedWare Plus

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3

cron