про золушку

Предположим у нас есть 3 дисковые стойки по 12 дисков. Стойки "тупые", а потому мы ставим  ASM и создаем группу с Normal Redundancy. Думаю, пока возражений нет ? Затем у нас ..неожиданно выключается диск. Это полная ерунда, поскольку у нас ASM и данные обязательно зазеркалированы..ну, так  скажем на каких-то еще дисках. Внимание опрос - какова вероятность потери данных при выходе из строя следующего диска ?

Внимательно читаем блог Alex Fatkulin, учитываем что в нашем случае коэффициент  не 8, а 10, получаем 10/24 = 41% ???  Какой идиот так строит? Один из примеров, вы можете найти здесь. Можно ли предъявлять претензии ? Нет, это документировано: По первой же попавшейся ссылке: Normal redundancy: "A loss of one ASM disk is tolerated".  Теперь о сумме, $300K за железо  +  $360K за специальное ПО + лицензии за Oracle Database + RAC .. могут в одну минуту превратиться в тыкву.   Enjoy !


14 комментариев:

Анонимный комментирует...

при выходе диска из строя там же ребаланс автоматом запустится, да если не дождавшись окончания ребаланса вывалится второй - тогда придется переключаться на стендбай )

кроме того, что-то упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек

Анонимный комментирует...

Красивые у Вас фото, Дмитрий. Да и тексты - тоже ничего )

Dmitry Volkov комментирует...

>при выходе диска из строя там же ребаланс автоматом запустится

подождав кол-во часов DISK_REPAIR_TIME (3,6 по умолчанию), нет ? и будет это делать с кол-вом потоков указанным в asm_power_limit (по умолчанию = 1) ?

>тогда придется переключаться на стендбай
теоретически верно, но что я не вижу где документировано что мне нужны сразу 2 зверюшки по $600K

>упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек

согласен..потому что на мой взгляд это не меняет вероятности печального исхода. Я не прав ?

Dmitry Volkov комментирует...

>Красивые у Вас фото
спасибо -)

Denis Sergeev комментирует...

Ну так и стандартные RAID предлагают тот же уровень защищенности. У большинства из них гарантируется fault tolerance только при выходе из строя одного диска. Выход из строя второго уже с большой вероятностью станет фатальным. ASM обещает то же самое, но в ней можно включить High и тогда защита должна быть от вылета 2 дисков.

Dmitry Volkov комментирует...

> стандартные RAID предлагают тот же уровень защищенности

Думаю что да, это верно, если смотреть с точки зрения концепции. Но на практике я видел что в массив ставят hot spare диски, да и еще не один. И они как мне кажется меняют ситуацию в пользу RAID.

>включить High
Так можно. Но тогда очень дорогая у нас получается золушка -)

Denis Sergeev комментирует...

hot spare призван снизить вероятность отказа при ребилде диска (ребилд начинается почти сразу, насколько я понимаю, если есть 2 винта - может читать хоть с двух, лишь бы писать успевал).

Золушка дорогая получается? Да как сказать... На 50% дороже. Не на 100, кстати.
Золушка и в сказке принцу обошлась недешево. Предмет обуви из хрусталя пришлось вернуть, да еще и жениться. :) Плюс поисково-разыскные мероприятия... В общем, накладных расходов было - караул...

Анонимный комментирует...

Spare диски тоже не моментом подцепляются - процесс занимает несколько часов.

Но огромный плюс аппаратных RAIDов в том, что они не ждут умирания дисков, а начинают их заменять на spare заранее после нескольких исправляемых ошибок.

ps всегда считал ASM - RAIDом для бедных, а оказывается и бедные не такие бедные ;)

Dmitry Volkov комментирует...

>процесс занимает несколько часов
конечно данные нужно скопировать, этого никто не отменял.

odenysenko комментирует...

- отключить DISK_REPAIR_TIME
- уменьшить количество партнеров - у Алекса показано как это сделать
благо хоть возможности то оставили...

с "рейдом для бедных" желательно вообще не связываться,
благо стоимость аппаратных рейд-контроллеров
достаточно низка по отношению к стоимости лицензий Оракл ;)

Dmitry Volkov комментирует...

>- отключить DISK_REPAIR_TIME
>- уменьшить количество партнеров
За это злая колдунья снимет золушку с поддержки
> с "рейдом для бедных" желательно вообще не связываться,

Не вижу проблем если использовать external redundancy -), но золушка не может этого делать -(

Ю.Пудовченко комментирует...

> 10/24 = 41% ??? Какой идиот так строит?

Дима, вообще-то вероятность диска выйти из строя равна 100%. Будешь спорить?
41 процент безотносительно времени - ничего не значащая цифра.
Поясню: у меня вероятность умереть в ближайшие 100 лет практически равна 100%. И не смотря на эту 100%-ю гарантию моей смертности банк охотно даст мне в долг миллион-другой рублей на 4-5-10 лет. Почему?
В общем, я хотел сказать, что одна только константа безотносительно ко времени неполно описывает модель надежности/ненадежности жесткого диска. Модель несколько сложнее, и как минимум должна содержать время. Я бы в данном контексте начал с плотности вероятности p(t) - вероятность отказа есть функция времени, и вероятность отказа диска в некоторый промежуток времени t2-t1 есть разность p(t2)-p(t1).

А статья Фаткулина мне тоже понравилась, потому что (в отличие от документации) более полно раскрывает устройство ASM. Я читал ее ранее и для себя отметил некорректность простого вероятностного подхода.

Alex Fatkulin комментирует...

Вообще говоря, контекст истории был примерно такой...

1. Клиент потерял всю дисковую группу из-за одновременного (с разницей в несколько секунд) отказа двух дисков.
2. Соответсвенно попросили разобраться в отказоустойчивых характеристиках при одновременном вылете двух дисков на дисковых группах с normal redundancy. До этого подразумевалось что они примерно как у RAID 10 но этот случай продемонстрировал что либо мы были слишком (не)удачливы либо чего-то не понимаем.
3. Попытки разговора с Ораклом на тему как происходит зеркалирование экстентов в ASM ни к чему не привели (такой ошущение что это у них военная тайна). В итоге вопрос самим же Ораклом был поставлен примерно следущим образом -- если вы считаете что при одновременном вылете двух дисков ASM менее надежен чем RAID 10 то идите и дергайте по два диска таким образом доказывая вашу точку зрения.
4. Дергать конечно никто ничего не пошел но немножко разобраться самим пришлось.

Dmitry Volkov комментирует...

Alex, спасибо. Это была твоя история -)