Dsvolk Oracle News: про золушку

про золушку

Предположим у нас есть 3 дисковые стойки по 12 дисков. Стойки "тупые", а потому мы ставим ASM и создаем группу с Normal Redundancy. Думаю, пока возражений нет ? Затем у нас ..неожиданно выключается диск. Это полная ерунда, поскольку у нас ASM и данные обязательно зазеркалированы..ну, так скажем на каких-то еще дисках. Внимание опрос - какова вероятность потери данных при выходе из строя следующего диска ?

Внимательно читаем блог Alex Fatkulin, учитываем что в нашем случае коэффициент не 8, а 10, получаем 10/24 = 41% ??? Какой идиот так строит? Один из примеров, вы можете найти здесь. Можно ли предъявлять претензии ? Нет, это документировано: По первой же попавшейся ссылке: Normal redundancy: "A loss of one ASM disk is tolerated". Теперь о сумме, $300K за железо + $360K за специальное ПО + лицензии за Oracle Database + RAC .. могут в одну минуту превратиться в тыкву. Enjoy !

14 комментариев:

Анонимный22/3/11 1:42 AM
при выходе диска из строя там же ребаланс автоматом запустится, да если не дождавшись окончания ребаланса вывалится второй - тогда придется переключаться на стендбай )

кроме того, что-то упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек
ОтветитьУдалить
Ответы
Анонимный22/3/11 7:50 AM
Красивые у Вас фото, Дмитрий. Да и тексты - тоже ничего )
ОтветитьУдалить
Ответы
Dmitry Volkov22/3/11 10:18 AM
>при выходе диска из строя там же ребаланс автоматом запустится

подождав кол-во часов DISK_REPAIR_TIME (3,6 по умолчанию), нет ? и будет это делать с кол-вом потоков указанным в asm_power_limit (по умолчанию = 1) ?

>тогда придется переключаться на стендбай
теоретически верно, но что я не вижу где документировано что мне нужны сразу 2 зверюшки по $600K

>упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек

согласен..потому что на мой взгляд это не меняет вероятности печального исхода. Я не прав ?
ОтветитьУдалить
Ответы
Dmitry Volkov22/3/11 10:19 AM
>Красивые у Вас фото
спасибо -)
ОтветитьУдалить
Ответы
Denis Sergeev22/3/11 1:51 PM
Ну так и стандартные RAID предлагают тот же уровень защищенности. У большинства из них гарантируется fault tolerance только при выходе из строя одного диска. Выход из строя второго уже с большой вероятностью станет фатальным. ASM обещает то же самое, но в ней можно включить High и тогда защита должна быть от вылета 2 дисков.
ОтветитьУдалить
Ответы
Dmitry Volkov22/3/11 4:52 PM
> стандартные RAID предлагают тот же уровень защищенности

Думаю что да, это верно, если смотреть с точки зрения концепции. Но на практике я видел что в массив ставят hot spare диски, да и еще не один. И они как мне кажется меняют ситуацию в пользу RAID.

>включить High
Так можно. Но тогда очень дорогая у нас получается золушка -)
ОтветитьУдалить
Ответы
Denis Sergeev22/3/11 5:23 PM
hot spare призван снизить вероятность отказа при ребилде диска (ребилд начинается почти сразу, насколько я понимаю, если есть 2 винта - может читать хоть с двух, лишь бы писать успевал).

Золушка дорогая получается? Да как сказать... На 50% дороже. Не на 100, кстати.
Золушка и в сказке принцу обошлась недешево. Предмет обуви из хрусталя пришлось вернуть, да еще и жениться. :) Плюс поисково-разыскные мероприятия... В общем, накладных расходов было - караул...
ОтветитьУдалить
Ответы
Анонимный22/3/11 6:40 PM
Spare диски тоже не моментом подцепляются - процесс занимает несколько часов.

Но огромный плюс аппаратных RAIDов в том, что они не ждут умирания дисков, а начинают их заменять на spare заранее после нескольких исправляемых ошибок.

ps всегда считал ASM - RAIDом для бедных, а оказывается и бедные не такие бедные ;)
ОтветитьУдалить
Ответы
Dmitry Volkov22/3/11 6:43 PM
>процесс занимает несколько часов
конечно данные нужно скопировать, этого никто не отменял.
ОтветитьУдалить
Ответы
Анонимный22/3/11 7:48 PM
- отключить DISK_REPAIR_TIME
- уменьшить количество партнеров - у Алекса показано как это сделать
благо хоть возможности то оставили...

с "рейдом для бедных" желательно вообще не связываться,
благо стоимость аппаратных рейд-контроллеров
достаточно низка по отношению к стоимости лицензий Оракл ;)
ОтветитьУдалить
Ответы
Dmitry Volkov22/3/11 9:20 PM
>- отключить DISK_REPAIR_TIME
>- уменьшить количество партнеров
За это злая колдунья снимет золушку с поддержки
> с "рейдом для бедных" желательно вообще не связываться,

Не вижу проблем если использовать external redundancy -), но золушка не может этого делать -(
ОтветитьУдалить
Ответы
Ю.Пудовченко28/3/11 12:27 AM
> 10/24 = 41% ??? Какой идиот так строит?

Дима, вообще-то вероятность диска выйти из строя равна 100%. Будешь спорить?
41 процент безотносительно времени - ничего не значащая цифра.
Поясню: у меня вероятность умереть в ближайшие 100 лет практически равна 100%. И не смотря на эту 100%-ю гарантию моей смертности банк охотно даст мне в долг миллион-другой рублей на 4-5-10 лет. Почему?
В общем, я хотел сказать, что одна только константа безотносительно ко времени неполно описывает модель надежности/ненадежности жесткого диска. Модель несколько сложнее, и как минимум должна содержать время. Я бы в данном контексте начал с плотности вероятности p(t) - вероятность отказа есть функция времени, и вероятность отказа диска в некоторый промежуток времени t2-t1 есть разность p(t2)-p(t1).

А статья Фаткулина мне тоже понравилась, потому что (в отличие от документации) более полно раскрывает устройство ASM. Я читал ее ранее и для себя отметил некорректность простого вероятностного подхода.
ОтветитьУдалить
Ответы
Alex Fatkulin6/4/11 5:49 AM
Вообще говоря, контекст истории был примерно такой...

1. Клиент потерял всю дисковую группу из-за одновременного (с разницей в несколько секунд) отказа двух дисков.
2. Соответсвенно попросили разобраться в отказоустойчивых характеристиках при одновременном вылете двух дисков на дисковых группах с normal redundancy. До этого подразумевалось что они примерно как у RAID 10 но этот случай продемонстрировал что либо мы были слишком (не)удачливы либо чего-то не понимаем.
3. Попытки разговора с Ораклом на тему как происходит зеркалирование экстентов в ASM ни к чему не привели (такой ошущение что это у них военная тайна). В итоге вопрос самим же Ораклом был поставлен примерно следущим образом -- если вы считаете что при одновременном вылете двух дисков ASM менее надежен чем RAID 10 то идите и дергайте по два диска таким образом доказывая вашу точку зрения.
4. Дергать конечно никто ничего не пошел но немножко разобраться самим пришлось.
ОтветитьУдалить
Ответы
Dmitry Volkov7/4/11 4:36 PM
Alex, спасибо. Это была твоя история -)
ОтветитьУдалить
Ответы