про золушку
Предположим у нас есть 3 дисковые стойки по 12 дисков. Стойки "тупые", а потому мы ставим ASM и создаем группу с Normal Redundancy. Думаю, пока возражений нет ? Затем у нас ..неожиданно выключается диск. Это полная ерунда, поскольку у нас ASM и данные обязательно зазеркалированы..ну, так скажем на каких-то еще дисках. Внимание опрос - какова вероятность потери данных при выходе из строя следующего диска ?
Внимательно читаем блог Alex Fatkulin, учитываем что в нашем случае коэффициент не 8, а 10, получаем 10/24 = 41% ??? Какой идиот так строит? Один из примеров, вы можете найти здесь. Можно ли предъявлять претензии ? Нет, это документировано: По первой же попавшейся ссылке: Normal redundancy: "A loss of one ASM disk is tolerated". Теперь о сумме, $300K за железо + $360K за специальное ПО + лицензии за Oracle Database + RAC .. могут в одну минуту превратиться в тыкву. Enjoy !
Внимательно читаем блог Alex Fatkulin, учитываем что в нашем случае коэффициент не 8, а 10, получаем 10/24 = 41% ??? Какой идиот так строит? Один из примеров, вы можете найти здесь. Можно ли предъявлять претензии ? Нет, это документировано: По первой же попавшейся ссылке: Normal redundancy: "A loss of one ASM disk is tolerated". Теперь о сумме, $300K за железо + $360K за специальное ПО + лицензии за Oracle Database + RAC .. могут в одну минуту превратиться в тыкву. Enjoy !
при выходе диска из строя там же ребаланс автоматом запустится, да если не дождавшись окончания ребаланса вывалится второй - тогда придется переключаться на стендбай )
ОтветитьУдалитькроме того, что-то упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек
Красивые у Вас фото, Дмитрий. Да и тексты - тоже ничего )
ОтветитьУдалить>при выходе диска из строя там же ребаланс автоматом запустится
ОтветитьУдалитьподождав кол-во часов DISK_REPAIR_TIME (3,6 по умолчанию), нет ? и будет это делать с кол-вом потоков указанным в asm_power_limit (по умолчанию = 1) ?
>тогда придется переключаться на стендбай
теоретически верно, но что я не вижу где документировано что мне нужны сразу 2 зверюшки по $600K
>упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек
согласен..потому что на мой взгляд это не меняет вероятности печального исхода. Я не прав ?
>Красивые у Вас фото
ОтветитьУдалитьспасибо -)
Ну так и стандартные RAID предлагают тот же уровень защищенности. У большинства из них гарантируется fault tolerance только при выходе из строя одного диска. Выход из строя второго уже с большой вероятностью станет фатальным. ASM обещает то же самое, но в ней можно включить High и тогда защита должна быть от вылета 2 дисков.
ОтветитьУдалить> стандартные RAID предлагают тот же уровень защищенности
ОтветитьУдалитьДумаю что да, это верно, если смотреть с точки зрения концепции. Но на практике я видел что в массив ставят hot spare диски, да и еще не один. И они как мне кажется меняют ситуацию в пользу RAID.
>включить High
Так можно. Но тогда очень дорогая у нас получается золушка -)
hot spare призван снизить вероятность отказа при ребилде диска (ребилд начинается почти сразу, насколько я понимаю, если есть 2 винта - может читать хоть с двух, лишь бы писать успевал).
ОтветитьУдалитьЗолушка дорогая получается? Да как сказать... На 50% дороже. Не на 100, кстати.
Золушка и в сказке принцу обошлась недешево. Предмет обуви из хрусталя пришлось вернуть, да еще и жениться. :) Плюс поисково-разыскные мероприятия... В общем, накладных расходов было - караул...
Spare диски тоже не моментом подцепляются - процесс занимает несколько часов.
ОтветитьУдалитьНо огромный плюс аппаратных RAIDов в том, что они не ждут умирания дисков, а начинают их заменять на spare заранее после нескольких исправляемых ошибок.
ps всегда считал ASM - RAIDом для бедных, а оказывается и бедные не такие бедные ;)
>процесс занимает несколько часов
ОтветитьУдалитьконечно данные нужно скопировать, этого никто не отменял.
- отключить DISK_REPAIR_TIME
ОтветитьУдалить- уменьшить количество партнеров - у Алекса показано как это сделать
благо хоть возможности то оставили...
с "рейдом для бедных" желательно вообще не связываться,
благо стоимость аппаратных рейд-контроллеров
достаточно низка по отношению к стоимости лицензий Оракл ;)
>- отключить DISK_REPAIR_TIME
ОтветитьУдалить>- уменьшить количество партнеров
За это злая колдунья снимет золушку с поддержки
> с "рейдом для бедных" желательно вообще не связываться,
Не вижу проблем если использовать external redundancy -), но золушка не может этого делать -(
> 10/24 = 41% ??? Какой идиот так строит?
ОтветитьУдалитьДима, вообще-то вероятность диска выйти из строя равна 100%. Будешь спорить?
41 процент безотносительно времени - ничего не значащая цифра.
Поясню: у меня вероятность умереть в ближайшие 100 лет практически равна 100%. И не смотря на эту 100%-ю гарантию моей смертности банк охотно даст мне в долг миллион-другой рублей на 4-5-10 лет. Почему?
В общем, я хотел сказать, что одна только константа безотносительно ко времени неполно описывает модель надежности/ненадежности жесткого диска. Модель несколько сложнее, и как минимум должна содержать время. Я бы в данном контексте начал с плотности вероятности p(t) - вероятность отказа есть функция времени, и вероятность отказа диска в некоторый промежуток времени t2-t1 есть разность p(t2)-p(t1).
А статья Фаткулина мне тоже понравилась, потому что (в отличие от документации) более полно раскрывает устройство ASM. Я читал ее ранее и для себя отметил некорректность простого вероятностного подхода.
Вообще говоря, контекст истории был примерно такой...
ОтветитьУдалить1. Клиент потерял всю дисковую группу из-за одновременного (с разницей в несколько секунд) отказа двух дисков.
2. Соответсвенно попросили разобраться в отказоустойчивых характеристиках при одновременном вылете двух дисков на дисковых группах с normal redundancy. До этого подразумевалось что они примерно как у RAID 10 но этот случай продемонстрировал что либо мы были слишком (не)удачливы либо чего-то не понимаем.
3. Попытки разговора с Ораклом на тему как происходит зеркалирование экстентов в ASM ни к чему не привели (такой ошущение что это у них военная тайна). В итоге вопрос самим же Ораклом был поставлен примерно следущим образом -- если вы считаете что при одновременном вылете двух дисков ASM менее надежен чем RAID 10 то идите и дергайте по два диска таким образом доказывая вашу точку зрения.
4. Дергать конечно никто ничего не пошел но немножко разобраться самим пришлось.
Alex, спасибо. Это была твоя история -)
ОтветитьУдалить