про золушку

Предположим у нас есть 3 дисковые стойки по 12 дисков. Стойки "тупые", а потому мы ставим  ASM и создаем группу с Normal Redundancy. Думаю, пока возражений нет ? Затем у нас ..неожиданно выключается диск. Это полная ерунда, поскольку у нас ASM и данные обязательно зазеркалированы..ну, так  скажем на каких-то еще дисках. Внимание опрос - какова вероятность потери данных при выходе из строя следующего диска ?

Внимательно читаем блог Alex Fatkulin, учитываем что в нашем случае коэффициент  не 8, а 10, получаем 10/24 = 41% ???  Какой идиот так строит? Один из примеров, вы можете найти здесь. Можно ли предъявлять претензии ? Нет, это документировано: По первой же попавшейся ссылке: Normal redundancy: "A loss of one ASM disk is tolerated".  Теперь о сумме, $300K за железо  +  $360K за специальное ПО + лицензии за Oracle Database + RAC .. могут в одну минуту превратиться в тыкву.   Enjoy !


14 комментариев:

  1. Анонимный22/3/11 1:42 AM

    при выходе диска из строя там же ребаланс автоматом запустится, да если не дождавшись окончания ребаланса вывалится второй - тогда придется переключаться на стендбай )

    кроме того, что-то упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек

    ОтветитьУдалить
  2. Анонимный22/3/11 7:50 AM

    Красивые у Вас фото, Дмитрий. Да и тексты - тоже ничего )

    ОтветитьУдалить
  3. >при выходе диска из строя там же ребаланс автоматом запустится

    подождав кол-во часов DISK_REPAIR_TIME (3,6 по умолчанию), нет ? и будет это делать с кол-вом потоков указанным в asm_power_limit (по умолчанию = 1) ?

    >тогда придется переключаться на стендбай
    теоретически верно, но что я не вижу где документировано что мне нужны сразу 2 зверюшки по $600K

    >упущен момент разбития этой normal redundancy групы на три фейлгрупы по числу стоек

    согласен..потому что на мой взгляд это не меняет вероятности печального исхода. Я не прав ?

    ОтветитьУдалить
  4. >Красивые у Вас фото
    спасибо -)

    ОтветитьУдалить
  5. Ну так и стандартные RAID предлагают тот же уровень защищенности. У большинства из них гарантируется fault tolerance только при выходе из строя одного диска. Выход из строя второго уже с большой вероятностью станет фатальным. ASM обещает то же самое, но в ней можно включить High и тогда защита должна быть от вылета 2 дисков.

    ОтветитьУдалить
  6. > стандартные RAID предлагают тот же уровень защищенности

    Думаю что да, это верно, если смотреть с точки зрения концепции. Но на практике я видел что в массив ставят hot spare диски, да и еще не один. И они как мне кажется меняют ситуацию в пользу RAID.

    >включить High
    Так можно. Но тогда очень дорогая у нас получается золушка -)

    ОтветитьУдалить
  7. hot spare призван снизить вероятность отказа при ребилде диска (ребилд начинается почти сразу, насколько я понимаю, если есть 2 винта - может читать хоть с двух, лишь бы писать успевал).

    Золушка дорогая получается? Да как сказать... На 50% дороже. Не на 100, кстати.
    Золушка и в сказке принцу обошлась недешево. Предмет обуви из хрусталя пришлось вернуть, да еще и жениться. :) Плюс поисково-разыскные мероприятия... В общем, накладных расходов было - караул...

    ОтветитьУдалить
  8. Анонимный22/3/11 6:40 PM

    Spare диски тоже не моментом подцепляются - процесс занимает несколько часов.

    Но огромный плюс аппаратных RAIDов в том, что они не ждут умирания дисков, а начинают их заменять на spare заранее после нескольких исправляемых ошибок.

    ps всегда считал ASM - RAIDом для бедных, а оказывается и бедные не такие бедные ;)

    ОтветитьУдалить
  9. >процесс занимает несколько часов
    конечно данные нужно скопировать, этого никто не отменял.

    ОтветитьУдалить
  10. Анонимный22/3/11 7:48 PM

    - отключить DISK_REPAIR_TIME
    - уменьшить количество партнеров - у Алекса показано как это сделать
    благо хоть возможности то оставили...

    с "рейдом для бедных" желательно вообще не связываться,
    благо стоимость аппаратных рейд-контроллеров
    достаточно низка по отношению к стоимости лицензий Оракл ;)

    ОтветитьУдалить
  11. >- отключить DISK_REPAIR_TIME
    >- уменьшить количество партнеров
    За это злая колдунья снимет золушку с поддержки
    > с "рейдом для бедных" желательно вообще не связываться,

    Не вижу проблем если использовать external redundancy -), но золушка не может этого делать -(

    ОтветитьУдалить
  12. Ю.Пудовченко28/3/11 12:27 AM

    > 10/24 = 41% ??? Какой идиот так строит?

    Дима, вообще-то вероятность диска выйти из строя равна 100%. Будешь спорить?
    41 процент безотносительно времени - ничего не значащая цифра.
    Поясню: у меня вероятность умереть в ближайшие 100 лет практически равна 100%. И не смотря на эту 100%-ю гарантию моей смертности банк охотно даст мне в долг миллион-другой рублей на 4-5-10 лет. Почему?
    В общем, я хотел сказать, что одна только константа безотносительно ко времени неполно описывает модель надежности/ненадежности жесткого диска. Модель несколько сложнее, и как минимум должна содержать время. Я бы в данном контексте начал с плотности вероятности p(t) - вероятность отказа есть функция времени, и вероятность отказа диска в некоторый промежуток времени t2-t1 есть разность p(t2)-p(t1).

    А статья Фаткулина мне тоже понравилась, потому что (в отличие от документации) более полно раскрывает устройство ASM. Я читал ее ранее и для себя отметил некорректность простого вероятностного подхода.

    ОтветитьУдалить
  13. Вообще говоря, контекст истории был примерно такой...

    1. Клиент потерял всю дисковую группу из-за одновременного (с разницей в несколько секунд) отказа двух дисков.
    2. Соответсвенно попросили разобраться в отказоустойчивых характеристиках при одновременном вылете двух дисков на дисковых группах с normal redundancy. До этого подразумевалось что они примерно как у RAID 10 но этот случай продемонстрировал что либо мы были слишком (не)удачливы либо чего-то не понимаем.
    3. Попытки разговора с Ораклом на тему как происходит зеркалирование экстентов в ASM ни к чему не привели (такой ошущение что это у них военная тайна). В итоге вопрос самим же Ораклом был поставлен примерно следущим образом -- если вы считаете что при одновременном вылете двух дисков ASM менее надежен чем RAID 10 то идите и дергайте по два диска таким образом доказывая вашу точку зрения.
    4. Дергать конечно никто ничего не пошел но немножко разобраться самим пришлось.

    ОтветитьУдалить
  14. Alex, спасибо. Это была твоя история -)

    ОтветитьУдалить