SPEC(ulation)


Читаем блог Oracle про тест  SPEC CPU2006. Цитата:  

'The SPARC T5-8 server beat the 8 processor IBM Power 760 with POWER7+ processors by 1.7'. 

Очень красиво, очень. Хочется купить немедленно.  Правда результата этого на сервере spec.org на момент написания этого текста еще не было, но давайте верить на слово. Скриншот с вышеупомянутого блога:

Несколько комментариев: IBM Power 760 был 4-х сокетный, dual chip module, но Oracle упорно говорит что там было 8 сокетов. Хорошо, считаем per  cores:  T5 3750/128  =  29.2,  Power 760 2170/48 = 45.   И это не самый быстрый Power 7+. Берем результат Power 740 Power 7+, 16 ядер, peak result - 884. 884/16 = 55. Что видим: В 1.9 ( 55/29.2)  раз превосходство Power 7+  per core. Пересчитаны результаты колонки Peak. 

Ну а теперь посмотрим на результаты per core, в графическом виде. T5 не дотягивает ни до одного Power, даже старого, и проигрывает Xeon 2690 с меньшей частотой. 




*** Вечные вопросы и ответы на них ***

Q: Почему per core?   A: Потому что именно так лицензируется Oracle. 
Q: Почему нужно сравнивать T5 с Intel? Потому что сам Oracle делает тоже самое
Q: Все равно у Oracle фактор 0.5 для своих систем. A: если вы не слышали про вирутализацию, то Intel выходит дешевле (см пред пост). А если слышали - IBM выходит дешевле за счет виртуализации (см след. пост) 


PS

Давайте сравним еще  результаты Oracle T5 и  T3 per core (к сожалению результат T4 так и не был опубликован).  Увеличение частоты в 2.1 раза  (3.6 / 1.67)  привело к увеличение per core результата в 2.8 раза (29.2/ 10.4).  Понятно что это не только увеличение частоты, но и  общая оптимизация чипа. Т.е. оптимизация чипа дала ~25% прироста производительности через два поколения процессоров. 

Теперь сравниваем с тем, что делает IBM.  Понижает частоту и ...увеличивает результат. Или увеличивает частоту в 1.16 раз ..а результат увеличивается в 1.5 раз. Какая огромная работа проводится с самим чипом, алгоритмами, из множества возможностей находят наиболее эффективные.  


Теперь вот еще какой момент. Во время презентации Ларри сказал:  'double performance again as it has done with the Sparc T3 to T4 to T5'.  Итого в  4 раза для T5 если сравнивать с T3. Нажмите на картинку чтобы посмотреть поближе самим. 

Cравнение T5 и T3 дает мне ~2.8 что per core, что per system (ну нужно же учитывать что T3 был только 4-х сокетным).  Попросите Oracle пояснить,  как они посчитали удвоение производительности в каждом поколении, если тесты этого не показывают. 


Читать дальше...

Если у вас есть миллион

Я взял два теста, проведенные Oracle, с одной и тоже версией БД (Oracle 11gR2), примерно в одно и тоже время на системах на основе T5 и Intel.  В обоих системах 8 сокетов.   Посчитал tpmC/core. Разница в 5% в пользу T5. Было бы наверное неплохо, но посмотрите стоимость - она различается на 1 миллион долларов (прайс лист). 
Внимательный читатель обратит внимание, что указанная мной стоимость не совпадает с общей стоимостью в  отчетах TPC-C.  Действительно это так,  потому   что я исключил стоимость системы хранения. Я сравниваю  процессоры, а не системы хранения. 




5% это неплохо, если бы не одно 'но'. 10-ти ядерные процессоры Intel обладают частотой 2.4 GHz. Если посмотреть, что может выдать Intel Xeon 2.9 GHz с большим L3 кэшем (тест Cisco, с Oracle 11gR2), то окажется что tpmC/core гораздо выше: 100 против 66 у T5.

Почему это происходит, почему такой ужасный performance per core у T5 ? Если прочитать 'SPARC T5 Server architecture', стр 12, то  окажется что несмотря на наличие 8 потоков в ядре только один может выполняться в один момент времени - сравните с 4-мя в Power 7/Power 7+, двумя у Intel.

Не могу найти ни одной причины, чтобы потратить лишний миллион долларов на T5.  Лучше уж купить еще  один  X2-8 и немного пива. Ну HA кластер то вам понадобиться.   Ну а если вам не нужно 8 сокетов, подойдет и поменьше, то с x86 вы получите несравненно  лучший performance/core. Да и лицензируется Oracle все еще по ядрам, а не по серверам. Да, можно и по пользователям, но не забывайте про минимум 25 пользователей на ядро.

Почему такой шум с T5? Посмотрите на цену выше, при, грубо говоря, схожей цене на железо, за счет большего числа ядер колоссальная разница в цене лицензий. А поддержка лицензий, как мы помним стоит 22% в год. Сравните с поддержкой железа за 12% в год.

PS
Все данные по производительности и стоимости взяты из отчетов tpc.org


Читать дальше...

World’s Fastest Microprocessor


После вчерашнего поста про SAPS были опубликованы результаты T5 & M5 в  SAP Standard Application Benchmark.  Они совершенно неплохие, но в пересчете на ядро не могут догнать процессор Power  3-х летней давности. Не могу дождаться как  будет объявлено,  что мы видим word's fastest microprocessor -)

Update 1. TPC-C результат SPARC T5-8:


Вот так выглядит 5-ка лидеров (нажмите на картинку чтобы увеличить). Впечатляет, 3 из 5 первых мест.

Следующая картинка показывает какая впечатляющая работа была проведена - performance per core по сравнению с T3 и  T2 подскочил в 3 раза, что позволило  обогнать  даже Xeon 2690 (на 5%). Сильно мешают только рядом стоящие графики результатов IBM -)))))




Время доступности системы -  25 сентября 2013 года. Этот квартал продажами закрыть не удастся...Ну и конечно же стоит обратить внимание, что достичь впечатляющих результатов по цене помогло...лицензирование на 3 года, а не пожизненное. Вы ведь так и делаете, не так ли? Каждые три года покупаете Oracle заново?

Update 2. Внимательно послушал Ларри. В каждом, реально в  каждом слайде упоминается IBM. Я не знаю сколько IBM платит за эту рекламную компанию, но идея мне нравится -)))

Вот пример риторики Ларри:

'Наша маленькая машинка побила целый кластер IBM из 3-х high end  машин' -  красиво.












Смотрим с другой стороны (картинка ниже), спустя пять лет удалось достать +25% к результату теста. Ежу понятно, что спустя пять лет одно новое ПО даст гораздо больше чем все эти инженерные достижения...



А вот это интересно:


Если вы не знаете, SUN собирался сделать это в ..2005 году, процессор Rock. Зря его так назвали, сделать его помешал злой рок...


PS Скажите кто нибудь Ларри, что у IBM есть процессор Power 7+, он этого не знает похоже...


Читать дальше...

Power 7+, SCM & DCM

В октябре 2012 года у IBM появились первые модели серверов на основе процессора Power 7+. Но в феврале 2013 года к ним добавились модели на основе Power 7+ dual chip module (DCM). Это весьма интересно - фактически на место одного кристалла поместили сразу два. Это значит, что на данный момент есть сервер который в формально в 4-х сокетах обладает 48 ядрами Power 7+ или 192 потоками.  К сожалению, на такой сервер формально нельзя устновить SE. Цитата:  'When licensing Oracle programs with Standard Edition One or Standard Edition in the product name, a processor is counted equivalent to an occupied socket; however, in the case of multi-chip modules, each chip in the multi-chip module is counted as one occupied socket'.

Но есть и хорошие новости: данная модель обладает самым большим memory bandwith в своем классе (4-х сокетных серверов)  - 272 GBps,  все потоки Power могут исполняться одновременно (в отличии от скажем потоков T4), и не нужно забывать про виртуализацию - сейчас можно создавать до 20 виртуальных машин на одно ядро. Как наверное многие знают, при правильной организации LPAR придется заплатить Oracle не за все 48 ядер, а только за те, что используются базой/базами  данных.

Если добавить к такому серверу ssd полку (EXP30 EDR1) или Ramsan, получается прекрасная машинка для консолидации.

Небольшая иллюстрация: лучший результат на Xeon E5 2690 (Oracle 11g, Solaris 10) 16 core - 45,770 SAPS (для сравнения  последний результат от Cisco  30,270 SAPS), результат IBM Power 760 (AIX7, DB2), 48 cores  - 139, 220 SAPS.  В переводе на сокеты (нам нужно удвоить результат Xeon 2690 x2) получается 91K против 139K.

Вы также видите, что  DCM сервера обладают весьма скромной частотой (3.4 Ghz) и если нужна производительность 'per core' стоит задуматься о  моделях c single chip module.

Собственно весь длинный рассказ до этого был к тому, что я решил разобраться что же такое Power 7+, зачем был весь сыр бор с single chip module & dual chip module и как это следует использовать -).

PS
Но не стоит и затевать религиозных войн про то, какой процессор быстрее -)  Уже завтра нам покажут 'World’s Fastest Microprocessor'.  


Читать дальше...

µs


Read Latency: 110 µs Write Latency: 25 µs. µs  это 10−6  s, или 11000  ms.  Total capacity up to  20TB. 450,000 READ IOPS в размере 1U. Виртуализация и автоматический Tier-иринг c SVC. Любые варианты установки и подключения (internal/SAN/FC/Infiniband). Читать здесь или про конкретную модель здесь.

При лучшей latency от двух (read) до 4- х раз (на write), 1U устройство имеет больше flash (20Tb против 11 Tb) по сравнению Exadata X3-2 Half которому нужен 19'' шкаф, стоит (сравнивая только железо) 2 раза дешевле, учитывая Exadata software  - в 4 раза дешевле. Никакой миграции не нужно - просто подключите ее в свой SAN, cкопируйте туда горячие табличные пространства. Насколько станет  быстрее?  Если оценить время доступа  из  кэша дискового массива в 1 ms, то чтение ускорится в 10 раз. Все операции, независимо от текста запроса. Запись - в 40 раз.  Если оценить время доступа с дисков дискового массива в 10 ms, чтение данных ускорится в 100 раз. Менять текст  запросов, думать над параметрами оптимизатора, менять операционную систему вам не потребуется.   Миграция состоит из команды dd.
 
* оценки стоимости произведены по price-list, оценки производительности по соответствующим техническим документам производителей.


Читать дальше...