Топології мереж. П'ять поколінь Core i7: від Sandy Bridge до Skylake. Порівняльне тестування

Цього літа компанія Intel зробила дивне: вона примудрилася змінити цілих два покоління процесорів, орієнтованих на загальновживані персональні комп'ютери. Спочатку на зміну Haswell прийшли процесори з мікроархітектурою Broadwell, але потім протягом буквально пари місяців вони втратили свій статус новинки і поступилися місцем процесорам Skylake, які залишатимуться найпрогресивнішими CPU як мінімум ще півтора року. Така чехарда зі зміною поколінь відбулася головним чином через проблеми Intel, що виникли при впровадженні нового 14-нм техпроцесу, який застосовується при виробництві і Broadwell, і Skylake. Продуктивні носії мікроархітектури Broadwell на шляху до настільних систем сильно затрималися, а їх послідовники вийшли за заздалегідь наміченим графіком, що призвело до зім'ятості анонсу процесорів Core п'ятого покоління і серйозного скорочення їх життєвого циклу. В результаті всіх цих пертурбацій, в десктопному сегменті Broadwell зайняли зовсім вузьку нішу економічних процесорів з потужним графічним ядром і задовольняються лише невеликим рівнем продажів, властивим вузькоспеціалізованим продуктам. Увага передової частини користувачів переключилася на послідовників Broadwell - процесори Skylake.

Треба зауважити, що останні кілька років компанія Intel зовсім не тішить своїх шанувальників зростанням продуктивності пропонованих продуктів. Кожне нове покоління процесорів додає у питомій швидкодії лише кілька відсотків, що зрештою призводить до відсутності в користувачів явних стимулів до модернізації старих систем. Але вихід Skylake – покоління CPU, шляхом якого Intel, фактично, перестрибнула через сходинку – вселяв певні надії на те, що ми отримаємо дійсно вартісне оновлення найпоширенішої обчислювальної платформи. Однак, нічого подібного так і не сталося: Intel виступила у своєму звичному репертуарі. Broadwell був представлений громадськості як деяке відгалуження від основної лінії процесорів для настільних систем, а Skylake виявилися швидшими за Haswell у більшості додатків зовсім незначно .

Тому незважаючи на всі очікування, поява Skylake у продажу викликала у багатьох скептичне ставлення. Ознайомившись із результатами реальних тестів, багато покупців просто не побачили реального сенсу в переході на процесори Core шостого покоління. Головним козирем нових CPU виступає передусім нова платформа з прискореними внутрішніми інтерфейсами, але не нова процесорна мікроархітектура. І це означає, що реальних стимулів до оновлення заснованих систем минулих поколінь Skylake пропонує небагато.

Втім, ми б таки не стали відмовляти від переходу Skylake всіх без винятку користувачів. Справа в тому, що нехай Intel і нарощує продуктивність своїх процесорів дуже стриманими темпами, з моменту появи Sandy Bridge, які все ще працюють у багатьох системах, змінилося вже чотири покоління мікроархітектури. Кожен крок шляхом прогресу вносив свій внесок у збільшення продуктивності, і до сьогоднішнього дня Skylake здатний запропонувати досить суттєвий приріст у продуктивності в порівнянні зі своїми попередніми попередниками. Тільки щоб побачити це, порівнювати його треба не з Haswell, а з попередніми представниками сімейства Core, що з'явилися до нього.

Власне, саме таким порівнянням ми сьогодні й займемося. З огляду на все сказане ми вирішили подивитися, наскільки зросла продуктивність процесорів Core i7 з 2011 року, і зібрали в єдиному тесті старші Core i7, що відносяться до поколінь Sandy Bridge, Ivy Bridge, Haswell, Broadwell і Skylake. Отримавши результати такого тестування, ми постараємося зрозуміти, власникам яких процесорів доцільно починати модернізацію старих систем, а хто з них може почекати до появи наступних поколінь CPU. Принагідно ми подивимося і на рівень продуктивності нових процесорів Core i7-5775C та Core i7-6700K поколінь Broadwell та Skylake, які до цього моменту в нашій лабораторії ще не тестувалися.

Порівняльні характеристики протестованих CPU

Від Sandy Bridge до Skylake: порівняння питомої продуктивності

Для того, щоб згадати, як змінювалася питома продуктивність інтелівських процесорів протягом останньої п'ятирічки, ми вирішили почати з простого тесту, в якому зіставили швидкість роботи Sandy Bridge, Ivy Bridge, Haswell, Broadwell і Skylake, приведених до однієї частоти 4 0 ГГц. У цьому порівнянні нами були використані процесори лінійки Core i7, тобто чотириядерники, що мають технологію Hyper-Threading.

Як основний тестовий інструмент було взято комплексний тест SYSmark 2014 1.5, який хороший тим, що відтворює типову користувальницьку активність у загальновживаних додатках офісного характеру, при створенні та обробці мультимедійного контенту та при вирішенні обчислювальних завдань. На наступних графіках відображено отримані результати. Для зручності сприйняття вони нормовані, за 100 відсотків прийнято продуктивність Sandy Bridge.



Інтегральний показник SYSmark 2014 1.5 дозволяє зробити такі спостереження. Перехід від Sandy Bridge до Ivy Bridge збільшив питому продуктивність зовсім незначно – приблизно на 3-4 відсотки. Подальший крок до Haswell виявився набагато результативнішим, він вилився у 12-відсоткове покращення продуктивності. І це максимальний приріст, який можна спостерігати на наведеному графіку. Адже далі Broadwell обганяє Haswell лише на 7 відсотків, а перехід від Broadwell до Skylake взагалі нарощує питому продуктивність лише на 1-2 відсотки. Весь прогрес від Sandy Bridge до Skylake виливається в 26-відсоткове збільшення продуктивності при сталості тактових частот.

Більш детальну розшифровку отриманих показників SYSmark 2014 1.5 можна переглянути на трьох наступних графіках, де інтегральний індекс продуктивності розкладений за складовими за типом додатків.









Зверніть увагу, найбільш помітно із введенням нових версій мікроархітектур додають у швидкості виконання мультимедійні програми. У них мікроархітектура Skylake перевершує Sandy Bridge на 33 відсотки. А ось у рахункових задачах, навпаки, прогрес проявляється найменше. Більш того, при такому навантаженні крок від Broadwell до Skylake навіть обертається невеликим зниженням питомої продуктивності.

Тепер, коли ми уявляємо, що ж відбувалося з питомою продуктивністю процесорів Intel протягом останніх кількох років, спробуємо розібратися, чим зміни, що спостерігалися, були обумовлені.

Від Sandy Bridge до Skylake: що змінилося у процесорах Intel

Зробити точкою відліку порівняно різних Core i7 представника покоління Sandy Bridge ми вирішили не просто так. Саме цей дизайн підвів міцний фундамент під усе подальше вдосконалення продуктивних інтелівських процесорів до сьогоднішніх Skylake. Так, представники сімейства Sandy Bridge стали першими високоінтегрованими CPU, в яких в одному напівпровідниковому кристалі було зібрано і обчислювальні, і графічне ядра, а також північний міст з L3-кешем та контролером пам'яті. Крім того, в них вперше почала використовуватися внутрішня кільцева шина, за допомогою якої було вирішено завдання високоефективної взаємодії всіх структурних одиниць, що становлять такий складний процесор. Цим закладеним у мікроархітектурі Sandy Bridge універсальним принципам побудови продовжують слідувати всі наступні покоління CPU без будь-яких серйозних коректив.

Чималі зміни в Sandy Bridge зазнала внутрішня мікроархітектура обчислювальних ядер. У ній не тільки була реалізована підтримка нових наборів команд AES-NI та AVX, але й знайшли застосування численні великі покращення у надрах виконавчого конвеєра. Саме Sandy Bridge був доданий окремий кеш нульового рівня для декодованих інструкцій; з'явився абсолютно новий блок переупорядкування команд, що ґрунтується на використанні фізичного регістрового файлу; були помітно покращені алгоритми передбачення розгалужень; а крім того, два з трьох виконавчих портів для роботи з даними стали уніфікованими. Такі різнорідні реформи, проведені одразу на всіх етапах конвеєра, дозволили серйозно збільшити питому продуктивність Sandy Bridge, яка порівняно з процесорами попереднього покоління Nehalem одразу зросла майже на 15 відсотків. До цього додалося 15-відсоткове зростання номінальних тактових частот і відмінний розгінний потенціал, в результаті чого в сумі вийшло сімейство процесорів, яке досі ставиться за приклад Intel як зразкове втілення фази «так» у прийнятій у компанії маятникової концепції розробки.

І справді, подібних за масовістю та дієвістю покращень у мікроархітектурі після Sandy Bridge ми вже не бачили. Всі наступні покоління процесорних дизайнів проводять значно менш масштабні вдосконалення в обчислювальних ядрах. Можливо, це є відображенням відсутності реальної конкуренції на процесорному ринку, можливо причина уповільнення прогресу полягає в бажанні Intel зосередити зусилля на вдосконаленні графічних ядер, а можливо Sandy Bridge просто виявився настільки вдалим проектом, що його подальший розвиток потребує надто великих трудовитрат.

Відмінно ілюструє спад інтенсивності інновацій, що відбувся, перехід від Sandy Bridge до Ivy Bridge. Незважаючи на те, що наступне за Sandy Bridge покоління процесорів було переведено на нову виробничу технологію з 22-нм нормами, його тактові частоти зовсім не зросли. Зроблені ж поліпшення в дизайні в основному торкнулися контролера пам'яті і контролера шини, що став більш гнучким. PCI Express, який отримав сумісність із третьою версією цього стандарту. Що ж стосується безпосередньо мікроархітектури обчислювальних ядер, то окремі косметичні переробки дозволили домогтися прискорення виконання операцій розподілу та невеликого збільшення ефективності технології Hyper-Threading, та й годі. В результаті зростання питомої продуктивності склало не більше 5 відсотків.

Водночас впровадження Ivy Bridge принесло й те, про що тепер гірко шкодує мільйонна армія оверклокерів. Починаючи з процесорів цього покоління, Intel відмовилася від сполучення напівпровідникового кристала CPU і кришки, що закриває, за допомогою безфлюсового паяння і перейшла на заповнення простору між ними полімерним термоінтерфейсним матеріалом з дуже сумнівними теплопровідними властивостями. Це штучно погіршило частотний потенціал і зробило процесори Ivy Bridge, як і всіх їх послідовників, що помітно менш розганяються в порівнянні з дуже бадьорими в цьому плані "старенькими" Sandy Bridge.

Втім, Ivy Bridge – це лише «тік», а тому особливих проривів у цих процесорах ніхто й не обіцяв. Однак жодного надихаючого зростання продуктивності не принесло і наступне покоління, Haswell, яке, на відміну від Ivy Bridge, належить до фази «так». І це насправді трохи дивно, оскільки різних покращень у мікроархітектурі Haswell зроблено чимало, причому вони розосереджені по різних частинах виконавчого конвеєра, що цілком могло б збільшити загальний темп виконання команд.

Наприклад, у вхідній частині конвеєра була покращена результативність передбачення переходів, а черга декодованих інструкцій почала ділитися між паралельними потоками, що співіснують у рамках технології Hyper-Threading, динамічно. Попутно сталося збільшення вікна позачергового виконання команд, що у сумі мало підняти частку паралельно виконуваного процесором коду. Безпосередньо у виконавчому блоці було додано два додаткові функціональні порти, націлені на обробку цілих команд, обслуговування розгалужень і збереження даних. Завдяки цьому Haswell став здатний обробляти до восьми мікрооперацій за такт – на третину більше за попередників. Більше того, нова мікроархітектура подвоїла і пропускну здатність кеш-пам'яті першого та другого рівнів.

Таким чином, покращення в мікроархітектурі Haswell не торкнулися лише швидкості роботи декодера, який, схоже, на даний момент став найвужчим місцем у сучасних процесорах Core. Адже незважаючи на значний перелік поліпшень, приріст питомої продуктивності у Haswell у порівнянні з Ivy Bridge склав лише близько 5-10 відсотків. Але заради справедливості слід зазначити, що на векторних операціях прискорення помітно набагато сильніше. А найбільший виграш можна побачити у додатках, які використовують нові AVX2 та FMA-команди, підтримка яких також з'явилася у цій мікроархітектурі.

Процесори Haswell, як і Ivy Bridge, спочатку теж не дуже сподобалися ентузіастам. Особливо якщо зважити на той факт, що в початковій версії жодного збільшення тактових частот вони не запропонували. Однак через рік після свого дебюту Haswell стали здаватися помітно привабливішими. По-перше, збільшилася кількість додатків, які звертаються до найсильніших сторін цієї архітектури та використовують векторні інструкції. По-друге, Intel змогла виправити ситуацію із частотами. Пізніші модифікації Haswell, що отримали власне кодове найменування Devil's Canyon, змогли наростити перевагу над попередниками завдяки збільшенню тактової частоти, яка пробила 4-гігагерцову стелю. Крім того, йдучи на поводу у оверклокерів, Intel покращила полімерний термоінтерфейс під кришкою, що зробило Devil's Canyon більш підходящими об'єктами для розгону. Звичайно, не такими податливими, як Sandy Bridge, проте.

І ось із таким багажем Intel підійшла до Broadwell. Оскільки основний ключовою особливістюцих процесорів мала стати нова технологіявиробництва з 14-нм нормами, жодних значних нововведень у їхній мікроархітектурі не планувалося – це мав бути майже найбанальніший «тік». Все необхідне для успіху новинок цілком міг би забезпечити лише тонкий техпроцес з FinFET-транзисторами другого покоління, що в теорії дозволяє зменшити енергоспоживання і підняти частоти. Проте практичне впровадження нової технології обернулося низкою невдач, у яких Broadwell дісталася лише економічність, але з високі частоти. У результаті ті процесори цього покоління, які Intel представила для настільних систем, вийшли більше схожими на мобільні CPU, ніж продовжувачів справи Devil's Canyon. Тим більше, що крім урізаних теплових пакетів і частот, що відкотилися, вони відрізняються від попередників і зменшився в обсязі L3-кешем, що, правда, дещо компенсується появою розташованого на окремому кристалі кеша четвертого рівня.

На однаковій з Haswell частоті процесори Broadwell демонструють приблизно 7-відсоткову перевагу, яка забезпечується як додаванням додаткового рівня кешування даних, так і черговим поліпшенням алгоритму передбачення розгалужень разом із збільшенням основних внутрішніх буферів. Крім того, у Broadwell реалізовані нові та більше швидкі схемивиконання інструкцій множення та поділу. Однак усі ці невеликі покращення перекреслюються фіаско з тактовими частотами, що відносять нас в епоху Sandy Bridge. Так, наприклад, старший оверклокерський Core i7-5775C покоління Broadwell поступається частотою Core i7-4790K цілих 700 МГц. Зрозуміло, що очікувати якогось зростання продуктивності цьому тлі безглуздо, аби обійшлося без її серйозного падіння.

Багато в чому саме через це Broadwell і виявився непривабливим для більшості користувачів. Так, процесори цього сімейства відрізняються високою економічністю і навіть вписуються в тепловий пакет із 65-ватними рамками, але кого це, за великим рахунком, хвилює? Розгінний потенціал першого покоління 14-нм CPU виявився досить стриманим. Ні про яку роботу на частотах, що наближаються до 5-гігагерцової планки, не йдеться. Максимум, якого можна досягти від Broadwell при використанні повітряного охолодження, пролягає в околиці величини 4,2 ГГц. Іншими словами, п'яте покоління Core вийшло у Intel, як мінімум, дивним. Про що, до речі, мікропроцесорний гігант у результаті і пошкодував: представники Intel зазначають, що пізній вихід Broadwell для настільних комп'ютерів, його скорочений життєвий циклі нетипові показники негативно позначилися лише на рівні продажів, і більше компанія на подібні експерименти пускатися не планує.

Новий же Skylake на цьому тлі представляється не стільки як подальший розвиток інтелівської мікроархітектури, скільки своєрідна робота над помилками. Незважаючи на те, що при виробництві цього покоління CPU використовується той же 14-нм техпроцес, що й у випадку Broadwell, жодних проблем із роботою на високих частотах у Skylake немає. Номінальні частоти процесорів Core шостого покоління повернулися до тих показників, які були властиві їх 22-м попередникам, а розгінний потенціал навіть трохи збільшився. На руку оверклокерам тут зіграв той факт, що в Skylake конвертер живлення процесора знову перекочував на материнську плату і тим самим знизив сумарне тепловиділення CPU при розгоні. Жаль тільки, що Intel так і не повернулася до використання ефективного термоінтерфейсу між кристалом і процесорною кришкою.

Але що стосується базової мікроархітектури обчислювальних ядер, то незважаючи на те, що Skylake, як і Haswell, є втіленням фази «так», нововведень у ній зовсім небагато. Причому більшість їх спрямовано розширення вхідний частини виконавчого конвеєра, інші частини конвеєра залишилися без будь-яких істотних змін. Зміни стосуються поліпшення результативності передбачення розгалужень та підвищення ефективності блоку попередньої вибірки, та й годі. При цьому частина оптимізації служить не стільки для покращення продуктивності, скільки спрямована на чергове підвищення енергоефективності. Тому дивуватися з того, що Skylake за своєю питомою продуктивністю майже не відрізняється від Broadwell, не слід.

Втім, існують і винятки: в окремих випадках Skylake можуть перевершувати попередників у продуктивності і помітніше. Справа в тому, що в цій мікроархітектурі було вдосконалено підсистему пам'яті. Внутрішньопроцесорна кільцева шина стала швидше, і це зрештою розширило смугу пропускання L3-кешу. Плюс до цього контролер пам'яті отримав підтримку працюючої на високих частотах пам'яті стандарту DDR4 SDRAM.

Але в результаті виходить, що б там не говорила Intel про прогресивність Skylake, з точки зору звичайних користувачів це - досить слабке оновлення. Основні покращення в Skylake зроблені в графічному ядрі та в енергоефективності, що відкриває перед такими CPU шлях у безвентиляторні системи планшетного форм-фактора. Десктопні ж представники цього покоління відрізняються від тих самих Haswell не надто помітно. Навіть якщо заплющити очі на існування проміжного покоління Broadwell, і зіставляти Skylake безпосередньо з Haswell, то зростання питомої продуктивності становитиме близько 7-8 відсотків, що навряд чи можна назвати вражаючим проявом технічного прогресу.

Принагідно варто відзначити, що не виправдовує очікувань та вдосконалення технологічних виробничих процесів. На шляху від Sandy Bridge до Skylake компанія Intel змінила дві напівпровідникові технології та зменшила товщину транзисторних затворів більш ніж удвічі. Однак сучасний 14-нм техпроцес порівняно з 32-нм технологією п'ятирічної давності так і не дозволив наростити робочі частоти процесорів. Всі процесори Core останніх п'яти поколінь мають дуже схожі тактові частоти, які якщо й перевищують 4-гігагерцову позначку, то зовсім небагато.

Для наочної ілюстрації цього факту можна подивитися на наступний графік, на якому відображено тактову частоту старших оверклокерських процесорів Core i7 різних поколінь.



Більше того, пік тактової частоти навіть не на Skylake. Максимальною частотою можуть похвалитися процесори Haswell, що належать до підгрупи Devil's Canyon. Їхня номінальна частота становить 4,0 ГГц, але завдяки турбо-режиму в реальних умовах вони здатні розганятися до 4,4 ГГц. Для сучасних же Skylake максимум частоти – лише 4,2 ГГц.

Все це, звичайно, позначається на підсумковій продуктивності справжніх представників різних сімейств CPU. І далі ми пропонуємо подивитися, як все це відбивається на швидкодії платформ, побудованих на базі флагманських процесорів кожного сімейства Sandy Bridge, Ivy Bridge, Haswell, Broadwell і Skylake.

Як ми тестували

У порівнянні взяли участь п'ять процесорів Core i7 різних поколінь: Core i7-2700K, Core i7-3770K, Core i7-4790K, Core i7-5775C та Core i7-6700K. Тому список комплектуючих, задіяних у тестуванні, вийшов досить широким:

Процесори:

Intel Core i7-2600K (Sandy Bridge, 4 ядра + HT, 3,4-3,8 ГГц, 8 Мбайт L3);
Intel Core i7-3770K (Ivy Bridge, 4 ядра + HT, 3,5-3,9 ГГц, 8 Мбайт L3);
Intel Core i7-4790K (Haswell Refresh, 4 ядра + HT, 4,0-4,4 ГГц, 8 Мбайт L3);
Intel Core i7-5775C (Broadwell, 4 ядра, 3,3-3,7 ГГц, 6 Мбайт L3, 128 Мбайт L4).
Intel Core i7-6700K (Skylake, 4 ядра, 4,0-4,2 ГГц, 8 Мбайт L3).

Процесорний кулер: Noctua NH-U14S.
Материнські плати:

ASUS Z170 Pro Gaming (LGA 1151, Intel Z170);
ASUS Z97-Pro (LGA 1150, Intel Z97);
ASUS P8Z77-V Deluxe (LGA1155, Intel Z77)

Пам'ять:

2x8 Гбайт DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX);
2x8 Гбайт DDR4-2666 SDRAM, 15-15-15-35 (Corsair Vengeance LPX CMK16GX4M2A2666C16R).

Відеокарта: NVIDIA GeForce GTX 980 Ti (6 Гбайт/384-біт GDDR5, 1000-1076/7010 МГц).
Дискова підсистема: Kingston HyperX Savage 480 GB (SHSS37A/480G).
Блок живлення Corsair RM850i ​​(80 Plus Gold, 850 Вт).

Тестування виконувалось в операційній системі Microsoft Windows 10 Enterprise Build 10240 із використанням наступного комплекту драйверів:

Intel Chipset Driver 10.1.1.8;
Intel Management Engine Interface Driver 11.0.0.1157;
NVIDIA GeForce 358.50 Driver.

Продуктивність

Загальна продуктивність

Для оцінки продуктивності процесорів у загальновживаних задачах ми традиційно використовуємо тестовий пакет Bapco SYSmark, що моделює роботу користувача в реальних поширених сучасних офісних програмахта додатках для створення та обробки цифрового контенту. Ідея тесту дуже проста: він видає єдину метрику, що характеризує середньозважену швидкість комп'ютера при повсякденному використанні. Після виходу операційної системи Windows 10 цей бенчмарк вкотре оновився, і тепер ми задіємо саму останню версію- SYSmark 2014 1.5.



При порівнянні Core i7 різних поколінь, коли вони працюють у своїх номінальних режимах, результати виходять зовсім не такі, як при порівнянні на єдиній тактовій частоті. Все-таки реальна частота та особливості роботи турбо-режиму має досить істотний вплив на продуктивність. Наприклад, згідно з отриманими даними, Core i7-6700K швидше Core i7-5775C на цілих 11 відсотків, але при цьому його перевага над Core i7-4790K зовсім незначна - воно становить лише близько 3 відсотків. При цьому не можна залишити без уваги і те, що новий Skylake виявляється значно швидше процесорів поколінь Sandy Bridge і Ivy Bridge. Його перевага над Core i7-2700K та Core i7-3770K досягає 33 та 28 відсотків відповідно.

Більш глибоке розуміння результатів SYSmark 2014 1.5 здатне дати знайомство з оцінками продуктивності, що отримується у різних сценаріях використання системи. Сценарій Office Productivity моделює типову офісну роботу: підготовку текстів, обробку електронних таблиць, роботу з електронною поштоюта відвідування Інтернет-сайтів. Сценарій використовує наступний набір програм: Adobe Acrobat XI Pro, Google Chrome 32, Microsoft Excel 2013, Microsoft OneNote 2013, Microsoft Outlook 2013, Microsoft PowerPoint 2013, Microsoft Word 2013, WinZip Pro 17,5 Pro.



У сценарії Media Creation моделюється створення рекламного ролика з використанням попередньо знятих цифрових зображень та відео. Для цієї мети застосовуються популярні пакети Adobe Photoshop CS6 Extended, Adobe Premiere Pro CS6 та Trimble SketchUp Pro 2013.



Сценарій Data/Financial Analysis присвячений статистичному аналізу та прогнозуванню інвестицій на основі певної фінансової моделі. У сценарії використовуються великі обсяги чисельних даних та два програми Microsoft Excel 2013 та WinZip Pro 17.5 Pro.



Результати, отримані нами за різних сценаріїв навантаження, якісно повторюють загальні показники SYSmark 2014 1.5. Привертає увагу лише той факт, що процесор Core i7-4790K зовсім не виглядає застарілим. Він помітно програє новітньому Core i7-6700K тільки в розрахунковому сценарії Data/Financial Analysis, а в інших випадках або поступається своєму послідовнику на дуже малопомітну величину, або виявляється швидше. Наприклад, представник сімейства Haswell випереджає новий Skylake в офісних програмах. Але процесори старіших років випуску, Core i7-2700K і Core i7-3770K, виглядають вже дещо застарілими пропозиціями. Вони програють новинці в різних типах завдань від 25 до 40 відсотків, і це, мабуть, є цілком достатньою підставою, щоб Core i7-6700K можна було розглядати як гідну заміну.

Ігрова продуктивність

Як відомо, продуктивність платформ, оснащених високопродуктивними процесорами, у переважній більшості сучасних ігорвизначається потужністю графічної підсистеми. Саме тому при тестуванні процесорів ми вибираємо найбільш процесорозалежні ігри, а вимірювання кількості кадрів виконуємо двічі. Першим проходом тести проводяться без включення згладжування та з установкою далеко не найвищих дозволів. Такі налаштування дозволяють оцінити, наскільки добре проявляють себе процесори з ігровим навантаженням в принципі, а значить, дозволяють будувати здогади про те, як будуть вести себе обчислювальні платформи, що тестуються, в майбутньому, коли на ринку з'являться більш швидкі варіанти графічних прискорювачів. Другий прохід виконується з реалістичними установками – при виборі FullHD-дозвіл та максимального рівня повноекранного згладжування. На наш погляд такі результати не менш цікаві, тому що вони відповідають на питання, яке часто задається про те, який рівень ігрової продуктивності можуть забезпечити процесори прямо зараз - в сучасних умовах.

Втім, у цьому тестуванні ми зібрали потужну графічну підсистему, засновану на флагманській відеокарті NVIDIA GeForce GTX 980 Ti. І в результаті в частині ігор частота кадрів продемонструвала залежність від процесорної продуктивності навіть у FullHD-дозвіл.

Результати у FullHD-дозволе з максимальними налаштуваннями якості


















Зазвичай вплив процесорів на ігрову продуктивність, особливо якщо йдеться про потужних представників серії Core i7, виявляється незначним. Однак при зіставленні п'яти Core i7 різних поколінь результати виходять не однорідними. Навіть при встановленні максимальних налаштуваньякості графіки Core i7-6700K та Core i7-5775C демонструють найвищу ігрову продуктивність, тоді як старіші Core i7 від них відстають. Так, частота кадрів, яка отримана в системі з Core i7-6700K, перевищує продуктивність системи на базі Core i7-4770K на малопомітний один відсоток, але процесори Core i7-2700K та Core i7-3770K видаються вже відчутно найгіршою основою геймерської системи. Перехід з Core i7-2700K або Core i7-3770K на новітній Core i7-6700K дає збільшення числа fps величиною в 5-7 відсотків, що здатне вплинути на якість ігрового процесу.

Побачити все це набагато наочніше можна у тому випадку, якщо на ігрову продуктивність процесорів подивитися при зниженій якості зображення, коли частота кадрів не впирається в потужність графічної підсистеми.

Результати при зниженому дозволі


















Новому процесору Core i7-6700K знову вдається показати найвищу продуктивність серед усіх Core i7 останніх поколінь. Його перевага над Core i7-5775C становить близько 5 відсотків, а над Core i7-4690K – близько 10 відсотків. У цьому немає нічого дивного: ігри досить чуйно реагують на швидкість підсистеми пам'яті, а саме в цьому напрямку в Skylake були зроблені серйозні поліпшення. Але набагато помітніша перевага Core i7-6700K над Core i7-2700K та Core i7-3770K. Старший Sandy Bridge відстає від новинки на 30-35 відсотків, а Ivy Bridge програє їй близько 20-30 відсотків. Іншими словами, як би не лаяли Intel за занадто повільне вдосконалення власних процесорів, компанія змогла за минулі п'ять років на третину підвищити швидкість роботи своїх CPU, а це дуже відчутний результат.

Тестування у реальних іграх завершують результати популярного синтетичного бенчмарку Futuremark 3DMark.









Повторюють ігрові показники і ті результати, які видає Futuremark 3DMark. При перекладі мікроархітектури процесорів Core i7 з Sandy Bridge на Ivy Bridge показники 3DMark зросли на величину від 2 до 7 відсотків. Впровадження дизайну Haswell та випуск процесорів Devil's Canyon додав до продуктивності старших Core i7 додаткових 7-14 відсотків. Однак потім поява Core i7-5775C, що має порівняно невисоку тактову частоту, дещо відкотила швидкодію назад. І новітньому Core i7-6700K, власне, довелося віддуватися відразу за два покоління мікроархітектури. Приріст у підсумковому рейтингу 3DMark у нового процесора сімейства Skylake у порівнянні з Core i7-4790K становив до 7 відсотків. І насправді це не так багато: все-таки помітне поліпшення продуктивності за останні п'ять років змогли привнести процесори Haswell. Останні покоління десктопних процесорів, дійсно, кілька розчаровують.

Тести у додатках

У Autodesk 3ds max 2016 ми тестуємо швидкість фінального рендерингу. Вимірюється час, що витрачається на рендеринг у роздільній здатності 1920x1080 із застосуванням рендерера mental ray одного кадру стандартної сцени Hummer.



Ще один тест фінального рендерингу проводиться нами з використанням популярного вільного пакету побудови тривимірної графіки Blender 2.75a. У ньому ми вимірюємо тривалість побудови фінальної моделі із Blender Cycles Benchmark rev4.



Для вимірювання швидкості фотореалістичного тривимірного рендерингу ми користувалися тестом Cinebench R15. Maxon нещодавно оновила свій бенчмарк, і тепер він знову дозволяє оцінити швидкість роботи різних платформ при рендерингу актуальних версіяханімаційний пакет Cinema 4D.



Продуктивність при роботі веб-сайтів та інтернет-додатків, побудованих з використанням сучасних технологій, вимірюється нами у новому браузері Microsoft Edge 20.10240.16384.0. Для цього застосовується спеціалізований тест WebXPRT 2015, що реалізує на HTML5 і JavaScript алгоритми, що реально використовуються в інтернет-додатках.



Тестування продуктивності при обробці графічних зображеньвідбувається в Adobe Photoshop CC 2015. Вимірюється середній час виконання тестового скрипту, що є творчо переробленим Retouch Artists Photoshop Speed ​​Test, який включає типову обробку чотирьох 24-мегапіксельних зображень, зроблених цифровою камерою.



На численні прохання фотолюбителів ми провели тестування продуктивності у графічній програмі Adobe Photoshop Lightroom 6.1. Тестовий сценарій включає пост-обробку та експорт у JPEG з роздільною здатністю 1920x1080 та максимальною якістю двохсот 12-мегапіксельних зображень у RAW-форматі, зроблених цифровою камерою Nikon D300.



В Adobe Premiere Pro CC 2015 тестується продуктивність при нелінійному відеомонтажі. Вимірюється час рендерингу у формат H.264 Blu-Ray проекту, що містить HDV 1080p25 відеоряд із накладанням різних ефектів.



Для вимірювання швидкодії процесорів при компресії інформації ми користуємося архіватором WinRAR 5.3, за допомогою якого з максимальним ступенем стиснення архівуємо папку з різними файлами загальним обсягом 1,7 Гбайт.



Для оцінки швидкості перекодування відео у формат H.264 використовується тест x264 FHD Benchmark 1.0.1 (64bit), заснований на вимірі часу кодування кодером x264 вихідного відео формат MPEG-4/AVC з роздільною здатністю 1920x1080@50fps і налаштуваннями за замовчуванням. Слід зазначити, що результати цього бенчмарку мають величезне практичне значення, оскільки кодер x264 є основою численних популярних утиліт для перекодування, наприклад, HandBrake, MeGUI, VirtualDub тощо. Ми періодично оновлюємо кодер, який використовується для вимірювання продуктивності, і в даному тестуванні взяла участь версія r2538, в якій реалізовано підтримку всіх сучасних наборів інструкцій, включаючи і AVX2.



Крім того, ми додали до списку тестових додатків і новий кодер x265, призначений для транскодування відео до перспективного формату H.265/HEVC, який є логічним продовженням H.264 і характеризується більш ефективними алгоритмами стиснення. Для оцінки продуктивності використовується вихідний 1080p@50FPS Y4M відеофайл, який перекодується у формат H.265 з профілем medium. У цьому тестуванні взяв участь реліз кодера версії 1.7.



Перевага Core i7-6700K над ранніми попередниками у різних додатках не підлягає сумніву. Однак найбільше виграли від еволюції, що відбулася, два типи завдань. По-перше, пов'язані з обробкою мультимедійного контенту, чи це відео або зображення. По-друге, фінальний рендерингу пакетах тривимірного моделювання та проектування. У цілому нині, у разі Core i7-6700K перевищує Core i7-2700K щонайменше, ніж 40-50 відсотків. А іноді можна спостерігати і набагато вражаюче покращення швидкості. Так, при перекодуванні відео кодеком x265 новий Core i7-6700K видає рівно вдвічі більш високу продуктивність, ніж дід Core i7-2700K.

Якщо ж говорити про той приріст у швидкості виконання ресурсомістких завдань, яку може забезпечити Core i7-6700K порівняно з Core i7-4790K, то вже настільки вражаючих ілюстрацій до результатів роботи інтелівських інженерів привести не можна. Максимальна перевага новинки спостерігається в Lightroom, тут Skylake виявився кращим у півтора рази. Але це скоріше – виняток із правила. У більшості мультимедійних завдань Core i7-6700K в порівнянні з Core i7-4790K пропонує лише 10-відсоткове поліпшення продуктивності. А при навантаженні іншого характеру різниця в швидкодії і того менше або взагалі відсутня.

Окремо потрібно сказати пару слів і про результат, показаний Core i7-5775C. Через невелику тактову частоту цей процесор повільніше, ніж Core i7-4790K і Core i7-6700K. Але не слід забувати про те, що його ключовою характеристикою є економічність. І він цілком здатний стати одним із кращих варіантів з погляду питомої продуктивності на кожен ват витраченої електроенергії. У цьому ми легко переконаємось у наступному розділі.

Енергоспоживання

Процесори Skylake виробляються за сучасним 14-нм технологічним процесом із тривимірними транзисторами другого покоління, проте, незважаючи на це, їх тепловий пакет виріс до 91 Вт. Іншими словами, нові CPU не тільки «гарячі» 65-ватних Broadwell, але й перевершують за розрахунковим тепловиділенням Haswell, що випускаються за 22-нм технології і вживаються в рамках 88-ватного теплового пакету. Причина, очевидно, полягає в тому, що спочатку архітектура Skylake оптимізувалася з прицілом не на високі частоти, а на енергоефективність та можливість використання в мобільних пристроях. Тому для того, щоб десктопні Skylake отримали прийнятні тактові частоти, що лежать в околиці 4-гігагерцевої позначки, довелося задирати напругу живлення, що неминуче відбилося на енергоспоживання та тепловиділенні.

Втім, процесори Broadwell низькими робочими напругами теж не відрізнялися, тому існує надія на те, що 91-ватний тепловий пакет Skylake отримали за якимись формальними обставинами і, насправді, вони виявляться ненажерливішими за попередників. Перевіримо!

Новий цифровий блок живлення Corsair RM850i, що використовується нами в тестовій системі, дозволяє здійснювати моніторинг споживаної та видається електричної потужності, ніж ми і користуємося для вимірювань. На наступному нижче графіку наводиться повне споживання систем (без монітора), виміряне «після» блоку живлення і сума енергоспоживання всіх задіяних у системі компонентів. ККД самого блоку живлення у разі не враховується. Для правильної оцінки енергоспоживання ми активували турборежу і всі наявні енергозберігаючі технології.



У стані простою якісний стрибок в економічності настільних платформ стався з виходом Broadwell. Core i7-5775C та Core i7-6700K відрізняються помітно нижчим споживанням у простої.



Зате під навантаженням у вигляді перекодування відео економічними варіантами CPU виявляються Core i7-5775C і Core i7-3770K. Новий Core i7-6700K споживає більше. Його енергетичні апетити перебувають на рівні старшого Sandy Bridge. Щоправда, у новинці, на відміну від Sandy Bridge, є підтримка інструкцій AVX2, які вимагають серйозних енергетичних витрат.

На наступній діаграмі наводиться максимальне споживання при навантаженні, що створюється 64-бітною версією утиліти LinX 0.6.5 з підтримкою набору інструкцій AVX2, яка базується на пакеті Linpack, що відрізняється непомірними енергетичними апетитами.



І знову процесор покоління Broadwell показує чудеса енергетичної ефективності. Однак якщо дивитися на те, скільки електроенергії споживає Core i7-6700K, стає зрозуміло, що прогрес у мікроархітектурах обійшов стороною енергетичну ефективність настільних CPU. Так, у мобільному сегменті з виходом Skylake з'явилися нові пропозиції з надзвичайно спокусливим співвідношенням продуктивності та енергоспоживання, проте новітні процесори для десктопів продовжують споживати приблизно стільки ж, скільки споживали їхні попередники за п'ять років до сьогодні.

Висновки

Провівши тестування нового Core i7-6700K і порівнявши його з кількома поколіннями попередніх CPU, ми знову приходимо до невтішного висновку про те, що компанія Intel продовжує слідувати своїм негласним принципам і не дуже прагне нарощувати швидкодію десктопних процесорів, орієнтованих на високопродуктивні системи. І якщо в порівнянні зі старшим Broadwell новинка пропонує приблизно 15-відсоткове поліпшення продуктивності, обумовлене суттєво кращими тактовими частотами, то в порівнянні з старішим, але швидшим Haswell вона вже не здається настільки ж прогресивною. Різниця у продуктивності Core i7-6700K та Core i7-4790K, незважаючи на те, що ці процесори поділяє два покоління мікроархітектури, не перевищує 5-10 відсотків. І це дуже мало для того, щоб старший десктопний Skylake можна було б однозначно рекомендувати для оновлення LGA 1150-систем.

Втім, до таких незначних кроків Intel у підвищенні швидкості роботи процесорів для настільних систем варто давно звикнути. Приріст швидкодії нових рішень, що лежить приблизно в таких межах, - традиція, що давно склалася. Жодних революційних змін у обчислювальній продуктивності інтелівських CPU, орієнтованих на настільні ПК, не відбувається вже дуже давно. І причини цього цілком зрозумілі: інженери компанії зайняті оптимізацією мікроархітектур, що розробляються. мобільних застосуваньі насамперед думають про енергоефективність. Успіхи Intelв адаптації власних архітектур для використання в тонких і легких пристроях безсумнівні, але адептам класичних десктопів при цьому тільки й залишається, що задовольнятися невеликими надбавками швидкодії, які, на щастя, поки що не зовсім зійшли нанівець.

Однак це зовсім не означає, що Core i7-6700K можна рекомендувати лише для нових систем. Замислитися про модернізацію своїх комп'ютерів можуть власники конфігурацій, в основі яких лежить платформа LGA 1155 з процесорами поколінь Sandy Bridge і Ivy Bridge. У порівнянні з Core i7-2700K та Core i7-3770K новий Core i7-6700K виглядає дуже непогано – його середньозважена перевага над такими попередниками оцінюється у 30-40 відсотків. Крім того, процесори з мікроархітектурою Skylake можуть похвалитися підтримкою набору інструкцій AVX2, який зараз знайшов досить широке застосування в мультимедійних додатках, і завдяки цьому в деяких випадках Core i7-6700K виявляється швидше набагато сильніше. Так, при перекодуванні відео ми навіть бачили випадки, коли Core i7-6700K перевершував Core i7-2700K у швидкості роботи більш ніж удвічі!

Є у процесорів Skylake і цілий ряд інших переваг, пов'язаних з впровадженням супутньої їм нової платформи LGA 1151. І справа навіть не стільки в підтримці DDR4-пам'яті, що з'явилася в ній, скільки в тому, що нові набори логіки сотої серії нарешті отримали дійсно швидкісне з'єднання з процесором та підтримку великої кількостіліній PCI Express 3.0 В результаті, передові LGA 1151-системи можуть похвалитися наявністю численних швидких інтерфейсів для підключення накопичувачів та зовнішніх пристроїв, які позбавлені будь-яких штучних обмежень пропускної здатності.

Плюс до того, оцінюючи перспективи платформи LGA 1151 і процесорів Skylake, слід мати на увазі і ще один момент. Intel не поспішатиме з виведенням на ринок процесорів наступного покоління, відомих як Kaby Lake. Якщо вірити наявній інформації, представники цієї серії процесорів у варіантах настільних комп'ютерів з'являться на ринку тільки в 2017 році. Тому Skylake буде з нами ще довго, і система, побудована на ньому, зможе залишатися актуальною протягом дуже тривалого проміжку часу.

1. Мікроархітектура Sandy Bridge: коротко

Чіп Sandy Bridge – це дво-чотирьохядерний 64-бітний процесор зі змінною (out-of-order) послідовністю виконання команд, з підтримкою двох потоків даних на ядро ​​(HT), з виконанням чотирьох команд за такт; ● з інтегрованим графічним ядром та інтегрованим контролером пам'яті DDR3; ● з новою кільцевою шиною, ● підтримкою 3- та 4-операндних (128/256-бітних) векторних команд розширеного набору AVX (Advanced Vector Extensions); виробництво якого налагоджено на лініях із дотриманням норм 32-нм технологічного процесу Intel.

Так, однією пропозицією можна охарактеризувати нове покоління процесорів Intel Core 2 для мобільних і настільних систем, з поставкою з 2011 р.

МП Intel Core II на базі МА Sandy Bridge поставляються у новому 1155 контактному конструктиві LGA1155під нові системні плати на чіпсетах Intel 6 Series із наборами системної логіки (Intel B65 Express, H61 Express, H67 Express, P67 Express, Q65 Express, Q67 Express та 68 Express, Z77).


Приблизно така сама мікроархітектура є актуальною і для серверних рішень. Intel Sandy Bridge-E з відмінностями у вигляді більшої кількості процесорних ядер (до 8), процесорного роз'єму LGA2011, більшого обсягу кеша L3, збільшеної кількості контролерів пам'яті DDR3 та підтримкою PCI-Express 3.0.

Попереднє покоління, мікроархітектура Westmereбула конструкцією з двох кристалів: ● 32-нм процесорного ядра і ● додаткового 45-нм «співпроцесора» з графічним ядром і контролером пам'яті на борту, розміщених на єдиній підкладці та обмін даними за допомогою шини QPI, тобто. інтегровану гібридну мікросхему (у центрі).

При створенні МА Sandy Bridge розробники розмістили всі елементи на єдиному 32-нм кристалі, відмовившись при цьому від класичного виду шини на користь нової кільцевої шини.

Суть архітектури Sandy Bridge залишилася незмінною - ставка на збільшенні сумарної продуктивності процесора за рахунок поліпшення «індивідуальної» ефективності кожного ядра.



Структуру чіпа Sandy Bridge можна умовно поділити на такі основні елементи: ■ процесорні ядра, ■ графічне ядро, ■кеш-пам'ять L3 та ■ «системний агент» (System Agent). Опишемо призначення та особливості реалізації кожного з елементів цієї структури.

Вся історія модернізації процесорних мікроархітектур Intel останніх років пов'язана з послідовною інтеграцією в єдиний кристал все більшої кількості модулів і функцій, що раніше розташовувалися поза МП: у чіпсеті, на материнської платиі т.д. У міру збільшення продуктивності процесора та ступеня інтеграції чіпа, вимоги до пропускної здатності внутрішніх міжкомпонентних шин зростали випереджаючими темпами. Раніше обходилися міжкомпонентними шинами з перехресною топологією і було достатньо.

Однак ефективність такої топології висока лише за невеликої кількості компонентів, що беруть участь в обміні даними. У Sandy Bridge для підвищення загальної продуктивності системи звернулися до кільцевої топології 256-бітної міжкомпонентної шинина основі нової версії QPI(QuickPath Interconnect).

Шина служить для обміну даними між компонентами чіпа:


● 4-ма МП ядрами x86,

● графічним ядром,

● кешем L3 та

● системним агентом.


Шина складається з 4-х 32-байтних. кілець:

■ шини даних (Data Ring), ■ шини запитів (Request Ring),

■ шини моніторингу стану (Snoop Ring) та ■ шини підтвердження (Acknowledge Ring).


Управління шинами здійснюється за допомогою комунікаційного протоколу розподіленого арбітражуПри цьому конвеєрна обробка запитів відбувається на тактовій частоті процесорних ядер, що надає МА додаткову гнучкість при розгоні. Продуктивність шини оцінюється в 96 Гбайт/сна з'єднання при тактовій частоті 3 ГГц, що у 4 рази перевищує показники процесорів Intel попереднього покоління.

Кільцева топологія та організація шин забезпечує ●мінімальну латентність при обробці запитів, ●максимальну продуктивність та ●відмінну масштабованість технології для версій чіпів з різною кількістю ядер та інших компонентів.

У перспективі до кільцевої шини може бути "підключено" до 20процесорних ядер на кристал, і подібний редизайн може проводитися дуже швидко, у вигляді гнучкої та оперативної реакцію поточні потреби ринку.

Крім того, фізично кільцева шина розташовується безпосередньо над блоками кеш-пам'яті L3 у верхньому рівні металізації, що спрощує розведення дизайну та дозволяє зробити чіп компактнішим.

У ці дні компанія Intel представляє світові довгоочікувані процесори Sandy Bridge, архітектура яких заздалегідь була охрещена як революційна. Але не тільки процесори стали новинками цих днів, а й усі супутні компоненти нових настільних та мобільних платформ.

Отже, цього тижня анонсовано аж 29 нових процесорів, 10 чіпсетів та 4 бездротовий адаптердля ноутбуків та настільних робочих та ігрових комп'ютерів.

До мобільних новинок відносяться:

    процесори Intel Core i7-2920XM, Core i7-2820QM, Core i7-2720QM, Core i7-2630QM, Core i7-2620M, Core i7-2649M, Core i7-2629M, Core i7-2657M, Core 2540M, Core i5-2520M, Core i5-2410M, Core i5-2537M, Core i3-2310M;

    чіпсети Intel QS67, QM67, HM67, HM65, UM67 Express;

    бездротові мережеві контролери Intel Centrino Advanced N + WiMAX 6150, Centrino Advanced N 6230, Centrino Advanced N 6205, Centrino Wireless N 1030.

У настільному сегменті з'являться:

    процесори Intel Core i7-2600K, Core i7-2600S, Core i7-2600, Core i5-2500S, Core i5-2500T, Core i5-2500T, Core i5-2400, Core i5-240 2390T, Core i5-2300;

    чіпсети Intel P67, H67, Q67, Q65, B65 Express.

Але відразу ж варто відзначити, що анонс нової платформи не є одночастинним для всіх моделей процесорів і чіпсетів – з початку січня доступні лише рішення класу «майнстрім», а більшість масовіших і не таких дорогих з'являться у продажу трохи пізніше. Разом з випуском настільних процесорів Sandy Bridge представлено і новий процесорний роз'єм для них LGA 1155. Таким чином, новинки не доповнюють модельний ряд Intel Core i3/i5/i7, а є заміною для процесорів під LGA 1156, більшість з яких тепер стають зовсім неперспективним придбанням, бо найближчим часом їхній випуск взагалі має припинитися. І лише для ентузіастів до кінця року Intel обіцяє продовжувати випуск старших чотириядерних моделей на ядрі Lynnfield.

Однак, судячи з «роадмапу» платформа довгожитель Socket T (LGA 775) все ще залишатиметься актуальною як мінімум до середини року, будучи основою для систем початкового рівня. Для найбільш продуктивних ігрових систем і справжніх ентузіастів до кінця року будуть актуальні процесори на ядрі Bloomfield по роз'єму LGA 1366. Як бачимо, життєвий цикл двоядерних процесорів з «інтегрованим» графічним адаптером на ядрі Clarkdale виявився дуже коротким, але один рік, але саме "протоптали" доріжку для представлених "сьогодні" Sandy Bridge, привчивши споживача до думки, що в процесорі може бути інтегрований не тільки контролер пам'яті, а й відеокарта. Тепер настав час не просто випустити більш швидкі версії подібних процесорів, серйозно оновити архітектуру, щоб забезпечити помітне збільшення їхньої ефективності.

Ключовими особливостями процесорів архітектури Sandy Bridge є:

    випуск із дотриманням 32 нм техпроцесу;

    помітно збільшена енергоефективність;

    оптимізована технологія Intel Turbo Boost та підтримка Intel Hyper-Threading;

    значне збільшення продуктивності вбудованого графічного ядра;

    реалізація нового набору інструкцій Intel Advanced Vector Extension (AVX) для прискорення обробки дійсних чисел.

Але всі вищевказані нововведення не забезпечували б можливості говорити про справді нову архітектуру, якби все це не було реалізовано тепер в межах одного ядра (кристалу), на відміну від процесорів на ядрі Clarkdale.

Звичайно, щоб усі вузли процесора запрацювали узгоджено, потрібно було організувати швидкий обмін інформацією між ними – важливим архітектурним нововведенням стала кільцева шина Ring Interconnect.

Об'єднує ж Ring Interconnect через кеш-пам'ять L3, тепер звану LLC (Last Level Cache), процесорні ядра, графічне ядро ​​і системний агент (System Agent), що включає контролер пам'яті, контролер шини PCI Express, контролер DMI, модуль управління живленням і інші контролери та модулі, які раніше мали об'єднані назвою «uncore».

Кільцева шина Ring Interconnect є наступним етапом розвитку шини QPI (QuickPath Interconnect), яка після «обкатки» в серверних процесорах з оновленою 8-ядерною архітектурою Nehalem-EX, перекочувала і в ядро ​​процесорів для настільних і мобільних систем. За допомогою Ring Interconnect утворюються чотири 32-розрядні кільця для шин Даних (Data Ring), Запитів (Request Ring), Моніторингу стану (Snoop Ring) та Підтвердження (Acknowledge Ring). Функціонує кільцева шина на частоті ядер, тому її пропускна здатність, затримки та енергоспоживання повністю залежать від частоти роботи обчислювальних блоків процесора.

Кеш-пам'ять третього рівня (LLC - Last Level Cache) є спільною всім обчислювальних ядер, графічного ядра, системного агента та інших блоків. При цьому графічний драйвервизначає які потоки даних розмістити в кеш-пам'яті, але будь-який інший блок може отримати доступ до всіх даних в LLC. Спеціальний механізм контролює розподіл кеш-пам'яті, щоб не виникли колізії. З метою прискорення роботи кожного з процесорних ядер виділено «свій» сегмент кеш-пам'яті, якого воно має прямий доступ. Кожен такий сегмент включає незалежний контролер доступу до шини Ring Interconnect, але ведеться постійна взаємодія з системним агентом, який виробляє загальне управліннякеш-пам'яттю.

Системний агент (System Agent), по суті, є вбудованим у процесор «північним мостом» і поєднує контролери шин PCI Express, DMI, оперативної пам'яті, блок обробки відео (медіапроцесор та управління інтерфейсами), диспетчер живлення та інші допоміжні блоки. З рештою вузлів процесора системний агент взаємодіє через кільцеву шину. Крім упорядкування потоків даних, системний агент стежить за температурою та завантаженням різних блоків, і через Power Control Unit забезпечує управління напругою живлення та частотами, щоб забезпечити найкращу енергоефективність за високої продуктивності. Тут же можна відзначити, що для живлення нових процесорів потрібний трикомпонентний стабілізатор живлення (або двох, якщо вбудоване відеоядро залишиться неактивним) – окремо для обчислювальних ядер, системного агента та інтегрованої відеокарти.

Вбудована в процесор шина PCI Express відповідає специфікації 2.0 і налічує 16 ліній для збільшення потужності графічної підсистеми за допомогою потужного зовнішнього 3D-прискорювача. У разі використання старших наборів системної логіки та узгодження ліцензійних питань ці 16 ліній можуть бути поділені на 2 або три слоти в режимах 8x+8x або 8x+4x+4x відповідно для NVIDIA SLI та/або AMD CrossFireX.

Для обміну даними із системою (накопичувачами, портами введення-виведення, периферією, контролери яких знаходяться в чіпсеті) використовується шина DMI 2.0, що дозволяє прокачати до 2 ГБ/с корисної інформаціїв обох напрямках.

Важливою частиною системного агента є вбудований у процесор двоканальний контролер пам'яті DDR3, що номінально підтримує модулі на частоті 1066-1333 МГц, але при використанні в материнських платах на чіпсеті Intel P67 Express без проблем, що забезпечує функціонування модулів на частоті до 1603 і навіть 21. Розміщення контролера пам'яті в одному кристалі з процесорними ядрами (ядро Clarkdale складалося з двох кристалів) має зменшити латентність пам'яті та, відповідно, збільшити продуктивність системи.

Почасти завдяки розширеному моніторингу параметрів всіх обчислювальних ядер, кеш-пам'яті та допоміжних блоків, реалізований у Power Control Unit, у процесорах Sandy Bridge з'явилася вдосконалена технологія Intel Turbo Boost 2.0. Тепер, залежно від навантаження і завдань, ядра процесора при високій необхідності можуть прискорюватися навіть з перевищенням теплового пакета, як при звичайному ручному розгоні. Але системний агент стежитиме за температурою процесора та його компонентів, і коли буде зафіксовано «перегрів» частоти вузлів поступово зменшуватимуться. Однак у настільних процесорах лімітовано час роботи у надприскореному режимі, т.к. тут значно легше організувати в рази більше ефективне охолодження, Чим «боксовий» кулер Такий «овербуст» дозволить отримати збільшення продуктивності в критичні для системи моменти, що має створити в користувача враження роботи з більш потужною системою, а також зменшити час очікування реакції системи. Також Intel Turbo Boost 2.0 гарантує, що і в настільних комп'ютерах інтегроване відеоядро має динамічну продуктивність.

Архітектура процесорів Sandy Bridge передбачає не лише зміни у структурі міжкомпонентної взаємодії та покращення можливостей та енергоефективності цих компонентів, а й внутрішні зміни у кожному обчислювальному ядрі. Якщо відкинути «косметичні» поліпшення, то найважливішими виявляться такі:

    повернення до виділення кеш-пам'яті для приблизно 1,5 тисяч декодованих мікрооперацій L0 (використовувався Pentium 4), що є відокремленою частиною L1, що дозволяє одночасно забезпечити більш рівномірне завантаження конвеєрів і знизити енергоспоживання внаслідок збільшення пауз в роботі досить складних схем декодерів операцій;

    підвищення ефективності блоку передбачення розгалужень внаслідок збільшення ємності буферів адрес результатів розгалуження, історії команд, історії розгалужень, що збільшило ефективність конвеєрів;

    збільшення ємності буфера переупорядкованих команд (ROB - ReOrder Buffer) та підвищення ефективності цієї частини процесора завдяки впровадженню фізичного реєстрового файлу (PRF – Physical Register File, теж характерної риси Pentium 4) зберігання даних, і навіть розширення інших буферів;

    подвоєння ємності регістрів для роботи з потоковими речовими даними, що в ряді випадків може забезпечити вдвічі більшу швидкість виконання операцій, що їх використовують;

    збільшення ефективності виконання інструкцій шифрування для алгоритмів AES, RSA та SHA;

    запровадження нових векторних інструкцій Advanced Vector Extension (AVX);

  • оптимізацію роботи кеш-пам'яті першого L1 та другого L2 рівнів.

Важливою особливістю графічного ядра процесорів Sandy Bridge є те, що воно тепер знаходиться в одному кристалі з іншими блоками, а керування його характеристиками та стеження станом виконує на апаратному рівні системний агент. При цьому блок обробки медіаданих та формування сигналів для відеовиходів винесений у цей самий системний агент. Така інтеграція забезпечує тіснішу взаємодію, менші затримки, більшу ефективність тощо.

Однак самій архітектурі графічного ядра не так багато змін, як того хотілося б. Замість очікуваної підтримки DirectX 11 було просто додано підтримку DirectX 10.1. Відповідно і не багато програм з підтримкою OpenGL обмежені апаратною сумісністю тільки з 3-ю версією специфікації цього вільного API. При цьому хоч і йдеться про вдосконалення обчислювальних блоків, але їх залишилося стільки ж – 12, і то лише для старших процесорів. Однак збільшення тактової частоти до 1350 МГц обіцяє помітний приріст продуктивності у будь-якому випадку.

З іншого боку, створити вбудоване відеоядро з дійсно високою продуктивністю та функціональністю для сучасних ігор при невисокому енергоспоживання дуже важко. Тому відсутність підтримки нових API вплине лише на сумісність із новими іграми, а продуктивність за дійсно великого бажання комфортно грати потрібно буде нарощувати за допомогою дискретного 3D-прискорювача. А ось розширення функціональності при роботі з мультимедійними даними, в першу чергу при кодуванні та декодуванні відео в рамках Intel Clear Video Technology HD, можна зарахувати до переваг Intel HD Graphics II (Intel HD Graphics 2000/3000).

Оновлений медіапроцесор дозволяє розвантажити процесорні ядра при кодуванні відео у форматах MPEG2 і H.264, а також розширює набір пост-процесингових функцій апаратною реалізацією алгоритмів для автоматичного підстроювання контрастності зображення (ACE – Adaptive Contrast Enhancement), коригування кольорів (TCC – Total Color Control) та покращення відображення шкіри (STE – Skin Tone Enhancement). Підвищує перспективність використання вбудованої відеокарти реалізована підтримка інтерфейсу HDMI версії 1.4, сумісної із Blu-ray 3D (Intel InTru 3D).

Все перераховані вище архітектурні особливості забезпечують новому поколінню процесорів помітну перевагу по швидкодії над моделями попереднього покоління, як у обчислювальних задачах, так і при роботі з відео.

У результаті платформа Intel LGA 1155 стає більш продуктивною та функціональною, приходячи на зміну LGA 1156.

Якщо підсумувати, процесори сімейства Sandy Bridge спроектовані для вирішення дуже широкого кола завдань при високій енергоефективності, що повинно їх зробити дійсно масовими в нових продуктивних системах, особливо коли у продажу з'являться більш доступні моделі в широкому асортименті.

Найближчим часом поступово покупцям стануть доступні 8 процесорів для настільних систем різного рівня: Intel Core i7-2600K, Intel Core i5-2500K, Intel Core i5-2500, Intel Core i5-2400, Intel Core i5-2300 , Intel Core i3-2120 та Intel Core i3-2100. Моделі з індексом K відрізняються вільним множником та швидшим вбудованим відеоадаптером Intel HD Graphics 3000.

Також для критичних до енергоспоживання систем випущено енергоефективні (індекс S) та високоенергоефективні (індекс T) моделі.

Для підтримки нових процесорів вже сьогодні доступні материнські плати на чіпсетах Intel P67 Express та Intel H67 Express, а в недалекому майбутньому очікуються на Intel Q67 Express та Intel B65 Express, орієнтовані на корпоративних користувачівта малий бізнес. Всі ці чіпсети нарешті почали підтримувати накопичувачі з інтерфейсом SATA 3.0, хоч і не всіма портами. А ось підтримки, здавалося б навіть затребуванішої шини USB 3.0 в них немає. Цікавими особливостяминових чіпсетів для звичайних материнських плат стало те, що вони відмовилися від підтримки шини PCI. Крім того, тепер тактовий генератор вбудований в чіпсет і керувати його характеристиками без наслідків для стабільності роботи системи можна лише в дуже невеликому діапазоні, якщо пощастить лише ±10 МГц, а на практиці і того менше.

Також слід зазначити, що різні чіпсети оптимізовані під використання з різними процесорами в системах, призначених для різних цілей. Тобто Intel P67 Express від Intel H67 Express відрізняється не тільки відсутністю підтримки роботи з вбудованим відео, але й розширеними можливостями для «оверклокінгу» та тюнінгу продуктивності. У свою чергу, Intel H67 Express взагалі не помічає вільний множник у моделей з індексом K.

Адже внаслідок архітектурних особливостей, розгін процесорів Sandy Bridge поки що можливий лише за допомогою множника, якщо це модель K-серії. Хоча до певної оптимізації та «овербусту» схильні всі моделі.

Таким чином, тимчасово для створення ілюзії роботи на дуже потужному процесорінавіть моделі із заблокованим множником здатні на помітне прискорення. Час такого прискорення для настільних систем, як було згадано вище, обмежено апаратно, а не лише температурою, як у мобільних ПК.

Після представлення всіх архітектурних особливостей та нововведень, а також оновлених фірмових технологій, залишається тільки ще раз підсумувати, чим Sandy Bridge такі інноваційні і нагадати про позиціонування.

Для високопродуктивних та масових продуктивних систем найближчим часом можна буде купити процесори серій Intel Core i7 та Intel Core i5, які між собою відрізняються підтримкою технології Intel Hyper-Threading (для чотирьохядерних моделей Intel Core i5 вона відключена) та обсягом кеш-пам'яті третього рівня. Для більш економних покупців представлені нові моделі Intel Core i3, які мають у 2 рази менше обчислювальних ядер, хоч і за допомогою Intel Hyper-Threading, всього 3 МБ кеш-пам'яті LLC, не підтримують Intel Turbo Boost 2.0 і всі укомплектовані Intel HD Graphics 2000.

У середині року для масових систем будуть представлені процесори Intel Pentium (від цього бренду дуже важко відмовитися, хоча ще рік тому пророкували) на основі дуже спрощеної архітектури Sandy Bridge. Фактично ці процесори для «робочих коней» нагадуватимуть по можливостям ще вчора актуальні Core i3-3xx на ядрі Clarkdale, т.к. Майже всіх функцій, властивих старшим моделям для LGA 1155, вони втратять.

Залишається відзначити, що випуск процесорів Sandy Bridge і цілої настільної платформи LGA 1155 став черговим "Так" у рамках концепції Intel "Тік-Так", тобто. серйозним оновленням архітектури для випуску за налагодженим 32 нм техпроцесу. Приблизно через рік на нас чекатимуть процесори Ivy Bridge з оптимізованою архітектурою та виконані по 22 нм техпроцесу, які, напевно, знову матимуть «революційну енергоефективність», але, сподіваємось, не скасують процесорний роз'єм LGA 1155. Що ж, почекаємо – побачимо. А поки що у нас є мінімум рік на вивчення архітектури Sandy Bridge та її всебічне тестування , до чого і збираємося приступити вже найближчими днями.

Стаття прочитана 14947 раз(и)

Підписатися на наші канали

У рамках форуму IDF 2010, що пройшов 13-15 вересня, компанія Intel вперше оголосила подробиці нової процесорної мікроархітектури, відомої під кодовим найменуванням Sandy Bridge. Власне, процесор Sandy Bridge демонструвався ще на минулорічному форумі IDF 2009, але подробиць нової мікроархітектури тоді не повідомляли (хіба що самі загальні відомості). Відразу обмовимося, що далеко не всі її подробиці стали надбанням гласності і зараз. Дещо компанія хоче залишити в секреті до офіційного анонсу, який має відбутися на початку наступного року. Зокрема, не розголошуються подробиці щодо продуктивності нових процесорів, модельного ряду та деяких особливостей архітектури.
Отже, познайомимося ближче з новою мікроархітектурою Sandy Bridge, а також з особливостями процесорів на її базі, які надалі ми будемо називати процесорами Sandy Bridge.

Коротко про процесори Sandy Bridge

Всі процесори з кодовим найменуванням Sandy Bridge спочатку будуть проводитися по 32-нм техпроцесу. Надалі, коли відбудеться перехід на 22-нм техпроцес, процесори з урахуванням мікроархітектури Sandy Bridge отримають кодове найменування Ivy Bridge (рис. 1).

Мал. 1. Еволюція сімейств процесорів Intel та процесорних мікроархітектур

Процесори Sandy Bridge, так само, як процесори Westmere, утворюють у настільному та мобільному сегментах три сімейства: Intel Core i7, Intel Core i5 та Intel Core i3, проте логотипи цих процесорів дещо зміняться (рис. 2). Якщо точніше, то мова йдепро друге покоління (2 nd Generation) сімейств Intel Core.

Мал. 2. Нові логотипи процесорів Sandy Bridge

Відомо, що система маркування процесорів повністю зміниться, але на форумі IDF 2010 нічого не повідомлялося щодо нової системипозначення моделей процесорів.

За неофіційними даними, процесори Sandy Bridge маркуватимуться чотиризначним числом, причому перша цифра – 2 – означає друге покоління сімейства Intel Core. Тобто буде, наприклад (знов-таки, за неофіційними даними) процесор Intel Core i7-2600 або Intel Core i5-2500. У сімействах Intel Core i7 та Intel Core i5 будуть процесори як із заблокованим коефіцієнтом множення, так і з розблокованим, причому останні позначатимуться літерою K (Intel Core i7-2600K, Intel Core i5-2500K).

Основні відмінності між сімействами Intel Core i7, Intel Core i5 та Intel Core i3 полягатимуть у розмірі кешу L3, кількості ядер та підтримці технологій Hyper-Threading та Turbo Boost.

Процесори сімейства Intel Core i7 будуть чотириядерними за допомогою технологій Hyper-Threading та Turbo Boost, а розмір кешу L3 складе 8 Мбайт.

Процесори сімейства Intel Core i5 будуть чотириядерними, але не підтримуватимуть технологію Hyper-Threading. Ядра цих процесорів підтримуватимуть технологію Turbo Boost, а розмір кешу L3 становитиме 6 Мбайт.

Процесори сімейства Intel Core i3 будуть двоядерними за допомогою технології Hyper-Threading, але без підтримки технології Turbo Boost. Розмір кешу L3 у цих процесорах складе 3 Мбайт.

Після оголошення неофіційних відомостей перейдемо до достовірних даних.

Всі нові процесори Sandy Bridge отримають новий процесорний роз'єм LGA 1155 і, звичайно, будуть несумісні з материнськими платами на базі чіпсетів Intel 5 серії. Власне, для процесорів Sandy Bridge будуть призначені системні плати на базі нового чіпсета Intel 6-ї серії. Нововведенням цих однокристальних чіпсетів стане підтримка двох портів SATA 6 Гбіт/с (SATA III), а також повношвидкісних ліній PCI Express 2.0 (з частотою 5 ГГц). А ось інтегрованого в чіпсет контролера USB 3.0 поки що не буде.

Втім, повернемося до процесорів Sandy Bridge. Новий процесорний роз'єм LGA 1155 вимагатиме, мабуть, і нових кулерів, оскільки кулери під роз'єм LGA 1156 будуть несумісні з роз'ємом LGA 1155. Втім, це лише наш здогад, заснований на простій логіці. Зрештою, компанія Intel повинна якось стимулювати випуск нових моделей кулерів, щоб виробники кулерів не загнулися остаточно.

Відмінною рисою всіх процесорів Sandy Bridge стане наявність у них інтегрованого графічного ядра нового покоління. Причому якщо в процесорах попереднього покоління (Clarkdale і Arrandale) обчислювальні ядра процесора і графічне ядро ​​розміщувалися на різних кристалах і, більше того, проводилися за різними техпроцесами, то в процесорах Sandy Bridge всі компоненти процесора випускатимуться по 32-нм техпроцесу і розміщуватимуться на одному кристал.

Важливо підкреслити, що ідеологічно графічне ядро ​​процесора Sandy Bridge можна як п'яте ядро ​​процесора (у разі чотириядерних процесорів). Причому графічне ядро, як і обчислювальні ядра процесора, має доступом до кешу L3.

Так само, як процесори попереднього покоління Clarkdale та Arrandale, процесори Sandy Bridge будуть мати інтегрований інтерфейс PCI Express 2.0 для використання дискретних відеокарт. Всі процесори підтримують 16 ліній PCI Express 2.0, які можуть бути згруповані або як один порт PCI Express x16, або як два порти PCI Express x8.

Також слід зазначити, що всі процесори Sandy Bridge матимуть інтегрований двоканальний контролер пам'яті DDR3. Варіантів із триканальним контролером пам'яті поки що випускати не планується. Пов'язано це з тим, що модельний ряд Sandy Bridge не охоплюватиме сегмент топових настільних процесорів. Топовим настільним процесором стане Нова модельшестиядерного процесора Gulftown (Intel Core i7-990X), а модельний ряд процесорів Sandy Bridge буде орієнтований на продуктивні, масові та бюджетні ПК.

Ще одна особливість процесорів на базі мікроархітектури Sandy Bridge полягає в тому, що замість шини QPI (Intel QuickPath Interconnect), яка раніше використовувалася для зв'язку окремих компонентів процесора один з одним, тепер застосовується принципово інший інтерфейс, званий кільцевою шиною (Ring Bus), яку ми детально розглянемо далі.

Взагалі, слід зазначити, що архітектура процесора Sandy Bridge має на увазі модульну, легко масштабовану структуру (рис. 3).

Мал. 3. Модульна структура процесора Sandy Bridge

Ще одна особливість мікроархітектури Sandy Bridge полягає в тому, що в ній реалізовано підтримку набору інструкцій Intel AVX (Intel Advanced Vector Extension).

Intel AVX є новий набір розширень для архітектури Intel, що передбачає 256-бітові векторні обчислення з плаваючою комою на базі SIMD (Single Instruction, Multiple Data).

Intel AVX передбачає комплексне розширення архітектури набору команд для мікроархітектури Intel 64 і має такі особливості:

  • підтримка векторних даних із більшою розрядністю (до 256 біт);
  • ефективна схема кодування інструкцій, що підтримує синтаксис команд із трьома та чотирма операндами;
  • гнучке середовище програмування, яке передбачає різні можливості - від інструкцій обробки переходів до знижених вимог до вирівнювання зміщень у пам'яті;
  • нові примітиви для маніпулювання даними та прискорення арифметичних обчислень, включаючи трансляцію (broadcast), перестановку (permute), одночасне множення та додавання (fused-multiply-add, FMA) та ін.

Враховуючи той факт, що новий набір команд Intel AVX може використовуватися будь-якими додатками, в яких значна частка обчислень припадає на операції SIMD, найбільший приріст продуктивності нова технологія дасть для тих, що переважно виконують обчислення з плаваючою комою і можуть бути розпаралелені. Як приклад можна назвати програми обробки звуку та аудіокодеки, програми для редагування зображень та відео, програми для моделювання та фінансового аналізу, а також промислові та інженерні програми.

Говорячи про процесорну мікроархітектуру Sandy Bridge, слід зазначити, що вона є розвитком мікроархітектури Nehalem або Intel Core (оскільки мікроархітектура Nehalem - це розвиток мікроархітектури Intel Core). Відмінності між Nehalem і Sandy Bridge досить суттєві, проте назвати цю мікроархітектуру принципово новою, якою свого часу була мікроархітектура Intel Core, все ж таки не можна. Це саме модифікована мікроархітектура Nehalem.

Тепер докладніше ознайомимося з нововведеннями мікроархітетури Sandy Bridge та її відмінностей від Nehalem.

Ядро процесора на основі мікроархітектури Sandy Bridge

Перш ніж перейти до розгляду відмінностей мікроархітектур Sandy Bridge і Nehalem, нагадаємо, що схема будь-якого процесора має на увазі наявність кількох конструктивних елементів: L1-кешу даних та команд, передпроцесора (Front End) та постпроцесора, званого також блоком виконання команд (Execution Engine).

Процес обробки даних включає такі етапи. Спочатку інструкції та дані забираються з кешу L1 (цей етап називається вибіркою). Після цього вибрані з кешу інструкції декодуються у зрозумілі для процесора машинні примітиви (мікрооперації). Ця процедура називається декодуванням. Далі декодовані команди надходять на виконавчі блоки процесора та виконуються, а результат записується на згадку.

Процеси вибірки інструкцій з кешу, їх декодування та просування до виконавчих блоків здійснюються у передпроцесорі, а процес виконання команд – у постпроцесорі.

Тепер детальніше розглянемо ядро ​​процесора Sandy Bridge і порівняємо його з ядром Nehalem. Під час роботи ядра процесора на базі мікроархітектури Nehalem або Sandy Bridge інструкції x86 вибираються з кешу інструкцій L1 (Instruction Сache) розміром 32 Кбайт (8-канальний кеш). Команди завантажують із кешу блоками фіксованої довжини, з яких виділяються інструкції, що направляються на декодування. Оскільки інструкції x86 мають змінну довжину, а блоки, якими завантажуються команди з кешу, - фіксовану, при декодуванні команд потрібно визначити межі між окремими командами.

Інформація про розміри команд зберігається в кеші інструкцій L1 у спеціальних полях (по 3 біти інформації на кожен байт інструкцій). У принципі, цю інформацію визначення меж команд можна було б використовувати у самому декодері у процесі декодування команд. Однак це неминуче позначилося на швидкості декодування, та й не можна було б декодувати одночасно кілька команд. Тому перед декодуванням проводиться виділення команд із вибраного блоку. Ця процедура називається попереднім декодуванням (PreDecode). Процедура попереднього декодування дозволяє підтримувати постійний темп декодування незалежно від довжини та структури команд.

Процесори з мікроархітектурою Nehalem та Sandy Bridge роблять вибірку команд 16-байтними блоками, тобто за кожен такт із кешу завантажується 16-байтний блок команд.

Після операції вибірки команди організуються в чергу (Instruction Queue), а потім передаються декодер. При декодуванні (Decode) команди перетворюються на машинні мікрооперації фіксованої довжини (позначаються як micro-ops чи uOps).

Декодер ядра процесора з мікроархітектурою Sandy Bridge не зазнав змін. Так само, як у мікроархітектурі Nehalem, він є чотириканальним і може декодувати в кожному такті до чотирьох інструкцій x86. Як уже зазначалося, у мікроархітектурах Nehalem та Sandy Bridge за кожен такт із кешу завантажується 16-байтний блок команд, з якого в процесі попереднього декодування виділяються окремі команди. У принципі, довжина однієї команди може сягати 16 байт. Однак середня довжина команд складає 4 байти. Тому в середньому в кожному блоці завантажуються чотири команди, які при використанні чотириканального декодера декодуються одночасно за один такт.

Чотирьохканальний декодер складається з трьох простих декодерів, які декодують прості інструкції в одну мікрооперацію, і одного складного, здатного декодувати одну інструкцію в чотири мікрооперації (декодер типу 4-1-1-1). Для ще більш складних інструкцій, які декодуються більш ніж у чотири мікрооперації, складний декодер з'єднаний з блоком uCode Sequenser, застосовуваним для декодування подібних інструкцій.

Звичайно, декодування чотирьох інструкцій за такт можливе лише в тому випадку, якщо в одному 16-байтному блоці міститься не менше чотирьох інструкцій. Однак існують команди і довші за 4 байти, і при завантаженні кількох таких команд в одному блоці ефективність декодування знижується.

При декодуванні інструкцій у мікроархітектурах Nehalem та Sandy Bridge застосовуються дві цікаві технології – Macro-Fusion та Micro-Fusion.

Macro-Fusion – це злиття двох x86-інструкцій в одну складну мікрооперацію micro-op. У попередніх версіяхПроцесорної мікроархітектури кожна інструкція у форматі x86 декодувалася незалежно від інших. При використанні Macro-Fusion деякі пари інструкцій (наприклад, інструкція порівняння та умовного переходу) при декодуванні можуть бути злиті в одну мікрооперацію, яка надалі виконуватиметься саме як одна мікрооперація. Зазначимо, що для ефективної підтримки технології Macro-Fusion у мікроархітектурах Nehalem та Sandy Bridge застосовуються розширені блоки ALU (Arithmetical Logic Unit), які здатні підтримати виконання злитих мікрооперацій. Зазначимо також, що у разі застосування технології Macro-Fusion за кожен такт процесора може декодуватися лише чотири інструкції (у чотириканальному декодері), а при використанні технології Macro-Fusion у кожному такті може зчитуватися п'ять інструкцій, які перетворюються на чотири за рахунок злиття та піддаються декодування.

Зазначимо, що технологія Macro-Fusion використовувалася і в мікро архітектурі Intel Core, однак у мікроархітектурі Nehalem було розширено набір x86-інструкцій, для якого можливе злиття в одну мікрооперацію. Крім того, в мікроархітектурі Intel Core злиття x86-інструкцій не підтримувалося для 64-бітного режиму роботи процесора, тобто технологія Macro-Fusion реалізовувалась лише у 32-бітному режимі. В архітектурі Nehalem це вузьке місце було усунуто і операції злиття працюють як у 32-, так і в 64-бітному режимі процесора. У мікроархітектурі Sandy Bridge набір x86-інструкцій, для яких можлива операція злиття, було розширено ще більше.

Micro-Fusion - це злиття двох мікрооперацій (не x86-інструкцій, а саме мікрооперацій) в одну, що містить дві елементарні дії. Надалі дві такі злиті мікрооперації обробляються як одна, що дозволяє зменшити кількість мікрооперацій, що обробляються, і тим самим збільшити загальну кількість інструкцій, що виконуються процесором за один такт. Зрозуміло, що операція злиття двох мікрооперацій можлива далеко не всім пар мікрооперацій. У мікроархітектурі Sandy Bridge використовується така сама операція Micro-Fusion (для того ж набору мікрооперація), як і в мікроархітектурі Nehalem.

Говорячи про процедуру вибірки програмних інструкційв мікроархітектурі Nehalem, необхідно відзначити наявність блоку виявлення програмних циклів (Loop Stream Detector), який бере участь у процесі вибірки інструкцій та дозволяє уникнути повторів у виконанні тих самих операцій. Loop Stream Detector (LSD) використовується і в мікроархітектурі Intel Core, проте він відрізняється від LSD в Nehalem. Так, в архітектурі Intel Core застосовується буфер LSD на 18 інструкцій, причому він розташовується до декодера. Тобто в архітектурі Intel Core можуть відстежуватися та розпізнаватись тільки цикли, що містять не більше 18 інструкцій. При виявленні програмного циклу інструкції в циклі пропускають фази вибірки (Fetch) та передбачення розгалужень у програмі (Branch Prediction), а самі команди генеруються та надходять у декодер із буфера LSD. З одного боку, це дозволяє знизити енергоспоживання ядра процесора, з другого - обійти фазу вибірки команд. Якщо в циклі налічується понад 18 інструкцій, то щоразу інструкції проходитимуть усі стандартні кроки.

У мікроархітектурі Nehalem блок виявлення циклів розташований не перед, а за декодером і розрахований на 28 уже декодованих інструкцій. Оскільки LSD зберігає вже декодовані інструкції, вони «пропускатимуть» не тільки фазу передбачення розгалужень та вибірки, як раніше, але й фазу декодування (фактично на час виконання програмного циклу відключається передпроцесор процесора). Таким чином, у Nehalem інструкції в циклі проходять через конвеєр швидше та частіше, а енергоспоживання нижче, ніж в архітектурі Intel Core (рис. 4).

Мал. 4. LSD-буфер у мікроархітектурах Intel Core та Nehalem

У мікроархітектурі Sandy Bridge розробники пішли ще далі: разом із LSD-буфером на 28 мікроопераій застосували кеш декодованих мікрооперацій (Decoded Uop Cache) – рис. 5. До кешу надходять усі декодовані мікрооперації. Кеш декодованих мікрооперацій розрахований приблизно на 1500 мікрооперацій (мабуть, йдеться про мікрооперації середньої довжини), що еквівалентно приблизно 6-кілобайтному кешу x86-інструкцій.

Мал. 5. Кеш декодованих мікрооперацій у мікроархітектурі Sandy Bridge

Концепція кеша декодованих мікрооперацій у тому, щоб зберігати у ньому послідовності мікрооперацій. Кеш мікрооперацій працює не лише на рівні однієї інструкції, але в рівні 32-байтного блоку мікрооперацій. Весь кеш поділено на 32 набори, по 8 ліній у кожному. На кожну лінію припадає до шести мікрооперацій. До 3 ліній (18 мікрооперацій) можуть бути прив'язані до 32-байтного блоку. Тегування відбувається за вказівником інструкції (IP). Звіряння покажчика передбаченої інструкції йде паралельно як у кеші інструкцій, так і кеші мікрооперацій, і якщо відбувається попадання, з кешу мікрооперацій виловлюються лінії, що становлять 32-байтний блок, і поміщаються в чергу. У цьому випадку немає необхідності знову проводити вибірку та декодування.

Ефективність використання кеша декодованих мікрооперацій багато в чому залежить від ефективності блоку передбачення розгалужень (Branch Prediction Unit, BPU). Нагадаємо, що блок передбачення розгалужень застосовується у всіх сучасних процесорах, причому у процесорах Sandy Bridge він суттєво покращений у порівнянні з BPU у мікроархітектурі Nehalem (рис. 6).

Мал. 6. Блок прогнозування розгалужень (Branch Prediction Un) у мікроархітектурі Sandy Bridge

Щоб зрозуміти, чому блок передбачення розгалужень настільки важливий в процесорі і як він впливає на продуктивність, нагадаємо, що фактично в будь-якій складній програмі є команди умовного переходу. Команда такого умовного переходу означає таке: якщо деяка умова вірна, то потрібно перейти до виконання програми, починаючи з однієї адреси, а якщо ні – то з іншої. З погляду процесора команда умовного переходу є своєрідним каменем спотикання. Дійсно, адже до тих пір, поки не з'ясується, чи вірна умова переходу чи ні, процесор не знає, яку частину програмного кодувиконувати далі, отже, змушений простоювати. Щоб уникнути цього, якраз і використовується блок передбачення розгалужень, який намагається вгадати, на яку ділянку програмного коду вкаже команда умовного переходу, ще до того, як вона буде виконана. На основі передбачення розгалужень проводиться вибірка відповідних 86 інструкцій з кешу L1 або з декодованих кешу мікрооперацій.

Коли команда умовного переходу зустрічається вперше, застосовується так зване статичне передбачення. По суті, BPU просто вгадує, яка програмна галузь буде виконуватися далі. Причому в основі статичного передбачення лежить припущення, що більшість зворотних розгалужень відбувається в циклах, що повторюються, коли інструкція розгалуження використовується для визначення продовження циклу або виходу з нього. Найчастіше цикл триває, отже процесор знову повторно виконувати код циклу. Тому статичне передбачення вважає, що всі зворотні розгалуження завжди виконуються.

У міру того, як накопичується статистика результатів різних умовних переходів (передісторія умовних переходів), задіюється алгоритм динамічного передбачення розгалужень, який якраз і заснований на аналізі статистики результатів умовних переходів, скоєних раніше. В алгоритмах динамічного прогнозування розгалужень використовуються таблиця зберігання історії прогнозування розгалужень (Branch History Table, BHT) та таблиця зберігання адрес інструкцій (Branch Target Buffer, BTB). У ці таблиці записується інформація про результати вже виконаних розгалужень. У BHT містяться всі умовні переходиза кілька останніх циклів. Крім того, тут зберігаються біти, що показують ймовірність повторного вибору тієї ж гілки. Біти розставляються виходячи з статистики попередніх переходів. У стандартній бімодальній (2-бітної) схемі існує чотири ймовірності: гілка часто виконується (strongly taken), гілка виконується (taken), гілка не виконується (not taken) і гілка часто не виконується (strongly not taken).

Для того щоб винести рішення про спекулятивне виконання гілки, пристрій повинен знати точне розташуваннякоду в кеші L1 у напрямку розгалуження - назвемо його метою розгалуження. Цілі вже виконаних розгалужень зберігаються в BTB. Коли виконується розгалуження, BPU просто бере на мету розгалуження з таблиці і вказує препроцесору розпочати вибірку інструкцій за цією адресою.

Зрозуміло, що достовірність передбачення переходу залежить від розміру BHT та BTB-таблиць. Чим більше записів у цих таблицях, тим вища достовірність передбачення.

Слід зазначити, що вірогідність правильного передбачення розгалужень у сучасних процесорах дуже висока (близько 97-99%) і боротьба фактично вже за частки відсотка.

Покращень BPU у мікроархітектурі Sandy Bridge декілька. По-перше, замість того щоб для кожної гілки переходу використовувати свою ймовірність у таблиці BHT, та сама ймовірність застосовується одночасно для кількох гілок. В результаті вдається оптимізувати BHT-таблицю, що позначається підвищення достовірності передбачення переходів.

Друге покращення BPU у мікроархітектурі Sandy Bridge полягає в оптимізації BTB-таблиці. Якщо раніше у ВТВ для завдання всіх адрес переходів (branch targets) використовувалося фіксоване число біт, що призводило до невиправданої витрати місця, то тепер кількість біт, що застосовуються для завдання адреси переходу, залежить від адреси. Фактично це дозволяє зберігати в таблиці більше адрес і тим самим підвищувати достовірність передбачення.

Точніших даних про розміри таблиць BHT і BTB поки немає.

Отже, про зміни в передпроцесорі мікроархітектури Sandy Bridge (кеш декодованих мікрооперацій та оновлений блок передбачення розгалужень) ми розповіли. Ходімо далі.

Після процесу декодування x86-інструкцій починається етап виконання. Спочатку відбувається перейменування та розподіл додаткових регістрів процесора (блок Allocate/Rename/Retirement), які не визначені архітектурою набору команд.

Перейменування регістрів дозволяє досягти позачергового виконання команд. Ідея перейменування регістрів полягає в наступному. В архітектурі x86 кількість регістрів загального призначенняпорівняно невелико: доступно вісім регістрів у 32-бітному режимі та 16 регістрів у 64-бітному. Уявімо, що виконувана командаочікується завантаження значень операндів у регістр із пам'яті. Це довга операція, і добре на цей час дозволити використовувати цей регістр для іншої команди, операнди якої знаходяться ближче (наприклад, в кеші першого рівня). Для цього тимчасово перейменовується «регістр», що чекає, і відстежується історія перейменування. А «готовому до роботи» регістру надається стандартне ім'я, щоб забезпечену операндами команду виконати прямо зараз. При надходженні даних із пам'яті звертаються до історії перейменування та повертають первісному регістру його законне ім'я. Інакше кажучи, техніка перейменування регістрів дозволяє скоротити простої, а ведення історії перейменування застосовується нівелювання конфліктів.

На наступному етапі (буфер переупорядкування - ReOrder Buffer, ROB) відбувається переупорядкування мікрооперацій не в порядку їх надходження (Out-of-Order), щоб згодом можна було реалізувати їх ефективніше виконання на виконавчих блоках. Зазначимо, що буфер переупорядкування ReOrder Buffer і блок відставки (Retirement Unit) поєднані в єдиному блоці процесора, але спочатку проводиться переупорядкування інструкцій, а блок Retirement Unit включається в роботу пізніше, коли треба видати виконані інструкції в заданому програмою порядку.

У мікроархітектурі Nehalem свого часу було збільшено розмір буфера переупорядкування порівняно з розміром буфера переупорядкування в мікроархітектурі Intel Core. Так, якщо в Intel Core він був розрахований на 98 мікрооперацій, то Nehalem можна розміщувати вже 128 мікрооперацій.

Далі відбувається розподіл мікрооперацій за виконавчими блоками. У блоці процесора Reservation Station формує черги мікрооперацій, у результаті мікрооперації потрапляють однією з портів функціональних пристроїв (dispatch ports). Цей процес називається диспетчеризацією (Dispatch), а самі порти виконують функцію шлюзу до функціональних пристроїв.

Після того, як мікрооперації пройдуть порти диспетчеризації, вони направляються у відповідні функціональні блоки для подальшого виконання.

У мікроархітектурі Sandy Bridge кластер Allocate/Rename/Retirement (Out-of-Order Cluster) було істотно змінено. У мікроархітектурах Intel Core та Nehalem кожна мікрооперація має копію операнда або операндів, які їй потрібні. Фактично це означає, що блоки кластера позачергового виконання команд мають бути досить великого розміру, оскільки повинні вміщувати мікрооперації разом із необхідними їм операндами. В архітектурі Nehalem операнди могли мати розмір 128 біт, але з введенням розширення AVX розмір операнда може становити 256 біт, що вимагає збільшити вдвічі розміри всіх блоків кластера позачергового виконання команд.

Однак натомість у мікроархітектурі Sandy Bridge використовується фізичний регістровий файл (Physical Register File, PRF), у якому зберігаються операнди мікрооперацій (рис. 7). Це дозволяє самим мікроопераціям зберігати лише покажчики на операнди, але з самі операнди. З одного боку, такий підхід дозволяє знизити енергоспоживання процесора, оскільки переміщення конвеєром мікрооперацій разом з їх операндами вимагає суттєвих витрат енергоспоживання. З іншого боку, застосування фізичного реєстрового файлу допомагає заощадити місце на кристалі, а простір, що вивільнився використовувати для збільшення розмірів буферів кластера позачергового виконання команд (Load Buffers, Store Buffers, Reorder Buffers) - див. таблицю . У мікроархітектурі Sandy Bridge фізичний регістровий файл для цілих операндів (PRF Integer) розрахований на 160 записів, а для операндів з плаваючою комою (PRF Float Point) - на 144 записи.

Мал. 7. Використання фізичних регістрових файлів у мікроархітектурі Sandy Bridge

В архітектурі Sandy Bridge зазнали суттєвої переробки та виконавчі блоки ядра процесора. Власне, портів функціональних пристроїв, як і раніше, шість (три обчислювальні та три для роботи з пам'яттю), проте їх призначення, як і призначення самих виконавчих блоків, змінилося (рис. 8). Нагадаємо, що процесор на базі мікроархітектури Nehalem здатний виконувати до шести операцій за один такт. При цьому можливе здійснення одночасно трьох обчислювальних операцій та трьох операцій із пам'яттю.

Мал. 8. Виконавчі блоки у мікроархітектурі Sandy Bridge

В архітектурі Sandy Bridge три виконавчі пристрої дозволяють проводити вже вісім операцій з даними FP (Float Point) або дві операції з 256-бітними AVX-даними за такт.

У мікроархітектурі Sandy Bridge змінилися не тільки три виконавчі пристрої, а й функціональні блоки для операцій із пам'яттю. Нагадаємо, що в мікроархітектурі Nehalem було три порти для роботи з пам'яттю: Load (завантаження даних), Store address (зберігання адреси), Store data (зберігання даних) – рис. 9.

Мал. 9. Виконавчі блоки для роботи з пам'яттю у мікроархітектурі Nehalem

У мікроархітектурі Sandy Bridge також використовуються три порти для роботи з пам'яттю, проте два порти стали універсальними і можуть не тільки реалізовувати завантаження даних (Load), але й зберігати адресу (Store address). Третій порт не змінився і призначений для зберігання даних (Store data) – рис. 10.

Мал. 10. Виконавчі блоки для роботи з пам'яттю у мікроархітектурі Sandy Bridge

Відповідно, збільшилася пропускна здатність взаємодії з кешем даних L1. Якщо в мікроархітектурі Nehalem за кожен такт між кешем даних L1 та виконавчими блоками для роботи з пам'яттю могло передаватися 32 байт даних, то в мікроархітектурі Sandy Bridge – вже 48 байт (два запити на читання по 16 байт (128 біт) та один запит на запис до 16 байт даних).

На закінчення опису ядра процесора з урахуванням мікроархітектури Sandy Bridge зведемо все воєдино. На рис. 11 показано структурну схему ядра процесора на базі мікроархітектури Sandy Bridge. Жовтим кольором відзначені змінені або нові блоки в мікроархітектурі Sandy Bridge, а синім - блоки, присутні як у мікроархітектурі Nehalem, так і Sandy Bridge.

Мал. 11. Відмінності мікроархітектури Sandy Bridge від мікроархітектури Nehalem
(загальні блоки позначені синім кольором, змінені або нові блоки
в мікроархітектурі Sandy Bridge – жовтим)

Кільцева шина у мікроархітектурі Sandy Bridge

У мікроархітектурі Nehalem взаємодія між кожним кешем L2 і поділюваним між усіма ядрами кешем L3 здійснювалося по внутрішній спеціальній шині процесора, що налічує близько тисячі контактів, а взаємодія між окремими блоками процесора (контролером пам'яті, графічним контролером і т.д.) - по шині QPI. У мікроархітектурі Sandy Bridge на зміну шині QPI, а також шині взаємодії L2- та L3-кешів прийшла нова кільцева шина (Ring Bus) – рис. 12. Вона дозволяє організувати взаємодію між кешами L2 кожного ядра процесора та кешем L3, а також реалізує доступ графічного ядра (GPU) та блоку відеокодування (video transcoding engine) до кешу L3. Крім того, цією ж кільцевою шиною реалізується доступ до контролера пам'яті. Принагідно зазначимо, що компанія Intel називає кеш L3 кешем останнього рівня (Last Level Cache, LLC), а кеш L2 - проміжним кешем (Middle Level Cache, MLC).

Мал. 12. Кільцева шина у мікроархітектурі Sandy Bridge

Кільцева шина поєднує в собі чотири окремі шини: кільцеву шину даних (Data ring) розрядністю 256 біт (32 байт), кільцеву шину запитів (Request ring), шину підтверджень (Acknowledge ring) та шину, що слідкує (Snoop шин).

Використання кільцевої шини дозволило знизити латентність кешу L3. Так, у процесорах попереднього покоління (Westmere) латентність доступу до кешу L3 становить 36 циклів, а процесорах Sandy Bridge - 26-31 цикл. Крім того, тепер L3-кеш працює на частоті ядра (у процесорах Westmere частота роботи кешу L3 не відповідала частоті ядра).

Весь L3-кеш розбитий окремі ділянки, кожен із яких асоційований з окремим ядром процесора. У той же час, кожному ядру доступний весь кеш L3. Кожна з виділених ділянок кешу L3 наділена агентом доступу до кільцевої шини. Аналогічні агенти доступу є у кешів L2 кожного ядра процесора, у графічного ядра і системного агента, що реалізує обмін даними з контролером пам'яті.

На закінчення відзначимо, що кеш L3 в мікроархітектурі Sandy Bridge залишився повністю інклюзивним (що включає) по відношенню до кешів L2 (як і в мікроархітектурі Nehalem).

Графічне ядро ​​у мікроархітектурі Sandy Bridge

Одне з головних нововведень у мікроархітектурі Sandy Bridge – це нове графічне ядро. Як ми вже зазначали, на відміну від графічного ядра в процесорах Clarkdale/Arrandale, воно розташоване одному кристалі з обчислювальними ядрами процесора і, крім того, має доступ через кільцеву шину до кешу L3. Причому, як очікується, продуктивність нового графічного ядра буде приблизно вдвічі вищою за продуктивність графічного ядра в процесорах Clarkdale/Arrandale. Звичайно, графічне ядро ​​в процесорах Sandy Bridge не може зрівнятися за продуктивністю з дискретною графікою (до речі, підтримка DirectX 11 для нового ядра навіть не заявлена), але задля справедливості відзначимо, що це ядро ​​і не позиціонується як ігрове рішення.

Нове графічне ядро ​​може містити (залежно від моделі процесора) 6 або 12 виконавчих блоків (Execution Unit, EU), які, втім, не можна порівнювати з уніфікованими шейдерними процесорами в графічних процесорах NVIDIA або AMD, де їх налічується кілька сотень (рис. 13). ). Дане графічне ядро ​​орієнтоване насамперед не так на 3D-ігри, але в апаратне декодування і кодування відео (включаючи HD-видео). Тобто конфігурацію графічного ядра входять апаратні декодери. Їх доповнюють засоби зміни дозволу (scaling), шумозаглушення (denoise filtering), виявлення та видалення чергування рядків (deinterlace/film-mode detection) та фільтри покращення деталізації. Постобробка, що дозволяє покращити зображення під час відтворення, включає функції STE (покращення передачі тілесних тонів), ACE (адаптивне підвищення контрасту) та TCC (загальне керування кольором).

Мал. 13. Блок-схема графічного ядра у мікроархітектурі Sandy Bridge

Мультиформатний код кодек підтримує формати MPEG-2, VC1 і AVC, виконуючи всі етапи декодування за допомогою спеціалізованих апаратних засобів, тоді як в інтегрованих графічних процесорах поточного покоління цю функцію здійснюють універсальні виконавчі блоки EU.

Новий режим Intel Turbo Boost

Однією з визначних особливостей процесорів Sandy Bridge стане підтримка нового режиму Turbo Boost. Нагадаємо, що сенс технології Turbo Boost полягає в динамічному розгоні за певних умов тактових частот ядер процесора.

Для реалізації технології Turbo Boost у процесорі передбачено спеціальний функціональний блок PCU (Power Control Unit), який відстежує рівень завантаження ядер процесора, температуру процесора, а також відповідає за енергоживлення кожного ядра та регулювання його тактової частоти. Складовою частиною PCU є так званий Power Gate (затвор), який застосовується для переведення кожного ядра процесора окремо в режим енергоспоживання C6 (фактично Power Gate відключає або підключає ядра процесора до лінії живлення VCC).

У процесорах Clarkdale та Arrandale режим Turbo Boost реалізовано в такий спосіб. У тому випадку, якщо якісь ядра процесора виявляються незавантаженими, вони просто відключаються від лінії живлення з використанням блоку Power Gate (їхнє енергоспоживання при цьому дорівнює нулю). Відповідно тактову частоту і напруга живлення завантажених ядер, що залишилися, можна динамічно збільшити на кілька ступенів (по 133 МГц), але так, щоб енергоспоживання процесора не перевищило його TDP. Тобто фактично зекономлене за рахунок відключення кількох ядер енергоспоживання використовується для розгону ядер, що залишилися, але так, щоб збільшення енергоспоживання в результаті розгону не перевищувало зекономленого енергоспоживання. Більше того, режим Turbo Boost реалізується і в тому випадку, коли завантажуються всі ядра процесора, але при цьому його енергоспоживання не перевищує значення TDP.

У мобільних процесорах Arrandale з інтегрованим графічним ядром технологія Turbo Boost поширюється як на ядра процесора, а й у графічне ядро. Тобто, залежно від поточної температури та енергоспоживання, розганятимуться не лише ядра процесора, а й графічне ядро. Наприклад, якщо в якомусь додатку основне навантаження лягає на графічний процесор, а ядра процесора залишаються недозавантаженими, то заощаджене TDP буде використовуватися для розгону графічного ядра, але так, щоб не було перевищено ліміт TDP графічного ядра.

Оскільки в процесорах Sandy Bridge (і в настільних, і в мобільних) графічне ядро ​​є, по суті, таким самим ядром процесора, як і обчислювальні ядра, технологія Turbo Boost поширюватиметься як на обчислювальні ядра, так і на графічне ядро. Крім того (і в цьому полягає основне нововведення), у новій версії режиму Turbo Boost передбачена можливість перевищення TDP процесора при розгоні ядер на короткий час.

Справа в тому, що при перевищенні TDP процесор перегрівається не відразу, а після певного проміжку часу. Враховуючи, що в багатьох додатках завантаження процесора на 100% відбувається стрибкоподібно і лише протягом дуже малих проміжків часу, в ці періоди тактову частоту процесора можна розганяти так, щоб була перевищена межа по TDP.

У процесорах Sandy Bridge у режимі Turbo Boost передбачена можливість перевищення TDP протягом 25 секунд (мал. 14).

Висновок

Підіб'ємо підсумок нашого огляду мікроархітектури Sandy Bridge. Ця нова мікроархітектура є істотно переробленим варіантом мікроархітектури Nehalem. Серед нововведень – використання кешу декодованих мікрооперацій, перероблений блок передбачення розгалужень, застосування фізичного регістрового файлу, збільшений розмір буферів кластера позачергового виконання команд, покращені виконавчі блоки процесора та блоки для роботи з пам'яттю. Крім того, у процесорах Sandy Bridge використовується кільцева шина для доступу ядер процесора до кешу L3 та пам'яті. Також процесори Sandy Bridge отримали нове, продуктивніше графічне ядро, яке має доступ до кешу L3.

Крім того, у процесорах Sandy Bridge реалізовано новий режим Turbo Boost, що дозволяє вичавити з процесора максимум продуктивності.

Можливості графічного процесора Sandy Bridge в цілому можна порівняти з такими у попереднього покоління подібних рішень Intel, хіба що тепер на додаток до можливостей DirectX 10 додана підтримка DirectX 10.1, замість очікуваної підтримки DirectX 11. Відповідно і не багато додатків з підтримкою OpenGL обмежені апаратною сумісністю тільки з 3 версією специфікації цього вільного API.

Проте нововведень у графіку Sandy Bridge досить багато, і націлені вони головним чином збільшення продуктивності при роботі з 3D-графікою.

Основний упор при розробці нового графічного ядра, за словами представників Intel, був зроблений на максимальному використанні апаратних можливостей для розрахунку 3D-функцій, і те саме – для обробки медіа-даних. Такий підхід радикально відрізняється від повністю програмованої апаратної моделі, прийнятої на озброєння, наприклад, NVIDIA, або в самій Intel для розробки Larrabee (за винятком текстурних блоків).

Однак у реалізації Sandy Bridge відхід від програмованої гнучкості має свої незаперечні плюси, за рахунок нього досягаються важливіші для інтегрованої графіки вигоди у вигляді меншої латентності при виконанні операцій, кращої продуктивності на тлі економії витрати енергії, спрощеної моделі програмування драйверів, і що важливо економія фізичних розмірів графічного модуля.

Для програмованих виконавчих шейдерних модулів графіки Sandy Bridge, за традицією званих Intel «виконавчими блоками» (EU, Execution Units), характерні збільшені розміри регістрового файлу, що дозволяє досягти ефективного виконання комплексних шейдерів. Також у нових виконавчих блоках застосовано оптимізацію розгалуження для досягнення кращого розпаралелювання виконуваних команд.

В цілому, за заявою представників Intel, нові виконавчі блоки мають подвоєну в порівнянні з попереднім поколінням інтегрованої графіки пропускну здатність, а продуктивність обчислень з трансцедентальними числами (тригонометрія, натуральні логарифми і так далі) за рахунок акценту на використанні апаратних обчислювальних можливостей моделі -20 разів.

Внутрішній набір команд, посилений в Sandy Bridge рядом нових, дозволяє розподіляти більшість інструкцій API набору DirectX 10 в режимі "один до одного", як у випадку з архітектурою CISC, що в результаті дозволяє досягти значно більш високої продуктивності при такій частоті.

Швидкий доступ за допомогою швидкої кільцевої шини до розподіленого кешу L3 з динамічно конфігурується сегментацією дозволяє знизити латентність, підняти продуктивність і в той же час знизити частоту звернень графічного процесора до оперативної пам'яті.

Кільцева шина

Вся історія модернізації процесорних мікроархітектур Intel останніх років нерозривно пов'язана з послідовною інтеграцією в єдиний кристал все більшої кількості модулів і функцій, які раніше розташовувалися поза процесором: у чіпсеті, на материнській платі і т.д. Відповідно, у міру збільшення продуктивності процесора та ступеня інтеграції чіпа, вимоги до пропускної спроможності внутрішніх міжкомпонентних шин зростали випереджаючими темпами. До певного часу, навіть після впровадження графічного чіпа в архітектуру чіпів Arrandale / Clarkdale, вдавалося обходитися міжкомпонентними шинами зі звичною перехресною топологією - цього було достатньо.

Однак ефективність такої топології висока лише за невеликої кількості компонентів, що беруть участь в обміні даними. У мікроархітектурі Sandy Bridge для підвищення загальної продуктивності системи розробники вирішили звернутися до кільцевої топології 256-бітної міжкомпонентної шини (рис. 6.1), виконаної на основі нової версії технології QPI (QuickPath Interconnect), розширеної, доопрацьованої та вперше реалізованої в архітектурі серверного EX (Xeon 7500), а також запланована до застосування спільно з архітектурою чипів Larrabee.

Кільцева шина (Ring Interconnect) у версії архітектури Sandy Bridge для настільних та мобільних систем служить для обміну даними між шістьма ключовими компонентами чіпа: чотирма процесорними ядрами x86, графічним ядром, кеш-пам'яттю L3, тепер її називають LLC (Last Level Cache) та системним агентом. Шина складається з чотирьох 32-байтних кілець: шини даних (Data Ring), шини запитів (Request Ring), шини моніторингу стану (Snoop Ring) та шини підтвердження (Acknowledge Ring), на практиці це фактично дозволяє ділити доступ до 64-байтного інтерфейсу кеша останнього рівня на два різних пакета. Управління шинами здійснюється за допомогою комунікаційного протоколу розподіленого арбітражу, при цьому конвеєрна обробка запитів відбувається на тактовій частоті процесорних ядер, що надає архітектурі додаткової гнучкості при розгоні. Продуктивність кільцевої шини оцінюється на рівні 96 Гбайт на секунду на з'єднання при тактовій частоті 3 ГГц, що фактично вчетверо перевищує показники процесорів Intel попереднього покоління.

Рис.6.1. Кільцева шина (Ring Interconnect)

Кільцева топологія та організація шин забезпечує мінімальну латентність при обробці запитів, максимальну продуктивність та відмінну масштабованість технології для версій чіпів з різною кількістю ядер та інших компонентів. За словами представників компанії, у перспективі до кільцевої шини може бути "підключено" до 20 процесорних ядер на кристал, і подібний редизайн, як ви розумієте, може проводитися дуже швидко, у вигляді гнучкої та оперативної реакції на поточні потреби ринку. Крім того, фізично кільцева шина розташовується безпосередньо над блоками кеш-пам'яті L3 у верхньому рівні металізації, що спрощує розведення дизайну та дозволяє зробити чіп компактнішим.