인텔 7세대 프로세서의 등장, 인텔 코어 i7 익스트림 965
왕의 귀환, 하이퍼스레딩(HyperThreading)의 재등장
인텔은 펜티엄4 노스우드 프로세서를 통해 하이퍼스레딩을 선보인바 있었다. 하이퍼스레딩은 물리 코어가 아닌 논리 코어를 추가시켜 성능을 향상시키는 기술이다. 듀얼코어는 서버에서만 쓰인다는 인식이 강했던 그 당시에는 멀티스레딩 환경에서 강력한 모습을 보여줄 수 있었기에 많은 사용자들에게 환영을 받았던 기술이다. 다만 특정 부분에서는 부작용도 나타나 불만족스러운 부분도 보여주었다는 것이 조금 아쉬웠던 부분이다.
그리고 난 후 물리적인 듀얼 코어 제품, 즉 코어2 듀오 같은 제품들이 나오면서 하이퍼스레딩은 조용히 모습을 감추었다. 아무래도 논리 듀얼 코어의 성능이 물리 듀얼 코어의 성능과는 비교가 되지 못했기 때문이다. 하지만 인텔은 이 같은 하이퍼스레딩 기술을 인텔 i7 프로세서에서 또 다시 도입했다. 최근 쿼드까지 등장한 지금에서 말이다. 이유는 바로 무엇일까? 여러 가지 이유가 있겠지만 가장 큰 이유는 바로 효율적인 성능 향상이라는 것이 가장 큰 이유일 것이다.
|
|
성능 향상을 위해 코어의 수를 늘리다보면 그에 따른 소비전력은 무시할 수 없을 만큼 커진다. 특히나 쿼드코어에서 옥타 코어로 올라서기 위해서는 그에 따른 소비전력은 상상 이상이 될 것이다. 인텔은 이러한 소비전력을 줄이고, 제조비용의 절감에도 도움이 되는 하이퍼스레딩이라는 카드를 다시 꺼내 든 것이다. 이로써 인텔은 쿼드코어 프로세서 임에도 8개의 스레딩이 가능한 옥타 코어의 성능을 느낄 수 있게 되었다. 특히나 멀티스레딩을 지원하는 애플리케이션이 많이 등장해 있기 때문에 그에 따른 성능 향상은 보다 나아질 것으로 판단된다.
이제는 듀얼 채널이 아닌 트리플 채널 시대
지금까지 인텔은 듀얼채널이라는 개념을 도입해 하나의 메모리를 사용하는 것보다 두 개의 메모리를 사용하는 것이 성능향상에 도움이 될 것이라는 것을 강조해왔다. 다시 말해 2GB 단독 메모리를 사용하는 것보다는 1GB+1GB의 시스템이 2GB를 단독으로 사용하는 시스템보다 월등한 대역폭을 가지고 있어 동일한 클럭으로 가정했을 때 2배의 성능을 낼 수 있다는 이론이다.
|
|
하지만 실제로 벤치마크 상에 성능 향상은 있었지만 체감 상으로 느끼기에는 조금 부족한 감이 있었다. 이번에도 듀얼 채널에서 트리플채널로 변경되면서 인텔은 이론적으로 50%의 성능 향상이 있을 것이라고 했지만 실제 성능향상에는 그리 큰 부분을 차지한 것 같지는 않다. 그렇다고 기존 기존에 사용했던 듀얼 채널을 유지한다는 것은 새로운 것에 대한 예의가 아닐 것이며, 비싼 돈 들여 구입한 시스템을 100% 활용하지 못하는 바보나 다름없다. 네할렘을 구입했다면 네할렘의 모든 기능을 이끌어내기 위한 시스템을 구축하는 것이 맞을 것이다.
때문에 앞으로는 두 개의 메모리를 구입해 2GB에서 4GB로 확장하는 것이 아닌 세 개의 메모리를 구입해 3GB 혹은 6GB의 3의 배수로 메모리를 확장해 나가야 할 것이다. 가격 폭락으로 어려움을 겪고 있는 메모리 모듈 업체에는 단비와 같은 소식이 아닐 수 없을 것이다.
FSB 성능의 한계를 개선한 QPI(QuickPath Interconnect)는 무엇인가?
지금까지 인텔은 CPU와 메모리의 I/O 포트 사이에 MCH를 사이에 두었다. 이는 메모리를 컨트롤 할 수 있는 메모리 컨트롤러가 MCH에 있었기 때문으로 CPU와 MCH는 FSB(Front Side Bus)라는 연결 통로를 사용했다. 인텔의 프로세서는 FSB의 속도에 따라 프로세서의 전체적인 성능이 크게 차이를 보일 만큼 FSB의 비중이 매우 높았다.
하지만 FSB의 고질적인 문제인 병목현상의 한계성은 언제나 존재했다. 인텔은 이를 위해 새로운 아키텍처에서는 프로세서에 메모리를 직접 컨트롤 할 수 있는 메모리 컨트롤러를 내장해 메모리 사이의 데이터 교환을 담당하고 프로세서와 I/O 디바이스 사이의 데이터 교환을 QPI라는 새로운 버스 아키텍처를 사용한다.
|
|
QPI의 기능은 FSB와 비슷하다. 하지만 구조자체가 매우 다르다. FSB 버스의 경우 하나의 단독 레인(Lane)을 통해 읽고/쓰기가 이루어지기 때문에 동시에 진행이 되지 못한다. 하지만 QPI의 경우 두 개의 독립된 레인이 있기 때문에 한쪽에는 읽기가 진행되며, 다른 한쪽에서는 쓰기가 진행되는 전송방식이다. 인텔에서는 이를 ‘양방향 전송’이라고 불리는 이 방식은 언밀히 따지면 ‘이중 단방향 전송’에 가깝다고 할 수 있다.
네할렘 프로세서의 QPI는 프로세서 버전별도 다르게 적용된다. 인텔이 가장 먼저 발표한 인텔 코어 i7 965 익스트림의 경우 QPI 링크는 3.2GHz로 동작한다. 하지만 단순히 숫자로 봐서는 얼마나 대단한지를 가늠하기 힘들 것이다. 그렇다면 예를 들어보자. 현재 펜린(Penryn)의 최대 FSB 값은 1,600MHz다.
하지만 이 값은 어디까지나 QDR 기술을 적용한 값으로 실제 프로세서의 버스 값은 400MHz에 불과하다. 다시 말해 3.2GHz로 동작하는 QPI와 8배의 차이를 보인다는 것을 알 수 있다. AMD 역시 과거 이와 비슷한 기술인 하이퍼트랜스포트(HyperTransport)을 토대로 프로세서 시장에서 한 몫을 하는데 발판이 될 만큼 높은 성능향상을 이끌어 낸바 있다.
본격적으로 사용되는 인텔의 L3 캐시와 새롭게 추가된 SSE4.2
인텔 코어 i7 프로세서의 사양표를 잘 보면 기존에는 보지 못했던 많은 부분을 볼 수 있다. 그 가운데 가장 눈에 띄는 부분이 바로 L3 캐시의 존재다. 인텔은 그동안 서버용 프로세서에서만 L3 캐시를 사용해 왔다. 올해 출시된 6코어의 던닝턴은 3MB의 L2 캐시와 16MB의 L3 캐시를 탑재해 6개의 프로세서가 L3 캐시를 공유해 사용할 수 있도록 설계했듯이 코어 i7 프로세서도 L3캐시를 추가해 4개의 프로세서가 사용할 수 있도록 설계했다. 하지만 코어 i7이 사용하는 L3 캐시는 기존 서버용 프로세서와 조금 다른 구조를 가진다.
지금까지 인텔은 코어2 듀오 프로세서에 대용량의 L2 캐시를 탑재해 왔다. 성능이 향상되면 향상될수록 용량은 늘어났고, 코어 역시 늘어났다. 하지만 이 L2 캐시는 코어 수와 용량이 증가하면서 덩달아 프로세서와의 레이턴시 역시 증가하게 되었다. L2 캐시의 용량이 커지면서 하나의 사이클로 처리했던 것이 힘들어 진 것이다. 때문에 딜레이는 점점 심해지고, 성능에도 영향이 미치게 된 것이다. 인텔은 이를 해결하기 위해 L3 캐시라는 개념을 도입했다.
코어 i7 프로세서에서 말하는 L3 캐시는 코어2 듀오의 L2 캐시와 같은 역할을 한다. 대용량을 사용해 여러 프로세서가 공유할 수 있도록 한다. 대신 느려지는 레이턴시를 조금이나마 줄이기 위해 딜레이와 용량이 적은 L2 캐시를 추가해 다리역할을 하도록 했다.
다시 말해 3캐시가 추가된 것이 아니라 성능을 향상시키고자 기존의 L1 캐시와 L2 캐시 사이에 새로운 캐시가 추가된 것이라고 보면 이해가 쉬울 것이다. 이는 실제로 성능 향상에도 영향을 주고 있으며, 코어의 수를 늘리고 대용량의 공유 캐시를 사용하더라도 성능의 악영향을 끼치지 않는다. 이는 AMD가 L3 캐시를 사용하게 된 배경과 일치하는 부분이다.
|
|
인텔은 펜린 프로세서를 통해 SSE를 확장한 SSE 4.1을 선보인바 있었다. 네할렘이 등장하고 인텔은 추가로 SSE4.2 명령어 셋을 선보였다. SSE4.2에는 문자와 텍스트 프로세싱 부분의 성능 향상을 가능하게 해주는 ATA(Applicatioin Targeted Accelerator) 명령어 셋와 STTNI 명령어 셋이 추가된다. 특히 ATA에는 ATA에는 CRC(CyclicRedundancyCheck) 값을 체크하는 CRC32와 네트워크 스토리지 접근성 향상과 전력 개선을 위한 POPCNT가 포함된다.
출처 : PCbee