Radeony po remoncie

Karty graficzne z serii Radeon X1000 wprowadzają od dawna oczekiwaną nową architekturę do układów ATI. Teraz są w pełni zgodne z modelem cieniowania 3.0. W poprzednim wydaniu przedstawiliśmy wyniki testów nowych kart, tym razem napiszemy szerzej o budowie samych układów.

Karty graficzne z serii Radeon X1000 wprowadzają od dawna oczekiwaną nową architekturę do układów ATI. Teraz są w pełni zgodne z modelem cieniowania 3.0. W poprzednim wydaniu przedstawiliśmy wyniki testów nowych kart, tym razem napiszemy szerzej o budowie samych układów.

Warto przypomnieć, że nowa linia X1000 składa się z kilku modeli różniących się wydajnością i budową wewnętrzną. Nie chodzi jednak o odmienną architekturę, a jedynie o wyposażenie (np. jednostki cieniowania i wierzchołków, liczba obsługiwanych wątków) wpływające w sposób istotny na wydajność. Najszybsze modele należą do serii X1800 (m.in. X1800 XT i X1800 XL), produktami środka mają być z kolei karty X1600 XT i PRO, a dla mniej wymagających graczy przygotowano X1300 PRO, standard i HyperMemory.

Należy zwrócić uwagę na wygładzenie siatki. Tak działa adaptacyjne wygładzanie krawędzi.

Należy zwrócić uwagę na wygładzenie siatki. Tak działa adaptacyjne wygładzanie krawędzi.

Model X1800 XT i XL ma 16 potoków renderingu, aż osiem jednostek przetwarzania wierzchołków oraz może przetwarzać 512 wątków jednocześnie. Wątki są nowością w sposobie określania wydajności karty. Szerzej piszemy o ich znaczeniu w dalszej części artykułu, omawiając szczegóły architektury nowych Radeonów.

Ekran z demo technologicznego Toy Shop - wypukły napis to przykład zastosowania funkcji parallax occlusion mapping.

Ekran z demo technologicznego Toy Shop - wypukły napis to przykład zastosowania funkcji parallax occlusion mapping.

Radeon X1600 wyposażono w mniej, bo 12 jednostek cieniowania. Pamięci i rdzeń modelu XT taktowane są z częstotliwością odpowiednio 1,38 GHz i 590 MHz. Z kolei wersja PRO - 780 i 500 MHz. Radeon X1300 ma cztery jednostki cieniowania. Jest dostępny w trzech wariantach - PRO, standardowym oraz HyperMemory. Rdzeń wersji PRO, którą mieliśmy okazję testować, pracuje z bardzo wysoką częstotliwością 600 MHz, a 256-megabajtowe układy pamięci DDR2 są taktowane z częstotliwością 800 MHz. Model standardowy ma 128 lub 256 MB pamięci pracującej z taktowaniem 500 MHz, a rdzeń taktowany jest z częstotliwością 450 MHz. Odmiana HyperMemory prawdopodobnie nie będzie oferowana detalicznie. Jest to rodzaj karty chętnie kupowany przez firmy składające komputery, ma 32 MB pamięci, jednak dzięki technologii HyperMemory może rezerwować na swoje potrzeby dodatkowe 96 MB pamięci operacyjnej peceta. Rdzeń pracuje tu z taką samą częstotliwością jak w wersji standard, a pamięci taktowane są z częstotliwością 1 GHz.

Więcej i chłodniej?

Metodą na zmniejszenie temperatury pracy procesora graficznego i jednocześnie zwiększenie możliwości jego taktowania z wyższą częstotliwością jest produkowanie go w nowocześniejszym procesie technologicznym. Dotychczas w technologii 0,09 mikrona wytwarzano jedynie procesory pracujące jako jednostki centralne pecetów. Najnowocześniej procesory graficzne produkowała dotychczas NVIDIA - w procesie 10 nanometrów. ATI pierwsze rozpoczęło produkcje układów X1000 w technologii 9-nanometrowej. Podobno NVIDIA również planuje unowocześnienie procesu technologicznego. Już obecnie w ten sposób produkowane są chipsety nForce 6100 i 6150, wyposażone m.in. w zintegrowany rdzeń graficzny. Obie firmy wytwarzają układy w tajwańskich fabrykach TSMC. Dzięki nowemu procesowi technologicznemu ATI zdołało na tej samej powierzchni układu, co w serii X800, zmieścić dwa razy więcej tranzystorów. Znany dotychczas pod roboczą nazwą R520 procesor X1800 składa się z 320 mln tranzystorów, a to blisko dwukrotnie więcej niż zawierają modele R480 (seria X850). Pozwoliło to także na wprowadzenie nowocześniejszych mechanizmów obróbki obrazu wideo - zespół tych funkcji otrzymał nazwę Avivo.

Cieniowanie na najwyższym poziomie

Rozmiar wątku i wydajność dynamicznego rozgałęziania

Rozmiar wątku i wydajność dynamicznego rozgałęziania

Model cieniowania 3.0 to już nie fanaberia producentów sprzętu, a funkcje wykorzys-tywane bardzo chętnie przez programistów tworzących nowe gry. Pozwala na uzyskanie niezwykle realistycznych efektów wizualnych za pomocą prostych i efektywnych metod modyfikacji pikseli i wierzchołków (opisane mogą być praktycznie nieskończoną liczbą funkcji określających takie ich cechy, jak np. oświetlenie czy współrzędne w przestrzeni). W rezultacie zadania, których starsze karty nie mogły wykonać z braku odpowiedniej mocy obliczeniowej, są teraz realizowane bez istotnych strat wydajności. I to nie dlatego, że moc obliczeniowa samych procesorów wyraźnie rośnie, lecz przede wszystkim dzięki zaawansowanym i wydajnym silnikom obróbki pikseli oraz wierzchołków. Model cieniowania 3.0 zastosowano we wszystkich kartach serii X1000.

Procesor zajęty non stop

Specyfikacje procesorów serii X1000

Specyfikacje procesorów serii X1000

Jedną z najistotniejszych innowacji architektury X1000 jest specjalny procesor Ultra-Threading Dispatch Processor, pozwalający na obsługę przez silnik cieniowania do 512 wątków jedno- cześnie. Każdy z rdzeni jednostki cieniowania podzielony jest na cztery części. W efekcie otrzymujemy 16 jednostek cieniowania (w modelu X1800). Kluczowym elementem uzyskania dobrej wydajności jednostek cieniowania jest ich maksymalne wykorzystanie. Jeśli jednostka cieniowania musi odszukiwać wartość tekstury niezlokalizowanej w pamięci tekstur, to konieczna jest komunikacja z pamięcią zamontowaną na karcie graficznej, a to już może powodować setki cykli opóźnień. Procesor wielowątkowości zainstalowany w wersji 512 wątków w modelach X1800 i 128 wątków w pozostałych modelach ma sprawiać, że jednostki cieniowania będą zajęte przez 90 procent czasu.

Kolejną istotną cechą nowej architektury jest dynamiczne rozgałęzianie (dynamic branching), tzn. że optymalizowany jest zakres obróbki modyfikowanych pikseli. Gdy określone piksele nie wymagają obróbki, są pomijane dzięki kalkulacji dokonywanej przez program cieniowania. Praca na pikselach zostaje podzielona przez procesor UTDP na setki wątków składających się z małych bloków o powierzchni 4x4 piksele, które mogą wykonywać ten sam kod cieniowania. Gdy procesor UTDP wykrywa, że nie jest w pełni wykorzystywany z powodu ukończenia zadania lub oczekiwania na dane, przydziela nowe zadania do wykonania. W czasie oczekiwania na nowe zadania zasi-la jednostki ALU nowymi wątkami do wykonania. Każdy z procesorów cieniowania Radeona X1800 może wykonywać w jednym cyklu zegara do dwóch operacji wektorowych oraz skalarnych. W sumie Radeon X1800 może wykonywać do sześciu instrukcji cieniowania w jednym takcie zegara na 16 pikselach jednocześnie.

Osiem jednostek przetwarzania geometrii może z kolei przetwarzać jedną 128-bitową instrukcję wektorową oraz jedną 32-bitową skalarną w każdym takcie zegara. Jednostki te obsługują także funkcję dynamicznej kontroli instrukcji, m.in. gałęzie i pętle. Cieniowanie pikseli i wierzchołków odbywa się ze 128-bitową precyzją.

Władca pierścieni

Kolejną nowością, bardzo istotną z punktu widzenia wydajności karty, jest nowy kontroler pamięci. Oparto go na dwóch kręgach (pierścieniach), po których dane płyną w dwóch przeciwnych kierunkach, co skraca czas opóźnienia dostępu do danych. W centrum "okręgu" znajduje się kontroler pamięci, wokół którego umieszczono przełącznik krzyżowy komunikujący się m.in. z ośmioma klientami, również mogącymi komunikować się za pośrednictwem przełącznika krzyżowego zarówno z podwójną 256-bitową wewnętrzną szyną danych, jak i kontrolerem głównym pamięci. Gdy jeden z ośmiu klientów wysyła żą- danie do kontrolera pamięci, dane wędrujące po okręgach są przechwytywane (jedną z czterech bramek). Co ciekawe, kontroler pamięci jest programowalny i może być udoskonalany wraz z kolejnymi wersjami sterowników. Jest to istotne, bo obsługuje także mechanizm przydzielania wag, które mogą wprowadzać do kodu programiści. W rezultacie każdy programista może napisać kod tak, aby nowe karty ATI optymalnie go obsługiwały. W porównaniu do modeli z serii X850 gruntownie zmieniono także liczbę kanałów. Poprzednik miał cztery 64-bitowe kanały pamięci komunikujące się z czterema ban-kami układu pamięci. W wersji X1800 jest osiem 32-bitowych kanałów i osiem nowych układów pamięci. To "szatkowanie" ma usprawnić losowy dostęp do pamięci. Także pamięć podręczna została znacznie usprawniona i może mapować dane do dowolnej lokalizacji w zewnętrznej pamięci karty graficznej.

Efektownie, lecz bez strzępienia

Kontroler pierścieniowy

Kontroler pierścieniowy

Jednym z najpopularniejszych efektów wykorzystywanych w najnowszych grach jest High Dynamic Range, czyli pokazywanie światła o dużej rozpiętości natężenia. Bardzo zwiększa to realizm rozgrywki, dotychczas miało jednak tę wadę, że na kartach NVIDII nie działało po uruchomieniu wygładzania krawędzi. Można uruchomić albo HDR, albo pełnoekranowe wygładzanie. Niestety, po włączeniu HDR współczynnik kontrastu w pokazywanych scenach istotnie rośnie, dlatego postrzępione krawędzie są widoczne jeszcze bardziej niż po wyłączeniu HDR. ATI pierwsze udostępniło w nowych kartach jednoczesną obsługę HDR i wy-gładzania. Zobaczymy teraz, czy NVIDIA poprawi swój niedosko-nały system wraz z kolejną wersją sterowników.

Powrót do przeszłości

Powrócono też do udanego i porzuconego po wprowadzeniu sterowników Catalyst 5.9 pomysłu adaptacyjnego wygładzania krawędzi. Łączy ono prędkość wygładzania metodą wielu próbek (multisampling) z prędkością super-próbkowania (supersampling). Do wyboru są dwa tryby - prędkość oraz jakość. Funkcja ta działa z wszystkimi, także starszymi kartami ATI, jednak wymaga oprogramowania ATI Tray Tools lub specjalnych nie-autoryzowanych sterowników. Uruchomienie jej w starszych kartach powoduje spadek wydajności nawet o 50 procent, natomiast w nowszych modelach jest prawie nieodczuwalne, a jakość wyświetlania "trudnych" tekstur, takich jak płoty, liście drzew czy trawa, bardzo się polepsza. Co istotne, funkcja działa po uruchomieniu opcji HDR.

Lepsze tekstury

Jakość tekstur ma także poprawiać nowa funkcja filtrowania anizotropowego, nazwana Area Anizo.

Kontrolery pamięci - u góry X1000, na dole znany z modeli X850

Kontrolery pamięci - u góry X1000, na dole znany z modeli X850

CrossFire w każdej wersji Wszystkie karty serii X1000 są przystosowane do pracy w trybie CrossFire. Niestety, wciąż będzie konieczne kupienie modelu "matki" wyposażonego w tzw. silnik scalający, synchronizujący grafikę generowaną przez dwie karty jednocześnie. Natomiast rozdzielczość nie jest już ograniczona do 1600x1200 pikseli, a odświeżanie do 60 Hz i można stosować wyższe wartości. To istotna informacja, bo gracz kupujący dwa Radeony X1800 XT prawdopodobnie będzie korzystał właśnie z dużego wyświetlacza panoramicznego lub 21-calowego CRT. Modele z serii X1300 mogą pracować w trybie Cross-Fire bez łączenia ich zewnętrznym kablem, podobnie jak tanie karty NVIDII z serii 6600/LE, gdzie również w trybie SLI nie trzeba używać specjalnego mostka. Nowością jest nowy, programowalny silnik scalający (composing engine), który w miarę opracowywania przez ATI nowych funkcji (np. poprawiających jakość obrazu), może być uaktualniany poprzez instalację nowych sterowników.

Podkręcanie

Nowe sterowniki ATI Catalyst umożliwiają dynamiczne podkręcanie wszystkich rodzajów nowych kart z serii X1000. Temperatura monitorowana jest za pośrednictwem wbudowanego w procesor "termometru", dlatego nie dojdzie do przegrzania procesora. Podobnie jak NVIDIA, ATI udostępnia teraz także tryb 2D, w którym uruchamiane są karty niewykonujące skomplikowanych zadań w grafice 3D. Wtedy oczywiście taktowanie procesora i pamięci jest niższe, a karty pracują nieco ciszej.

Avivo - uzyskać lepszy obraz

NVIDIA od dawna chwaliła się swoimi trzema programowalnymi procesorami wideo zintegrowanymi z układami z serii GeForce 6xxx i 7xxx. ATI do tej pory oferowało jedynie zestaw predefiniowanych, nieco już przestarzałych funkcji wideo. Tym razem Kanadyjczycy stanęli na wysokości zadania i przygotowali zestaw funkcji poprawy jakości obrazu wideo, nazwany Avivo. Najistotniejsze cechy nowego rozwiązania to sprzętowe dekodowanie materiału w standardzie H.264 i VC-1 - te kodeki stosowane są w telewizji wysokiej rozdzielczości (HDTV) oraz będą wykorzystywane do kompresji filmów na płytach Blu-Ray i HD-DVD. Kodowanie H.264 jest obecnie tak złożone, że nawet najszybsze procesory z braku wystarczającej mocy obliczeniowej same nie odtworzą płynnie takich filmów.

GPU w roli CPU

Wraz z premierą serii kart Radeon X1000 ATI poinformowało, że udostępnia szczegółowe informacje o architekturze układów graficznych. Celem jest zachęcenie wszystkich zainteresowanych do prac nad aplikacjami korzystającymi z naprawdę nieprzeciętnej mocy obliczeniowej procesorów 3D. Układ GPU może z powodzeniem służyć na przykład do skomplikowanych obliczeń na macierzach i wektorach, do symulacji fizyki, rozpoznawania mowy czy obliczeń bazodanowych - procesor P4 3,0 GHz dysponuje wydajnoś-cią rzędu 12 GFLOP/s, natomiast Radeon X1800 XT aż 120 GFLOP/s. Oczywiście nie do każdego zada-nia GPU nadaje się najlepiej, ale często mógłby całkowicie odciążyć jednostkę centralną. Wszystkich chcących sprawdzić wydaj-ność swojego procesora graficznego odsyłamy na stronę http://graphics.stanford.edu/projects/gpubench . Wiele ciekawych informacji można znaleźć także w serwisie http://www.gpgpu.org .


Zobacz również