Synteza 3D

W kolejnym odcinku Prog&Play pozostajemy przy trójwymiarowości. Nie będziemy jednak - jak w wypadku anaglifów - fotografować prawdziwej sceny 3D, lecz spróbujemy ją zbudować samodzielnie. Płaskim obrazom nadamy głębię - przeniesiemy je w przestrzeń trójwymiarową. Zagadnienie jest niezmiernie efektowne, ale problem będzie technicznie dość złożony.

W kolejnym odcinku Prog&Play pozostajemy przy trójwymiarowości. Nie będziemy jednak - jak w wypadku anaglifów - fotografować prawdziwej sceny 3D, lecz spróbujemy ją zbudować samodzielnie. Płaskim obrazom nadamy głębię - przeniesiemy je w przestrzeń trójwymiarową. Zagadnienie jest niezmiernie efektowne, ale problem będzie technicznie dość złożony.

Zdajemy sobie sprawę, że zwyczajna fotografia nie niesie informacji o sposobie rozmieszczenia przedmiotów w wymiarze głębokości sceny. Pewnych rzeczy możemy się najwyżej domyślać - każdy wie, że mniejsze postacie, trochę zamglone czy odpowiednio zasłonięte przez pierwszy plan, znajdują się dalej. Jest to jednak złożona interpretacja, wymagająca inteligencji i wiedzy. Jest to interpretacja, a nie prosty odczyt informacji o głębi. W naszych programach z całą pewnością nie zaimplementujemy interpretacji, czyli rozumienia sceny - cokolwiek ten termin może oznaczać. Musimy z tym zaczekać do momentu, gdy informatyka zdefiniuje takie pojęcie, jak sztuczna inteligencja...

Zobacz również:

Dysponujemy już techniką obserwacji par obrazów - fotografii wykonanych z dwóch różnych miejsc w przestrzeni, tak by w naszych mózgach powstał efekt przestrzenny. Miesiąc temu napisaliśmy program, który odpowiednio nakłada na siebie czerwono-zielone ekstrakty barwne takich fotografii i w efekcie powstaje anaglif - obraz do oglądania przez specjalne okulary. Teraz bardzo nam się przyda.

Rysunek 1. Algorytm generacji głębi będzie wymagał dwóch obrazów - podstawowego, na którym zostanie odzwierciedlona scena, i monochromatycznego, gdzie stopień jasności będzie kodował umiejscowienie przedmiotu w trzecim wymiarze. Niech duża jasność obiektu na przewodniku oznacza, że znajduje się on blisko obserwatora. Tutaj na przewodniku widać, że postać jest jaśniejsza od tła, zatem znajduje się bliżej.Kliknij, aby powiększyćRysunek 1. Algorytm generacji głębi będzie wymagał dwóch obrazów - podstawowego, na którym zostanie odzwierciedlona scena, i monochromatycznego, gdzie stopień jasności będzie kodował umiejscowienie przedmiotu w trzecim wymiarze. Niech duża jasność obiektu na przewodniku oznacza, że znajduje się on blisko obserwatora. Tutaj na przewodniku widać, że postać jest jaśniejsza od tła, zatem znajduje się bliżej.Naszemu algorytmowi generacji głębi wprost niemal "ręcznie" pokażemy, co na fotografii czy rysunku jest bliżej, a co dalej. Na tej podstawie komputer obliczy przesunięcia paralaktyczne w planie widzianym z dwóch różnych miejsc, zrealizuje je na mapach bitowych i całość zapisze na dysku jako stereoparę obrazków.

Algorytm generacji głębi wykorzysta dwie fotografie - podstawową, na której będzie widoczna cała scena, i pomocniczą, na której znajdzie się informacja o głębi, czyli rozlokowaniu w przestrzeni tego, co jest uwiecznione na fotografii podstawowej. O ile fotografia podstawowa może być w zasadzie dowolnym zdjęciem czy rysunkiem, o tyle składnik pomocniczy w czytelny sposób musi kodować głębię.

Niech fotografia pomocnicza - przewodnik głębi - obrazuje tę samą scenę, co fotografia główna (w szczególności niech ma ściśle te same rozmiary), ale w specyficznie zdeformowanym kolorze. Niech te fragmenty sceny, które mają być bliżej obserwatora, będą jaśniejsze. To, co znajduje się dalej na scenie, niech będzie ciemne (rysunek 1).

Obrazek-przewodnik operuje jasnością obiektów widocznych na rysunku głównym. Jest monochromatyczny. Typowa skala szarości mapy bitowej zawiera się w przedziale od 0 (kolor czarny) do 255 (biały). Jeśli algorytm generacji głębi stwierdzi, że obiekt (widoczny na obrazie głównym) ma na przewodniku amplitudę szarości równą 0, umieści go na scenie w dalekim planie. Przedmiot biały zostanie umieszczony skrajnie blisko. Wszystkie pośrednie stopnie szarości zostaną proporcjonalnie przeliczone na odległość od obserwatora.

Algorytm generowania stereopar będzie działał następująco:

  1. Najpierw zostanie odczytany piksel z obrazka głównego.
  2. Potem zostanie odczytany piksel z obrazka-przewodnika.
  3. Na podstawie analizy jasności piksela z przewodnika zostanie wyliczona informacja o jego pozycji w trzecim wymiarze sceny.
  4. Wyliczone zostaną paralaksy piksela z punktu 1, a sam piksel znajdzie się w odpowiednim miejscu stereopary.

Rysunek 2. Napis znajduje się bliżej niż chmury, bo jest jaśniejszy na obrazie-przewodniku. Załóżmy, że jego jasność wynosi 100 w typowej skali szarości, liczonej od 0 do 255.Kliknij, aby powiększyćRysunek 2. Napis znajduje się bliżej niż chmury, bo jest jaśniejszy na obrazie-przewodniku. Załóżmy, że jego jasność wynosi 100 w typowej skali szarości, liczonej od 0 do 255.Rysunki 2-5 ilustrują poszczególne etapy wyliczania paralaktycznych przesunięć pikseli, które na przewodniku mają przykładową jasność równą 100 jednostkom.

Zanim zaczniemy realizować ten algorytm, zwróćmy uwagę na pewną subtelność. Piksele będą przesuwane w lewo lub w prawo, zgodnie z regułami rządzącymi paralaksami. Musimy uwzględnić przy tym różne możliwości ich wzajemnego zasłaniania się. Mówiąc inaczej - dwa piksele mogą znaleźć się w tym samym miejscu dzięki samej grze paralaks, a nie dlatego, że akurat w tym miejscu się znajdują. Należy wówczas wykreślić tylko ten piksel, który jest bliżej obserwatora, czyli ten, który na przewodniku ma jaśniejszy odcień. Ten subtelny szczegół zaimplementujemy łatwo, choć nieoptymalnie - najpierw wykreślimy piksele najciemniejsze na przewodniku, potem coraz jaśniejsze. Przestrzeń 3D wykreślimy warstwami, począwszy od najdalszego planu. Dzięki tej chytrej metodzie pozwolimy bliskim pikselom przykryć dalsze.

Rysunek 3. Fragmenty obrazu opuszczają płaszczyznę rysunku i zostają umieszczone w przestrzeni 3D. Kluczem do znalezienia ich pozycji w wymiarze głębi sceny jest odczytanie stopnia szarości z przewodnika (którego tu nie widać). Fragmenty ciemniejsze na przewodniku znajdują się dalej, jaśniejsze bliżej. Ponieważ skala szarości ma 255 odcieni, dysponujemy 255-stopniową głębią.Kliknij, aby powiększyćRysunek 3. Fragmenty obrazu opuszczają płaszczyznę rysunku i zostają umieszczone w przestrzeni 3D. Kluczem do znalezienia ich pozycji w wymiarze głębi sceny jest odczytanie stopnia szarości z przewodnika (którego tu nie widać). Fragmenty ciemniejsze na przewodniku znajdują się dalej, jaśniejsze bliżej. Ponieważ skala szarości ma 255 odcieni, dysponujemy 255-stopniową głębią.Oczywiście nie jest to rozwiązanie optymalne, ale czytelne. Mam nadzieję, że w swoich programach zaimplementują Państwo algorytmy jakiejś prekompilacji sceny, uporządkowania owych warstw przestrzeni. Przyznajmy jednak, że nie wygląda to zachęcająco.

Istotą widzenia przestrzennego jest interpretacja drobnych przesunięć (zwanych paralaksami), którymi różnią się obrazy obserwowane lewym i prawym okiem. Naszym celem jest zbudowanie ze zwyczajnej fotografii dwóch obrazów, uwzględniających owe paralaksy. Gdy potem zbudujemy z nich anaglif, otrzymamy obraz sceny trójwymiarowej.

Algorytm jest stosunkowo prosty, bo pracowicie wykreśla piksele, począwszy od tyłu sceny, wykorzystuje tylko twierdzenie Talesa i na zakończenie dodatkowo przelicza metry na piksele. Bierzemy się do pracy i zaczynamy pisać program, na razie nie martwiąc się tym, że za chwilę czeka nas pierwsza, trudna do przewidzenia przykra niespodzianka.

Program będzie zbudowany z czterech obrazów Image, rozmieszczonych na zaopatrzonych w suwaki wirtualnych powierzchniach, czyli komponentach ScrollBox. Będzie też miał trzy przyciski - dwa do odczytu obrazu głównego i obrazu-przewodnika oraz jeden do rozpoczęcia budowania sceny 3D. Do zbudowania sceny 3D wymagane są dwa parametry - rozstaw oczu obserwatora i rozpiętość sceny, podane w metrach. Dodajemy zatem jeszcze dwa pola edycyjne.

Szczegóły techniczne związane z samym odczytem mapy bitowej i jej wyświetleniem omawialiśmy w poprzednim miesiącu, przy okazji sporządzania anaglifów. Jeśli nie mogą Państwo sięgnąć do tamtego materiału, pozostaje analiza programów na naszym krążku (rysunek 6).

Rysunek 4. Jak wyliczyć paralaksę, czyli niezbędne przesunięcie piksela w lewo, gdy opracowujemy obraz dla prawego oka? Z twierdzenia Talesa: paralaksa/100 = (baza/2)/(255-100). Wartość 100 może być zastąpiona dowolną inną z przedziału 0-255, co jest równoważne stwierdzeniu, że obserwowany napis może znajdować się bliżej lub dalej od obserwatora. Zmienna baza jest odległością między oczami obserwatora.Kliknij, aby powiększyćRysunek 4. Jak wyliczyć paralaksę, czyli niezbędne przesunięcie piksela w lewo, gdy opracowujemy obraz dla prawego oka? Z twierdzenia Talesa: paralaksa/100 = (baza/2)/(255-100). Wartość 100 może być zastąpiona dowolną inną z przedziału 0-255, co jest równoważne stwierdzeniu, że obserwowany napis może znajdować się bliżej lub dalej od obserwatora. Zmienna baza jest odległością między oczami obserwatora.Rysunek 5. Algorytm wyliczania paralaksy, zilustrowany na rysunku 4, dostarcza wartość przesunięcia w metrach (bo tak wyrażamy bazę widzenia), a nie w niezbędnych tutaj pikselach. Jak przeliczyć metry paralaksy na piksele? Musimy znać szerokość obrazka w pikselach (to algorytm odczyta z łatwością z właściwości mapy bitowej) i odpowiadającą jej szerokość widocznej sceny w metrach. Znając te dwie wartości, przeskalujemy metry na piksele.Kliknij, aby powiększyćRysunek 5. Algorytm wyliczania paralaksy, zilustrowany na rysunku 4, dostarcza wartość przesunięcia w metrach (bo tak wyrażamy bazę widzenia), a nie w niezbędnych tutaj pikselach. Jak przeliczyć metry paralaksy na piksele? Musimy znać szerokość obrazka w pikselach (to algorytm odczyta z łatwością z właściwości mapy bitowej) i odpowiadającą jej szerokość widocznej sceny w metrach. Znając te dwie wartości, przeskalujemy metry na piksele.

Program jest denerwująco powolny (zaraz temu zaradzimy), ale najpierw zbadajmy istotne szczegóły implementacyjne. Oto ciało funkcji, podłączonej do przycisku z napisem Generuj i odpowiadającej za zbudowanie sceny 3D:

int x, y; //współrzędne robocze

int xL, xR; //współrzędne z paralaksą

int skan_jasn, jasn; //jasność - odległość

double b2, paralaksa_real; //baza i paralaksa

int paralaksa_pix; //paralaksa w pikselach

TColor k, k1;

inicjuj(); //odczytanie parametrów

b2 = baza / 2.0;

for( y = 0; y < wys_pix; ++y)

{

for(skan_jasn=0; skan_jasn<256; ++skan_jasn)

{

for( x = 0; x < szer_pix; ++x)

{

k1 = Image2->Picture->Bitmap->Canvas->Pixels[x][y];

jasn = GetRValue( k1);

if( skan_jasn == jasn)

{

k = Image1->Picture->Bitmap->Canvas->Pixels[ x][ y];

paralaksa_real = b2 * jasn / (256.0 - jasn);

paralaksa_pix = paralaksa_real * (double)szer_pix / szer_real;

xL = x + paralaksa_pix;

if( xL < szer_pix)

Image3->Picture->Bitmap->Canvas->Pixels[ xL][ y] = k;

xR = x - paralaksa_pix;

if( xR >= 0)

Image4->Picture->Bitmap->Canvas->Pixels[ xR][ y] = k;

}

}

}

}