ČeskéHry.cz - KOMUNITA HERNÍCH VÝVOJÁŘŮ

frca · Založen: 28. 07. 2007 Příspěvky: 1561

Zdravim, potreboval bych co nejrychleji zkopirovat kazdou ctvrtou polozku ve zdrojovem poli a ulozit je za sebe do ciloveho pole (ktere je 4x mensi). Nebo z jineho uhlu pohledu vzit pole 32-bit intu a nakopirovat ho do 8-bit intu (pricemz 3 bajty se oriznou).
Snazim se dostat linearni framebuffer do 4-strankoveho mode x. Kompilator DJGPP.
_________________
www.FRANTICWARE.com

mar · Založen: 16. 06. 2012 Příspěvky: 610

čau,
já bych možná zkusil něco takového (pseudo-kód):

mar · Založen: 16. 06. 2012 Příspěvky: 610

tak nakonec se mi to povedlo do inline assembly, je to v msvc a tam nešly použít konstanty, tak tam mám všude natvrdo 320x240:
předpokládám, že všechny buffery jsou globály a nemusí se držet v registrech.

mar · Založen: 16. 06. 2012 Příspěvky: 610

tak ještě jedna verze, shrd je pomalé i na moderních strojích, takže jsem to trochu přeskládal a upravil, tady už to je 1.5x rychlejší než msvc místo pomalejší:

mar · Založen: 16. 06. 2012 Příspěvky: 610

ještě jsem si uvědomil, že můžu ušetřit 6 shiftů...

frca · Založen: 28. 07. 2007 Příspěvky: 1561

Díky moc, kopírování po 32 bitech mě nějak nenapadlo.

Alignment adres u 486 a starších nehraje roli, jestli se nepletu...?
_________________
www.FRANTICWARE.com

frca · Založen: 28. 07. 2007 Příspěvky: 1561

Mám první výsledky z 486tky a hned ten první C++ zdroják jede jak z praku. Pardon za vágní popis performance, zatím nemám přesnější metodu Wink

Edit: asi 12 ms to trvá na 486/66

Ještě chci vyzkoušet to přímé kopírování do VRAM bez mezibufferu.

Edit 2: ^ je o něco pomalejší.
_________________
www.FRANTICWARE.com

mar · Založen: 16. 06. 2012 Příspěvky: 610

super!

jakože přímé kopírování je pomalejší?
jak je na tom 486ka se zarovnáním netuším, ale mohlo by stačit použít alignas

tak ještě tu poslední asm verzi by mě zajímalo docela jak to poběží, jestli jsem ručně schopný na 486ce beatnout gcc Smile

ale přepisovat to do ohavné at&t syntaxe by se mi asi taky moc nechtělo Smile

EDIT: (ještě by to šlo přeložit v netwide assembleru jako position independent a udělat self-modifying code a pak přes nějaký tool to zkonvertovat a includnout v C++ - takhle jsem v robodovi dělal sample mixing rutiny)
EDIT2: udělal jsem to, máš link v PM

frca · Založen: 28. 07. 2007 Příspěvky: 1561

Vystup djgpp s -O2 vypada nejak takto. Od oka to je skoro 2x vice radku (a tedy 2x pomalejsi?)

mar · Založen: 16. 06. 2012 Příspěvky: 610

no to by se muselo zprofilovat, z hlavy nodhadnu. každá instrukce trvá jinak, u mě většina jsou movy

gcc kód má 60 instrukcí a 15 shiftů, můj optimalizovaný v assembly 37 a 10 shiftů, nevím co s tím udělá instruction scheduling/pipeline dependence na tom stroji, ale chtělo by to porovnat
kód co vygeneroval gcc nevypadá špatně, ale vsadil bych si že ten můj by mohl být i rychlejší - pokud ti jde primárně o výkon, což počítám, že na 486ce ano Smile

přepsat do inline assembly by neměl být problém, když už z něj. důvodu nechceš integrovat ten self-modifying kód, co jsem posílal (pokud ti jde o portování do budoucna, dalo by se to přece ifdefnout)

mar · Založen: 16. 06. 2012 Příspěvky: 610

v návaznosti na PM: tady je to přepsané do at&t syntaxe,
ještě by to nějak chtělo pořešit konstanty (320*240 natvrdo), ale to už nebudu řešit:

frca · Založen: 28. 07. 2007 Příspěvky: 1561

Ty jsi šílenec! Díky!

Zrychlení je nezanedbatelné.

Tady je repo: https://github.com/Franticware/dos-modex-djgpp

Je to CC0, nebo-li Public Domain.
_________________
www.FRANTICWARE.com

mar · Založen: 16. 06. 2012 Příspěvky: 610

mar · Založen: 16. 06. 2012 Příspěvky: 610

hmm, ještě bys mohl pls zkusit nahradit memcpy a memset za tyhle moje rutiny, používal jsem to v robodovi.
rád bych věděl, jestli to na reálné 486ce něco dá

defaultní memcpy co generuje djgpp s tím novým gcc je rep movsd, což je na moderním hw cool, ale nejsem si jistý, že to bude stejně cool i na 486
pro memset dokonce používá rep stosb, kde už přesvědčený nejsem vůbec.

samozřejmě - správná věc na moderním stroji, ale...

frca · Založen: 28. 07. 2007 Příspěvky: 1561

Místo pro výměnu palety je těsně po novém framebuf_flip s vsync?
Dále, hry časuji typicky s timerem konfigurovaným na 60 Hz, takže teď by to bylo 120 Hz - to by ještě s třístránkovou metodou fungovalo? Pak by byl limiter triviální:

timer_interrupt()
{
++timer_count;
}

...
// game loop
{
while (timer_count == prev_timer_count); // wait for timer
... // game step, rendering
framebuf_flip(VGA, 0);
}

Edit: Vlastně timer/limiter na 60 Hz bude podle mě stačit. Na rychlém HW se využijí všechny frejmy módu X bez artefaktů a na pomalém VSYNC nebude nic brzdit.

Tyhle dotazy píšu pro ujištění, protože to budu i nějak dokumentovat.

Edit2: 3stránkový page flip funguje na 486 bezvadně. Je to stejně rychlé jako ten původní, ale bez artefaktů.
_________________
www.FRANTICWARE.com

	Obsah fóra České-Hry.cz -> C / C++	Časy uváděny v GMT + 1 hodina Jdi na stránku 1, 2, 3 Další
Strana 1 z 3