AI (nejen) ve fotografování: co opravdu funguje – velký přehled

AI mění svět kolem nás včetně fotografování – to víme. Stejně tak všichni známe klíčové nástroje, s nimiž se dá hrát. Ale co KONKRÉTNÍHO opravdu funguje? Zde je můj soukromý přehled. A budu moc rád, pokud ho doplníte v komentářích…

Proč hledat to, co opravdu funguje

Proč vznikl tento přehled?

1. I malé věci se počítají – tak jako každý si rád hraji s všemi možnými nástroji umělé inteligence – nejen při “velkých” úkolech (á la analýzy v jazyku Python), ale hlavně v běžném každodenním provozu. A všiml jsem si, že největší kouzla se často dějí v oblastech relativně banálních – třeba při řešení rovnice naškrábané na kusu papíru.

2. Každý používá něco trochu jiného – skoro každé setkání s kamarády se dříve či později stočí k tomu, co komu funguje, co ne, co zase AI “provedla” a jaké drobnosti i větší věci už fungují. Zkrátka: je skvělé vyměňovat si poznatky o tom, co se dá používat v běžném provozu.

3. Problém 95 % aneb co opravdu funguje a co je jen na hraní – jedné zásadní věci říkám soukromě “problém 95 %”. Myslím tím to, že existuje obrovské množství nástrojů, které jsou úžasné, dechberoucí, skvěle se s nimi hraje (třeba namlouvání videí syntetickým hlasem). Chyták je v tom, že to prostě není ono – funguje to jen z 95 %, ale pro reálné využití to prostě zatím (skoro) není. A stojí za to lovit, co funguje na 100 %.

4. Nu a čistě prakticky: na mých kurzech fotografování pro foťáky, iPhony i Androidy je to dnes již zcela povinné téma. A proto mě baví testovat, s čím si hrát, a co jde používat v reálném životě.

Fotograf a AI
Fotografové nyní trochu bezmocně sledují sílící umělou inteligenci… Zdroj: Fotoguru.cz / Midjourney.com

Co základního používám já (a vy určitě též)

Tak jako všichni samozřejmě používám ChatGPT.com (někdy placený, nyní už pár měsíců ve free verzi, na pár dotazů denně mi stačí). Plus jsem velkým fanouškem nástroje Claude.ai, používám ho podobně jako ChatGPT, ale když potřebuji pomoct například s nějakým kódem, mám ho raději (taktéž ve free verzi).

V danou chvíli si platím jen Midjourney.com, kvůli generování grafiky, ilustrací, případně i fotek, viz dále. A přístup mám též k googlovské Gemini (v rámci placených účtů Google), ale zatím jsem v ní moc kouzla nezahlédl.

A pak samozřejmě používám AI pro různé dílčí úkony v rámci dalších aplikací, á la Photoshop, Lightroom, Luminar, ale vlastně skoro všude, od pozoruhodných funkcí v nástrojích, s nimiž si hraji, včetně skvělého překladače Deepl.com. A právě to nyní pojďme trochu popsat.

Luminar Neo GenExpand příklad
Drobnost, na kterou se snadno zvyká – program Luminar Neo s funkcí GenExpand umožňuje doplnit chybějící okraje i u poměrně složitých scén.

AI ve fotografování: od generování po analýzy EXIFů

Generování ilustrací (a hraní si) v Midjourney

Ze všech možností generování obrázků jsem se vcelku rychle usadil u Midjourney.com (10 USD/měsíc + DPH). Tenhle nyní už legendární nástroj používám v danou chvíli na generování ilustrací k článkům. Držím se většinou promptů s žádostí o jednoduché “kreslené” ilustrace, které mají tu výhodu, že vypadají z definice relativně neuměle.

“Realistické fotky” už skoro vůbec nezadávám, byť jsem si i s nimi hodně hrával. Proč? Mám dojem, že vcelku logicky nastala obecná únava všemi těmi umělotinami. Zajímavé je, že ještě před rokem a půl jsem klidně použil “umělou” fotku jako náhled mého videa o focení mobilem (170 000 zhlédnutí)… Nyní už by mi to neprošlo. A ani by mě to nenapadlo, doba prvotního nadšení je pryč.

Obrázek vygenerovaný umělou inteligencí - robot a fotograf v horách
Takto si představuje nástroj Midjourney fotografa a AI kdesi v horách. Vypadá to velmi realisticky, ale podobné fotky už prostě lidi nezajímají jako dříve. Což je dobře. Zdroj: Fotoguru.cz / Midjourney.com

Generativní úpravy v editorech á la Lightroom

AI úpravy samozřejmě berou útokem všechny programy i aplikace, v nichž se fotky upravují. Ne vždy jde opravdu o umělou inteligenci, ale to je jedno – dílčí úpravy prostě urazily obrovský skok vpřed.

V reálném životě je používám k relativně banálním úpravám hlavně v Lightroomu případně Luminaru: vymazávání nežádoucích věcí, odstraňování pozadí, případně doplňování chybějících částí fotky (když třeba potřebuji doplnit nebe nebo jiný okraj). Dělám to, dlužno říct, poměrně málo.

Lightroom a generativní AI
Lightroom a generativní AI: označíme lžičku a tak pak zázračně zmizí… Není to tak napínavé jako mluvící avataři, hodí se to ale opravdu hodně…
Lightroom a generativní AI
Lžička je pryč a Lightroom nám dokonce nabízí tři možnosti, jak má nově vygenerované místo vypadat.

Analýzy a úpravy EXIFu přes příkazovou řádku

Jednou z nejvýznamnějších věcí, které mě AI naučila, je pracovat s tzv. příkazovou řádkou u mého Macu. ChatGPT i Claude prostě v určité fázi trvali na tom, že se to musím naučit – a jsem jim za to vděčný. Protože mi prostě napovídají, jak a co zařídit třeba při práci se soubory, včetně čtení základních informací z EXIFu. Konkrétně jsem tak například zvládl “neřešitelný” problém, kdy se při stahování archivů přepíše datum vytvoření datem stažení. Viz článek Jak mi AI vyřešila “neřešitelný problém” se zálohováním fotek.

ChatGPT a fotografování: změna data stažení
Pro zajímavost: Takto jednoduché to je: prostě jsem se optal ChatGPT a on mě rychle navedl k používání příkazové řádky… Zkuste to také…

Kombinování archivů v ZIPech

Občas potřebuji stáhnout nějaké velké archivy z mých cloudů a poté je rychle uspořádat do jednoho původního adresáře. Jde to samozřejmě udělat mechanicky, ale kdo jednou (díky AI) objeví postupy nástrojů přes příkazové řádky, už pro něj není cesty zpět – AI navede, odladí chyby, pomůže pustit… Krása.

Revoluce v rychlosti dohledávání nápovědy (třeba u Photoshopu)

Tohle může znít banálně, ale je to jedno z velkých proměn: nikdy nebylo tak snadné zjistit cokoliv z nápovědy zcela u čehokoliv. Obecně mi od pradávna leze na nervy nepříliš přehledná nápověda u Adobe produktů. Nyní už je možné nad nimi zlomit hůl. Nástroje AI Je mají dokonale načtené a ve zlomku vteřiny ukáží to podstatné v dokonale strukturované formě – tedy sláva, už netřeba kvůli drobnostem sledovat mučivě dlouhé tutoriály na YouTube.

Svět produktových fotek se mění, ale ještě to chce čas

Jednou za čas vyzkouším různé nástroje na vymazávání pozadí, usazování produktů do jiných prostředí, zkrátka pokročilé postupy tvorby produktových fotek. Ale zatím tam stále ještě dle mého nejsme – pořád se dotýkáme toho, že to funguje na 95 %. A to je málo. Ale tohle je jen otázka času – a právě v produktové fotce může nastat opravdu velká AI revoluce.

Nástroj Pebblely
Nástroj Pebblely umí, podobně jako další, odstranit pozadí produktu (zde objektiv od Canonu) a umístit ho do jednoho z mnoha možných prostředí. Zde to nevypadá špatně, ale dokonalé to ještě není.

AI a psaní / přepisování / překládání textů

Ano, AI umí psát i upravovat články a e-maily. Ale to já nedělám

Tohle je samozřejmě zcela banální sdělení: bavíme se o jazykových modelech, které jsou pochopitelně extrémně dobré v tom, aby vytvářely, přetvářely a různě upravovaly psané texty.

Jenže to já vůbec nepoužívám – na mém webu nenajdete ani jednu jedinou větu vygenerovanou umělou inteligencí. Čímž neříkám, že je na tom něco špatně a že to nemá smysl, to vůbec ne (!). Jen se tomu prostě bráním, a to ze tří důvodů.

Zaprvé: texty od AI se přelévají tam a zpět internetem a pomalu ho dusí. Čehož se nechci účastnit. Zadruhé: algoritmy vyhledavačů se je snaží potlačovat – jak moc dobré v tom budou, nevím, ale je zbytečné to pokoušet. Zatřetí: pokud mají weby jako Fotoguru.cz přežít, musí být z každé věty cítit, že vše píše člověk, ne stroj. Howgh.

ChatGPT a ukázka pluginů
ChatGPT umí psát velmi dobře, ale mě to prostě nebaví číst. Ale jako inspirace, proč ne…

Inspirace pro strukturu textů / titulků

Krom vytváření článků je obecně skvělou možností prostě si jen tak povídat o struktuře článku, nebo hledat inspiraci při psaní titulků: zrovna tohle pochopitelně velké modely zvládají skvěle a čas od času do nich nějaký titulek hodím. Alternativy opravdu umí nabídnout dobře, podobně jako zajímavé osnovy nových článků. Ale, marná sláva, pořád se snažím předstírat, že se zde bez AI klidně obejdu (no, asi nakonec ne, ale snažit se musím)…

Jazykové korektury (ChatGPT / Claude) – to se hodí

Až tento text dopíšu, předhodím ho chatovacímu okénku na ChatGPT nebo Claude a požádám je, aby text prošly, našly překlepy, vytučnily je a navrhly opravy. Často to funguje skvěle a stroj poslušně objeví třeba slovo kocka, vytuční ho a do závorky korektně navrhne (kočka).

Přiznávám, ne vždy to funguje, jak má: někdy okénko trvá na tom, že slovo pes je špatně a že musí být nahrazeno slovem (pes). Případně se svévolně pustí do vylepšování textu a přepisování toho, co přepsat nechci. Když to po stroji čte ještě moje manželka, dosti se obvykle vzteká: chyb sice ubylo, ale pořád jich je tam dost.

Překlady – pro mě dechberoucí funkce v DeepL.com

Pokud bych měl zvolit jednu službu, bez níž bych už nemohl fungovat krom “velkých” modelů, nesporně by to byl DeepL.com… Kdysi jsem tomuto překladatelskému nástroji utekl od Google Translate a už se nikdy neměl chuť vracet. Stačí mi free verze, mám rád možnost vybírat z více možností překladů, zkrátka: skvělé! Plus kromě překladače se mi v poslední době velmi líbí DeepL Write, který dokáže již tak solidně přeložený text ještě vylepšit.

Rychlé vylepšování e-mailů (ChatGPT / Claude)

Když píšu nějaký rychlý anglický e-mail nebo něco kratšího k mým anglickojazyčným videím na YouTube, někdy se spokojím s rychlou konzultací s tradiční dvojicí chatovacích okének. Ostatně, jsou to jazykové modely. I zde to funguje samozřejmě velmi dobře.

AI doma a v kanceláři

AI mění hledání na internetu (ChatGPT / Perplexity.ai)

Jedna z největších revolucí spojených s AI je nesporně proměna toho, jak hledáme informace. “Zeptám se AI” je věta stále běžnější a ptát se napřímo chytrého okénka dává stále větší smysl, i když výsledky jsou občas stále trochu pochybné.

Ač Google stále zůstává králem vyhledávání, jeho podíl se bude zmenšovat, možná dost dramaticky – ChatGPT již své vyhledávání spustil (ve spolupráci s Bingem). Vyzkoušet je dobré i službu Perplexity.ai, kombinující jazykový model s vyhledáváním – ne vše je dokonalé, ale nějak tak bude vyhledávání již brzy vypadat. Že se budete držet starého dobré Googlu? No, řekneme si za rok.

Perplexity a vyhledávání, ukázka
Takto nějak bude nejspíš vypadat vyhledávání na internetu již poměrně brzy. Zde nástroj Perplexity odpovídá, co to je můj web Fotoguru.cz. Nahoře uvádí odkazy, níže vše shrne pro rychlou orientaci. Vypadá to hezky, ale pro majitele webů tyhle okamžité odpovědi moc dobrou zprávou nejsou…

OCR – optické rozpoznávání textů se řítí vpřed

Může to znít nenápadně, ale pro mě osobně je jedním z nejvýznamnějších posunů v této oblasti to, jak snadné je nyní vylovit cokoliv z fotky. Optické rozpoznávání znaků či OCR (Optical Character Recognition) bývalo po léta dosti bolestné, zejména v češtině. Nyní doporučuji vytáhnout ze spíže malý sáček s japonskými nudlemi, vyfotit japonský text mobilem a nahrát (třeba) do ChatGPT. Ve zlomku vteřiny stroj vše převede na text, přeloží, okomentuje, vysvětlí. Skvělé a trochu nepochopitelné…

Překlady s umělou inteligencí
Už nám to přijde normální, ale ještě před nedávnem bylo poměrně těžké vylovit text z fotky. A přeložit ho – zde něco málo o mých oblíbených miso polévkách…

OCR podruhé: matematika nikdy nebyla tak snadná!

Přiznávám, já už učivo matematiky trochu pozapomněl, a před pár dny jsem trochu bojoval s jakousi gymnaziální rovnicí. Pak jsem svůj škrabopis rezignovaně vyfotil do aplikace, ta vše převedla do textu, vyřešila, popsala postup a pro jistotu mi vysvětlila, co je křížové pravidlo u zlomků.

OCR potřetí: PDF do HTML na web za pár vteřin

Různé firmy milují dodávat specifikace svých výrobků ve složitých tabulkách, které jsou navíc napevno zalité v PDF. Dostat je do článku na web bývalo v podstatě nemožné. Nyní je to díky OCR naprostá hračka. Nahraji fotku nebo pdf do stroje s prosbou, aby tabulku rovnou převedl do HTML, tedy kódu, který pak vložím na web. Občas ještě okénko poprosím, aby v tabulce zachoval třeba jen některé položky. Nikdy jsem neměl na webu tolik tabulek… Krása!

AI a revoluce v analýzách všeho

Hrajte si s Pythonem a neodmlouvejte!

Moc rád píšu a fotím, ale přímo nesnáším vytváření různých přehledů, reportů, analýz. Snažil jsem se to hodit na AI, ale ona mi prostě nekompromisně doporučila, ať web analyzuji v programovacím jazyku Python. Bránil jsem se, ale nakonec do toho ty dvě hodiny investoval – a jsem zcela nadšený. Ne že bych tomu moc rozuměl, ale s pomocí chatovacícho okéka vytvářím scripty (kousky programu), které mi dramaticky usnadňují život.

Příklad: až budu potřebovat zdokumentovat všechny články o AI na mém webu, pustím script, který web projde, do tabulky dá názvy článků, datum sepsání, adresu. A pak ještě udělá printscreeny všech textů. Nádhera!

Revoluční drobnost: analýza chyb v reálném čase

Tuhle revoluci je snadné přehlédnout, ale byla by to škoda. Tedy: “umím” nyní pracovat s Pythonem a příkazovou řádkou v Macu, a vy to budete za dvě hodiny “umět” taky, protože AI nás povede za ručičku. Když něco nebude fungovat, zkopírujete chybová hlášení do chatu a stroj chyby zanalyzuje a doporučí opravu.

Jiným slovy: práce s Pythonem, příkazovým řádkem nebo nástroji na analýzu EXIFů samozřejmě není nic nového. Nové je, že díky tomu “vedení za ručičku” je vše najednou zcela běžně použitelné a žádný “fatal error” nás prostě nezastaví.

S čím je zajímavé se hrát – pár tipů

Aplikací, modulů, pluginů, rozšíření pro ChatGPT a dalších modelů je bezmála nekonečno. Některé jsou skvělé, jiné méně, většina z nich časem zmizí z povrchu zemského.

Hrát s nimi je tedy možné přímo v prostředí aplikací nebo webového rozhraní. Případně fungují jako samostatné weby. Dle mého je život příliš krátký na to, abychom sami našli ty nejlepší – a tak sem dávám jen pár z těch, které mi kdysi někdo poradil.

A jak už jsem zmínil, pokud máte nějaký opravdu oblíbený nástroj, dejte mi vědět v komentářích… Díky!

ChatGPT a ukázka pluginů
Přímo v prostředí ChatGPT je možné pustit si nemalé množství nástrojů…

Descript.com – futuristický nástroj pro práci s obrazem i zvukem

Descript patří k velmi oblíbeným (placeným) nástrojům pro pokročilou práci s audiem, videem i textem a určitě doporučuji vyzkoušet ho (což jde zdarma).

Krom toho, co umí, při testování pochopíte, kam se tento obor posouvá a co do budoucna čekat.

Nástroj Descript a záznam z YouTube
Nástroj Descript umí opravdu šikovné věci, zde jsem mu dal link na YouTube na záznam mého vystoupení na TedX v Bratislavě. Dokázal ho přepsat do textu za pár vteřin…

Co mě nadchlo:
neuvěřitelně přesný přepis mluveného slova do textu. Tohle je noční můra každého novináře: nahrajete rozhovor a pokud má třeba hodinu, přepsat ho do psané podoby je práce tak na den. Dlouho jsem hledal něco, co by dokázalo mluvenou řeč skvěle převádět, a Descript to zvládá opravdu skvěle. Testoval jsem na rozhovoru s hercem Petrem Bruknerem a byl opravdu nadšen. Systém dokonce umí poznat, kdo mluví, a přiřadit jednotlivým pasážím konkrétního mluvčího

bleskurychlý přepis videa do textové podoby – nejde jen o rozhovory, ale i třeba o obsah videa: před téměř deseti lety jsem vystupoval na TEDx v Bratislavě. A od té doby popravdě zapomněl, o čem přesně jsem mluvil. Descript vzal link na video a za pár vteřin vše přepsal do textu – jak to dokázal, to vlastně nevím, ale bylo to pozoruhodné

– Descript toho umí opravdu hodně a popravdě řečeno jsem nic tak dobrého nezahlédl. Pokud si pustíte trial, doporučuji udělat to ve chvíli, kdy na to budete mít dost času prozkoumat alespoň letmo všechny klíčové funkce, včetně generování hlasu, úprav audia v záznamech a dalších položek

HeyGen.com – můj syntetický hlas nezní špatně

HeyGen je jednou z prvních služeb, která začala už poměrně dávno nabízet tvorbu AI video avatarů i AI hlasů. Původně to bylo, zcela upřímně, skoro nepoužitelné, ale když jsem nyní zkoušel po čase, byl mile překvapený, klobouk dolů.

Příklad: Heygen rozpohyboval moji fotku (což je spíše na hraní), ale zvuk je opravdu pozoruhodně kvalitní – jde o úvod k recenzi mobilu Google Pixel – zde pro zajímavost, jak to samé opravdu říkám já ve videu

Funkcí je opět mnoho, ale ta zásadní se mi líbí opravdu hodně: AI Voice dokáže na základě nahrávky vytvořit “model” mého hlasu a ozvučit jím poté videa. Nejlépe to zahlédnete z ukázky – stroji jsem zadal text z úvodu mé recenze Google Pixel 9 Pro XL. A byl překvapený, jak rozumně to namluvil.

Případně bych mohl něco podobného zkusit i přímo s video avatarem, ale hlas mi popravdě přijde užitečnější. A umím si představit, že bych to používal například pro anglické verze mých videí.

Nicméně: i zde zatím platí ono kruté pravidlo 95 % – je to skvělé, ale funguje to jen z 95 %. Ale já bych potřeboval 100.

Tedy: ať se s AI daří! A napište, co používáte vy…

 

Reklama

2 komentářů

  1. Cedrik Haškovec

    Dobrý den,
    děkuji za informace. Já pro úpravu fotek používám běžně starý Zoner 18, ale mám i starší Photoshop. Ten by stačil pro AI, nebo musí být nějaký novější? Případně, nedoporučil byste mi nějaký kurz úpravy fotek pomocí AI?
    Jinak dík za Vaše články, které si rád čtu,
    S pozdravem,
    Cedrik Haškovec

    • Jan Rybář

      Cedriku, zdravím! Obávám se, že ty nejnovější AI funkce jsou jen v novějších verzích zmíněných programů, ale do detailů jsem nezkoumal. Ty opravdu zásadní úpravy dle mého teprve přicházejí, zatím je to kromě několika funkcí (á la dodělávání kusů fotky a lepší možnosti výběrů, mazání atp) spíš hraní, ale potenciál to má velký, tedy i nějaké kurzy časem přijdou… Ať se daří! JR

Připojte komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

*