Ha olvastátok az előző héten megjelent AI-val és művészettel foglalkozó cikkünket, akkor emlékezhettek, hogy az Etsy, vintage és kézműves termékek platformjának AI-piacra lépésétől, az etikai és jogi kérdéseken át, a stockfotó piac lassú átalakulásáig elemeztük a nagy mesterséges intelligencia-trendet. Azonban, mint lelkiismeretes média oldal, nem engedhetjük el ezt a témát anélkül, hogy ne szólaltassunk meg szakértőket is eme igencsak kétes és megosztó témában.
Beszélgetőtársnak nem újdonsült szakértőket, vagy AI-képzés vezetőket hívtam meg, bár megtehettem volna, mert a piac hirtelen tele lett velük… Ezúton is köszönöm W. Szabó Péternek, a Tengr.ai, az első magyar kép készítéssel foglalkozó startup alapítójának, és Mészáros Péternek, a Hello Agency AI migrációért felelős stratégiai koordinátorának, hogy pár órát rászántak a Minnerre – rátok, olvasókra.
Adatelemzők vs. művészi igények
Amellett, hogy olyan embereket szerettem volna megszólaltatni, akik testközelből, aktív használói és kutatói a technológiának, azt is szem előtt tartottam, hogy két merőben más személyiséget invitáljak meg: W. Szabó Pétert, mint adatelemzőt, egy technikaibb, vállalkozóibb beállítottságú szakembert, illetve Mészáros Pétert, mint a budapesti underground művész-estek és a kapitalista rendszert belülről forradalmasító kommunikációs kreatívot, akinek csak másodsorba áll a pénz és technológia, elsődlegesen a társadalmi felelősségvállalást szem előtt tartó innovátor. [Na jó, Peti, ennél szebbeket nem tudok írni…küldöm a számlaszámom]
Jelenleg a nagy cégek piaci hozzáállása, hogy, amíg szürke zónában van az AI bármilyen irányultságú használata, addig megszedik magukat pénzzel s a többivel majd később számolnak. Ezzel nem mondunk annyira újat. Szóba került az Amazon, mint az AI-generált könyvek melegágya, a Spotify műfaj-reakciós nyitása vs. Suno AI agresszív terjeszkedése és az OpenAI mögött húzódó óriási adathalmazok is.
WSzP: Valójában nincs is olyan nagy kérdőjel, ha kicsit mögé nézünk a dolgoknak. Az összes nagy képalkotó modell, bevallottan vagy be nem vallottan, de viszonylag könnyen kideríthető módon, egy LAION nevű hatalmas adathalmazból indul ki.
Ez a hatalmas adathalmaz, ugyanúgy, ahogy a szöveges modelleknél, mindenki mond mindent, és van egy óriási marketing, meg PR mögötte, hogy így meg úgy, meg a különböző szerződések az ilyen vagy olyan újságokkal. De ezek inkább PR események, és jók a tőzsdei manipulációra, meg bármilyen spekulációra.
A valóság az, hogy van egy hatalmas nagy adathalmaz, ami a kiindulási adathalmaza minden ilyen modellnek, és még közel sincs semmi más, ami vetekedhetne ezzel az adathalmazzal. Tehát egészen biztos, hogy a DALL-E mögött is, a Midjourney mögött is, a Tengr.ai mögött is az alap, ez az adathalmaz.
Ahhoz, hogy ezt az adatmennyiséget el tudjuk képzelni, Péter hozott is egy összehasonlítást, miszerint, ha egy ember ennek az adathalmaznak egy képét csak 1 másodpercre látná, úgyis 200 évig nézegethetné, hogy a végére érjen…
Persze, minden szolgáltató finomítja a modelljeit, olyan pipelineokat – csatornákat hoz létre, amelyeken keresztül kontrollálni lehet a kimeneteket, legyen szó pontosításról, stilizálásról vagy éppen cenzúráról. És, ahogyan ugyanolyan felhasználók, ugyanolyan igényekkel sincsenek, úgy a jövőben is egyre több modell fog megjelenni különböző beállításokkal, igény kiszolgálásokkal – ebben a folyamatban pedig minden fejlesztőnek saját maga kell felelősséget vállalnia és eldöntenie merre megy.

De kell-e ennyi kép, ahhoz, hogy fel/betanítsunk egy használható modellt?
MP: Például nekem művészeti kísérletekben volt olyan, hogy kortárs festőknek készítettem modelleket.
18 kép is bőven elég volt, hogy betanítsak egy kis modellt, és utána kértem, hogy generáljon újakat a referenciák és promptok alapján. Meglepően erős volt a stilisztikai hasonlóság, és amikor visszaküldtem a művészeknek, először egyfajta szomorúság fogta el őket, és nem látták meg ennek a potenciális jó oldalát, hogy felgyorsíthatja például a storyboard-készítési folyamatokat vagy bármilyen hasonló munkát.
De az a határ, ami elválaszt minket attól, hogy értenünk kelljen a Python kódokhoz és szükség legyen nagyon erős gépekre, egyre csökken. Az olyan applikációk, mint a tiétek (a Tengri), pont ezt csökkentik, hogy alacsonyabb legyen a belépési küszöb.
És itt felmerülnek nagy kérdőjelek, hogy ezt művészetileg, illetve a digitális művészek hogyan fogják kezelni.
Péterék mindenkit arra bátorítanak, hogy gondolkodjanak előre, építsenek bele a képeikbe olyan egyéni tanúsítványokat, olyan kriptografikus azonosítókat vagy bármi mást, hogy azok tényleg visszakövethetőek legyenek, mert ez elkerülhetetlen folyamat, és nagyon félelmetes lehet a vége…
De, emellett, olyan kreatív lehetőségek állnak a művészek, oktatók, felhasználók előtt, hogy ha sikerül elengedni azt a narratívát, amely szerint leváltani, helyettesíteni akar a technológia bármit is és sikerül ezeket mint eszközöket elsajátítani, akkor fogunk ténylegesen előre haladni és potenciálisan megugrani azt a mércét, amit mi állítottunk fel saját magunknak, mint emberiség, mint akár egyének. Persze nehéz ezt a narratívát támogatni, főleg míg az erőforrások a nagy vállalatok kizárólagos tulajdonában vannak, de azért szép lassan nyílik a felhasználói belépési küszöb és háttérbe szorul a kreatív ipar kizsákmányoló attitűdje…
Unikornis piac? Kelet-európai erőforrások és hiányuk
Amit nagyon fontos figyelembe venni, hogy a nemzetközi AI hullám közepette dollármilliókat ölnek bele fejlesztésekbe, erőforrásokba a nagy cégek és államok – erre jó példa a Microsoft $10B dolláros OpenAI támogatása, ami országok GDP-jével vetekszik – mindezt úgy, hogy a világ nagy része így is le van maradva ebben a technológiai versenyben…
Azt gondolnánk, hogy nekünk semmi esélyünk labdába rúgni, majd a nagyok megcsinálják helyettünk, s míg ennek kis része igaz, azt azért elmondhatjuk, hogy itthon is van erőforrás – szuperszámítógépek és megannyi A100-as GPU, amit a GPT 3.5 esetében is használtak a fejlesztők.
És még sincs ez kihasználva…
Már, ami azt illeti, hogy nincs még mindig egy nagy magyar korpuszon tanított modell.
Igen, igen, létezik a PULI, amit a magyar GPT 3.5-nek neveznek, de tulajdonképpen az össze sem hasonlítható a jelenleg használatban lévő open-source pl. Meta Llama modellekkel (még a kisebb, 7-8B paraméteres modellekkel sem) – ezt egy BME-s professzor, Fegyó Tibor is megerősítette, akik próbálták összemérni a kettőt, de az eredmények összehasonlíthatatlanok voltak. Itt jegyezzük meg, hogy a külföldi modellek csak “véletlenül” tudnak magyarul, elég alacsony százalékban van a tanítási adatbázisban magyar nyelvű anyag és mégis abszolút használhatóak…
Többen, egyébként, már a Meta modelljét használják fordításra is a DeepL-lel szemben, ami azért elég erős. Az Octo blogján megjelent grafikonon látszik, hogy a Llama, nyílt forráskódú modellként, mennyire versenyképes a piac zárt szereplői mellett.

MP: Fura lesz kicsit nemzeti színezettel felruházni a dolgot, de elképesztően nagy felelősségünk van abban, hogy a magyar AI, akár művészeti, akár tudományos életteret erősítsük.
És nem csak azzal, hogy a tudományos életben tök jó képzések indultak, meg nagyon jó tanulmányok jönnek ki, és vannak ilyen egyéves továbbfejlesztések is, hanem a piaci részét is. Például, még mindig nincs olyan normális, magyar fejlesztésű nyelvi modellünk, ami kreatív szöveges modell lenne, még mindig a BERT-et és az ehhez hasonlókat kell használnunk. Tehát nagyon sok mindent kellene még itt elintézni, és nagyon szükség van arra, hogy itt tartsuk az erőforrásokat. Ne az legyen, hogy, mint a legtöbb ismerősöm: itthonról dolgoznak megbízásokon, és megcsinálják drágán Amerikába, és már nem is kell beülniük ügynökségekhez, hanem egyszerűen otthonról dolgoznak, nem építenek itthon közösséget.
Nagyon fontos az, hogy összetartsunk, meg ne széledjünk szét. Ezért fontos, hogy ha van jó ötlet, minden támogatást megadjunk azoknak az alkotóknak, akik itthon dolgoznak, és itthon készítenek AI alkalmazásokat, vagy magyar adathalmazokon dolgoznak, mert ez nagyon fontos lenne.
Például az irodalom területén is. Olyan szinten előttünk járnak például a lengyelek, mert csináltak olyan nyelvi modellt, amit a kedvenc irodalmáraikkal, azok anyagaiból fejlesztettek ki, és tudsz például csetelni az irodalmárokkal – rengeteg adat alapján tanítva a modellt. Ez sokkal jobban beépíthető az oktatásba, és nekünk még rengeteg munkánk van a művészeti és technológiai területeken is.
És, hogy mi a támogatás, a fejlesztések elmaradásának a hátulütője? WSzP mutatott rá saját és egy másik romániai cég példáján keresztül. A kelet-európai tech cégek fenntarthatósága folyamatos létkérdés…
WSzP: Szerintem mindannyiunk érdeke, hogy itt legyen egy változás. Remélem, hogy a következő generáció, amikor döntéshozó szerepbe kerül, vagy közelebb jut hozzá, vagy legalább, mint fogyasztó megjelenik, kezdeni fog valamit ezzel a helyzettel. Úgy gondolom, hogy az mindenképpen pozitív dolog, hogy legalább nem zéró [szerk. a Tengri fizető felhasználóinak százalékos aránya itthon], tehát hogy mégis vannak olyan magyar felhasználók, akik előfizettek, és az is érték, ha csak az ingyenes verziót használják valamilyen szinten. Nyilván gazdaságilag nem fenntartható.
Szeretünk azzal büszkélkedni, hogy magyar startup vagyunk, és jelenleg a tulajdonosok között is csak magyar állampolgárok vannak. Nagyon remélem, hogy ez meg is tud maradni.
A nagy veszély itt, ami nagyon sok startuppal megtörtént a régióban, hogy egy adott pillanatban ez oda vezet, hogy a befektetők is máshonnan jönnek, és aztán elvárják, hogy a cég is kerüljön át egy másik országba. Először csak jogi személyiségként, hogy megállapítható legyen egy cég, de az alkalmazottak itt maradnak. Majd később az alkalmazottak is átkerülnek a másik országba, és végül teljes mértékben egy másik országbeli céggé válik. Erre egy nagyon jó példa a romániai unikornis esete, ami kolozsvári cégként indult, de nem kapott megfelelő mennyiségű befektetést. Tíz évig küzdöttek a kelet-európai piacon, és végül Amerikába mentek, amerikai cég lettek, és most a New York-i tőzsdén jegyzik őket. Ez az amerikai gazdaságot erősíti, és bár a médiában román történetként van beállítva, valójában amerikai cég…
A magyarnak minden ingyen van! Ha nincs, nem kell!
0,5-1% – a Tengr.ai magyar felhasználóinak fizetős rétege. Az átlag magyar felhasználó így szocializálódott: a szoftver ingyen van, online nem fizetünk. Digitális rezsi? Az mi? Pedig okos előre tervezéssel ezek a plusznak gondolt kiadások hosszútávon megtérülhetnek, mind pénzben, mind energiában, erőforrásokban. De itt, úgy gondolom, hogy a digitális tartalomkészítési és esztétikai hozzáállásban van egy értelmezési kapocs, amire ki is tértünk a beszélgetés során.
Az AI művészet esztétikai kérdései és a Kelet-Nyugat közötti különbségek elsőre talán nem egyértelmű összefüggéseket vetnek fel. Péter druszák megosztottak pár érdekességet az AI trendek esztétikai értékeiről és arról, hogyan különböznek ezek a különböző kulturális kontextusokban.
(Kontextus végett, félig visszakanyarodva a jogi kérdésekhez: ahol rengeteg jogtiszta adat van: Ázsia – és innen rengeteget lehet tanulni, illetve tanítani. A cél az etikus, de nem cenzúrázott kimenetek. Ilyen szempontból pedig, ez a különböző modelleknél egy esztétikai kérdésbe is átfordul – lsd. alább a Midjourney “hollywoodi stílusát”, a bizonyítottan film képkockákon finomított modellét.)

WSzP: Ami egyértelműen látszik, az az, hogy világszinten az átlagfelhasználók esztétikai igényszintje megnőtt. Tehát az új gagyi szint magasabbra került, az a szint, amit mindenki minimum elvár, és ami alatt gagyinak számít valami. Ez a küszöb a generált képek miatt magasabbra került. Ugyanakkor óriási különbségek vannak az elvárásokban, az igényekben és az esztétikában különböző országok között. Például nekünk jelen pillanatban a legtöbb felhasználónk Indonéziából van, ami sokak számára meglepő lehet. Nagyon sok visszajelzést kaptunk Délkelet-Ázsiából, hogy számukra a DALL-E és a Midjourney kevésbé működik jól, és a Tengr.ai-t jobban szeretik. Ez mérhető is, főleg nagy reklámkampányoknál, nagyobb ügynökségeknél. Voltak, akik kimondottan tesztelték, hogy hasonló kampányokban a Tengr.ai képei jobban teljesítettek. Valószínűleg azért, mert ez valamilyen módon elterjedt Délkelet-Ázsiában. Nagyon reméljük, hogy valami hasonlót sikerül elérni a GCC (Öböl Menti Együttműködési Tanács) országaiban is.
Most például Kuvaittal van egy jó együttműködésünk, megalakult a Magyar-Kuvaiti Digitális Klaszter is. A lényeg az, hogy minél távolabb van egy régió kulturálisan és esztétikailag az Amerikai Egyesült Államok nyugati partjától, annál inkább kedveli a Tengr.ai-t. Ezért van az, hogy az Egyesült Államokbeli céges felhasználóink kivétel nélkül nem kaliforniai székhelyűek. Úgy gondolom, hogy van itt valami, bár én adatkutató vagyok, és régebben user research-sel foglalkoztam, nehezen tudnám megfogalmazni esztétikai szempontból, de az adatokból látszik, hogy van egy ilyen igény, hogy más legyen, mint ami a kaliforniai közízlésnek a legjobban megfelel. Ugyanakkor sok kliensünk azt mondja, hogy az ő ügyfeleik jobban rezonálnak a Tengr.ai által generált képekre, és a reklámkampányok egyre jobban teljesítenek ezekkel a képekkel.
Marketing, építészet, állami intézmények – tehát vannak azért felhasználási esetek több területen, de ezek nemzetközi forrásúak leginkább (több mint 60 országból), nem lehet azt mondani, hogy niche piac lenne. Sokkal inkább a technikai felkészültség hiánya, a betokosodott hozzáállás és a vízió hiánya jellemzi a piacot, ami még nem tud mit kezdeni ezekkel az új lehetőségekkel.
Többen otthon vagy az irodában kezdtek el kísérletezni, dolgozni különböző képgeneráló eszközökkel, de hamar rájöttek hogy nem működik több okból: felhasználói képességek hiánya, egyedi tartalmak hiánya…stb. Ilyenkor vagy feladták az egészet, vagy kontaktba léptek magukkal a fejlesztőkkel és egy egyéni megállapodás keretében kaptak oktatást, kijelölt támogató fejlesztőt, személyes megoldásokat… Vannak lehetőségek.
A Hello Agency az ügyfelek adatállományából készít fine-tuneolt, finomított modelleket a cégek brandjére szabva (erről később). De M. Péter személyesen zenei és vizuális megoldásokkal is foglalkozik.
MP: Mire használnák itthon? Nincs is kész még rá az ember, fogalma sincs, hogy egyáltalán mire használná – az átlagfelhasználónak így felesleges.
Viszont például egy közép-ázsiai országban, pont azért, mert az önmegosztás és a tartalomgyártás mennyisége személyes szinten is sokkal nagyobb, az ifjabb generációknál, alfa generációnál, nekik sokkal több tartalomra van szükségük, és sokkal több AI-t használnak hozzá. Akár legyen szó AI algoritmusokról, vágásról, szövegfelismerésről, ami feliratoz, vagy bármilyen előfizetéses szolgáltatásról – mert kell nekik a tartalom. Sokkal villogóbb és sokkal impulzívabb tartalmakat készítenek. Itthon még nagyon le vagyunk maradva és nagyon követjük a hagyományosnál hagyományosabb közösségi média használatot és posztolási esztétikát. Tehát kb. még a tíz évvel ezelőtti platformokat próbálunk másolni, és nem a 15 másodperces, gyorsan összevágott, interaktív részleteket, amik saját képeinkből készülnek, morfolva egyikből a másikba.
Ha például vizuális művészetről beszélünk, egy vizuális művészeti ágról vagy egy filmes részlegről, azzal egészíteném ki, hogy furcsa helyzetben vagyunk Magyarországon. Én például zenekaroknak csinálok AI vizuált koncertre, és még az is olyan, hogy nem értik, miért jó, és azt sem értik, hogyan működik. Vajon működik-e, hogy egyáltalán össze tudjuk kötni a saját képeiket meg videóikat azzal, hogy hogyan változik a ritmusa magának a vizuálnak a beat ütemére? Inkább kifizetnek 800 ezer forintot egy animátornak, aki háromszor annyi idő alatt csinálja meg, és valószínűleg fele olyan jól, mert nem követi annyira jól, mint mondjuk én, mert el kell magyaráznom, hogy ez micsoda. Viszont külföldön, főleg Ázsiában, ennek már nagy kultúrája van, főleg a vizuális koncertkultúrának.
Itthon meg örülnek, hogy ki van rakva a logó és ennyi. A legnagyobb zenekarokról beszélünk, tehát, hogy max. forog is közben. Nincs még hozzáadva, hogy ez így egyben legyen, és még ehhez kell küzdeni – nincs piaca.
Ahogy a művészetben is fontos: mikor? mit? hogyan? Mi az üzenet, – a CÉL (a társadalmi Öncél?)… Semmi nem létezik csak önmagában és mégsem jelent semmi többet önmagánál…
Hogyan, kikkel és mit? (m)Erre tovább…
Na, de milyen lehetőségeink vannak legalább vállalati szinten tenni valamit?
A Minner híres arról, hogy vállalkozásokat, hasonló beállítottságú, fejlődni akaró cégvezetőket hoz össze – piacot a szolgáltatóval, vállalkozót a befektetővel. A beszélgetés végére pedig majdnem egy új partneri kapcsolat is kialakult a két Péter között, rájöttek, hogy kölcsönösen egymásra vannak utalva a piacon és közel lefedik egymás szükségleteit. De erre is csak azért jöttünk rá, mert kérdeztünk, beszélgettünk, nyitottunk az új felé.
Tehát én úgy látom, hogy sok kérdőjelen és akarni vágyáson keresztül vezet oda út, hogy egy lehetőség egyáltalán felbukkanjon. Ahogy a prompt engineer feladata is az, hogy tudja milyen problémát, hogyan bontson le az AI-nak, hogy az pontosan megértse és meg tudja oldani, úgy először nekünk kell képesnek lennünk ugyanerre – vagy legalábbis nektek, cégvezetőknek…
Azért, hogy kapjatok egy kis inspirációt, összeszedtük, milyen vállalati szintű lehetőségekkel foglalkozik a két meghívottunk. Ezen az úton már el tudtok indulni, akár probléma felmérésről, akár kreatív megoldásokról van szó.
- AI architektúra kiépítés, automatizálás: ha van egy probléma, egy folyamat, akkor azt át kell nézni és ők lesznek azok, akik felgyorsítják ezt egyéni megoldásaikkal
- MP példaként hozta fel: social media kezelés, branding “modell” létrehozása saját adatállományból, brand stílusban automatikus posztok, személyre szabott kommunikáció, reportok, compliance és modell re-training
- Illetve a már említett vizualizációs, művészeti oldal – amihez MP számát nem adom meg, de az e-mail címét elárulhatom
- Épület vizualizációs megoldások, marketing és stockfotó generálás, tervezés – együttműködés ügynökségekkel, megoldások production csapatoknak, professzionális támogatással és egyéni kivitelezésekkel
- Hamarosan lesz API-juk is [szerk. Mi az API? Cikk itt], integrálni lehet majd natívan, hivatalos megoldásként (pl. a web/mobil appodba, weboldaladra, print on demand dizájn funkciónak…)
- A beszélgetésünk napján pedig pont bejelentették, hogy a Canva megvette a Leonardo AI-t – ha valaki még kételkedne abban, hogy merre megy a piac és a technológiai fejlesztések
Szia Lajos, saját AI influenszer érdekel? A BMW megcsinálta már (pontosabban kollabolt egy AI insta-influenszerrel):
De most komolyan… Hová vezet ez az egész?
A beszélgetés során egy historikus, mitológiai példán át állapítottunk meg a fejlődésünkkel kapcsolatban egy fontos dolgot. Míg az előző cikk Nikola Tesla jóslatával ért véget, amely egy nagy közös agyként hivatkozott a világra, addig mi úgy látjuk, hogy annak beteljesülése még nem (ez) az AI és ennél fogva: Bábel tornyát magunknak kell majd visszaépíteni, közösen, minden nyelvnek a maga részét – senki nem fogja helyettünk megcsinálni.
Nem valószínű, hogy egy nagy AI lesz, amit mindannyian egyenlően tudunk használni – ennek a problémáival, nehézségeivel már most is találkozunk. Sem a nagy vállalatok, sem más, nem fog helyettünk mindent megoldani. Úgyhogy, hajrá PULI!
Amennyiben szeretnétek többet megtudni a témában és még több AI szakértő véleményére kíváncsiak vagytok, akkor nézzetek utána a szeptemberben megrendezésre kerülő AI Summit-nak, ahol WSzP is elő fog adni. Ki tudja, lehet, hogy mi is ott leszünk.
Olvasnátok még AI témában?
- Művészeti forradalom vagy kapitalista stílusgyakorlat? Itt az új AI alkotói kérdés!
- Saját AI megoldást, appot készítünk 1. rész. Üzleti célra + app is lehet belőle
- AI helyzetjelentés. Ezt kell tudnod vállalkozóként az AI-ról. 2024-ben ez vár ránk
- Ne félj az AI-tól, használd!
Fotó: Envato License









