A saját JARVISOM: Hangalapú AI asszisztens kódolás nélkül (ElevenLabs + N8N)

Dátum

Megosztás

Lehet ma létrehozni olyat, mint a Vasemberben a J.A.R-V.I.S., csak üzleti megoldásokban történik a végrehajtás? Ezen törtem már régóta a fejem, hiszen már minden adott: Vannnak hangalapú (voice) AI megoldások, megfelelő konnektorokkal (API, Webhook) beköthetőek a különböző digitális rendszerek. Nekiültem és kódolás nélkül kb. 10-15 óra alatt a videóban is látható működést sikerült elérnem úgy, hogy eddig ilyet nem csináltam. Nem volt sétagalopp! Aztán egyszercsak utasítást adtam az én Jarvisomnak, és az teljesítette a kéréseket, sőt beszélt hozzám, kérdezett, együtt oldottunk meg problémákat. Óriási challenge volt ez, és én is AI-ban most ugrottam egy nagyot. És hová tovább innen? Mire lehet használni a vállalkozásban? Fogunk-e egyáltalán ilyen hangalapú asszisztenst használni? A Siri és Alexa külföldön népszerű a magán tevékenységeknél is, akkor ezt üzleti célokra hogyan tudom használni? Érdemes végignézni a videót is, de készültem szöveges verzióval.

Youtube-on itt éred el a videót, de lejjebb görgetve látod szövegesen is.

Te is elkészítenéd? A Jarvisom sablonja innen letölthető

Továbbá a digitális képzésben a beállítására is megtanítalak: Nulláról az automatizálásig: kódolás nélkül + AI

Így készült az én JARVISOM

Érdemes meghallgatni a videó első 7-10 percét, ahol visszaválaszol az AI és megold feladatokat, akkor még jobban megérted mit is csináltam itt.

Tehát teljesen kódolás menetesen csináltam. Természetesen jó pár beállításnál kértem a ChatGPT segítségét, néha a teljes interface kimásolásával, vagy leírva éppen mit nem értek. Jó kis közös munka volt, tehát AI-val építettem az AI -mat.

Így épül fel az JARVIS:

  • Hang bement ElevenLabs rendszer Voice Agent-je – itt lehet csak chates verzió is. Én itt beszélgetek vele, válaszol, jelzi, ha valamit nem tud megcsinálni. A feladata, hogy asszisztens, és nem ChatGPT GYIK, nem válaszol idióta kérdésekre (de persze arra is lehet építeni ilyet).
  • Webhook-kal folyamatosan küldjük át a beszéd leiratát N8N rendszerbe.
  • Az AI Agent az N8N-ben feldolgozza azt, hogy melyik tool-hoz tartozik az utasítás (ezt látod a képen – folyamatábra, sőt ez az N8N felhasználói felülete).
  • A Tool-ok valójában azok a funkciók, amit meg tud csinálni a rendszer. Naptár bejegyzés, google sheet-ben „dolgozni”, feladatkezelőben lekérdezni, létrehozni…
  • Van egy Simple Memory rész, ahol eltárolja a korábbi beszélgetéseket, így emlékezni fog az előző folyamatokra. Ezáltal összetettebb feladatokat is tud csinálni. Ezt a videóban láthattad is.
  • Folyamatosan vissza küldi az N8N a webhookon keresztül az információt, hogy hol állunk most és az Elevenlabs-ban így a Voice Agent tudja mi történik a mi kis rendszerünkben. Ezáltal tud velem beszélgetni.

De akkor alapból nem tud mindent?

Ahogy a Jarvis sem tudott a Vasember filmben. Minden új funkciót a Vasember épített bele, úgy bővült a funkció paletta. Itt neked is, ha megvan az alapod, akkor onnantól rá tudsz építeni más és más funkciókat.

Ahogy a képen is látod az N8N rendszerben állítjuk be az adott toolt, digitális eszközt. Így például tud dolgozni Google Sheetből, Google Drive-ból, CRM rendszeredből, de akár számlázó rendszeredből is… és még sorolhatnám.

Ez mennyiben másabb, mint az eddigi automatizálás például Zapier, vagy Make.com segítségével?

Ez egy jó kérdés, és a válasz az, hogy itt a memória funkció (node) is segíti a rendszert, hogy akár egy korábbi adatbekérés, módosítás után akár új tevékenységet csináljunk adott adattal, tevékenységgel, dologgal. Így mondhatni végtelen kombinációt alkalmazva és nem vagyunk rászorulva egy folyamatra (flowra). Valós időben hajt végre utasításokat, akár egymásra épülve is.

Tapasztalatok: Hang vagy chat?

Kipróbáltam azt is, hogy dolgoztam és közben beszélgettem az Jarvisommal, utasításokat adtam neki. A tapasztalat, hogy a hangalapú esetében néha nehézkesebb volt a kommunikáció, szemben a chatalapú beszélgetéssel (értsd leírtam mit akarok), ami mintegy COPILOT (így hívják az AI területen) tud működni. Beszélgetünk, utasítást adok, lekérek információt.

Az Elevenlabs oldalon lévő System Promptnak a megfogalmazása is fontos, a webhook leírása is és az N8N-ben az AI Agent prompt szöveg is meghatározó, hogy jól működjön a rendszer. Ha hallucinál az AI, nem akarja megcsinálni nekünk amit kérünk, pedig szerinted be van rendesen állítva, akkor itt lehet a hiba.

A tapasztalatom most az, hogy 100 utasításból / kérésből 2-3-at nem tud teljesíteni, hibát ad be. Elrontani még nem rontotta el a feladatot, inkább nem csinálta meg.

Mire fogjuk ezt használni?

Én a példa videóban direkt olyan példákat hoztam, amit könnyen el tud képzelni minden cég, és könnyen demonstrálható. Ennél viszont komolyabb folyamatokra érdeme használni.

Az első megközelítés az, hogy:

Csinálj az AI agenttel olyat, amit eddig nem csináltál még a cégedben.

Keresd meg azt, amit nem tudtál megtenni, mert hiányzott egy szoftver, egy digitális megoldás, egy digitális agy. Lényegében olyan mintha egy kis szoftvert építenénk.

Haladóbb feladatokkal, felhasználási területekkel nemsokára jövünk egy újabb Minner cikkben.

Nézd végig a videót!

Tanuld meg elkészíteni és tanulj még hasonló dolgokról és keress vele pénzt!

Akár a cégedben használod, akár szolgáltatást építesz rá, akár csak egy kis mellékest, érdemes megtanulni a no-code, AI megoldásokat. Programozói tudás nélkül tudsz építeni olyan digitális megoldásokat, amit vagy a vállalkozásodban kamatoztatsz, vagy erre építesz szolgáltatást. Kattints ide!

Fotó: Gemini

Mándó Milán
Mándó Milán
Azt az üzleti blogot írom, amit én is szívesen olvasnék. A célom, hogy nap mint nap benntartsalak az üzleti flowban, fenntartsam a lelkesedésed! 10 éve foglalkozom azzal, hogy vállalkozások működését fejlesztem, újítom meg. Imádom az üzleti statisztikákat, stratégiákat, kutatásokat és ezeket mind összekapcsolni. És ebben segítek neked a cikkekben, oktatásokban, sőt akár chaten is! Új témám lesz most a work-life balance, kiegyensúlyozott élet. Mert mindig kell valami új!