Preco vacsina AI produktov zlyhava: Lekcie z 50+ enterprise nasadeni
Veterani z OpenAI a Google Aishwarya Ranti a Kiriti Bhattam zdielaju CCCD framework na budovanie AI produktov, ktore nenarusia doveru zakaznikov ani nevyzaduju nekonecne opravy.
Dva zakladne rozdiely, ktore rozbijaju tradicny vyvoj produktov
Aishwarya Ranti pracovala na AI vyskume v Alexa a Microsoft, s viac ako 35 publikovanymi vedeckymi pracami. Kiriti Bhattam vedie Codex v OpenAI po dekade budovania AI infrastruktury v Google a Kumo. Spolocne podporili viac ako 50 AI nasadeni a vyucuju najlepsie hodnoteny AI kurz na Maven. Ich hlavne posolstvo: AI produkty vyzaduju uplne odlisne myslenie.
Prvym rozdielom je nedeterminizmus. "You don't know how your user might behave with your product and you also don't know how the LLM might respond to that." V tradicnom softveri budujete dobre namapovany rozhodovaci system. Booking.com ma tlacidla a formulare, ktore predvidatelne premienaju zamer na akciu. Pri AI su vstup (prirodzeny jazyk moze vyjadrit rovnaky zamer nespocetnymi sposobmi) aj vystup (LLM su pravdepodobnostne cierne skrinky) nepredvidatelne. Pracujete so vstupom, vystupom a procesom, ktory uplne nechapete.
Druhym rozdielom je kompromis medzi autonomiou a kontrolou. "Every time you hand over decision-making capabilities to agentic systems, you're kind of relinquishing some amount of control on your end." Ash povazuje za sokujuce, ze o tom viac ludi nediskutuje. AI komunita je posadnuta budovanim autonomnych agentov, ale autonomia znamena stratu kontroly. Pred tym, ako date AI agentovi viac autonomie, musite overit, ze si zasluzil doveru preukatanou spolahlivostou.
Problem 74% spolahlivosti je realny. Studia UC Berkeley zistila, ze 74-75% podnikov uviedlo spolahlivost ako svoj najvacsi problem. Preto neboli pohodlne nasadzovat produkty pre zakaznikov—nemohli doverat systemu. To vysvetluje, preco sa vacsina enterprise AI dnes zameriava na nastroje produktivity namiesto nahradenia celych pracovnych postupov.
Preco CCCD framework predchadza katastrofalnym AI zlyhaniam
Hostia vyvinuli framework Continuous Calibration, Continuous Development po bolestivych skusenostiach. Postavili komplexneho agenta zakaznickeho servisu, ktory vyzadoval tolko hotfixov, ze ho museli vypnut. Chatbot Air Canada vymyslel refundacnu politiku, ktora neexistovala, a pravne ju museli dodrzat. Tieto katastrofy su predchadzatelne.
Zacnite s vysokou kontrolou a nizkou autonomiou. "It's not about being the first company to have an agent among your competitors. It's about have you built the right flywheels in place so that you can improve over time." Pre agenta zakaznickeho servisu: V1 len smeruje tikety na oddelenia (ludia stale rozhoduju). V2 navrhuje navrhy odpovedi, ktore ludia mozu upravovat, pricom sa zaznamenava, ake zmeny robia. V3 riesi veci od zaciatku do konca az po tom, co V1 a V2 preukazali spolahlivost.
Pre kodovacich asistentov plati rovnaky vzor. V1: navrhuje inline dokoncenia a snippety. V2: generuje vacsie bloky ako testy alebo refaktoring na ludsku kontrolu. V3: aplikuje zmeny a otvara PR autonomne. Pre marketing: V1 koncipuje texty, V2 buduje a spusta kampane so schvalenim, V3 spusta a automaticky optimalizuje napriec kanalmi.
Progresia zakaznickeho servisu uci vsetko. Dokonca aj smerovanie—zdanlivo jednoduche—moze byt v podnikoch neuveritelne zlozite. Taxonomie su chaotike s duplicitnymi kategoriami a mrtvymi uzlami z roku 2019. Ludski agenti poznaju tieto zvlastnosti zo skusenosti; AI nie. Tym, ze zacnete so smerovanim, opravite datove problemy skor, nez torpeduju ambicioznejsiu automatizaciu. Efekt zotrvacnika znamena, ze kazda verzia generuje trenovacie data pre dalsiu.
Co oddeluje spolocnosti, ktore uspievaju s AI produktmi
Hostia vidia "trojuholnik uspechu" s tromi dimenziami: vyborni lidri, dobra kultura a technicky pokrok. Ziadna nefunguje izolovane.
Lidri musia prebudovat svoje intuicie. "Leaders have to get back to being hands-on... You must be comfortable with the fact that your intuitions might not be right and you probably are the dumbest person in the room." Jeden CEO, s ktorym Ash pracovala, blokoval 4-6 rano kazde rano na "dobehnutie AI"—ziadne stretnutia, len ucenie sa z doveryhodnych zdrojov. Vracal sa s otazkami, ktore si overoval u AI expertov. Lidri, ktori budovali intuicie 10-15 rokov, sa ich teraz musia preucit.
Kultura posilnenia porazuje strach z FOMO. Odbornici na vecnu problematiku su kriticki—rozumeju, co by AI mala skutocne robit. Ale v mnohych firmach odmietaju pomoct, pretoze si myslia, ze ich pracovne miesta su nahradene. Lidri musia AI prezentovat ako augmentaciu pre 10-nasobnu produktivitu, nie nahradenie. Nechajte celu organizaciu spolupracovat na tom, aby bola AI uzitocna.
Technicka posadnutost pracovnymi postupmi, nie nastrojmi. Uspesne timy hlboko rozumeju svojim pracovnym postupom pred vyberom technologie. "80% of so-called AI engineers, AI PMs spend their time actually understanding their workflows very well." Agent moze zvladnut len cast pracovneho postupu. Machine learning moze zvladnut dalsiu cast. Deterministicky kod zvladne zvysok. Posadnutost nastrojmi bez pochopenia pracovnych postupov vedie k zlyhaniu.
Preco su evals nepochopene a co robit namiesto toho
Debata o "evals" sa stala semantickou difuziou—kazdy pouziva termin inak. Firmy na oznacovanie dat nazyvaju expertne anotacie "evals." PM pisuce akceptacne kriteria to nazyvaju "evals." Porovnania benchmarkov modelov sa nazyvaju "evals." Klient povedal Ash "robime evals" a myslel tym, ze kontroluju rebricek LM Arena.
Ani evals ani monitorovanie produkcie samotne nestacia. Evals su vase doveryhodne produktove znalosti zakodovane v testovacich datasetoch—veci, ktore by vas agent absolune nemal pokazit. Monitorovanie produkcie zachytava implicitne signaly: uzivatelia regenerujuci odpovede (naznacujuci nespokojnost), palce dole, alebo uplne vypnutie funkcii. Evals zachytavaju zname typy zlyhani; monitorovanie produkcie zachytava vznikajuce vzory, ktore ste nemohli predpovedat.
Proces je: nasadit, monitorovat, analyzovat, iterovat. Nemozete predpovedat kazdy typ zlyhania dopredu. Monitorovanie produkcie vas upozorni na stopy hodne preskumania. Analyza chyb odhali vzory. Az potom sa rozhodnete: je to jednorazova oprava, alebo systemovy problem vyzadujuci nove hodnotiace kriteria? Budovanie prilis vela evals prilis skoro vytvara zataz udrzby bez zachytenia skutocnych problemov.
5 poznatkov pre budovanie AI produktov, ktore skutocne funguju
- Problem na prvom mieste, vzdy - Zacinat v malom vas nuti definovat skutocny problem; zlozitost riesenia je klzky svah
- Bolest je novy priekopnicky rozdiel - Spolocnosti, ktore uspievaju, presli bolestou ucenia sa, co funguje; zatial neexistuje ziadna prirucka ani ucebnica
- Agenti na jedno kliknutie su marketing - Kazdy, kto predava okamzite autonomne nasadenie, vas zavadza; enterprise data su chaotike a potrebuju kalibraciu
- Multi-agent je nepochopeny - Rozdelenie zodpovednosti medzi rovnocennych agentov bez ludskej orchestracie je extremne tazke kontrolovat
- Kodovacie agenty zostavaju podhodniotene - Napriek diskusiam na Twitter/Reddit je penetracia mimo Bay Area stale nizka; masivna tvorba hodnoty je pred nami
Co to znamena pre organizacie nasadzujuce AI agentov
Hlavny poznatatok: vyvoj AI produktov nie je tradicny vyvoj softveru s vymenenou AI. Nedeterminizmus a kompromis medzi autonomiou a kontrolou znamenaju, ze nemozete predpovedat spravanie, nemozete uplne kontrolovat vysledky a musite si doveru zasluzit postupne. CCCD framework—zacinat s vysokou kontrolou, postupne zvysovat autonomiu ako sa preukazuje spolahlivost—predchadza katastrofalnym zlyhaniam, ktore nutia k vypnutiu a naruszaju doveru zakaznikov. Spolocnosti vyhravajuce v AI sa nepohybuju najrychlejsie; buduju zotrvacniky, ktore zlepsovanie v case nasobya.


