Umelá inteligencia sa neustále vyvíja a s ňou aj modely, ktoré definujú, akým spôsobom ľudia komunikujú s AI technológiami. Jedným z najnovších hráčov na poli veľkých jazykových modelov je DeepSeek, inovatívny čínsky projekt, ktorý prináša odlišný prístup k výpočtovej efektivite a technickým výzvam. V porovnaní s dlhodobo zavedenými modelmi, ako sú ChatGPT od OpenAI, Copilot od Microsoftu a Gemini od Googlu, ponúka DeepSeek množstvo zaujímavých výhod a unikátne architektonické riešenia.
DeepSeek je postavený na architektúre Mixture-of-Experts (MoE), čo mu umožňuje efektívne pracovať s rozsiahlym počtom parametrov pri zachovaní nižších výpočtových nákladov. Model disponuje 671 miliardami parametrov, z ktorých je aktívnych iba 37 miliárd pri každom výpočte. Vďaka tejto metóde dokáže DeepSeek optimalizovať svoj výkon a poskytovať presné odpovede bez nutnosti využívania enormného výpočtového výkonu.
DeepSeek bol trénovaný na 14,8 biliónoch tokenov a využíva pokročilé metódy, ako sú Supervised Fine-Tuning a Reinforcement Learning, na dosiahnutie čo najvyššej presnosti. Tieto techniky mu umožňujú adaptovať sa na širokú škálu úloh, od technických a matematických výpočtov po generovanie súvislého textu.
Každý z týchto modelov pristupuje k umelej inteligencii inak.
Jednou z kľúčových výhod DeepSeek je jeho efektivita. Vďaka MoE architektúre dokáže spracovávať otázky s menšími výpočtovými nákladmi, čo znižuje potrebu masívnej infraštruktúry. To ho robí dostupnejším a udržateľnejším oproti modelom, ktoré vyžadujú vysoký výpočtový výkon. Napríklad ChatGPT a Gemini sú postavené na tradičných transformátorových modeloch, ktoré aktivujú všetky parametre pri každom výpočte. To znamená, že zatiaľ čo tieto modely poskytujú stabilný výkon, ich prevádzka je náročnejšia na zdroje.
Čo sa týka nákladov na vývoj, DeepSeek dosiahol pozoruhodné výsledky s výrazne nižšími investíciami oproti svojim konkurentom. OpenAI údajne investoval viac ako 1 miliardu dolárov do vývoja ChatGPT, Google vynaložil podobné čiastky na Gemini, zatiaľ čo Microsoft financoval Copilot čiastkou rádovo miliardy dolárov. Anthropic získal investície vo výške niekoľko miliárd dolárov na vývoj Clauda. Naproti tomu DeepSeek bol vytvorený s podstatne nižším rozpočtom, údajne rádovo miliónov dolárov. Niektorí kritici však tvrdia, že to bolo oveľa viac, údajne okolo 1,6 miliardy dolárov, a že vývojári tento údaj skresľujú, aby bol oveľa priaznivejší pre čínsku stranu.
Nech už je pravda akákoľvek, vďaka efektívnym metódam trénovania a optimalizácii výpočtových zdrojov dokázal čínsky model dosiahnuť konkurenčný výkon za nižšie náklady.
DeepSeek relatívne rýchlo nachádza popularitu a uplatnenie v širokej škále oblastí. V akademickom svete sa osvedčuje pri analýze zložitých vedeckých a technických problémov. V oblasti programovania je oceňovaný pre svoju schopnosť efektívne generovať a opravovať kód, čo ho robí užitočným nástrojom pre vývojárov. V porovnaní s ChatGPT, ktorý je často využívaný na všeobecné písanie a brainstorming, DeepSeek ponúka presnejšie a štruktúrovanejšie odpovede pre špecifické úlohy.
Používatelia, ktorí hľadajú AI model zameraný na kreativitu, multimédiá alebo široké konverzačné schopnosti, môžu uprednostniť ChatGPT alebo Gemini.
DeepSeek je ale dôkazom posilňujúcej schopnosti čínskych výskumníkov konkurovať zavedeným technologickým gigantom. Vzhľadom na rastúce investície do umelej inteligencie v Číne sa očakáva, že sa podobné inovácie budú naďalej objavovať a prispievať k diverzifikácii globálneho AI trhu.
Šéf Baidu Robin Li zdôrazňuje, že aj napriek pokroku modelu DeepSeek je kľúčové naďalej investovať do cloudovej infraštruktúry a dátových centier, pretože výpočtový výkon zohráva zásadnú úlohu v ďalšom vývoji umelej inteligencie. DeepSeek ukazuje, že inovácie môžu prísť z nečakaných smerov a že efektívne využitie výpočtových zdrojov je kľúčovým faktorom pre budúcnosť AI.
Odpoveď na otázku o najlepšej generatívnej AI závisí od konkrétnych potrieb používateľa. S rastúcim počtom výkonných modelov, ako sú ChatGPT, Gemini, Copilot, Claude a teraz aj DeepSeek, sa otvárajú nové možnosti pre rôzne oblasti využitia AI. Každý z týchto modelov má svoje špecifické silné stránky – zatiaľ čo ChatGPT a Claude excelujú v generovaní textu a interaktívnej komunikácii, Gemini prináša pokročilé multimodálne schopnosti a prepojenosť s Google službami, Copilot je silne integrovaný s nástrojmi pre vývojárov a DeepSeek sa zameriava na vysokú efektivitu, silné programátorské schopnosti a nízke náklady.
Výber správneho modelu tak závisí od konkrétneho použitia a požiadaviek. DeepSeek dokazuje, že je možné dosiahnuť konkurencieschopný výkon aj bez extrémnych finančných investícií, čo signalizuje, že AI priemysel sa bude ďalej diverzifikovať. Budúcnosť umelej inteligencie preto nespočíva len v hľadaní najvýkonnejšieho modelu, ale aj v optimalizácii efektivity, nákladov a prístupnosti pre čo najširší okruh používateľov. Je celkom možné, že budúcnosť bude patriť najefektívnejším či najrýchlejším a nie najsilnejším alebo najpresnejším modelom.
i
Mohlo by vás zaujímať
Či ale povedie cesta k lepšej výpočtovej a nákladovej efektivite práve cez Čínu, je diskutabilná. S DeepSeek sa totiž spája aj skepsa a kontroverzia okolo možného nekorektného nakladania s používateľskými dátami pri čínskych aplikáciách. Po skúsenostiach s TikTokom a prebiehajúcej legislatívnej snahy o jeho reguláciu v USA je dôvera k čínskemu sotfvéru malá. Nová AI z týchto končín to preto vôbec nebude mať ľahké.