DeepSeek už je také multimodální. Umí tvořit a analyzovat obrázky

29. 1. 2025 | Petr Michl

Týden po uvedení velkého jazykového modelu DeepSeek R1 tu máme jeho další posun. Už se nezaměřuje jen na text, ale i na obrázky.

Kvalita čínského AI chatbota DeepSeek R1 na úrovni či mírně nad ChatGPT-o1 a zejména fakt, že byl vytrénován za velmi nízkých nákladů, způsobily výrazné otřesy na burze, konkrétně pokles u akcií společnosti Nvidia a dalších firem spojených s aktuální AI mánií. Týden poté přichází s další schopností: umí analyzovat i interpretovat obrázky. Stává se tak multimodálním velkým jazykovým modelem.

Co Janus-Pro umí

Název systému pro tvorbu a analýzu obrázků je Janus-Pro. Spojuje dvě hlavní činnosti: rozpoznávání (chápání) obrázků a jejich tvorbu na základě textového zadání. Využívá přitom tzv. „oddělené vizuální kódování“, což znamená, že má zvláštní část pro pochopení obrázků a jinou část pro jejich vytváření, ale zároveň používá jen jedno společné „jádro“ (transformátor). Tento postup snižuje obvyklé problémy, které vznikají, když se model snaží najednou obrázky rozpoznávat i vytvářet, a díky tomu pracuje rychleji a přesněji v obou oblastech.

Zároveň by měl být ve srovnání s konkurencí i méně náročný na výpočetní výkon. Navíc je nabízený ve dvou verzích 1B a 7B využívajících 1 miliardu, respektive 7 miliard parametrů. Více přitom znamená lépe. Rozdíly můžete vidět na následujícím srovnání.

Zdroj: DeepSeek / GitHub

Při testování model 7B překonal několik konkurentů — DALL-E 3 od OpenAI, Stable Diffusion XL od Stability AI a PixArt-alpha & Emu3-Gen — v benchmarcích jako GenEval a DPG-Bench. Nutno říct, že je překonává zejména v rychlosti a efektivnosti, potřebuje méně výpočetního výkonu a tím i energie. Při analyzování i tvoření je zatím omezen nízkým rozlišením 384 x 384 pixelů.

Zdroj: DeepSeek / GitHub

Ukázky výstupů modelu Janus-Flow s 1 miliardou parametrů. Zdroj: DeepSeek / GitHub

DeepSeek uvádí, že Janus-Pro byl vytrénován za 2 týdny. Možná tak neohromí nyní uživatele, ale je to jasný vzkaz konkurentům, že tímto tempem je mohou brzy předehnat.

Samozřejmě zůstává výhoda možnosti hostovat DeepSeek lokálně, a tím pádem i tvořit či analyzovat obrázky bez poplatků. I při připojení přes API by ale měly být náklady dle DeepSeek 20x nižší než ty od OpenAI a dalších konkurentů. Také pro obrázkové výstupy platí tzv. MIT License, jež nedává žádné zábrany komerčnímu využití výstupů.

Modely lze stáhnout na serveru HugginFace. Nároky na hardware jsou alespoň 16 GB RAM operační paměti a nižší stovky volných gigabajtů paměti.

Právě nízké náklady mohou z DeepSeek dělat atraktivní možnost pro všechny nástroje využívající AI nástroje přes napojení přes API. Možná ne dnes s nízkým rozlišením výstupu, ale do několika měsíců může být DeepSeek na úrovni těch nejlepších i v této oblasti.

Zdroje: DeepSeek / GitHub, HugginFace

Kam dál?

Připomeňte si, co vše umí argumentační model ChatGPT-o1 v článku:

Přemýšlí jako člověk s doktorátem. Nový model ChatGPT vám dá odpovědi i na velmi složité otázky

Štítky dokumentu: AI

Adresáti:*
Váš e-mail:*		Váše jméno:
Připojit zprávu: