„Ćaskajte“ sa svojom grafičkom kartom: Nvidia optimizuje Google Gemma LLM za računare sa RTX grafičkim procesorima

od strane | feb 22, 2024 | Tech | 0 Komentara

Nvidia je nedavno ubrzala razvoj optimizacije industrijski standardnih velikih jezičkih modela (LLM) koji koriste njen RTX AI GPU, a sada unapređuje i Google Gemma LLM za AI akceleratore i računare sa RTX AI grafikama. Tako će veštačka inteligencija imati bolje moći zaključivanja kada se pokreće na Nvidia grafičkim kartama, bilo u centrima podataka, u oblaku ili na računarima sa RTX grafičkim kartama. To znači da uz ovo i nedavno lansiranu Chat with RTX aplikaciju, praktično možete da „ćaskate“ sa svojom grafičkom kartom, povezivanjem lokalnih fajlova sa velikim jezičkim modelom na PC računaru.

Tako je jedna od najmoćnih tehnoloških kompanija na svetu Nvidia, u saradnji sa drugim teh-gigantom Google danas lansirala optimizaciju za Gemma – novi Google AI model sa dve i sedam milijardi parametara otvorenog koda koji se može pokrenuti bilo gde, smanjujući troškove i ubrzavajući inovativni rad u slučajevima specifičnim za domen, piše na Nvidia blogu.

Timovi iz kompanija blisko su sarađivali kako bi ubrzali performanse Gemma modela koji je izgrađen na osnovu istog istraživanja i tehnologije korišćene za kreiranje Gemini veštačke inteligencije. To su učinili uz Nvidia TensorRT-LLM, biblioteku otvorenog koda za optimizaciju zaključivanja LLM-ova veštačke inteligencije, kada se ona pokreće na Nvidia grafičkim kartama u centrima podataka, u oblaku, ali i na računarima sa Nvidia RTX GPU-ovima.

To omogućava programerima da ciljaju instaliranu bazu od preko 100 miliona Nvidia RTX GPU-ova dostupnih u visoko performansnim AI računarima širom sveta.

„Ćaskajte“ sa svojom grafičkom kartom: Nvidia optimizuje Google Gemma LLM za računare sa RTX grafičkim procesorimaNvidia
„Ćaskajte“ sa svojom grafičkom kartom: Nvidia optimizuje Google Gemma LLM za računare sa RTX grafičkim procesorimaGoogle

Programeri takođe mogu pokretati Gemma model na Nvidia GPU-ovima u oblaku, uključujući Google Cloud A3 instance zasnovane na H100 Tensor Core GPU-ovima i uskoro, na NVIDIA H200 Tensor Core GPU-ovima – sa 141 GB HBM3e memorije pri 4,8 terabajta po sekundi koje će Google implementirati ove godine.

Progameri preduzeća takođe mogu da iskoriste bogat ekosistem alata kompanije Nvidia, uključujući i Nvidia AI Enterprise sa NeMo okvirom i TensorRT-LLM, kako bi još bolje podešavali Gemma model i implementirali tako optimizovan model u svoju aplikaciju.

Gemma stiže i na Chat with RTX aplikaciju, koja generiše informacije sa proširenom bazom znanja, koja izlazi van svojih izvora podataka za obuku, kao i TensorRT-LLM softver. To bi trebalo da omogući korisnicima generativne AI mogućnosti na njihovim lokalnim, Windows PC računarima koji koriste Nvidia RTX grafičke karte. Aplikacija inače omogućava korisnicima da personalizuju četbot sa svojim podacima, jednostavnim povezivanjem lokalnih datoteka na računaru sa velikim jezičkim modelom.

Pre nego što pomislite na apokaliptični scenario, ne zaboravite da Chat with RTX radi lokalno, što znači da pruža brže rezultate, a da bi podaci korisnika trebalo da ostanu na uređaju i to zaštićeni. Umesto oslanjanja na LLM modele zasnovane na oblaku, Chat with RTX omogućava korisnicima obradu osetljivih podataka na lokalnom računaru bez potrebe da ih dele sa trećom stranom ili da imaju internet konekciju.

Sve ovo sadrži i jedan uzbudljivi faktor, a to je da optimizacija Google Gemma LLM-a korak napred ka omogućavanju programerima da rade bez potrebe za visoko kvalitetnom i skupocenom opremom kao što je namenski AI GPU. Iako je ova tema bila predmet debate u novije vreme, budući da je javnost smatrala da proizvođači premeštaju svoj razvoj isključivo ka specifičnim grafičkim procesorima zbog nepostojanja odgovarajućih biblioteka i resursa za programere, izgleda da Nvidia na ovaj način pokušava da uključi sve u tehnološki razvoj, primećuje WccfTech.

Opširnije

Izvor: Benchmark.rs