Η εμπειρία μου τρέχοντας AI τοπικά!

Τις τελευταίες εβδομάδες έχω πέσει στο rabbit hole του να τρέξω τοπικά στο δικό μου PC μεγάλο γλωσσικό μοντέλο, ΑΙ δηλαδή, σα να λέμε μια άλλη μορφή του ChatGPT. Ε, λοιπόν, ο όρος "rabbit hole" μάλλον υποτιμά την εμπειρία...

Έχω φάει πόσο βράδια να ψάχνω ποια είναι τα ικανότερα open source μοντέλα και πως μπορώ να χωρέσω περισσότερους παραμέτρους στην καημένη μου RTX 5070 Ti που έχει μόλις 16GB VRAM. Κατέληξα να διαβάζω τι είναι τα Q4 / Q5 / Q6 / Q8 Quantizations, τι είναι η KV cache και πώς μπορώ να κερδίσω λίγα πολυπόθητα παραπάνω tokens/sec. Ποια είναι η καλύτερη σουίτα λογισμικού το Ollama, το llama.cpp ή το vLLM και άλλους πολλούς όρους, προγράμματα και τεχνικές που είναι για...πονοκέφαλο!

Παρόλα αυτά θεωρώ πως υπάρχει νόημα στο να τρέξεις τοπικά AI και ότι εν τέλει δεν είναι τόσο δύσκολο όσο μπορεί να ακούγεται αρχικά.

Θα σας ενδιέφερε να αναλύσω την εμπειρία μου περεταίρω σε ένα επερχόμενο "ΤΟ ΨΑΞΑΜΕ...", τη νέα στήλη τεχνολογίας του Unboxholics.com;

Περιμένω τα σχόλιά σας!