De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
Colaboração: Daniel de Souza Carvalho
Data de Publicação: 17 de janeiro de 2026
Podemos rodar IA LLM (Large Language Model) local no seu PC Linux. É bom usar um PC Gamer (ou Dev) com placa de vídeo para acelerar a computação, mas funciona com CPU ou GPU. O projeto Llamafile do Mozilla simplifica o setup. Basta fazer download, tornar o arquivo executável e executá-lo. Pode ser usado via navegador, já vem com uma WEB GUI,ou via código WEB API. A computação é feita no seu PC, VM ou servidor, não usa a Internet e é um ambiente seguro.
$ cd /llm $ pwd /llm $ curl -LO https://huggingface.co/Mozilla/llava-v1.5-7b-llamafile/resolve/main/llava-v1.5-7b-q4.llamafile % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 110 100 110 0 0 182 0 --:--:-- --:--:-- --:--:-- 182 100 1335 100 1335 0 0 1316 0 0:00:01 0:00:01 --:--:-- 0 Warning: Failed to open the file llava-v1.5-7b-q4.llamafile: Permission denied 0 4354M 0 0 0 0 0 0 --:--:-- 0:00:01 --:--:-- 0 curl: (23) Failure writing output to destination $ sudo chmod +x llava-v1.5-7b-q4.llamafile [sudo] password for user: $ ./llava-v1.5-7b-q4.llamafile note: if you have an AMD or NVIDIA GPU then you need to pass -ngl 9999 to enable GPU offloading {"build":1500,"commit":"a30b324","function":"server_cli","level":"INFO","line":2869,"msg":"build info","tid":"10733792","timestamp":1764792345} {"function":"server_cli","level":"INFO","line":2872,"msg":"system info","n_threads":2,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | ","tid":"10733792","timestamp":1764792345,"total_threads":4} {"function":"load_model","level":"INFO","line":435,"msg":"Multi Modal Mode Enabled","tid":"10733792","timestamp":1764792345} ...
Com estes simples passos em menos de um minuto vc tem uma IA LLM rodando local.
Exemplo de uso com Python no terminal, temos:
$ python
Python 3.11.8 | packaged by conda-forge | (main, Feb 16
2024, 20:53:32) [GCC 12.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>>
>>> prompt = "Explique em 3 frases o que é um buraco negro."
>>>
>>> payload = {
... "model": "llama",
... "messages": [{"role": "user", "content": prompt}],
... "temperature": 0.7,
... "max_tokens": 500
... }
>>>
>>> r = requests.post("http://localhost:8080/v1/chat/completions", json=payload)
>>> print(r.json()["choices"][0]["message"]["content"])
Um buraco negro é uma região do espaço que é extremamente densa e tem
uma massa tão grande que é impossível ver através dela. Isso ocorre
porque a densidade da matéria nessa região é tão alta que a luz não
pode escapar e a região fica completamente escura.
>>>
Para acesso com o navegador WEB digite:
http://127.0.0.1:8080/
Estes modelos IA LLM Tiny são mais simples do que os modelos avançados online que usamos em nuvem em datacenters com poderosos servidores, e o desempenho depende do seu hardware disponível. Se tiver placas de vídeo (GPU NVIDIA), o desempenho é bem melhor.
Os tiny models (modelos pequenos, geralmente de 1B a 8B parâmetros, como Phi-3, Gemma-2B, Llama-3.2-1B/3B, TinyLlama, Qwen2-7B, etc.) rodando localmente com llamafile têm casos de uso surpreendentemente úteis, mesmo sendo “pequenos” em comparação com GPT-4 ou Llama-3-70B.
Aqui estão os principais cenários onde eles brilham:
| Caso de uso | Por que o tiny model + llamafile local é perfeito | Exemplos reais |
|---|---|---|
| 1. Privacidade total | Nada sai da sua máquina (zero log, zero nuvem) | Empresas de saúde, advocacia, finanças, governos que não podem mandar dados para OpenAI/Claude/Groq |
| 2. Funciona offline / sem internet | Roda em avião, navio, área rural, bunker, ambiente isolado (air-gapped) | Jornalistas em zonas de conflito, pesquisadores em campo, militares |
| 3. Baixo custo de hardware | Roda bem em laptops comuns, MacBooks M1/M2/M3, PCs com 8–16 GB de RAM | Estudantes, freelancers, pequenas empresas |
| 4. Baixa latência (resposta instantânea) | Inferência em |