De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.

IA LLM (Large Language Model) local TinyLama

Colaboração: Daniel de Souza Carvalho

Data de Publicação: 17 de janeiro de 2026

Podemos rodar IA LLM (Large Language Model) local no seu PC Linux. É bom usar um PC Gamer (ou Dev) com placa de vídeo para acelerar a computação, mas funciona com CPU ou GPU. O projeto Llamafile do Mozilla simplifica o setup. Basta fazer download, tornar o arquivo executável e executá-lo. Pode ser usado via navegador, já vem com uma WEB GUI,ou via código WEB API. A computação é feita no seu PC, VM ou servidor, não usa a Internet e é um ambiente seguro.

$ cd /llm
$ pwd
/llm

$ curl -LO https://huggingface.co/Mozilla/llava-v1.5-7b-llamafile/resolve/main/llava-v1.5-7b-q4.llamafile

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   110  100   110    0     0    182      0 --:--:-- --:--:-- --:--:--   182
100  1335  100  1335    0     0   1316      0  0:00:01  0:00:01 --:--:--     0
Warning: Failed to open the file llava-v1.5-7b-q4.llamafile: Permission denied
  0 4354M    0     0    0     0      0      0 --:--:--  0:00:01 --:--:--     0
curl: (23) Failure writing output to destination
$ sudo chmod +x llava-v1.5-7b-q4.llamafile
[sudo] password for user:
$ ./llava-v1.5-7b-q4.llamafile
note: if you have an AMD or NVIDIA GPU then you need to pass -ngl 9999 to
enable GPU offloading

{"build":1500,"commit":"a30b324","function":"server_cli","level":"INFO","line":2869,"msg":"build
info","tid":"10733792","timestamp":1764792345}

{"function":"server_cli","level":"INFO","line":2872,"msg":"system
info","n_threads":2,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0
| AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0
| FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0
| BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1
| ","tid":"10733792","timestamp":1764792345,"total_threads":4}

{"function":"load_model","level":"INFO","line":435,"msg":"Multi Modal Mode
Enabled","tid":"10733792","timestamp":1764792345}

...

Com estes simples passos em menos de um minuto vc tem uma IA LLM rodando local.

Exemplo de uso com Python no terminal, temos:

$ python
Python 3.11.8 | packaged by conda-forge | (main, Feb 16
2024, 20:53:32) [GCC 12.3.0] on linux

Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>>
>>> prompt = "Explique em 3 frases o que é um buraco negro."
>>>
>>> payload = {
...     "model": "llama",
...     "messages": [{"role": "user", "content": prompt}],
...     "temperature": 0.7,
...     "max_tokens": 500
... }
>>>
>>> r = requests.post("http://localhost:8080/v1/chat/completions", json=payload)

>>> print(r.json()["choices"][0]["message"]["content"])
Um buraco negro é uma região do espaço que é extremamente densa e tem
uma massa tão grande que é impossível ver através dela. Isso ocorre
porque a densidade da matéria nessa região é tão alta que a luz não
pode escapar e a região fica completamente escura.

>>>

Para acesso com o navegador WEB digite:

http://127.0.0.1:8080/

Estes modelos IA LLM Tiny são mais simples do que os modelos avançados online que usamos em nuvem em datacenters com poderosos servidores, e o desempenho depende do seu hardware disponível. Se tiver placas de vídeo (GPU NVIDIA), o desempenho é bem melhor.

Os tiny models (modelos pequenos, geralmente de 1B a 8B parâmetros, como Phi-3, Gemma-2B, Llama-3.2-1B/3B, TinyLlama, Qwen2-7B, etc.) rodando localmente com llamafile têm casos de uso surpreendentemente úteis, mesmo sendo “pequenos” em comparação com GPT-4 ou Llama-3-70B.

Aqui estão os principais cenários onde eles brilham:

Caso de uso Por que o tiny model + llamafile local é perfeito Exemplos reais
1. Privacidade total Nada sai da sua máquina (zero log, zero nuvem) Empresas de saúde, advocacia, finanças, governos que não podem mandar dados para OpenAI/Claude/Groq
2. Funciona offline / sem internet Roda em avião, navio, área rural, bunker, ambiente isolado (air-gapped) Jornalistas em zonas de conflito, pesquisadores em campo, militares
3. Baixo custo de hardware Roda bem em laptops comuns, MacBooks M1/M2/M3, PCs com 8–16 GB de RAM Estudantes, freelancers, pequenas empresas
4. Baixa latência (resposta instantânea) Inferência em


Veja a relação completa dos artigos de Daniel de Souza Carvalho