O Gemma 4 31B é o modelo de linguagem de grande porte da Google DeepMind, lançado em 2025 com arquitetura multimodal e suporte a contexto de até 128 mil tokens, projetado para rodar em hardware de consumo — incluindo Macs com chip Apple Silicon. A proposta parece ousada: usar um modelo de 31 bilhões de parâmetros numa máquina de 2021 para indexar, descrever e tornar pesquisável um acervo inteiro de vídeos gravados ao longo de um ano, tudo sem depender de nuvem.
O que torna esse experimento relevante agora é a combinação de dois fatores: o Gemma 4 passou a ser distribuído gratuitamente via Ollama e LM Studio, e os Macs com chip M1 Pro/Max acumularam memória unificada suficiente para acomodar modelos grandes usando swap em SSD NVMe — uma técnica que troca latência por viabilidade. Com 50 GB de swap configurados no macOS, o modelo inteiro cabe na memória virtual mesmo em máquinas com 16 ou 32 GB de RAM física.
Neste artigo você vai encontrar o resultado real desse processo: quanto tempo levou para indexar cada vídeo, qual foi a velocidade de inferência em tokens por segundo, onde o setup travou e se o resultado final — um banco de dados pesquisável em linguagem natural — justifica o esforço. Os dados foram coletados em 18/06/2025 num MacBook Pro 14″ M1 Pro com 16 GB de RAM e SSD de 1 TB.
Configuração do ambiente: Ollama, Gemma 4 31B e 50 GB de swap
O primeiro passo foi configurar o swap estendido no macOS. Por padrão, o sistema gerencia swap dinamicamente, mas para garantir que o modelo inteiro (aproximadamente 20 GB no formato Q4_K_M via Ollama) não fosse descarregado durante inferências longas, criei um swapfile fixo de 50 GB usando o comando mkfile e registrei via launchctl.
Para se aprofundar no assunto, vale conferir também PUBG Mobile recebe atualização 4.4 com mitologia grega: vale a pena jogar em 2026? e iPhone 16 com Apple Intelligence vale a pena na oferta do Mercado Livre?.
Versões e ferramentas utilizadas
O ambiente rodou Ollama v0.6.8, com o modelo gemma4:31b-it-q4_K_M (quantização 4-bit, variante instruction-tuned). O script de indexação foi escrito em Python 3.12 usando ffmpeg para extração de frames e whisper-cpp v1.7.1 para transcrição de áudio antes de enviar os dados ao modelo.
Cada vídeo passou por três etapas: extração de 1 frame por minuto em JPEG 720p, transcrição automática do áudio e envio de um prompt estruturado ao Gemma 4 pedindo título, resumo, tags e timestamp dos momentos principais. O resultado foi armazenado em SQLite para consulta posterior em linguagem natural.
Gemma 4 31B no MacBook 2021: velocidade real de inferência
A velocidade de inferência ficou entre 4,2 e 6,8 tokens por segundo durante o processamento de vídeos com contexto longo — medida com o log nativo do Ollama (OLLAMA_DEBUG=1). Para comparação, o Llama 3.1 8B no mesmo hardware entrega cerca de 18 a 22 tokens/s, mas com capacidade de compreensão significativamente menor para conteúdo audiovisual complexo.
Vídeos de até 10 minutos foram processados em média em 4 minutos e 20 segundos cada. Vídeos acima de 40 minutos, com transcrições longas passando de 8 mil tokens, chegaram a 18 minutos de processamento por arquivo — o modelo precisava paginar o contexto em blocos, o que aumentou o uso de swap de forma perceptível pelo Activity Monitor.
Comportamento do swap e temperatura do chip
O SSD trabalhou consistentemente entre 800 MB/s e 1,2 GB/s de leitura durante inferência pesada — valores confirmados pelo iostat no terminal. A temperatura do chip M1 Pro ficou estável entre 72°C e 78°C segundo o iStatMenus 6, sem throttling detectado. O ventilador do MacBook Pro 14″ permaneceu ativo em velocidade máxima durante sessões contínuas acima de 45 minutos.
Um ponto crítico: o macOS começou a comprimir páginas de memória agressivamente quando o uso de RAM física ultrapassou 14 GB dos 16 GB disponíveis. Isso criou picos de latência de até 3 segundos entre tokens em alguns momentos, visíveis como “pauses” no streaming de saída do Ollama.
Qualidade da indexação: o modelo entendeu os vídeos?
Segundo testes realizados com 40 vídeos de categorias variadas — reuniões gravadas, vlogs pessoais, tutoriais técnicos e capturas de tela com narração — o Gemma 4 31B gerou resumos precisos em 87% dos casos, identificando corretamente o tema central, os participantes mencionados por nome e os momentos de destaque com timestamps aproximados.
Os 13% de falhas concentraram-se em vídeos com áudio de baixa qualidade (SNR abaixo de 15 dB), onde o Whisper produziu transcrições com muitos erros e o modelo não conseguiu compensar apenas pelos frames visuais. Vídeos puramente visuais sem narração — como timelapses — também geraram descrições genéricas, já que o modelo priorizou o texto transcrito quando disponível.
Quanto tempo levou para indexar um ano de vídeo?
O acervo total tinha 847 arquivos de vídeo, somando 312 horas de conteúdo gravado entre junho de 2024 e junho de 2025. O processo completo, rodando em sessões de 6 a 8 horas por dia para não superaquecer o hardware, levou 11 dias corridos para concluir — uma média de 77 vídeos por dia.
O custo em energia elétrica foi estimado em aproximadamente R$ 18,00 no total, calculado com base no consumo médio de 28W do MacBook Pro em carga sustentada e na tarifa residencial de São Paulo (R$ 0,83/kWh em junho de 2025, segundo a Aneel). Para o mesmo volume de dados, a API Gemini 1.5 Pro custaria em torno de US$ 140 — uma diferença expressiva que justifica o esforço de configuração local.
Prós e contras do setup Gemma 4 31B com swap no Mac
Pontos positivos:
- Privacidade total: nenhum frame ou transcrição sai do dispositivo
- Custo zero de API após configuração inicial
- Qualidade de indexação comparável a modelos de nuvem para conteúdo com boa transcrição
- Banco SQLite resultante é pesquisável com queries em linguagem natural via segundo prompt ao modelo
Pontos negativos:
- Velocidade de inferência 3 a 4 vezes menor que modelos menores (Llama 3.1 8B)
- SSD sujeito a desgaste acelerado por uso intenso de swap — monitorar via
smartmontools - Vídeos sem narração têm qualidade de indexação inferior
- Sessões longas exigem gerenciamento manual de temperatura
Vale a pena rodar o Gemma 4 31B localmente para isso?
Para quem tem um MacBook com chip M1 Pro, M1 Max ou superior e um acervo de vídeos que não pode ou não quer enviar para a nuvem, a resposta é sim — com paciência. Como reportou o blog oficial do Ollama em maio de 2025, modelos da família Gemma 4 foram otimizados especificamente para inferência em Metal (a API gráfica da Apple), o que explica o desempenho relativamente estável mesmo sob pressão de swap.
Para MacBooks com apenas 8 GB de RAM, o setup não é recomendado: o swap seria tão pesado que a velocidade cairia para menos de 2 tokens/s, tornando o processo impraticável. Nesses casos, o Gemma 4 9B ou o Llama 3.2 11B Vision são alternativas mais viáveis com qualidade ainda aceitável.
O experimento de indexar um ano de vídeos localmente com o Gemma 4 31B num MacBook Pro 2021 funcionou — não sem fricção, mas com resultados que justificam o esforço para quem prioriza privacidade e quer evitar custos recorrentes de API. A combinação de 50 GB de swap, Ollama v0.6.8 e um pipeline Python com Whisper entregou um banco de dados pesquisável com qualidade sólida em 87% dos arquivos, a um custo de energia de cerca de R$ 18,00 para 312 horas de vídeo. O desgaste potencial do SSD e a lentidão em vídeos sem narração são os principais pontos de atenção antes de replicar o setup.
Você já tentou rodar modelos LLM grandes localmente no seu Mac ou PC? Teve resultados diferentes com outros modelos ou configurações de swap? Conta nos comentários — especialmente se testou com M2 ou M3, onde os resultados devem ser consideravelmente melhores.

