A empresa Meta acaba de lançar o Llama 3, a mais nova adição à sua linha de modelos de inteligência artificial (IA) de código aberto. Com o Llama 3, a Meta busca empurrar os limites das capacidades de IA, prometendo melhor desempenho e superando modelos concorrentes.
A série Llama 3 é composta por dois modelos: Llama 3 8B, com 8 bilhões de parâmetros, e Llama 3 70B, com incríveis 70 bilhões de parâmetros. A Meta afirma que esses modelos representam um “salto significativo” em desempenho em comparação com suas versões anteriores. Treinados em clusters de 24.000 GPUs personalizados, o Llama 3 8B e o Llama 3 70B estão posicionados entre os modelos de IA generativa de melhor desempenho atualmente disponíveis.
Para fundamentar suas alegações, a Meta aponta o desempenho do Llama 3 em vários benchmarks de IA, como MMLU, ARC e DROP. Embora haja debates em curso sobre a validade desses benchmarks, eles servem como medida padronizada para avaliar modelos de IA. No caso do Llama 3 8B, ele supera modelos de código aberto concorrentes, como o Mistral 7B e o Gemma 7B, em diversos benchmarks. Já o Llama 3 70B compete com modelos principais, como o Gemini 1.5 Pro do Google, superando-os em benchmarks críticos, como MMLU e HumanEval.
O treinamento do Llama 3 é baseado em um extenso conjunto de dados de treinamento, composto por impressionantes 15 trilhões de tokens, que cobrem aproximadamente 750 bilhões de palavras. A Meta utilizou fontes diversas e publicamente disponíveis, incorporando dados sintéticos para enriquecer o treinamento. Embora o modelo seja primariamente adaptado para produzir saídas em inglês, a diversidade do conjunto de dados melhora o desempenho em vários idiomas e tarefas.
Para enfrentar preocupações relacionadas à toxicidade e viés inerentes aos modelos de IA generativa, a Meta implementou rigorosos pipelines de filtragem de dados e atualizou suítes de segurança, como o Llama Guard e o CybersecEval. Além disso, a empresa introduziu o Code Shield, que visa detectar potenciais vulnerabilidades de segurança no código gerado pela IA.
Apesar dos avanços do Llama 3, a Meta reconhece que desafios ainda persistem, como evidenciado por incidentes passados em que o Llama 2 gerou informações imprecisas ou sensíveis. A empresa está ciente das limitações das salvaguardas atuais e trabalha constantemente para aprimorar a robustez e a segurança do modelo.
Os modelos Llama 3 estão disponíveis para download e a Meta planeja hospedá-los em várias plataformas de nuvem, expandindo sua acessibilidade e utilidade. Além disso, a empresa já está treinando modelos Llama 3 com mais de 400 bilhões de parâmetros, visando capacidades multilíngues e multimodais, com aprimorada capacidade de raciocínio e codificação.
É importante ressaltar que a Meta não foi mencionada como autora do texto original.