LLaMA (gran modelo de lenguaje)
LLaMA (Large Language Model Meta AI) es un gran modelo de lenguaje (LLM) lanzado por Meta AI en febrero de 2023. Se entrenó una variedad de modelos de tamaños diversos que van desde 7000 millones a 65 000 millones de parámetros. Los desarrolladores de LLaMA informaron que el rendimiento del modelo de 13 000 millones de parámetros en la mayoría de los puntos de referenciade NLP superó al mucho más grande del GPT-3 (con 175 000 millones de parámetros) y que el modelo más grande era competitivo con modelos de última generación como PaLM540B[1] y Chinchilla70B.[2][3] Mientras que los LLM más poderosos generalmente han sido accesibles solo a través de API limitadas (si es que lo han hecho), Meta lanzó el modelo de LLaMA a la comunidad de investigación bajo una licencia no comercial.[4] Una semana después del lanzamiento de LLaMA, sus datos se filtraron al público en 4chan a través de BitTorrent.[5]
LLaMA | ||
---|---|---|
Información general | ||
Tipo de programa | LLM | |
Autor | Meta AI | |
Licencia | LLaMA 2 Community License Agreement | |
Información técnica | ||
Programado en | Python | |
Versiones | ||
Última versión estable | 318 de abril de 2024 | |
Enlaces | ||
Arquitectura y entrenamiento
editarLLaMA utiliza la arquitectura transformer, la arquitectura estándar para el modelado de lenguajes desde 2018. Los desarrolladores de LLaMA centraron su esfuerzo en escalar el rendimiento del modelo aumentando el volumen de datos de entrenamiento, en lugar de la cantidad de parámetros, razonando que el costo dominante para los LLM es hacer inferencias en el modelo entrenado en lugar del costo computacional del proceso de entrenamiento. LLaMA se capacitó en 1400 millones de tokens, extraídos de fuentes de datos disponibles públicamente, que incluyen:[1][6]
- Páginas web extraídas por CommonCrawl
- Repositorios de código abierto de código fuente de GitHub
- Wikipedia en veinte idiomas diferentes
- Libros de dominio público del Proyecto Gutenberg
- El código fuente de LaTeX para artículos científicos cargados en ArXiv
- Preguntas y respuestas de los sitios web de Stack Exchange
Una conversación entre el Sol y PlutónSol: Hola Plutón, ¿qué pasa?
Respuesta del modelo LLaMA de 65 000 millones de parámetros después del ajuste de instrucciones dado el mensaje «escribe una conversación entre el Sol y Plutón»[1]
Plutón: No mucho. Pasando el rato aquí al borde del sistema solar.
Sol: Sí, quería hablar contigo sobre eso. Ya no eres un planeta.
Plutón: ¿Qué? Vamos hombre. Eso no es justo.
Sol: Lo siento, pero es verdad. Simplemente, ya no cumples con los criterios.
Plutón: ¡Esto es una tontería! ¡Soy un planeta desde hace más de 70 años!
Sol: Las cosas cambian, Plutón. Solo tienes que aceptarlo.
Plutón: ¡Vete a la mierda, Sol! ¡Jodeos tú y tu estúpido sistema solar!
Publicación y filtración
editarLLaMA se anunció el 23 de febrero de 2023 a través de una publicación de blog y un documento que describe el entrenamiento, la arquitectura y el rendimiento del modelo. El código utilizado para entrenar el modelo se hizo público bajo la licencia GPL 3 de código abierto. El acceso a las ponderaciones del modelo se gestionó mediante un proceso de solicitud, con acceso que se otorgará «caso por caso a investigadores académicos, afiliados a organizaciones gubernamentales, de la sociedad civil y académicas, y laboratorios de investigación de la industria en todo el mundo».[7]
El 2 de marzo de 2023,[8] se subió un archivo que contenía los datos de LLaMA, con un enlace en el tablón de imágenes de 4chan y posteriormente difundido a través de las comunidades de IA en línea. Ese mismo día, se abrió una solicitud de extracción en el repositorio principal de LLaMA, solicitando agregar el enlace magnético a la documentación oficial.[9][10] El 4 de marzo, se abrió una solicitud de extracción para agregar enlaces a los repositorios de HuggingFace que contienen el modelo.[11][9] El 6 de marzo, Meta presentó solicitudes de eliminación para eliminar los repositorios de HuggingFace vinculados en la solicitud de extracción, caracterizándolos como «distribución no autorizada» del modelo. HuggingFace cumplió con las solicitudes.[12] El 20 de marzo, Meta presentó una solicitud de eliminación de DMCA por infracción de derechos de autor contra un repositorio que contenía un script que descargaba LLaMA de un espejo, y GitHub cumplió al día siguiente.[13] Hasta el 25 de marzo, Facebook no había respondido a la solicitud de extracción que contiene el enlace magnético.[10]
Las reacciones a la filtración variaron. Algunos especularon que el modelo se usaría con fines maliciosos, como spam más sofisticado. Algunos han celebrado la accesibilidad del modelo, así como el hecho de que las versiones más pequeñas del modelo se pueden ejecutar de manera relativamente económica, lo que sugiere que esto promoverá el florecimiento de desarrollos de investigación adicionales. Múltiples comentaristas, como Simon Willison, compararon LLaMA con Stable Diffusion, un modelo de texto a imagen que, a diferencia de los modelos sofisticados comparables que lo precedieron, se distribuyó abiertamente, lo que llevó a una rápida proliferación de herramientas, técnicas y software asociados.[14]
Modelos
editarVersión 2
editarEl 18 de julio de 2023, en colaboración con Microsoft, Meta anunció LLaMA-2. Meta entrenó y lanzó LLaMA-2 en tres tamaños de modelo: 7B, 13B y 70B parámetros [4]: respectivamente 7000, 13 000 y 70 000 millones de parámetros. La arquitectura del modelo se mantiene prácticamente igual a la de los modelos LLaMA-1, pero se utilizó un 40 % más de datos para entrenar los modelos fundacionales.[15]
LLaMA-2 incluye modelos fundacionales y modelos ajustados para el diálogo, denominados LLaMA-2 Chat. A diferencia de LLaMA-1, todos los modelos se liberan con ponderaciones y son gratuitos para muchos casos de uso comercial.[16]
Versión 3
editarEl 18 de abril de 2024, Meta lanzó LLaMA-3 con dos tamaños: 8B y 70B parámetros.[17][18] Los modelos han sido preentrenados con aproximadamente quince mil millones de tokens de texto recogidos de «fuentes públicas», mientras que los modelos de instrucción se han ajustado con «conjuntos de datos de instrucción públicos, así como con más de diez millones de ejemplos anotados por humanos». Meta tiene previsto lanzar modelos multimodales, capaces de conversar en varios idiomas y con ventanas de contexto más amplias. Actualmente se está entrenando una versión con más de 400B parámetros.[19]
Comparación de modelos
editarPara la columna de costo de capacitación, solo se escribe el costo del modelo más grande. Así, por ejemplo, «21 000» es el coste de entrenamiento de LLaMA-2 69 000 en unidades de petaFLOP-día. Además, 1 petaFLOP-día = 1 petaFLOP/seg × 1 día = 8.64E19 FLOP.
Nombre | Fecha de lanzamiento | Parámetros | Costo de capacitación (petaFLOP-día) | Longitud del contexto | Tamaño del cuerpo | ¿Uso comercial? |
---|---|---|---|---|---|---|
LLaMA | 24 de febrero de 2023 |
|
6300 [20] | 2048 | 1-1.4T | No |
LLaMA-2 | 18 de julio de 2023 |
|
21 000 [21] | 4096 | 2T | Sí |
Código LLaMA | 24 de agosto de 2023 |
|
||||
LLaMA-3 | 18 de abril de 2024 |
|
100 000 [22] [23] | 8192 | 15T | |
LLaMA-3.1 | 23 de julio de 2024 |
|
440 000 [24] [25] | 128 000 |
Código abierto y reproducción
editarEl 17 de abril de 2023, Together lanzó un proyecto llamado RedPajama para reproducir y distribuir una versión de código abierto del conjunto de datos LLaMA. El conjunto de datos tiene aproximadamente 1.2 billones de tokens y está disponible públicamente para su descarga.[26]
Aplicaciones
editarEl Centro de Investigación de Modelos Básicos (CRFM) del Instituto de Inteligencia Artificial Centrada en el Ser Humano (HAI) de la Universidad de Stanford lanzó Alpaca, un programa de entrenamiento basado en el modelo LLaMA 7B que utiliza el método de ajuste de instrucción «Autoinstrucción» para adquirir capacidades comparables al modelo de texto-davinci-003 de la serie OpenAI GPT-3.5 a un costo modesto.[27] Múltiples proyectos de código abierto continúan este trabajo de ajuste fino de LLaMA con el conjunto de datos de Alpaca.
Referencias
editar- ↑ a b c Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman et al. (27 de febrero de 2023). «LLaMA: Open and Efficient Foundation Language Models». arXiv:2302.13971 [cs]. Consultado el 7 de mayo de 2023.
- ↑ Alberto Romero (11-4-2023). «A New AI Trend: Chinchilla (70B) Greatly Outperforms GPT-3 (175B) and Gopher (280B)». Towardsdatascience (en inglés). Consultado el 8-5-2023.
- ↑ «LLaMA» (en inglés). Consultado el 8-5-2023.
- ↑ Ben Wodecki (27 de febrero de 2023). «Meta: LLaMA Language Model Outperforms OpenAI’s GPT-3» (en inglés). Consultado el 8-5-2023.
- ↑ James Vincent (8-3-2023). «Meta’s powerful AI language model has leaked online — what happens now?» (en inglés). Consultado el 8-5-2023. «El modelo LLaMA de Meta se creó para ayudar a los investigadores, pero se filtró en 4chan una semana después de su anuncio. A algunos les preocupa que la tecnología se utilice para hacer daño; otros dicen que un mayor acceso mejorará la seguridad de la IA.»
- ↑ «LLaMA». huggingface. Consultado el 8-5-2023.
- ↑ Sreejani Bhattacharyya (6-5-2023). «Meta gives away its language model for free». Consultado el 7-5-2023.
- ↑ «/g/ - /aicg/ - AI Chatbot General - Technology - 4chan». 5 de marzo de 2023. Archivado desde el original el 5 de marzo de 2023. Consultado el 18 de septiembre de 2023.
- ↑ a b VK, Anirudh (6 de marzo de 2023). «Meta's LLaMA Leaked to the Public, Thanks To 4chan». Analytics India Magazine. Consultado el 17 de marzo de 2023.
- ↑ a b «Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama». GitHub (en inglés). Consultado el 25 de marzo de 2023.
- ↑ «Download weights from huggingface to help us save bandwith by Jainam213 · Pull Request #109 · facebookresearch/llama». GitHub (en inglés). Consultado el 17 de marzo de 2023.
- ↑ Cox, Joseph (7 de marzo de 2023). «Facebook's Powerful Large Language Model Leaks Online». Vice (en inglés). Consultado el 17 de marzo de 2023.
- ↑ OpSec Online LLC (21 de marzo de 2023). «github/dmca - Notice of Claimed Infringement via Email». GitHub. Consultado el 25 de marzo de 2023.
- ↑ «Large language models are having their Stable Diffusion moment». Simon Willison (en inglés). Consultado el 8-5-2023.
- ↑ «Meta and Microsoft Introduce the Next Generation of Llama». Meta (en inglés estadounidense). 18 de julio de 2023. Consultado el 26 de abril de 2024.
- ↑ «Llama 2: Open Foundation and Fine-Tuned Chat Models». Cornell University (en inglés). 18 de julio de 2023. doi:10.48550/arXiv.2307.09288. Consultado el 26 de abril de 2024.
- ↑ «Meta Llama 3». Meta Llama (en inglés). Consultado el 26 de abril de 2024.
- ↑ Colomé, Jordi Pérez (20 de abril de 2024). «La inteligencia artificial inundará las redes: Meta lanza su modelo en WhatsApp, Facebook e Instagram». El País. Consultado el 26 de abril de 2024.
- ↑ «Introducing Meta Llama 3: The most capable openly available LLM to date». ai.meta.com (en inglés). Consultado el 26 de abril de 2024.
- ↑ «The Falcon has landed in the Hugging Face ecosystem». huggingface.co. Consultado el 20 de junio de 2023.
- ↑ «llama/MODEL_CARD.md at main · meta-llama/llama». GitHub (en inglés). Consultado el 28 de mayo de 2024.
- ↑ Andrej Karpathy (Apr 18, 2024), The model card has some more interesting info too
- ↑ «llama3/MODEL_CARD.md at main · meta-llama/llama3». GitHub (en inglés). Consultado el 28 de mayo de 2024.
- ↑ "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
- ↑ «llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models». GitHub (en inglés). Consultado el 23 de julio de 2024.
- ↑ «RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens». 17 de abril de 2023. Consultado el 7-5-2023.
- ↑ Taori, Rohan (13 de marzo de 2023). «Alpaca: A Strong, Replicable Instruction-Following Model» (en inglés). Stanford Center for Research on Foundation Models. Consultado el 8-5-2023. «We introduce Alpaca 7B, a model fine-tuned from the LLaMA 7B model on 52K instruction-following demonstrations. On our preliminary evaluation of single-turn instruction following, Alpaca behaves qualitatively similarly to OpenAI’s text-davinci-003, while being surprisingly small and easy/cheap to reproduce (<600$).»