Chatbots de IA para empresas con software de código abierto
El peligro de los LLM de código cerrado: Hasta la fecha, no se ha publicado cómo entrenaron los modelos lingüísticos los grandes anfitriones de chat de IA. Por el contrario, hay informes repetidos de que partes de los datos de entrenamiento están protegidos por derechos de autor. Mientras no se revele el proceso de entrenamiento, siempre existe el riesgo de que cada mensaje, cada sitio web, cada texto y, por tanto, potencialmente también los datos internos de la empresa se utilicen para el entrenamiento. Porque una cosa también está clara: los desarrolladores de modelos lingüísticos viven de los datos y deben seguir entrenando constantemente los modelos lingüísticos. ¿De dónde se pueden obtener nuevos datos si ya se ha utilizado toda la Internet gratuita?
La característica innovadora de los grandes anfitriones de chat con IA no es que haya algún tipo de superinteligencia trabajando en segundo plano que pueda sustituir a los humanos. Al tratarse sólo de una cuestión de cálculo de probabilidades, un chatbot no es un ser inteligente. Aunque el constructo en su conjunto sea muy complejo, el elemento que promete el éxito es sencillo: el lenguaje. Los grandes modelos lingüísticos permiten interactuar con los sistemas informáticos utilizando un lenguaje natural, humano. La interfaz se simplifica aún más: un chat. La comunicación con un ordenador como si se escribiera a un amigo por Messenger.
LLM y datos propios
Las opciones de apoyo son enormes: ¿un plan de entrenamiento para completar con éxito un triatlón? No hay problema. ¿Resumir correos electrónicos o contratos angustiosamente largos hasta reducirlos a sus elementos esenciales? En segundos. ¿Analizar anomalías en grandes archivos de registro SAP? Inmediatamente. Si vinculas un LLM con tus propios datos, el potencial es casi infinito. Imagínese lo que sería posible si pudiera consultar todo su sistema de tickets como una base de datos de conocimientos utilizando lenguaje natural. Sus datos son su fuerza.
Los LLM maximizan el potencial de esta fuerza. Los LLM dan vida a tus datos. Dado que OpenAI, por ejemplo, no proporciona ninguna información, nunca podrás estar seguro de la seguridad de tus propios datos a puerta cerrada. Pero es precisamente esta puerta cerrada la que abre otra: Open Source.
El código abierto es la clave: cada detalle puede rastrearse en el código del programa, cada ajuste puede comprobarse. Esto significa que usted sabe lo que ocurre con sus datos: nada. Porque no envías ningún dato a ninguna empresa, al contrario, te llevas el producto a tu propia casa. Es como si pudieras comprar ChatGPT como producto acabado y colocarlo en tu centro de datos. Usted tiene la llave y, por tanto, el control total sobre cómo y si sus datos se vinculan a la IA. En resumen, la ventaja del código abierto es la transparencia.
Motor de inferencia
En primer lugar, se instala un motor de inferencia en hardware potente, que permite el funcionamiento de los modelos lingüísticos. Falta el LLM adecuado, que se puede encontrar en Huggingface para cada aplicación. A continuación, existen dos opciones para acceder a los datos: Finetuning y Retrieval Augmented Generation (RAG). Mientras que el finetuning requiere demasiado rendimiento y cuesta demasiado, la RAG ofrece una alternativa favorable.
Esto no cambia los datos del LLM, pero provee un contexto desde tu propia base de datos. Como si le dijeras al LLM: Aquí está mi ticket 1234, resúmeme el contenido. El hecho de que siempre se proporcione el contexto tiene otra ventaja: a diferencia de los proveedores en línea, el registro de datos siempre está actualizado.
Con RAG y un LLM de código abierto, tienes todo lo que necesitas para vincular tus propios datos con la tecnología. La respuesta a la pregunta de cómo puedes seguir el ritmo de los cambios tecnológicos y aun así no tener que preocuparte por la seguridad de tus propios datos es, en última instancia, sencilla: código abierto.
A la entrada de socios: