Gemini File Search Store
Bienvenido a la documentación de Gemini File Search Store. Este componente está diseñado para simplificar al máximo la búsqueda inteligente de información en tus documentos, sin que tengas que preocuparte por servidores, bases de datos complejas o configuraciones técnicas. Funciona como un “asistente bibliotecario inteligente” que trabaja en segundo plano con la infraestructura de Google para mantener tus documentos organizados y listos para responder preguntas de forma precisa.
¿Cómo funciona?
Este componente actúa como un puente directo con la API de File Search de Google Generative AI. Su función principal es ofrecer una solución RAG (Retrieval-Augmented Generation) completamente administrada, lo que significa que no necesitas configurar ni mantener infraestructura técnica. Internamente, el componente se encarga de:
- Organizar y guardar documentos: Crea y gestiona “almacenes” (corpora) donde se guardan tus archivos.
- Preparar automáticamente la información: Divide los archivos en fragmentos pequeños, los analiza y los convierte en representaciones matemáticas (embeddings) que la IA puede comprender y buscar rápidamente.
- Buscar y responder con precisión: Cuando realizas una consulta en lenguaje natural, el componente busca los fragmentos más relevantes en tu almacén, calcula su similitud con tu pregunta y te devuelve los resultados junto con citas automáticas que vinculan directamente la respuesta con la fuente original.
Todo este proceso ocurre en la infraestructura segura de Google, liberándote de tareas técnicas como servidores de bases de datos vectoriales o pipelines de procesamiento de texto.
Conexión y Credenciales
Este componente requiere configurar previamente una credencial en el panel de Nappai para poder interactuar con el servicio externo:
- Dirígete a la sección de Credenciales en tu panel de Nappai.
- Crea una nueva credencial del tipo Google Gemini y guarda los campos requeridos (como la clave de API).
- En tu flujo de trabajo, selecciona la credencial guardada en el campo de entrada Credential de este nodo.
💡 Nota: No es necesario configurar claves de API, tokens o contraseñas directamente dentro de este componente. Solo necesitas vincular la credencial que ya creaste en el paso anterior.
Entradas
Este componente está preconfigurado y no requiere campos de entrada manuales adicionales. Toda la configuración y los parámetros de búsqueda (como el texto de consulta, rutas de archivos o límites de resultados) se gestionan automáticamente a través del contexto del flujo de trabajo y la credencial seleccionada.
En entornos avanzados, los datos que fluyan hacia este componente se interpretan automáticamente para:
- Identificar el almacén de búsqueda (
store_idocorpus_name). - Cargar y preparar documentos para indexación.
- Definir el texto de la consulta semántica.
Salidas
El componente devuelve resultados enriquecidos y estructurados, listos para ser consumidos por el siguiente paso de tu automatización. En lugar de devolver datos crudos, te entrega:
- Confirmación de estado: Mensajes claros sobre si un almacén se creó, actualizó o eliminó correctamente.
- Resultados de búsqueda: Fragmentos de texto relevantes ordenados por relevancia, junto con puntuaciones de similitud.
- Citas automáticas: Enlaces directos que indican exactamente qué documento y qué sección del archivo fue utilizada para generar cada respuesta.
- Listado de almacenes: Información estructurada sobre tus corporas activos (fechas de creación, estado de indexación, etc.).
Ejemplo de Respuesta JSONjson
{ “corpus_status”: “active”, “search_results”: [ { “text_snippet”: “La política de vacaciones establece un máximo de 20 días hábiles por año fiscal…”, “similarity_score”: 0.92, “citation”: { “document_name”: “Politica_Vacaciones_2024.pdf”, “page”: 3, “file_id”: “gcs://nappai-docs/hr/vacations.pdf” } }, { “text_snippet”: “Solicitar días adicionales requiere aprobación del director de departamento…”, “similarity_score”: 0.85, “citation”: { “document_name”: “Politica_Vacaciones_2024.pdf”, “page”: 5, “file_id”: “gcs://nappai-docs/hr/vacations.pdf” } } ], “metadata”: { “store_id”: “corpus_hr_2024”, “total_documents”: 12, “indexed_at”: “2024-05-20T14:30:00Z” } } Estas salidas pueden conectarse directamente a componentes de LLM, visualización o chat para generar respuestas, generar reportes o mostrar las citas al usuario final.
Conectividad
Aunque no se registran conexiones estadísticas específicas, este componente está diseñado para integrarse de forma lógica en flujos de automatización de conocimiento:
- Entrada típica: Se conecta usualmente después de un componente de Carga/Extracción de Documentos (como un lector de PDF, Word o base de datos), ya que necesita recibir archivos o rutas para indexarlos.
- Salida típica: Sus resultados se envían comúnmente a un componente LLM/Generador de Texto o Chatbot. Esto permite que la IA utilice los fragmentos recuperados como contexto base para generar respuestas precisas, o se mapee a un componente de Visualización para mostrar el contenido y las citas directamente en un dashboard o interfaz de usuario.
Ejemplo de Uso
Imagina que automatizas el soporte interno de una empresa. Cuando un empleado escribe “¿Cuántos días de vacaciones me corresponden este año?” en un chat:
- El flujo envía esa pregunta a Gemini File Search Store.
- El componente busca automáticamente en tu almacén de políticas de RRHH.
- Devuelve los fragmentos exactos de la política de vacaciones junto con las citas del PDF original.
- Un componente de LLM usa esa información para redactar una respuesta clara y verificable.
- El usuario final recibe la respuesta correcta, sabiendo exactamente en qué documento se basa.
Consejos y Mejores Prácticas
- 📄 Mantén tus documentos limpios y estructurados: La calidad de la búsqueda depende directamente de la claridad de los archivos. Usa títulos, párrafos cortos y formato consistente.
- 🔍 Nombra tus almacenes de forma descriptiva: Ayuda a organizar y recuperar rápidamente los correos corporas cuando tengas múltiples flujos o departamentos.
- 📑 Aprovecha las citas automáticas: Si tu siguiente paso es un visualizador o chat, muestra las citas al usuario final para aumentar la confianza y facilitar la auditoría.
- ⚖️ Monitorea el volumen de indexación: Aunque la plataforma es administrada, es recomendable mantener un número manejable de documentos por almacén para garantizar tiempos de respuesta óptimos.
Consideraciones de Seguridad
- 🔒 Protección de credenciales: Guarda las claves de API de Google Gemini únicamente en la sección de credenciales de Nappai. Nunca expongas o compartas estos datos manualmente.
- 🛡️ Gestión de datos sensibles: La infraestructura de Google cumple con estándares empresariales, pero evita cargar en este componente documentos que contengan información altamente regulada o confidencial sin evaluar primero las políticas de retención de datos de Google.
- 📜 Trazabilidad garantizada: Las citas automáticas facilitan la verificación de fuentes. Úsalas como auditoría interna cuando las respuestas generadas impacten decisiones operativas o legales.