- Pulse recaudó $ 3.9 millones para mejorar la preparación de datos no estructurados para los modelos de aprendizaje automático.
- El inicio aborda la demanda de copilotos y agentes personalizados que utilizan datos empresariales internos.
- El ex CEO de Github, Nat Friedman y Daniel Gross, lideraron la ronda de fondos de semillas para Pulse.
Legumbresuna startup de cinco personas especializada en preparación de datos no estructuradas para modelos de aprendizaje automático, ha recaudado $ 3.9 millones en una ronda de financiación dirigida por Nat Friedman y Daniel Gross.
Pulse vende a las empresas un kit de herramientas diseñado para convertir los datos sin procesar y no estructurados en formatos listos para usar por modelos de aprendizaje automático. Esto aborda el creciente demanda para que las empresas creen copilotos personalizados, chatbots y agentes digitales adaptado a sus datos internos.
«Supongamos que es una institución financiera o una compañía de atención médica. No hay espacio para que un LLM invente algo o alucine un número o un error», dijo Sid Manchkanti, cofundador y CEO de Pulse.
Antes de Pulse, Manchkanti era un desarrollador de software en NVIDIA. Comenzó la compañía con su amigo de la infancia, Ritvik Pandey, quien anteriormente trabajó en el proyecto de supercomputador de Tesla para capacitar a los modelos de aprendizaje automático, llamado Dojo.
Otros inversores en la ronda de semillas de la compañía incluyen Y Combinator, Sequoia Scout, Soma Capital, Liquid 2 Ventures, la firma de capital de riesgo fundada por Joe Montana e individuos de Nvidia, OpenAi y FinTech Startup Ramp.
Los datos de capacitación son la materia prima que permite a los modelos de lenguaje grandes aprender las relaciones entre palabras y frases e imitar el texto de tipo humano. Sin embargo, capacitar a estos modelos no se trata solo de alimentarles cantidades masivas de información. Se necesita curación y preparación de información de la manera correcta. No pones diesel en un motor de gas.
Los datos estructurados son datos organizados y de búsqueda que se ajustan perfectamente a filas y columnas, como los datos en una hoja de cálculo de Excel o registros de clientes. Los datos no estructurados se parecen más a los archivos con los que trabaja a diario. Piense en contratos de clientes de páginas, manuales de empleados, presentaciones de ventas y videos de demostración de productos. Según la firma de inteligencia de mercado de la tecnología IDC, 90% de los datos del mundo no están estructurados.
La conversión de datos desordenados en datos de capacitación a menudo involucra a trabajadores humanos. Pueden leer documentos e imágenes, ingresar información relevante en formatos como hojas de cálculo o bases de datos, y revisar y limpiar los datos, corregir errores y etiquetar los datos para proporcionar contexto para aplicaciones de aprendizaje automático.
Para automatizar este proceso, la solución de Pulse utiliza técnicas de visión por computadora y modelos de extracción ajustados para comprender documentos complejos y analizar con precisión sus datos.
Manchkanti dice que la tecnología de Pulse no solo optimiza el proceso, lo que hace que sea más rápido y más eficiente para que las empresas aprovechen sus datos no estructurados en modelos de aprendizaje automático, sino que también mejora la precisión. Estima que los equipos pierden del 20% al 30% de sus datos con soluciones existentes debido a una extracción deficiente.
La ronda de Pulse se basa en un oleaje de dinero en nuevas empresas que ofrecen herramientas para eliminar este cuello de botella de datos no estructurados. No estructurado ha recaudado $ 65 millones en fondos hasta la fecha y cuenta con más de mil clientes que pagan. Impedirse Recientemente obtuvo $ 100 millones en fondos para expandir su conjunto de herramientas para extraer y procesar datos no estructurados.
Manchkanti dijo que el nuevo dinero puesto en Pulse permitiría a la compañía contratar ingenieros y agregar extracción de datos para otros formatos, a saber, audio y video.