Research Staff, Voice AI Foundations
Investigador en Deepgram para desarrollar modelos de Latent Space Models (LSMs) para voz AI, abordando desafíos de datos, escala y costo en la interacción voz-máquina.
Atractivo para investigadores en IA de voz, ofrece desarrollo de modelos de vanguardia.
Descripción del puesto
Visión general de la empresa Deepgram es la plataforma líder que sustenta la emergente economía de billones de dólares de Voice AI, proporcionando APIs en tiempo real para speech-to-text (STT), text-to-speech (TTS) y construcción de agentes de voz de producción a escala. Más de 200.000 desarrolladores y más de 1.300 organizaciones construyen ofertas de voz que están 'Powered by Deepgram', incluyendo Twilio, Cloudflare, Sierra, Decagon, Vapi, Daily, Cresta, Granola y Jack in the Box. Los modelos de base nativos de voz de Deepgram se acceden a través de APIs en la nube o como software autoalojado y en premisas, con una precisión inigualable, baja latencia y eficiencia de costos. Respaldado por una reciente Serie C liderada por inversores globales líderes y socios estratégicos, Deepgram ha procesado más de 50.000 años de audio y transcrito más de 1 billón de palabras. No hay organización en el mundo que entienda mejor la voz que Deepgram. Ritmo operativo de la empresa En Deepgram, esperamos una mentalidad de inteligencia artificial (AI) - la adopción y comodidad de la AI no son opcionales, son fundamentales para cómo operamos, innovamos y medimos el rendimiento. Se espera que cada miembro del equipo que trabaja en Deepgram utilice activamente y experimente con herramientas de AI avanzadas, e incluso construya sus propias herramientas en su trabajo diario. Medimos la efectividad con la que se aplica la AI para obtener resultados, y el uso creativo y consistente de las últimas capacidades de AI es clave para el éxito aquí. Los candidatos deben estar cómodos adoptando nuevos modelos y modos rápidamente, integrando la AI en sus flujos de trabajo y empujando continuamente los límites de lo que estas tecnologías pueden hacer. Además, nos movemos al ritmo de la AI. El cambio es rápido, y puedes esperar que tu trabajo diario evolucione con la misma rapidez. Esto puede no ser el rol adecuado si no estás emocionado de experimentar, adaptarte, pensar con rapidez y aprender constantemente, o si estás buscando algo altamente prescriptivo con un horario tradicional de 9 a 5. La oportunidad La voz es la modalidad más natural para la interacción humana con las máquinas. Sin embargo, los paradigmas actuales de modelado de secuencia basados en escalar conjuntamente el modelo y los datos no pueden ofrecer una AI de voz capaz de interacción humana universal. Los desafíos están arraigados en problemas fundamentales de datos planteados por el audio: los datos de audio del mundo real son escasos y enormemente diversos, abarcando un vasto espacio de voces, estilos de habla y condiciones acústicas. Incluso si se tuviera acceso a miles de millones de horas de audio, su alta dimensionalidad inherente crea costos computacionales y de almacenamiento que hacen que el entrenamiento y la implementación sean prohibitivamente costosos a escala mundial. Creemos que se necesitan paradigmas enteramente nuevos para la AI de audio para superar estos desafíos y hacer que la interacción de voz sea accesible para todos. El rol Como miembro del personal de investigación, serás pionero en el desarrollo de Modelos de Espacio Latente (LSM), un enfoque nuevo que apunta a resolver los desafíos fundamentales de datos, escala y costos asociados con la construcción de una AI de voz robusta y contextualizada. Tu investigación se centrará en resolver uno o más de los siguientes problemas: - Construir códecs de audio neuronales de próxima generación que logren una compresión de tasa de bits extremadamente baja y una reconstrucción de alta fidelidad a través de un corpus de audio general a escala mundial. - Pionerar modelos generativos direccionales que puedan sintetizar la diversidad completa del habla humana a partir de la representación latente del códec, desde la conversación casual hasta la expresión emocional altamente emocional hasta complejos escenarios de varios hablantes con ruido ambiental y habla superpuesta. - Desarrollar sistemas de incrustación que factoricen limpiamente el espacio latente del códec en dimensiones interpretables de hablante, contenido, estilo, entorno y efectos de canal - lo que permite un control preciso sobre cada aspecto y la capacidad de amplificar masivamente un conjunto de datos de semillas existente a través de 'recombinación latente'. - Aprovechar la recombinación latente para generar datos de audio sintéticos a escalas previamente imposibles, desbloqueando paradigmas de escalado conjunto de modelo y datos para audio. Intentar entrenar sistemas de habla multimodal que puedan 1) entender a cualquier humano independientemente de sus datos demográficos, estado o entorno y 2) producir respuestas empáticas y similares a las humanas que logren objetivos conversacionales o orientados a tareas. - Diseñar arquitecturas de modelos, esquemas de entrenamiento e inferencia algoritmos que estén adaptados para hardware desnudo, lo que permite un entrenamiento eficiente en costos en conjuntos de datos de mil millones de horas y alimenta la inferencia en tiempo real para cientos de millones de conversaciones simultáneas. El desafío Estamos buscando investigadores que: - Vean problemas 'no resueltos' como oportunidades para pionerar enfoques enteramente nuevos. - Puedan identificar el experimento crítico que validará o matará una idea en días, no meses. - Tengan la visión de escalar pruebas de concepto exitosas 100 veces. - Estén obsesionados con usar la AI para automatizar y amplificar su propio impacto. Si te encuentras energizado en lugar de intimidado por estas expectativas - si ya estás pensando en cinco ideas para probar mientras lees esto - podrías ser el investigador que necesitamos. Este rol exige obsesión con los problemas, creatividad en el enfoque y una búsqueda implacable de soluciones elegantes y escalables. Los desafíos técnicos son inmensos, pero el impacto potencial es transformador. Es importante para nosotros que tengas - Una sólida base matemática en la teoría del aprendizaje estadístico, particularmente en áreas relevantes para el aprendizaje multimodal y autosupervisado. - Experiencia profunda en arquitecturas de modelos de base, con una comprensión de cómo escalar el entrenamiento a través de múltiples modalidades. - Capacidad demostrada para unir la teoría y la práctica - alguien que pueda derivar formulaciones matemáticas novedosas e implementarlas de manera eficiente. - Capacidad demostrada para construir canalizaciones de datos que puedan procesar y curar conjuntos de datos masivos mientras mantienen la calidad y la diversidad. - Historial de diseñar experimentos controlados que aíslan el impacto de las innovaciones arquitectónicas y validan las ideas teóricas. - Experiencia optimizando modelos para la implementación en el mundo real, incluyendo el conocimiento de las limitaciones del hardware y las técnicas de eficiencia. - Historial de contribuciones de código abierto o publicaciones de investigación que hayan avanzado el estado del arte en AI de habla / lenguaje.
Responsabilidades
- Desarrollar modelos de Latent Space Models (LSMs)
- Investigación en voz AI
- Colaboración con equipos de desarrollo
Skills requeridas
Beneficios
- Seguro médico
- Seguro dental
- Seguro de vida
- Plan de retiro