Resumen
El reconocimiento automático de voz puede llegar a ser muy útiles, ya que no solo han impactado en industria de las telecomunicaciones y de los sistemas multimedia, sino que también otras áreas como telemática, juegos, automóviles, sistemas para personas con discapacidad, medicina y educación. El objetivo de este trabajo fue diseñar e implementar un sistema de reconocimiento de voz que permite la escritura de expresiones algebraicas a través de órdenes de voz. El sistema de reconocimiento de voz fue desarrollado con la plataforma Java utilizando el software de código abierto CMU Sphinx-4 de la Universidad Carnegie Mellon; el cual se basa en los modelos ocultos de Markov para el cálculo de los parámetros de voz. Para el entrenamiento y las pruebas del sistema de reconocimiento automático de voz se utilizó el modelo acústico generado a partir del corpus acústico de VoxForge. Gracias a la incorporación del software de Sphinx-4, el sistema es capaz de transcribir automáticamente las expresiones algebraicas con una tasa de acierto de 83,23%.Palabras clave: Reconocimiento de voz; escritura de expresiones algebraicas; modelos acústicos; modelos de lenguajes; CMU Sphinx.
Citas
Cameron, Elliott y Bilmes, Jeff. 2007. Computer Based Mathematics Using Continuous Speech Recognition. Workshop on nonverbal acoustic interaction. [Consulta:12-04-2017].
Gaikwad, S. K. ; Gawali, B. W. y Yannawar, P. 2010. A Review on Speech Recognition Technique.
Guy, Cassandra, et. al. 2004. Math Speak & Write, a Computer Program to Read and Hear Mathematical I n p u t. [Consulta:12-03-2017].
Gartner. 2013. Hype Cycle for Emerging Technologies Maps Out Evolving Relationship Between Humans a n d M a c h i n e s http://www.gartner.com/newsroo m/id/2575515,2013.
Jancovic, P. y Kokuer, M. 2007. I n c o r p o r a ti n g t h e v o i c i n g information into HMMbased automatic speech recognition. IEEE Workshop in Automatic Speech Recognition and Understanding. pag. 42-46.
Karnjanadecha, M.; Zahorian, S. 2001. Signal modeling for High Performance Robus Isolated. Word Recognition s. IEEE Transactions On speech and Audio Processing. Vol 9 Nº 6.
Lamere,P.; et. al. 2003. The CMU sphinx4 speech recognition system, P r o c e e d i n g s o f t h e IEEE International Conference on Acoustics, Speech and Signal P r o c e ssi n g, Hong Kong. [Consulta:12-05- 2017].
Mingov, R.; Zdravevski E. y Lameski, P. 2016. “Application of Russian Language Phonemics to Generate Macedonian Speech Recognition Model Using Sphinx”, ICT Innovations 2016, September 2 0 1 6. [Consulta:12-06-2017]
Oberle, S. 1999. “Detection and estimation of acoustical signals using hidden Markov model”. Ph.D. dissertation, Hochschule Zuerich, Switzerland, ProQuest Diss e rt a t i o n s P u b l is h i n g. <https://search.proquest.com/docview/304550977?a ccountid=43636> [Consulta:12- 05-2017].
Rabiner, L. ; J u a n g, H. 1 9 9 3. “Fundamentals o f Speech Recognition”. Prentice Hall. NY, USA.
Schwartz, L. A. 1993. Language and Modern Human Origins,Yearbook of Physical Anthropology, 36,91-126.
Varela, A.; Cuayáhuitl, H. y Nolazco Flores, J. A. 2003. “Creating a Mexican Spanish version of the C M U S p h i n x I I I s p e e c h recognition system”, Progress in Pattern Recognition, Speech and Image Analysis, Springer, pp. 251-258.
Wigmore, Angela M., et. al. 2009. TalkMaths: A Speech User Interface for Dictating Mathematical Expressions into Electronic Documents. [Consulta:12-05- 2017]. Image Analysis, Springer,, pp. 251-258.
Wigmore, Angela M., et. al. 2009. TalkMaths: A Speech User Interface for Dictating Mathematical Expressions into Electronic Documents. TE2009/papers%5CSLaTE2009- 07-v2.pdf> [Consulta:12-05- 2017].