Language Identification on Raspberry Pi: abril 2013

En la última reunión con nuestro tutor, nos comentó algunos cambios en los algoritmos de reconocimiento de idioma que mejoran los resultados obtenidos.

El primero consiste en aumentar la frecuencia de muestreo a 16 kHz, ya que originalmente estaba a 8 kHz. De esta manera, se tienen más datos para procesar y la calidad del fichero de audio es mejor. Los cambios que tuvimos que realizar son:

-Cambiar las opciones del comando que graba el audio (arecord), sustituyendo 8000 por 16000 en la opción -r:

$ arecord -D hw:1,0 -f S16_LE -c 1 -r 16000 -B 900000 "ruta_fichero/nombre_fichero.wav"

-Modificar el fichero que llama al programa sfbcep (incluida en el toolkit SPro) para que sepa que el fichero que le pasamos es de 16 kHz y no de 8 kHz (por defecto). El fichero que hay que cambiar es "feature_extractHTK_Albayzin12.sh" y ésta es la línea que hay que cambiar:

OPTS_SFBCEP=" -e -i 200 -u 3800 -Z  -R";

y aquí está la línea editada:

OPTS_SFBCEP=" -e -i 200 -f 16000 -Z -R";

Añadimos la opción -f 16000, indicando que la frecuencia de muestreo es 16 kHz. La opción -u la eliminamos porque por defecto usa la mitad de la frecuencia de muestreo, siguiendo el teorema de Niquist (8000 Hz).

El segundo cambio propuesto consiste en normalizar la señal antes del procesado con SPro, y no una vez empezado éste. Para ello:

-Eliminamos la opción -R del comando anterior, que normaliza la señal, quedando definitivamente:

OPTS_SFBCEP=" -e -i 200 -f 16000 -Z";

-Realizamos la normalización cuando se llama al script fea_process_beforeVAD.m:

function dout=fea_process_beforeVAD(d)
  d=rasta(d); %rasta filtering
  % Normalización
  u = mean(d, 2);
  s = sqrt(var(d,[],2));
  y = zeros(size(d),class(d));
  for i=1:size(y, 1)
     y(i,:) = (d(i,:) - u(i))/s(i);
  end
  %
  d=sdc(y); %shifted delta cepstra - default 7-1-3-7  
  dout=d;

Una vez realizados los cambios, comprobamos que todo funcionase correctamente. Pero encontramos un imprevisto: al ejecutarse arecord, éste nos avisaba de que la frecuencia máxima de grabación era de 11025 Hz. Esto se debe a que la tarjeta de sonido que viene con los micrófonos de la PlayStation 2 no es capaz de grabar a una frecuencia superior a esta. Por tanto decidimos deshacer los cambios respectivos a los 16 kHz. La solución a ésto será conseguir una tarjeta de sonido USB que pueda grabar hasta 16 kHz como mínimo, pero por ahora no va a ser nuestro objetivo principal.

Language Identification on Raspberry Pi

lunes, 8 de abril de 2013

Entrada 10: Presentación 1er hito - J21/03/2013

lunes, 1 de abril de 2013

Entrada 9: Mejorando el procesado - M19/03/2013

Colaboradores