App di riconoscimento vocale per convertire MP3 in testo?

21

Qualcuno sa di un'applicazione in grado di convertire l'audio in testo? Sto usando Ubuntu 12.04 LTS.

    
posta Kopano 09.07.2012 - 13:33

4 risposte

16

Il software che puoi usare è CMUSphinx. Diversamente da quanto suggerito in un'altra risposta, Giulio non è adatto perché richiede modelli. I modelli per il riconoscimento vocale ampio del vocabolario non sono disponibili per Julius.

Puoi usare pocketphinx per convertire il file audio. Quei due comandi devono fare il lavoro. Innanzitutto converti il ​​file nel formato richiesto e poi lo riconosci:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Esegui pocketphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Il risultato verrà memorizzato in result.txt.

    
risposta data Nikolay Shmyrev 20.02.2014 - 21:24
9

Se stai cercando di convertire la voce in testo, potresti provare ad aprire il tuo Software Center di Ubuntu e cercare Julius

Descrizione

  

"Julius" è un software di decodifica a vocabolario continuo ad alte prestazioni, a due passaggi e ampio riconoscimento vocale (LVCSR) per ricercatori e sviluppatori impegnati nel linguaggio.

Oppure un'altra opzione che non si trova nel Software Center è Simon

  

... è un programma di riconoscimento vocale open-source e sostituisce il mouse e la tastiera.

Link di riferimento

link

link

link

    
risposta data CoalaWeb 09.07.2012 - 13:54
9

So che è vecchio, ma per espandere la risposta di Nikolay e, si spera, salvare qualcuno qualche volta in futuro, per avere una versione aggiornata di pocketphinx che funziona è necessario compilarlo dal repository github o sourceforge (non sono sicuro che sia tenuto più aggiornato). Notare che -j8 significa eseguire 8 lavori separati in parallelo, se possibile; se hai più core CPU puoi aumentare il numero.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Quindi, da: link scarica le versioni più recenti di cmusphinx-en-us-....tar.gz e en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Quindi puoi finalmente procedere con i passaggi della risposta di Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

La Sfinge funziona bene. Non fare affidamento su di esso per rendere una versione leggibile del testo, ma è abbastanza buono da poterlo cercare se stai cercando una citazione particolare. Ciò funziona particolarmente bene se usi un algoritmo di ricerca come Xapian ( link ) che accetta i caratteri jolly e non richiede espressioni di ricerca esatte.

Spero che questo aiuti.

    
risposta data Jonathan Perry-Houts 25.04.2017 - 07:01
1

Puoi utilizzare il speechpad.pw riquadro di trascrizione

Guarda il video sull'uso della trascrizione

    
risposta data alexei 10.07.2016 - 22:37

Leggi altre domande sui tag