<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">When I last looked into this a couple of years ago, simple one-word speech recognition was rather complex and slow.<div><br></div><div>At the moment, I use Google Speech Recognition which uses no local processing power, and is very accurate and fast, allowing me to run on a very low end VPS.</div><div><br></div><div>However, with the minimum of 15 seconds, numbers and words like "yes, no" soon eat up the 60 minute free allowance.</div><div><br></div><div>Have things changed much in the last couple of years? I see a couple of new "standalone" projects even from the likes of Facebook and Mozilla, but they require a degree in C++ and, apparently, about 24 hours to build a voice model on a high-end box with the latest graphics cards (for the number crunching). Also, unless I'm reading it wrong, each second of speech takes 4 seconds to recognise on a low end machine with this standalone offerings and similar ones.</div><div><br></div><div><a href="https://github.com/facebookresearch/wav2letter">https://github.com/facebookresearch/wav2letter</a><br></div><div><a href="https://voice.mozilla.org/en">https://voice.mozilla.org/en</a><br></div><div><br></div><div>In fact, come to think of it, I really only need offline fast recognition of numbers 1 to 20, yes, no, menu and help.</div><div>For voicemail transcription I'm happy to stick with Google's paid service as it's remarkably accurate with phone quality speech (beats Microsoft and Amazon Transcribe hands down from what I can tell).</div><div><br></div><div>Oh, and UniMRPC seems rather complex and the licensing doesn't suit - 99% of the time I have one channel (caller) but it can jump to 10 - I don't want to have to buy a 10 channel license for that 1 hour a month!</div><div><br></div><div>Any ideas? Thanks</div></div></div></div></div></div>