<div dir="ltr"><div dir="ltr">I'm after fast, native <span class="gmail-il">recognition</span> of the numbers 1 to 20, yes, no, menu and help.  <br></div><div dir="ltr"><br></div><div dir="ltr"><div>At the moment, I use Google <span class="gmail-il">Speech</span> <span class="gmail-il">Recognition</span> which uses no local processing power, and is very accurate, allowing me to run on a very low end VPS.</div><div><br></div><div>However, with the minimum of 15 seconds, numbers and words like "yes, no" soon eat up the 60 minute free allowance.</div><div><br></div><div>I was hoping I could use "local", with a fallback to Google speech rec if it was uncertain.</div><div><br></div><div>Any ideas? Thanks</div><div><br></div><div>Yes, I know I post similar back in January, but there was no response back then and I was hoping things might have changed :)</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, 16 Jan 2019 at 17:42, Jonathan H <<a href="mailto:lardconcepts@gmail.com">lardconcepts@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">When I last looked into this a couple of years ago, simple one-word speech recognition was rather complex and slow.<div><br></div><div>At the moment, I use Google Speech Recognition which uses no local processing power, and is very accurate and fast, allowing me to run on a very low end VPS.</div><div><br></div><div>However, with the minimum of 15 seconds, numbers and words like "yes, no" soon eat up the 60 minute free allowance.</div><div><br></div><div>Have things changed much in the last couple of years? I see a couple of new "standalone" projects even from the likes of Facebook and Mozilla, but they require a degree in C++ and, apparently, about 24 hours to build a voice model on a high-end box with the latest graphics cards (for the number crunching). Also, unless I'm reading it wrong, each second of speech takes 4 seconds to recognise on a low end machine with this standalone offerings and similar ones.</div><div><br></div><div><a href="https://github.com/facebookresearch/wav2letter" target="_blank">https://github.com/facebookresearch/wav2letter</a><br></div><div><a href="https://voice.mozilla.org/en" target="_blank">https://voice.mozilla.org/en</a><br></div><div><br></div><div>In fact, come to think of it, I really only need offline fast recognition of numbers 1 to 20, yes, no, menu and help.</div><div>For voicemail transcription I'm happy to stick with Google's paid service as it's remarkably accurate with phone quality speech (beats Microsoft and Amazon Transcribe hands down from what I can tell).</div><div><br></div><div>Oh, and UniMRPC seems rather complex and the licensing doesn't suit - 99% of the time I have one channel (caller) but it can jump to 10 - I don't want to have to buy a 10 channel license for that 1 hour a month!</div><div><br></div><div>Any ideas? Thanks</div></div></div></div></div></div></blockquote></div></div>