Kõnetuvastuse Python: kuidas kõnet tekstiks tõlkida?

See ajaveeb hõlmab püütoni kõnetuvastuse kontseptsiooni näidisprogrammiga, mis tõlgib kõne kõnetuvastuse abil tekstiks.

Kõne on levinum suhtlusvahend kogu maailmas. Enamik maailma elanikkonnast loodab omavahel suhtlemisel kõnele. Oletame, et me ehitame mudelit ja kirjaliku lähenemise asemel tahame, et meie süsteem reageeriks kõnele, see muutub üsna keeruliseks ja nõuab palju andmete töötlemist. Kõnetuvastussüsteem ületab selle barjääri, tõlkides kõne tekstiks. Selles ajaveebis läbime kõnetuvastuse moodul pythonis . Siin on loetelu samadest:



Kuidas kõnetuvastus töötab?

Kõnetuvastussüsteem tõlgib suulised lausungid põhimõtteliselt tekstiks. Kõnetuvastussüsteemi kohta on mitmeid näiteid tegelikust elust. Näiteks siri, mis võtab kõne sisendina ja tõlgib selle tekstiks.



Kõnetuvastussüsteemi kasutamise eeliseks on see, et see ületab kirjaoskuse barjääri. Kõnetuvastuse mudel võib teenida ka kirjaoskamatut ja kirjaoskamatut publikut, kuna see keskendub suulistele lausungitele.

Samuti võime kõnetuvastussüsteemi abil teha inventuuri kõikidest ohustatud keeltest kogu maailmas. Kuigi see tundub üsna intrigeeriv ja pole üldse keeruline, peab kõnetuvastussüsteem silmitsi seisma paljude väljakutsetega.



Kõne äratundmise ees seisvad väljakutsed Süsteem

Kõnetuvastussüsteemi on raske teha, kuna meil on kõnes nii palju muutlikkuse allikaid.

Rääkimisstiil

Igal inimesel on mitmekesine kõnelaad, sealhulgas aktsendid. Nagu me kõik teame, on ka meil inglise keele rääkimisel erinevad aktsendid. Maailma levinuima keele rääkimisel on Ameerika inglise, Briti inglise keel ja nii palju muid aktsente. Hääldamine muudab kõnetuvastussüsteemi ka kõne täielikuks tõlkimiseks keeruliseks.



Keskkond

Keskkond lisab süsteemile ka palju taustamüra. Isoleeritud ruumis võrreldes auditooriumiga on taustamüra palju varieeruv. Isegi kaja võib lisada süsteemis palju müra.

Kõneleja omadused

Vana inimese hääl ei pruugi olla sama, mis imikul. Inimese kõne omadused sõltuvad paljudest teguritest, sealhulgas karmus ja selgus.

Keele piirangud

Mõnel suulisel lausungil ei pruugi tõlkimisel olla elujõulist tähendust.

rubiin rööbastel veebiõpetus

Pärast nende väljakutsete ületamist on kõne tekstiks tõlkimine igat kõnetuvastussüsteemi saavutatav. Nüüd, kui teame, kuidas kõnetuvastus töötab, saame heita pilgu erinevatele mis on Pythonis kõnetuvastuseks saadaval.

Püütonis kõnetuvastuseks saadaval olevad paketid

  • apiai

  • Kõne äratundmine

  • Google_speech_cloud

  • Assemblyai

  • Pocketphinx

  • Watsoni_arendaja_pilv

  • valge

Tutvume selles blogis SpeechRecognitioni paketi üksikasjadega, võimaldame heita pilgu ka mälureale, et mõista, kuidas kõnetuvastussüsteemid on aastate jooksul arenenud.

Kõnetuvastuse kõige esimene prototüüp oli tegelikult mänguasi, nimega raadio rex mis saabus 1920. aastate paiku. Sellel istus koer koeramajas, mis hüppas kohe välja, kui keegi lausus sõna rex.

Mudeli ainus probleem oli see, et vedru kinnitati elektromagnetile, mis oli tundlik umbes 500 Hz energia suhtes. Kuna tegemist on puhtalt sagedusdetektoriga, võiks seda kaugjuhtimise teel nimetada kõnetuvastuse mudeliks.

1962. aastal tuli IBM välja a kingakarp mudel, mis suutis ära tunda üksikuid sõnu ja teha ka paar aritmeetilist toimingut.

Siis tuli HARPY CMU-st, mis suutis ühendatud kõne ära tunda 1000-sõnalise sõnavara järgi. Umbes 1980ndatel hakkasid inimesed kasutama statistilisi mudeleid ja üks masinõppe paradigmasid oli kõige enam peidetud markovi mudel.

Pärast sügavate närvivõrkude kasutuselevõttu töötab enamik kõnetuvastusmudelitest närvivõrkudes. Võimalused on närvivõrkude puhul mõeldamatud, sõnavara võib ulatuda kuni 10 tuhande sõnani.

Kuidas installida kõnetuvastus Pythoni?

SpeechRecognition paketi Python installimiseks käivitage terminalis järgmine käsk ja see installitakse teie süsteemi.

install-kõnetuvastus python-edureka

Teine lähenemisviis sellele võib olla pakendi lisamine projekti tõlgilt, kui te seda kasutate

Paketil on klass Tunnustaja, kus maagia toimub. Põhimõtteliselt on see klass, mida kasutatakse kõne äratundmiseks. Järgnevalt on välja toodud seitse meetodit, millega saab erinevaid API-sid kasutades lugeda erinevaid heliallikaid.

  • tuvastama_bing ()
  • tuvastage_google ()
  • tuvastage_google_cloud ()
  • tunnistama_koerama ()
  • tuvastama_ibm ()
  • tunnusta_wit ()
  • tuvastage_sfinks ()

Nüüd saab tunnust_sphinxit kasutada kõnetuvastussüsteemi käivitamiseks ka võrguühenduseta. See nõuab Pocketsphinxi installimist.

impordi kõnetuvastus kui sr # tuvastaja klass r = sr. Tunnustaja ()

Mikrofonide sisendi võtmine

Mikrofonide kasutamiseks peame installima ka pyaudio mooduli. Me kasutame mikrofoniklassi, et saada sisendkõne mikrofonilt mis tahes muu sisestusmeetodi, näiteks helifaili asemel.

Enamiku projektide puhul saame kasutada vaikimisi mikrofone. Aga kui te ei soovi vaikemikrofoni kasutada,mikrofonide nimede loendi saate meetodi loendi_mikrofoni_nimed abil.

Mikrofoni sisendi hõivamiseks kasutame kuulamismeetodit.

impordi kõnetuvastus kui r r = sr. Tunnustaja () sr-ga. Mikrofon () allikana: audio = sr.listen (allikas)

Kuidas Pyaudio Pythoni installida?

Pyaudio Pythoni installimiseks käivitage terminalis järgmine käsk või kui kasutate pycharmi, lisage seadetes pakett projekti interpretaatorist.

Kasuta juhtumit

Koostame programmi Python kõnetuvastuse mooduli abil, et tuvastada kõne ja käivitada järgmine:

  1. teisendada kõne tekstiks
  2. avage URL veebibrauseri mooduli abil
  3. edastage URL-is otsingu tegemiseks päring kõnetuvastuse abil

Järgmine on ülaltoodud probleemilause programm:

impordi kõne_tuvastus kui impordi veebibrauser kui wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () koos sr.Microphone () allikaga: print ('[otsi edureka: otsi youtube'ist]') print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' koos sr-ga .Mikrofon () allikana: print ('otsige päringut') audio = r2.kuulake (allikas) proovige: get = r2.tuvastage_google (heli) print (hankige) wb.get (). Open_new (url + hankige) välja arvatud sr.UnknownValueError: print ('tõrge'), välja arvatud sr.RequestError nimega e: print ('ebaõnnestunud'. vorming (e)) kui 'video' r1.recognize_google'is (audio): r1 = sr.Recognizer () url = ' https://www.youtube.com/results?search_query= 'allikaga sr.Microphone () allikana: print (' video otsimine ') audio = r2.listen (source) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get), välja arvatud sr.UnknownValueError: print ('ei saanud aru'), välja arvatud sr.RequestError e-kujul: print (tulemuste saamine ebaõnnestus. vorming (e) )

Saad väljundi nii, nagu see on pildil näidatud. Kui ütlete edureka, palub see teil öelda päringu, mida soovite otsida edureka URL-ist, mille oleme kirjutanud URL-i muutujasse. Kui ütlete python, avatakse brauseris järgmine veebileht.

Selles blogis oleme arutanud, kuidas saaksime pythonis kõnetuvastust kasutada kõne tekstiks tõlkimiseks kõnetuvastuse paketi abil. on muutunud tunnivajaduseks selliste mõistete jaoks nagu kõnetuvastus või eseme tagasilükkamine koos mis pakuvad kõnetuvastussüsteemidele mõeldamatuid võimalusi, kus saame süsteemi ülesehitamiseks koolitada ja testida tohutuid kõneandmeid. Võite registreeruda sügavate närvivõrkude jaoks oma oskuste omandamiseks ja õppimise alustamiseks.

on teil küsimusi? mainige neid kommentaarides, võtame teiega ühendust.