음성 인식 API (Speech Recognition API)

Chrome의 음성 인식 API (Speech Recognition API) 는  크롬이 25버전 부터 지원된 스팩입니다.
현재는 Chrome과 Opera만 지원하고 있으며 사용 방법은 간단합니다.

음성인식 API 인스턴스 생성 후 간단한 호출로 브라우저에 내장되어 있는 음성인식 API를
사용 할 수 있습니다. (예제 보기 | 예제 코드)

마이크로 입력된 음성을 Text로 변환하여 리턴해주며, 내부적으로 크롬 speech 서버를 거쳐서 그 결과를 만들어 냅니다.  (1인 환경에서는 생각보다 빠르고 정확한 인식률을 보여줍니다.)

제가 이 분야에 관심은 갖게 된 계기는 이전에 포스팅했던 “스카이프 음성 통역 영상“을 본 후 인데요.
음성 인식 기술을 활용하여 서로 다른 국가의 어린이가 다른 언어로 대화해도 그 음성을 Text로 변환하고, 또 번역API를 통해 실시간으로 상대방이 이해할 수 있는 메시지로 전달하여 자국어로 다른 나라의 사람과 대화가 통하도록 한 것 을 보고 실생활에 많은 도움을 줄 수 있는 기술이라고 생각했습니다.

이 후 활용 가치를 판단하기 위해 여러차례 테스트를 해보았습니다.
1인 환경에서 맥북을 사용하였습니다.
한국어로 같은 글귀를 여러차례 읽어서 인식률을 테스트한 결과는 아래와 같습니다.

  • 1m 이내, 인식률 최대 80%이상
  • 1.2m 이내, 인식률 약 60~70%
  • 1.5m 초과, 인식률 약 10% 문자 인식 거의 못함

이어폰 마이크를 사용하면 90%이상의 인식률을 보였습니다.

다양한 활용사례가 있지만, 한가지 예를들면 구글 Docs에서는 음성으로 워드 파일을 작성할 수 있게 보조 도구로 제공하고 있습니다.

이 처럼 사람의 손과 발을 완전히 대체 할 수는 없겠지만, 보조 수단으로서의 가치는 충분 하다고 생각이 들기 때문에 앞으로 더 많은 분야에서 적극적으로 활용 될 것이라 생각됩니다.

 

“음성 인식 API (Speech Recognition API)”에 대한 9개의 생각

  1. 안녕하세요 STT 관심있는 사람입니다. 본문에 서버를 거치지 않는다는 말씀이 있는데 그게 정확히 어떤 의미인지 구체적인 설명 부탁드려도 될까요?

    1. 잘못된 내용 정정합니다.
      크롬 브라우저 API를 이용하더라도 브라우저 내부적으로 Speech 서버를 통해 text 결과를 만들어 냅니다.
      (크롬 콘솔창에서는 확인이 되지 않지만 fiddler나 wireshark로 확인 가능합니다)

      구글은 Cloud speech 상용 API도 서비스 하고 있습니다. https://cloud.google.com/speech
      크롬 브라우저의 내장 API로 무료로 사용할 수 있는건 추측컨데 cloud 서비스 기반을 마련하려고 한 듯 보입니다.

  2. 안녕하세요 STT를 이용하여 졸업작품에 넣을려합니다.. 깃허브에있는 예제파일을 다운후 넣고 마이크를 누르니 JS 는 134 번째줄이 에러가 뜨고 크롬에서는 마이크 엑세스가 거부되었다는 응답이 나와서요.. ㅎㅎ 해결방법이있을까요?.>

    1. https://webrtclab.herokuapp.com/speech-recognition/ 에서는 되고
      깃허브에 있는 예제파일을 로컬에서 확인할때 에러가 발생한다면 아래 두가지를 확인해보세요.
      1. 카메라 마이크 접근은 https와 localhost도메인에서만 동작합니다.
      2. 크롬 주소창 앞에 아이콘을 클릭한 후 마이크 권한이 허용되어 있는지 확인해주세요

    1. 네 오히려 한글보단 영어가 인식이 잘 됩니다.
      음성인식 옵션의 인식언어를 en으로 바꿔서 해주시면 됩니다.
      (recognition.lang = ‘ko-KR’; ‘en-US’로 변경)

  3. 안녕하세요. 혹시 본문의 내용 중 소스코드를 확인하고 싶은데 가능할까요?? 음성인식 길찾기를 구현하기 위해 웹 어플리케이션에서 음성인식 기능 구현이 필요합니다.

  4. 안녕하세요. webrtc 연구실 많이 참고하고 있습니다. 감사합니다.
    질문이 있어서 문의 드립니다. webrtc와 speech-recognition 을 동시에 사용하고 싶은데, PC(크롬)에서는 잘 동작하는데, 핸드폰으로 모바일 웹(크롬)에서 speech-recognition이 작동하지 않아서 문의 드립니다. 모바일 웹에서 webrtc 사용 중에 speech-recognition (webkitSpeechRecognition) 사용할 수 있을까요?

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다