티스토리 뷰

화자인식은 화자 식별(Speaker Identification)기술과 화자검증(Speaker Verification)기술로 나눌수 있다. 화자식별 기술은 고립 단어인식과 개념이 비슷하다. 고립단어인식은 발화된 음성과 가장 가까운 단어를 등록된 인식 대상 단어 중에서 찾아낸다.  마찬가지로 화자식별도 등록된 화자중에서 가장 유사한 화자를 골라 내는 것이다. 이 기술은 여러 명의 요의 자 중 누가 범인인지 알아 내는 데 사용될 수 있다.   화자 검증 기술은 핵심어인식처럼 승인(Acceptance)과 거절(Rejection)과정을 거치게 된다.   이 과정은 기준 패턴과 입력 패턴을 서로 비교해 미리 정해 놓은 발생 확률 값을 넘으면 승인하고, 그렇지 않으면 거절하는 것이다.   이를 응용하면 음성 자물쇠로 이용할 수 있다.
   화자인식 시스템을 어떤 형태로 구현할 것인가의 관점에서 보면,문맥 종속(Text Dependent)과 문맥 독립(Text Independent)으로 나눌 수 있다.   문맥 종속은 정해진 말, 즉 미리 정해 놓은 단어나 문장 등을 뜻한다.문맥 종속 시스템의 경우에는 그 특성 때문에 DTW(Dynamic Time Warping)알고리즘을 사용해 성능이 좋은 반면 다른 사람이 정해진 말을 엿듣고 흉내낼 우려가 있다.  문맥 독립은 미리 정한 말이 없이 아무 말이나 하는 것이다. 문맥 독립 시스템의 경우 HMM(Hidden Markov Model)알고리즘을 많이 사용해 문맥 종속 시스템의 단점을 감소 시킬 수 있다. 참고로 미국의 경우 1,000명의 다른 사람(Impostor)이 시험한 결과 1명 이하의 사람을 잘못 승인(False Acceptance)하고, 100번 발성해 1번 이하의 잘못된 거절(False Rejection)을 화자인식 시스템의 최소 규격으로 삼고 있다. 최근 발표되는 국제 학술지에서 화자인식 기술의 수준이 앞에서 언급한 성능을 이미 넘어서고 있다.

[출처] 화자인식|작성자 branden65


http://blog.naver.com/PostView.nhn?blogId=branden65&logNo=80005013376&redirect=Dlog&widgetTypeCall=true 펌.


--------------------------------------------------

아무리 융복합 시대가 도래했다고 하지만... 분명 10~20년 안에 제일 뜰 산업인 것 같다. 갑자기 터치스크린이 엄청 나게 뜬 것 처럼.. 분명히 온다. 음성인지/화자인식 분야가 최고 산업으로 뜰 것 같다.

그게 언제일까?



댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함