컴퓨터용 음성 제어 소프트웨어. 음성을 이용한 가장 간단한 컴퓨터 제어

대부분의 경우 개인용 컴퓨터에서 작업할 때 큰 텍스트를 입력해야 합니다. 모니터 바로 앞에 앉아 있는 우리는 집안일을 할 수 있지만 많은 시간을 허비합니다.

지난 세기

컴퓨터의 음성 제어가 무엇인지 알아 봅시다. 비유를 좀 해보자. 이전과 지금도 여전히 작업하는 동안 컴퓨터에서 "손을 떼는" 매우 일반적인 방법은 속기사나 비서인 다른 직원을 고용하는 것이었습니다. 그러나 러시아어로 컴퓨터의 음성 제어를 허용하는 여러 프로그램과 유틸리티를 개인용 컴퓨터에 설치하여 불필요한 비용을 피할 수 있다는 것을 아는 사람은 거의 없습니다.

"Gorynych" 및 WebSpeach와 같은 소프트웨어 제품의 출현으로 졸업장, 주문서 또는 기타 문서와 같은 작업을 앉아서 인쇄해야 했던 시간을 잊어버릴 수 있습니다. 컴퓨터 기술의 발전으로 특수 음성 인식 프로그램을 사용하는 옵션이 나타났습니다.

내장 유틸리티

Windows 8 컴퓨터의 음성 제어는 내장된 Windows 음성 인식 유틸리티를 사용하여 수행됩니다. 불행히도 현재 러시아어로 컴퓨터 관리는 불가능합니다. Microsoft는 분명히 가장 일반적인 언어에 중점을 두려고 노력하고 있지만 러시아어에 대한 지원이 곧 출시될 가능성이 있습니다.

그래도 영어로 철의 동료를 제어하고 싶다면 다음 지침을 따르십시오.

하위 항목 "언어"의 제어판으로 이동하십시오. 시스템 언어를 영어로 설정해야 합니다. 없는 경우 적절한 언어 팩을 다운로드해야 합니다.
언어를 다운받아 설치한 후 "타일"이 있는 초기화면으로 이동합니다.
검색 상자에 Windows 음성 인식을 입력하고 Enter 키를 누릅니다. 음성 인식 프로그램이 시작됩니다.
처음 실행하면 마이크를 설정하라는 메시지가 표시됩니다. 당신의 다양성을 선택하고 몇 단어를 말하십시오.
그런 다음 20분 교육 과정이 제공됩니다. 영어로 진행되기 때문에 언어를 이해하지 못하더라도 안전하게 건너뛸 수 있습니다. 프로그램의 인터페이스는 절대적으로 명확하므로 어린이도 다룰 수 있습니다.
컴퓨터의 음성 제어를 활성화하려면 "듣기 시작" 암호를 말해야 합니다. "듣기 시작하다"라는 뜻입니다. 이제 필요한 프로그램을 실행하고 텍스트 받아쓰기를 시작할 수 있습니다.

일반적으로 이 유틸리티의 가능성은 무궁무진합니다. 기본 명령을 사용하는 것 외에도 고유한 명령을 만들 수도 있습니다.

개발

러시아어 및 영어 음성 인식을 위한 많은 응용 프로그램이 만들어졌습니다.

"사전 5";
"Perpetuum 모바일";
음성_PE;
빛나는;
음성 유형;
성찬.

그러나 가장 인기있는 것은 다음과 같습니다.

"고리니치";
웹 스피치;
리얼스피커;
스피치카.

더 자세히 살펴보겠습니다.

"고리니치"

이름에서 알 수 있듯 러시아 프로그래머 팀이 만든 애플리케이션으로 러시아 동화 속 주인공 고리니치의 이름을 따서 명명됐다. 컴퓨터의 음성 제어는 러시아어로 수행되지만 영어도 지원됩니다. "Gorynych"를 사용하면 사용자 모드에서 개인용 컴퓨터를 관리할 수 있습니다. 즉, 마우스와 키보드로 수행할 수 있는 모든 가능한 작업(Windows, 응용 프로그램, 개인용 컴퓨터에서 실행되는 프로세스 작업)을 수행할 수 있습니다. 또한 "Gorynych"는 한 소유자의 연설을 인식하지만 항상 그런 것은 아닙니다.

그러나 한 가지 큰 단점이 있습니다. 사실 전체 명령 기반을 수동으로 입력해야 합니다. 즉, 컴퓨터에서 음성으로 최소한 무언가를 하기 전에 음성으로 녹음된 명령으로 전체 데이터베이스를 만들어야 합니다. 이렇게 해도 갑자기 목이 쉰다거나 목소리의 음색이 조금이라도 변하면 고리니치는 완전히 이해를 거부할 것이다.

또 다른 함정은 컴퓨터에 텍스트를 받아쓰려면 먼저 "Gorynych"에 대한 방대한 사전을 좋은 어휘로 만들어야 사용자가 받아쓰는 내용을 이해할 수 있다는 것입니다.

스피치카

개인용 컴퓨터에 설치된 타사 응용 프로그램이 이를 확인하는 데 도움이 될 수 있습니다. 그 중 하나는 Speechka입니다. Google 기술을 기반으로 만든 러시아 제품인 "Gorynych"와 마찬가지로 "Match"를 사용하면 사용자가 주어진 명령 집합을 사용하여 컴퓨터를 음성으로 제어할 수 있습니다. Speechka는 모든 음성을 아주 잘 인식하므로 음성 파일을 녹음할 필요가 없습니다. 키보드에서 단어를 입력하고 모든 작업과 연결하는 것으로 충분합니다. 간단히 말해서 쓸만한 제품이지만 비교적 최근에 창 닫기나 프로그램 실행 등의 기능이 추가되면서 개발 중인 제품이다.

타자

컴퓨터의 음성 제어가 무엇인지 알아 냈으면 입력 문제를 고려해 보겠습니다. 이미 언급했듯이 모든 응용 프로그램에서 생성할 수 있는 것은 아닙니다. 대부분의 경우 이를 위해서는 먼저 전체 사전을 생성해야 하며, Windows 8 사용자라면 여전히 러시아어 음성 지원 문제가 있습니다. 이 문제를 해결하기 위해 구글에서 만든 음성 다이얼링 서비스가 있습니다.

Chrome 브라우저에서만 사용할 수 있는 Google Web Speech 앱은 러시아어를 포함하여 세계 최고의 언어 32개를 인식합니다. 음성으로 텍스트를 입력하려면 적절한 브라우저, 인터넷 액세스 및 마이크가 필요합니다. 개발이 충분히 진행되었으므로 이 유틸리티는 유능한 러시아어 연설을 전체 단어로 인식하고 인쇄된 텍스트로 번역할 수 있습니다.

개인용 컴퓨터에서 음성 인식 및 받아쓰기를 위한 또 다른 프로그램은 RealSpeaker입니다. 최첨단 안면 인식 기술을 사용합니다. 절대적으로 모든 웹캠이 사용하기에 적합합니다. 작동 중에 발생하는 유일한 불편은 스피커의 얼굴이 40cm 이하의 거리에서 정확히 카메라와 반대여야 한다는 것입니다. 이 프로그램에는 사용자가 원하는 경우 확장할 수 있는 러시아어 사전이 있습니다. 일반적으로 이 프로그램은 "Gorynych"보다 훨씬 편리합니다.

결과

음성으로 컴퓨터를 제어하는 것에 대해 생각하고 있다면 이것은 아직 러시아를 위한 것이 아닙니다. 오늘날 적절한 인식 프로그램은 영어로만 존재하며 자동 음성 입력에는 너무 많은 오류가 포함되어 모든 오타를 수정하는 것보다 처음부터 텍스트를 작성하는 것이 더 쉬울 것입니다. 물론 영어를 배우고 컴퓨터를 관리할 수는 있지만 완벽한 딕션과 발음이 필요합니다.

컴퓨터의 음성 제어를 위한 프로그램 개요

다음 기사에서는 컴퓨터의 음성 제어 문제를 고려하고 이 프로세스를 위해 설계된 인기 있는 프로그램에 대해 간략히 설명합니다. 따라서 "음성"이라는 이름의 단어는 문자 그대로 이해해야합니다. PC로 작업하는 능력, 즉 마우스, 키보드와 같은 일반적인 속성이 아닌 음성을 사용하여 친숙한 명령 / 작업을 제공 / 수행하는 기능입니다. 예를 들어, Office 응용 프로그램 패키지로 작업하려면 텍스트를 발음하지만 음성을 인식하고 선택한 응용 프로그램에서 텍스트로 재생합니다.

고리니치

가장 테스트되고 가장 오래된 소프트웨어(프로그램)는 Dragon NaturallySpeaking(이하 Gorynych)입니다. 오랜 시간 테스트를 거쳐 존재하는 동안 최대한 개선된 2010 버전의 Gorynych 프로그램은 99%의 정확한 음성 인식을 제공합니다. 매우 간단하고 사용하기 쉬운 소프트웨어는 전체 오피스 제품군과 함께 작동하며 텍스트, 테이블 및 데이터베이스를 만들고 편집하는 데 도움이 될 수 있습니다. 이 프로그램을 사용하여 인터넷과 컴퓨터(음성 태그)를 검색하고 이메일 및 인스턴트 편지/메시지를 보낼 수 있습니다. 중소기업을 위한 훌륭한 도우미. 파일 열기 및 재생 등의 명령을 실행할 수 있습니다. 하지만 한 가지 주의사항이 있습니다 컴퓨터의 음성 제어를 위한 Gorynych 프로그램 다운로드당신은 지불할 수 있고 하나의 "그러나"가 있습니다. 설치 후 프로그램은 독일어를 사용하므로 러시아어로 변경하려면 사용자가 약간의 노력이 필요합니다.

유형 프리미엄

덜 가치 있는 것은 없다 러시아어로, 그 이름은 Type Premium처럼 들립니다. 이 소프트웨어는 더 이해하기 쉽고 간단한 인터페이스를 가지고 있습니다. 주요 장점은 많은 음성 명령을 녹음할 수 있다는 것입니다. 음성 인식 - 99%. 예를 들어, 사용자가 자신이 좋아하는 영화를 다시 보기를 원하고 그의 임무는 "영화 재생 "***"과 같은 것으로 Type Premium에 항목을 만드는 것입니다. 완벽하게 호환됩니다 컴퓨터 음성 제어 Windows XP는 운영 체제입니다.

지능형 음성 인식 시스템

이 프로그램은 이전 두 개보다 약간 더 겸손합니다. 지능형 음성 인식 시스템(IVOS). 인터넷에서 무료(초기 버전) 다운로드를 시도할 수 있습니다. 이 프로그램은 Windows OS와 완벽하게 호환되며 소유자의 음성을 변환하고 인식할 수 있습니다. 또한 문서 열기 작업을 위한 추가 명령을 기록할 수 있습니다. 지능형 음성 인식 시스템(IVOS)에는 사용자가 전자 교과서의 음성을 낼 수 있도록 하는 음성 엔진이 있습니다. 명확하고 친숙한 인터페이스. 편리하고 사용하기 쉽지만 처음 두 프로그램의 기능과는 확실히 거리가 멉니다.

PC 및 모바일 장치를 관리하기 위한 유사한 프로그램이 더 많이 있습니다. 시장은 유료 및 무료 옵션을 모두 제공합니다. 그러나 사용자가 진지한 작업에서 프로그램을 사용하려는 경우 개발자 지원이 포함된 유료 소프트웨어를 선호하는 것이 좋습니다.

한 남자가 음성으로 컴퓨터 마우스를 제어할 수 있는 프로그램을 작성해 달라는 요청으로 저에게 접근했습니다. 스스로 고개를 돌릴 수 없고 말만 할 수 있는 거의 완전히 마비된 사람이 활발한 활동을 개발하고 자신과 다른 사람들이 활동적인 삶을 살고 새로운 지식과 기술을 습득하고 일하고 일할 수 있도록 도울 수 있다는 것은 상상조차 할 수 없었습니다. 벌고, 전 세계 사람들과 의사 소통하고, 사회 프로젝트 경쟁에 참여하십시오.

벨로루시 보리소프 시의 Alexander Makarchuk이 이 사람인 저자 및/또는 이데올로기적 영감을 주는 사이트에 대한 몇 가지 링크를 제공하겠습니다.

Alexander는 컴퓨터 작업을 위해 NSF(National Science Foundation)가 자금을 지원하는 워싱턴 대학교 학생 개발 프로그램인 "Vocal Joystick"을 사용했습니다. melodi.ee.washington.edu/vj 참조

나는 저항할 수 없었다

그건 그렇고, 대학 웹사이트(http://www.washington.edu/)에서 기사의 90%는 돈에 관한 것입니다. 과학적 연구에 관한 것을 찾기가 어렵습니다. 예를 들어 다음은 첫 페이지에서 발췌한 내용입니다. “대학생인 Tom은 버섯을 먹고 집세를 겨우 내곤 했습니다. 이제 그는 IT 회사의 수석 관리자이며 대학에 대출을 제공합니다.", "빅 데이터는 노숙자를 돕습니다.", "회사는 새 학술 건물에 500만 달러를 지불하기로 약속했습니다."

이거 나만 눈 아파?

이 프로그램은 2005-2009년에 만들어졌으며 Windows XP에서 잘 작동했습니다. 최신 버전의 Windows에서는 프로그램이 정지될 수 있으며, 이는 의자에서 일어나 다시 시작할 수 없는 사람에게는 허용되지 않습니다. 따라서 프로그램을 다시 작성해야 했습니다.

소스 코드는 없으며 기반 기술을 나타내는 별도의 간행물만 있습니다(MFCC, MLP - 두 번째 부분에서 이에 대해 읽으십시오).

이미지와 닮은꼴로 새 프로그램을 작성했다(약 3개월 만에).

실제로 작동 방식을 볼 수 있습니다.

프로그램을 다운로드하거나 소스 코드를 볼 수 있습니다.

프로그램을 설치하기 위해 특별한 작업을 수행할 필요가 없습니다. 프로그램을 클릭하고 실행하기만 하면 됩니다. 유일한 것은 경우에 따라 관리자로 실행해야 한다는 것입니다(예: "Comfort Keys Pro" 가상 키보드로 작업할 때).

아마도 여기에서 언급할 가치가 있으며 이전에 손 없이 컴퓨터를 제어하기 위해 수행한 다른 작업을 수행할 수 있습니다.

고개를 돌릴 수 있는 능력이 있다면 머리 장착 자이로스코프가 eViacam의 좋은 대안이 될 수 있습니다. 빠르고 정확한 커서 위치 지정 및 조명 독립성을 얻을 수 있습니다.

눈동자만 움직일 수 있다면 시선 추적기와 그에 대한 프로그램을 사용할 수 있습니다(안경을 착용하는 경우 어려울 수 있음).

2부. 어떻게 작동합니까?

"Vocal Joystick" 프로그램에 대한 게시된 자료에서 다음과 같이 작동하는 것으로 알려져 있습니다.

오디오 스트림을 10밀리초의 오버랩과 함께 25밀리초의 프레임으로 분할
각 프레임에 대해 13개의 셉스트럴 계수(MFCC) 얻기
다층퍼셉트론(MLP)을 이용하여 암기된 6개의 소리(모음 4개, 자음 2개) 중 1개 발음 확인
찾은 소리를 모션/마우스 클릭으로 변환

첫 번째 작업은 마이크에서 데이터 읽기, 사운드 처리, 사운드 카드를 통한 사운드 재생이 비동기적으로 일어나기 때문에 실시간으로 해결하기 위해서는 3개의 스레드를 추가로 프로그램에 도입해야 한다는 점만 주목할 만하다.

마지막 작업은 SendInput 함수를 사용하여 간단히 구현됩니다.

두 번째, 세 번째 작업이 가장 큰 관심사인 것 같습니다. 그래서.

작업 번호 2. 13개의 셉스트럴 계수 얻기

누군가가 피사체에 없으면 컴퓨터 사운드 인식의 주요 문제는 다음과 같습니다. 윤곽이 다른 두 개의 음파가 인간의 지각 관점에서 비슷하게 들릴 수 있기 때문에 두 개의 소리를 비교하기가 어렵습니다.

그리고 음성 인식과 관련된 사람들 중에는 음파를 명확하게 분류하는 일련의 기능인 "철학자의 돌"에 대한 검색이 있습니다.

일반 대중이 사용할 수 있고 교과서에 설명되어 있는 이러한 기능 중 가장 널리 사용되는 기능은 소위 MFCC(mel-frequency cepstral coefficients)입니다.

그들의 역사는 원래 완전히 다른 목적, 즉 신호의 에코를 억제하기 위한 것이었습니다(이 주제에 대한 유익한 기사는 존경받는 Oppenheim과 Schafer에 의해 작성되었으며, 이 고귀한 사람들의 가정에 기쁨이 있기를 바랍니다. 남성 AV Oppenheim 및 RW Schafer, " From Frequency to Quefrency: A History of the Cepstrum) 참조.

그러나 사람은 자신이 가장 잘 아는 것을 사용하는 경향이 있습니다. 그리고 음성 신호를 처리하는 사람들은 MFCC 형식으로 신호의 기성품 컴팩트 표현을 사용하는 아이디어를 생각해 냈습니다. 일반적으로 작동하는 것으로 나타났습니다. (내 지인 중 환기 시스템 전문가 중 한 명이 별장 만드는 방법을 묻자 환기 덕트 사용을 제안했습니다. 단순히 다른 건축 자재보다 잘 알고 있었기 때문입니다.)

MFCC는 소리에 대한 좋은 분류기입니까? 나는 말하지 않을 것이다. 내가 다른 마이크에서 발음한 동일한 소리는 MFCC 계수 공간의 다른 영역에 속하며 이상적인 분류기는 이들을 나란히 그립니다. 따라서 특히 마이크 교체 시 프로그램을 재교육해야 합니다.

이것은 13D MFCC 공간을 3D로 투영한 것 중 하나일 뿐이지만, 내가 의미하는 바를 보여줍니다. 빨간색, 보라색 및 파란색 점은 서로 다른 마이크에서 나옵니다. (Plantronix, 내장 마이크 어레이, Jabra) 그러나 소리는 발음되었습니다 홀로.

그러나 더 나은 것을 제공할 수 없기 때문에 MFCC 계수를 계산하는 표준 방법도 사용할 것입니다.

구현에서 실수하지 않기 위해 프로그램의 첫 번째 버전에서는 잘 알려진 CMU Sphinx 프로그램의 코드가 기반으로 사용되었습니다. 보다 정확하게는 Carnegie에서 개발한 pocketsphinx라고 하는 C 언어로 구현했습니다. Mellon University(둘 모두에게 평화가 있기를! (c) Hottabych ).

pocketsphinx의 소스 코드는 공개되어 있지만 운이 좋지 않습니다. 이를 사용하는 경우 프로그램(소스 코드와 실행 모듈 모두)에 무엇보다도 다음을 포함하는 텍스트를 작성해야 합니다.

* 이 작업은 미합중국의 고급 방위 * 연구 프로젝트 에이전시와 * 국립 과학 재단, 그리고 CMU 스핑크스 스피치 컨소시엄의 자금 지원으로 부분적으로 지원되었습니다.
그것은 나에게 받아들여질 수 없는 것처럼 보였고 나는 코드를 다시 작성해야 했다. 이것은 프로그램의 속도에 영향을 미쳤습니다(코드의 "가독성"이 다소 저하되었지만 더 나은 방법을 위해). 주로 "Intel Performance Primitives" 라이브러리를 사용하기 때문이지만 MEL 필터와 같은 것을 최적화하기도 했습니다. 그럼에도 불구하고 테스트 데이터를 확인하면 결과 MFCC 계수가 예를 들어 sphinx_fe 유틸리티를 사용하여 얻은 계수와 완전히 유사함을 알 수 있습니다.

sphinxbase 프로그램에서 MFCC 계수 계산은 다음 단계로 수행됩니다.

단계	스핑크스베이스 기능	수술의 본질
1	fe_pre_emphasis	이전 개수의 대부분은 현재 개수에서 뺍니다(예: 해당 값의 0.97). 저주파를 거부하는 기본 필터.
2	fe_hamming_window	해밍 창 - 프레임의 시작과 끝에서 감쇠를 도입합니다.
3	fe_fft_real	고속 푸리에 변환
4	fe_spec2magnitude	일반 스펙트럼에서 위상을 잃는 전력 스펙트럼을 얻습니다.
5	fe_mel_spec	스펙트럼의 주파수(예: 256개)를 MEL 척도 및 가중 계수를 사용하여 40개 파일로 그룹화합니다.
6	fe_mel_cep	로그를 취하여 이전 단계의 40개 값에 DCT2 변환을 적용합니다. 처음 13개의 결과 값을 그대로 둡니다. 얻은 계수를 나누는 상수와 0 계수에 대한 특수 상수가 다른 DCT2(HTK, 레거시, 클래식)의 여러 변형이 있습니다. 모든 옵션을 선택할 수 있으며 본질은 변경되지 않습니다.

이 단계에는 fe_track_snr, fe_vad_hangover와 같이 노이즈와 무음에서 신호를 분리할 수 있는 기능도 포함되어 있지만 필요하지 않으며 이러한 기능으로 인해 주의가 산만해지지 않습니다.

MFCC 계수를 얻기 위한 단계는 다음과 같이 대체되었습니다.

작업 번호 3. 6개의 암기된 소리 중 하나가 발음되는지 확인

원래의 보컬 조이스틱 프로그램은 분류를 위해 다층 퍼셉트론(MLP)을 사용했습니다. 이는 새로운 종소리와 휘파람이 없는 신경망입니다.

여기에서 신경망 사용이 얼마나 정당한지 봅시다.

인공 신경망에서 뉴런이 하는 일을 기억하십시오.

뉴런에 N개의 입력이 있는 경우 뉴런은 N차원 공간을 반으로 나눕니다. 초평면으로 백핸드를 베어냅니다. 동시에 공간의 절반에서는 작동하고(긍정적인 답변 제공) 나머지 절반에서는 작동하지 않습니다.

[사실상] 가장 간단한 옵션인 두 개의 입력이 있는 뉴런을 살펴보겠습니다. 물론 그는 2차원 공간을 반으로 나눌 것입니다.

뉴런에 가중치 계수 W1과 W2를 곱하고 자유 항 C를 더하는 값 X1과 X2를 입력합니다.

전체적으로 뉴런의 출력(Y로 표시하자)에서 다음을 얻습니다.

Y=X1*W1+X2*W2+C

(지금은 시그모이드 함수에 대한 미묘함을 건너뛰자)

우리는 뉴런이 Y>0일 때 발화한다고 생각합니다. 방정식 0=X1*W1+X2*W2+C로 주어진 직선은 공간을 Y>0인 부분과 Y인 부분으로 나눕니다.<0.

구체적인 숫자로 말한 것을 설명합시다.

W1=1, W2=1, C=-5라고 합시다.

이제 공간의 특정 영역, 즉 상대적으로 말하자면 한 지점에서 작동하고 다른 모든 장소에서는 작동하지 않는 신경망을 구성하는 방법을 살펴보겠습니다.

그림에서 알 수 있듯이 2차원 공간에서 한 영역의 윤곽을 나타내기 위해서는 최소한 3개의 선, 즉 3개의 선이 연결되어 있어야 합니다.

이 세 개의 뉴런을 다른 계층과 결합하여 MLP(다층 신경망)를 얻습니다.

그리고 신경망이 공간의 두 영역에서 작동해야 하는 경우 최소한 세 개의 뉴런이 더 필요합니다(그림에서 4,5,6).

그리고 여기서 세 번째 레이어 없이는 할 수 없습니다.

그리고 세 번째 레이어는 거의 딥러닝에 가깝습니다...

이제 도움을 위해 다른 예를 살펴보겠습니다. 신경망이 빨간색 점에 긍정적인 응답을 제공하고 파란색 점에 부정적인 응답을 제공해야 합니다.

직선으로 파란색에서 빨간색을 자르라는 요청을 받으면 다음과 같이 할 것입니다.

그러나 신경망은 얼마나 많은 직접(뉴런)이 필요한지 선험적으로 알지 못합니다. 이 매개변수는 네트워크를 훈련시키기 전에 설정해야 합니다. 그리고 사람은 직관이나 시행 착오를 기반으로 이것을합니다.

첫 번째 레이어에서 너무 적은 수의 뉴런(예: 3개)을 선택하면 다음과 같은 슬라이싱을 얻을 수 있으며 이로 인해 많은 오류가 발생합니다(잘못된 영역은 음영 처리됨).

그러나 뉴런의 수가 충분하더라도 훈련의 결과 네트워크는 "수렴하지 않을" 수 있습니다. 즉, 오류율이 높을 때 최적이 아닌 안정적인 상태에 도달할 수 있습니다. 여기와 같이 상단 크로스바는 두 개의 혹 위에 놓여 있으며 아무데도 두지 않습니다. 그리고 그 아래에는 오류를 생성하는 큰 영역이 있습니다.

다시 말하지만, 그러한 경우의 가능성은 훈련의 초기 조건과 훈련 순서, 즉 무작위 요인에 따라 다릅니다.

- 그 바퀴가 만약 일어난다면 모스크바에 도착할 것 같습니까?
- 신경망이 수렴할까 말까?

신경망과 관련된 또 다른 불쾌한 순간이 있습니다. 그들의 "건망증".

그물에 파란색 점만 공급하기 시작하고 빨간색 점 공급을 중단하면 빨간색 영역의 일부를 쉽게 잡아 테두리를 이동시킬 수 있습니다.

신경망에 결함이 너무 많고 사람이 신경망보다 훨씬 더 효율적으로 경계를 그릴 수 있다면 왜 신경망을 사용합니까?

그리고 작지만 매우 중요한 세부 사항이 하나 있습니다.

2D 공간에서 선분을 사용하여 빨간색 하트와 파란색 배경을 잘 구분할 수 있습니다.

평면이 있는 비너스의 동상과 그것을 둘러싼 3차원 공간을 아주 잘 구분할 수 있습니다.

하지만 4차원 공간에서는 아무것도 할 수 없습니다. 죄송합니다. 13차원에서는 더욱 그렇습니다.

그러나 신경망의 경우 공간의 차원은 장애물이 아닙니다. 저차원 공간에서 그녀를 웃었지만, 평범함을 넘어서자 그녀는 쉽게 나를 이겼다.

그럼에도 불구하고 문제는 여전히 열려 있습니다. 신경망의 위의 단점을 감안할 때 이 특정 작업에서 신경망을 사용하는 것이 얼마나 정당한지 알 수 있습니다.

MFCC가 13차원 공간에 있다는 것을 잠시 잊고 2차원, 즉 평면의 점이라고 상상해 봅시다. 이 경우 어떻게 하나의 소리를 다른 소리와 분리할 수 있습니까?

소리 1의 MFCC 지점에 표준 편차 R1이 있다고 가정합니다. 이는 [대략] 평균에서 너무 멀지 않은 지점, 가장 특징적인 지점이 반경 R1인 원 내부에 있음을 의미합니다. 마찬가지로 소리 2에 대해 신뢰하는 점은 반지름이 R2인 원 안에 있습니다.

주의, 문제는 소리 1과 소리 2를 가장 잘 구분할 수 있는 직선을 어디에서 그릴 것인가입니다.

답은 원의 경계 사이 중간에 있습니다. 이의가 있습니까? 이의가 없습니다.
보정:프로그램에서 이 경계선은 원의 중심을 연결하는 선분을 R1:R2 비율로 나누므로 더 정확합니다.

그리고 마지막으로 우주 어딘가에 MFCC 공간의 완전한 침묵을 나타내는 지점이 있다는 것을 잊지 말자. 아니요, 보이는 것처럼 13개의 0이 아닙니다. 이것은 표준편차가 있을 수 없는 한 점입니다. 그리고 세 가지 소리에서 차단할 직선은 원의 경계를 따라 직접 그릴 수 있습니다.

아래 그림에서 각 소리는 해당 색상의 공간 조각에 해당하며 공간의 이 지점 또는 저 지점이 속한(또는 어느 것에도 속하지 않는) 소리를 항상 알 수 있습니다.

자, 자, 이제 공간이 13차원이라는 것을 기억합시다. 그리고 종이에 그리면 좋았던 것이 이제 인간의 두뇌에 맞지 않는 것으로 판명되었습니다.

예, 그렇지 않습니다. 다행히 어떤 차원의 공간에도 점, 선, [하이퍼]플레인, [하이퍼]구와 같은 개념이 남아 있습니다.

우리는 13차원 공간에서 모든 동일한 동작을 반복합니다. 분산을 찾고, [하이퍼]구의 반지름을 결정하고, 중심을 직선으로 연결하고, [하이퍼]면으로 같은 거리에서 같은 지점에서 절단합니다. [하이퍼]구체의 경계.

어떤 신경망도 하나의 소리를 다른 소리와 더 정확하게 분리할 수 없습니다.

단, 여기에서는 예약을 해야 합니다. 소리에 대한 정보가 모든 방향에서 균등하게 평균에서 벗어나는 점의 구름인 경우, 즉 초구에 잘 맞는 경우 이 모든 것이 사실입니다. 이 구름이 13차원 곡선 소시지와 같이 복잡한 모양의 그림이라면 위의 모든 추론이 옳지 않을 것입니다. 그리고 아마도 적절한 훈련을 통해 신경망은 여기에서 강점을 보여줄 수 있습니다.

그러나 나는 위험을 감수하지 않을 것입니다. 예를 들어 정규 분포 집합(GMM)을 적용할 것입니다(그런데 CMU Sphinx에서 수행됨). 어떤 특정 알고리즘이 결과를 가져왔는지 이해하면 항상 더 즐겁습니다. 신경망과 다름: Oracle은 여러 시간 동안 훈련 데이터를 추출하여 요청한 사운드가 3번 사운드인지 결정하도록 지시합니다. (특히 신경망에 자동차 운전을 맡기려고 할 때 짜증이 납니다. 그렇다면 비표준 상황에서 차가 왜 좌회전하고 우회전하지 않는지 이해하려면 어떻게 해야 합니까? 전능하신 뉴런이 명령한 것입니까?)

그러나 정규 분포 집합은 이미 이 기사의 범위를 벗어나는 별도의 큰 주제입니다.

기사가 유용했거나 두뇌 회선이 삐걱 거리게 만들었 으면합니다.

사용자가 일반 도구(키보드 및 마우스)를 사용하여 컴퓨터를 제어할 수 없는 몇 가지 이유가 있습니다. 먼저 다음과 관련이 있을 수 있습니다. 고장명명된 장치. 둘째, 이러한 필요성은 다음을 가진 사람들에게서 발생합니다. 신체적 장애가 있는. 마지막으로, 세 번째로 사용자는 원하는 것이 있습니다. 덜다직무 컴퓨터 작업그의 음성으로 그에게 명령을 내린다.

Windows OS에는 일반 음성 인식 응용 프로그램이 있지만 불행히도 러시아어는 지원하지 않고 영어, 프랑스어, 스페인어, 독일어, 일본어 및 중국어만 지원합니다.

Windows 배포의 인터페이스가 위의 언어 중 하나의 원어민을 위해 설계된 경우 물론, 당신은 그것을 말한다그런 다음 사용할 수 있습니다 일반 음성 인식 소프트웨어. 이렇게 하려면 3단계를 수행해야 합니다. 마이크를 설정, 간단한 코스를 수강하다음성으로 컴퓨터를 제어하는 방법(Windows에도 포함됨) 및 음성 인식 프로그램 자체 구성.

이렇게 하려면 다음이 필요합니다(OS 섹션에 대한 설명은 러시아어로 표시됨).

그러나 러시아어를 구사하는 Windows 사용자는 어떻습니까?다행히도 타사 프로그램을 사용하는 방법이 있습니다. 유료와 무료 모두 그러한 응용 프로그램이 많이 있습니다. Windows 시스템이 설치된 컴퓨터의 음성 제어를 위한 모든 응용 프로그램 중에서 특히 두드러집니다. 유형. 그것에 대해 더 논의 할 것입니다.

Type으로 컴퓨터 제어하기

음성으로 컴퓨터를 제어하는 것을 선호하는 대다수의 사용자에 따르면 이 프로그램은 유형최고 중 하나입니다(최고가 아닌 경우).

이 작은 응용 프로그램은 데이터베이스에서 사용 가능한 명령을 실행할 수 있을 뿐만 아니라 사용자 지정 명령 생성도 지원합니다. 이 응용 프로그램에서 특히 높이 평가되는 것은 후자입니다.

프로그램이 배포됩니다 무료이다하지만 무료 버전에는 제한사용자 지정 명령을 생성하기 위한 것입니다. 그러나 이러한 기능은 일반 사용자에게 충분합니다.

그래서, 프로그램 다운로드 및 설치. 처음 시작할 때 응용 프로그램에서 일부 개인 데이터를 입력하라는 메시지가 표시됩니다. 이 필드에 모든 문자를 입력할 수 있습니다. 그런 다음 라이선스를 선택해야 합니다. 제공되는 3가지 옵션 중에서 첫 번째 옵션을 선택하고(모든 비문이 영어로 표시될 때까지) 다음을 클릭합니다.

응용 프로그램이 작동하는 데 필요한 정보를 수집한 후 힌트가 포함된 시작 창이 표시됩니다.

유형버튼을 클릭하라는 메시지가 표시됩니다. 추가하다". 클릭한 후에는 이름을 입력해야 합니다(아무거나 입력). 이는 컴퓨터의 유일한 사용자가 아닌 경우 응용 프로그램이 명령을 정확하게 실행할 수 있도록 하기 위해 필요합니다. 또한 필드를 채우십시오 키워드 입력"(제안된 옵션을 남길 수 있습니다." 열려있는»). 이것은 명령을 실행하는 데 사용되는 단어입니다.또는 오히려 이 문구 프로그램에 명령을 실행하라는 신호를 줄 것입니다.다음에 발음할 것입니다.

녹음 버튼을 누른 다음 구를 말하는 것입니다(녹음 길이는 1.5초 미만이어야 함). 확인하려면 " 열려있는". 등록 성공 후 유형녹음된 명령을 저장할 것인지 묻습니다.

다음 버튼을 클릭하십시오 " 추가하다» 상단 메뉴에서. 마이크에 키워드를 발음한 후 실행할 프로그램을 선택해야 하는 창이 열립니다. 예를 들어 응용 프로그램을 오페라 35"(브라우저, 플레이어 또는 Skype와 같은 일부 메신저와 같은 프로그램을 선택할 수 있습니다.)

창 바닥에주의하십시오. 확인란은 현재 "로 설정되어 있습니다. 프로그램 및 파일". 다른 항목을 강조 표시할 수도 있습니다. 예를 들어 " Windows 파일". 이제 실행할 명령을 선택하는 창에 표준 Windows 프로그램(메모장, 그림판, 명령줄 등)과 " 업데이트 센터" 또는 " 디스크 조각 모음 마법사" 다른 사람. 이것은 종종 컴퓨터 시스템을 설정해야 하는 사용자에게 편리한 기능입니다.

또 다른 흥미로운 능력 유형- 선택한 인터넷 사이트를 여는 기능. 이렇게 하려면 " 인터넷 즐겨찾기» 목록에서 원하는 사이트를 선택하세요.

적절한 조치를 선택했으면 다음을 수행해야 합니다. 명령을 기록하다. 이렇게 하려면 선택한 작업(프로그램, 사이트 등)의 이름이 쓰여진 필드 옆에 있는 녹음 아이콘을 클릭한 다음 구를 발음합니다. 우리의 경우 이것은 오페라».

항목을 성공적으로 저장한 후 프로그램을 사용하여 명령이 올바르게 실행되었는지 확인할 수 있습니다. 유형. 이렇게하려면 마이크에 "라는 단어를 말해야합니다. 열려있는"라고 말한 다음 특정 프로그램을 실행하기 위해 마지막 단계에서 적어 둔 문구를 즉시 입력하십시오. 우리의 경우 명령은 " 오페라를 발견하다». 이 단어 후에 프로그램이 자동으로 브라우저를 시작합니다..

보시다시피 프로그램을 사용하여 컴퓨터를 관리하십시오. 유형그렇게 어렵지 않습니다. 말을 하면 특정 응용 프로그램을 실행하거나 문서를 열거나 비디오 또는 음악 재생을 시작하는 다양한 명령을 만들 수 있습니다.

Windows의 음성 제어

러시아어 음성을 사용하여 컴퓨터를 제어할 수 있는 무료 소프트웨어부터 시작하겠습니다. 그를 설득하여 프로그램을 열고 일부 작업을 수행하는 등의 작업을 수행할 수 있습니다. 그리고 당신의 손은 더 중요한 일에 자유로울 것입니다.

유형

이 프로그램은 모국어인 러시아어로 컴퓨터를 명령할 수 있는 프로그램 중 선두주자입니다. 설치 후에는 "열기"라는 단어가 권장되지만 사용자를 만들고 "Ok, Windows"와 같은 키워드를 제시해야 합니다. 우리가 이야기하기 시작한 것은 그로부터 Google Glass에 친숙한 구현이 존재한다는 것입니다.

그런 다음 사용자를 위한 명령을 선택합니다. 일부 프로그램의 실행만 추가할 수 있으며, 추가 클릭 시 프로그램을 직접 선택하고 임의의 인수를 추가합니다. 아마도 프로그램 시작에 무언가가 추가되면 조치가 있을 것입니다. 그러나 일반적으로 일반 사용자는 컴퓨터를 완전히 관리할 수 없으며 사용자 또는 다음 트랙에 대한 일시 중지 없이 그냥 실행하고 실행합니다.

컴퓨터의 제스처 제어

PlayStation®Eye Camera와 kinect의 등장 이후로 사람들은 컴퓨터에서 동일한 기능을 원했습니다. 나중에 Kinect는 개발자들에게까지 팔렸지만 일반 사용자에게는 그런 제품이 발표되지 않았습니다. 그리고 Xbox One이 탑재된 Kinect 2.0이 컴퓨터에서 작동하지 않는다는 뉴스도 있지만 PC용 Kinect의 특별 버전은 있을 것입니다. 사실, 적절한 소프트웨어가 없으면 이점이 거의 없습니다. 이제 소프트웨어 자체로 넘어 갑시다.

제스처를 제어하는 가장 인기 있고 저렴한 방법은 Flutter 프로그램과 해당 Chrome 확장 프로그램입니다. 거의 모든 웹캠이 이 프로그램에서 작동합니다.

몇 가지 기능이 있지만 매우 잘 작동합니다. 일시 중지하고 손바닥을 계속 표시할 수 있습니다. 손가락으로 가리키는 위치에 따라 트랙이나 비디오를 왼쪽이나 오른쪽으로 전환합니다. 이 프로그램은 PowerPoint, VLC, Winamp, iTunes, YouTube 및 여기에서 소수의 사람들이 사용하는 기타 여러 서비스에서 작동합니다.

적절한 작동을 위해서는 웹캠과 거리를 두는 것이 바람직하지만 무작위는 아닙니다. 눕는 것은 똑바로 앉는 것보다 훨씬 통제하기 어렵습니다. 저는 개인적으로 손이 더러워졌을 때나 누워있을 때만 유튜브를 이용합니다. 무작위적인 움직임은 없었습니다. 그러나 여전히 완전한 바보처럼 모니터 앞에 앉아서 손을 흔들면 오류가 있습니다.

분명히 Flutter는 2013년 10월에 Google이 스타트업을 인수했기 때문에 곧 Chrome에 대한 완전한 지원을 받게 될 것입니다.

도약 모션

소프트웨어에서 장치로 넘어갑시다. Leap Motion은 작은 외모와 잠재력으로 자신감을 불러일으킵니다. 이것은 사용자의 손, 더 정확하게는 각 손가락을 정의합니다. 수많은 앱과 게임이 있는 나만의 스토어는 지루하지 않습니다. 그리고 가장 중요한 것은 이미 판매 중이며 약 5,000 루블입니다. 그런 종류의 마법에는별로 없습니다.

하지만 사실 단점도 많다. Habré에 대한 토론과 사용자 중 한 사람의 의견까지있었습니다. 손은 항상 손목이 장치 위에 올려져 있어야 합니다. 그게 쉽습니까? 5분 동안 유지합니다.

응용 프로그램에 관해서는 모든 무료 응용 프로그램이 버그가 있고 충돌한다는 것도 큰 마이너스입니다. 그리고 게임은 이해할 수 없는 LSD 여행의 무리입니다. 예, 관리하기가 불편합니다. 정확성은 반대 방향으로 진행되며 모든 잘못된 손 움직임은 예상치 못한 결과를 초래합니다.

그리고 Leap Motion 드라이버 자체가 컴퓨터의 거의 모든 리소스를 소모합니다. 그러나 이것이 당신을 멈추지 않는다면 언제나처럼 사무실에서 구입하십시오. 웹사이트. 그것도 러시아어로 말이다.

듀오 3D

러시아 개발자의 유사한 기술도 존재합니다. 그들은 두 개의 Eye Camera를 가지고 소프트웨어를 작성하고 kickstarter에서 회사를 만들었습니다. 불행히도 실패. 계획된 $110,000 중 $62,000를 모았습니다. 특히 그들이 도착하려면 모든 것을 모아야 하기 때문에 이 돈조차 받지 못할 것이기 때문에 안타까운 일입니다.

이제 장치는 무료로 판매되지만 우리 사람들의 이러한 발전이 그렇게 사라지지 않기를 바랍니다.

묘

어서, Myo에 대해 들어본 적이 없는 사람. 경쟁사와 달리 카메라를 사용하지 않고 근육의 움직임을 인식하여 제스처를 감지하는 팔찌. 아름다운 비디오와 놀라운 기능은 모두와 나를 매수했습니다. 팔찌를 판매할 수 있게 되면 애플리케이션과 모든 통합이 알려지고 리뷰가 표시되고 나는 이 멋진 것을 살 것입니다.

이제 팔찌를 150달러에 선주문할 수 있지만 원시 버전을 구입하는 것이 두렵습니다.