最近做字幕的時候發現一個通過聲音控制IE瀏覽器的方法。本來是要制作字幕的,后來想想如果純手工制作字幕的話那么效率肯定非常低,做為程序員,本能的想到了讓計算機來幫忙。做字幕就是從聲音識別出文字,然后在校對時間軸。很機械化的操作,非常適合計算機的來做。通過搜索很快找到了解決方案。使用Microsoft Speech SDK+Python+PythonWin。雖然微軟的語音識別引擎已經很強大了,但是要用它來制作字幕還有很長的路要走。字幕做不成了,不過用它來操控瀏覽器還是錯錯有余的。發現使用語音功能操作IE瀏覽器還是非常方便,只要設置好語句,IE瀏覽器就可以自動進行相關的操作。
下面是我已經實現的一些功能。(=>符號前面是你要說的話,后面是瀏覽器執行的操作)
“顯示瀏覽器”=>打開瀏覽器,“谷歌”=>進入谷歌的頁面,“百度”=>進入百度的頁面,“優酷”=>進入優酷的頁面等等,“后退”=>返回上一個頁面,“最大化”=>最大化瀏覽器,“下拉”=>下拉網頁,“上拉”=>上拉網頁,“放大”=>放大網頁,“縮小”=>縮小網頁,“關閉瀏覽器”=>關閉瀏覽器。
搭建測試環境:
1.從微軟官網下載SpeechSDK51.exe和SpeechSDK51LangPack.exe
2.下載Python2.6+PythonWin+wxPython和啟動語音識別的腳本文件。從這里打包下載。
3.安裝SpeechSDK51.exe,SpeechSDK51LangPack.exe
4.安裝Python2.6,PythonWin,wxPython
5.運行開始菜單->所有程序->Python2.6— >PythonWin,選擇Tools -> COM MakePy utility -> Microsoft Speech Object Library 5.0
6.在控制面板的語音里面,在語言里選Microsoft Simplified Chinese Recognizer,在語音選擇里選Microsoft Simplified Chinese
環境搭建完成,運行SpeechGui.py腳本就可以來用聲音操控瀏覽器。不過由于Python+PythonWin的強大威力,不單單只有IE瀏覽器可以進行該操作,只要軟件能夠支持com的應用就都可以顯示語音操控,比如微軟的Windows Media Player,Word,Excel等軟件。強烈建議大家自己手動去發掘和制作更多有意思的功能。
新聞熱點
疑難解答