本文實例講述了Python2實現的圖片文本識別功能。分享給大家供大家參考,具體如下:
這里需要用到python的幾個庫,分別是pytesser,以及pytesser的依賴庫PIL。python的版本建議用2.7或者2.7一下的都行,不建議用python3以上的,因為python3不向下兼容,所以有很多python2的東西它不支持
pytesser下載的話,我直接在pycharm里面下全是失敗,用DOS的命令行下也是失敗,所以還是自己直接去google下吧
地址:http://code.google.com/p/pytesser/downloads/list
如果打不開上面的網址的話可以從我的資源里面下載,點擊此處本站下載。
下載好了之后安裝,步驟:
1. 解壓pytesser ,將解壓后的文件復制到Python安裝目錄的Lib/site-packages下,直接使用,比如我的安裝目錄是:C:/Python27/Lib/site-packages。
2. 這里我建立好的pytesser目錄為C:/Python27/Lib/site-packages/pytesser/
3. 接下來打開pytesser文件夾,將pytesser.py修改成__init__.py,然后打開py文件進行修改:
①.import Image
改為:from PIL import Image
②.tesseract_exe_name = 'tesseract'
—>tesseract_exe_name = 'C://Python27//Lib//site-packges//pytesser//tesseract
,注意雙斜杠,否則可能因為轉義字符報錯
接下來就是下載PIL了。這個我在pycharm里面也是下載失敗,提示沒有找到適合python版本的PIL。
可以在DOS命令行下用命令下:pip install Pillow
這里要注意的是如果要直接在DOS下用pip命令的話要先把pip的路徑加到環境變量path里面去,例如我的pip路徑:“D:/python2.7.13/Scripts/”
注:小編嘗試后發現
PIL
安裝很麻煩,推薦下載exe直接安裝具體可至PIL官網查找對應安裝版本:http://pythonware.com/products/pil/
全部下載完之后就可以開始拿圖片測試了。這里我們先拿上面下載的pytesser壓縮包里面給的測試圖片來測試
代碼如下:
from pytesser import *img=Image.open("D://fnord.tif") #我這里是直接把圖片復制在d盤下。可以隨意更改。如果是d盤下的XX文件夾,路徑就是:d:/XX//fnord.tif#一些對python不熟悉的小伙伴要注意的是這個路徑只有最后一個斜杠要改成雙斜杠,前面的都是單斜杠,如果不是這樣的話在pycharm里面就會報一些看不懂的錯誤,百度到死都不知道怎么解決。print image_to_string(img)
或者可以寫成:
print image_file_to_string("D://fnord.tif")
這里需要注意一下,直接運行上面的代碼的話可能會報一個找不到Image類的錯誤,具體我也不是很清楚,可能是因為pytesser只支持PIL的Image類吧,因此我們還要改一個東西,就是上面步驟3中pytesser包里面__init__.py 文件的第一行:
新聞熱點
疑難解答