好久沒(méi)有寫博客了!昨天小牛在上海舉辦了牛友見(jiàn)面會(huì),現(xiàn)場(chǎng)優(yōu)惠還是比較大,心儀已久加上一時(shí)腦熱就入手了。以為會(huì)有多么開心,其實(shí)目前最大的感受就是焦慮!擔(dān)心電動(dòng)車被偷,擔(dān)心電池被偷,擔(dān)心路上突然被交警叔叔攔下!我想,直到我的小牛真的被偷的那天,這種焦慮才會(huì)隨之消失。唉,要說(shuō)這樣的焦慮怎么來(lái)的,我只能呵呵了:)
下面步入正題:
今天在幫我們家王博處理專利數(shù)據(jù)的時(shí)候,需要對(duì)專利數(shù)據(jù)中的城市和專利主體的合作關(guān)系數(shù)量進(jìn)行統(tǒng)計(jì)。一項(xiàng)專利其寫作主體可能由兩個(gè)或兩個(gè)以上主體參與,各個(gè)主體又分屬不同或者相同的城市,對(duì)其合作關(guān)系數(shù)量進(jìn)行統(tǒng)計(jì),其實(shí)就是對(duì)主體及城市進(jìn)行排列組合。Python的itertools庫(kù)中提供了combinations方法可以輕松的實(shí)現(xiàn)排列組合。使用之前我先自己寫了個(gè)簡(jiǎn)單的測(cè)試,代碼如下:
from itertools import combinationstest_data = {'a', 'a', 'a', 'b'}for i in combinations(test_data, 2): print i上面的代碼執(zhí)行后輸出為:
('a', 'b')這樣的輸出結(jié)果讓我覺(jué)得很困惑,我預(yù)期的結(jié)果是:
('a', 'a')('a', 'a')('a', 'b')('a', 'a')('a', 'b')('a', 'b')同一個(gè)專利里面的主體不會(huì)有重復(fù)的情況,但是主體所在的城市就會(huì)出現(xiàn)重復(fù)的情況,如果使用combinations在進(jìn)行排列組合時(shí)主動(dòng)忽略掉了重復(fù)的值,那我就只能自己來(lái)實(shí)現(xiàn)城市的排列組合了!自己實(shí)現(xiàn)排列組合也不難,但是這似乎不符合Python的風(fēng)格。再次走讀測(cè)試代碼,突然想到自己構(gòu)造的輸入數(shù)據(jù)是不是有問(wèn)題。
然后改成了下面這樣:
from itertools import combinationstest_data = ['a', 'a', 'a', 'b']for i in combinations(test_data, 2): print i
將大括號(hào)換成了中括號(hào)后輸出結(jié)果與預(yù)期完全一致!這讓我相當(dāng)困惑。首先是官方文檔對(duì)combinations方法的介紹說(shuō)的是:Elements are treated as unique based on their position, not on their value.,意思是combinations處理傳入的可迭代參數(shù)時(shí)是根據(jù)迭代元素的位置來(lái)確定是否唯一的,和元素的值是否唯一沒(méi)有關(guān)系。那使用{}和[]構(gòu)建的輸入數(shù)據(jù)有什么不同呢?本來(lái)是想寫這篇博客記錄一下問(wèn)題,等高手解答或者自己日后再來(lái)查證,結(jié)果一邊寫一邊整理思路,居然被我找到原因了!
其實(shí)很簡(jiǎn)單:使用大括號(hào){}創(chuàng)建的是集合或者字典,使用中括號(hào)[]創(chuàng)建的是數(shù)組,而集合具有互異性!
所以不管我在{}里面寫了多少個(gè)a,其實(shí)我傳入到combinations方法里面的參數(shù)值都只是:'a','b'。知道真相的我表示好尷尬,本來(lái)以為遇到一個(gè)多么深?yuàn)W的問(wèn)題,原來(lái)只是我Python的基礎(chǔ)知識(shí)太欠缺了!搞得我都不好意思把這篇博客發(fā)出來(lái)了(捂臉)
新聞熱點(diǎn)
疑難解答
圖片精選