已知一個二進制串(UTF-8編碼格式)列表(每一項為一字節(jié)8bit):
b=['01010000', '01111001', '01110100', '01101000', '01101111', '01101110', '11100101', '10100100', '10100111', '11100110', '10110011', '10010101']
#即字符串"Python大法"
如何將其轉(zhuǎn)換為字符串呢?
string = ""
for i in b:
string += chr(int(i,2))
print(string)
#這種方式對應(yīng)純ASCII編碼的字符串是可以的
但UTF-8不可以,我們知道UTF-8是變長的,一個字符通常要占到3個甚至4個字節(jié),上述代碼運行結(jié)果是:
'Python?¤§?3x95'
很明顯因為中文字符占到三個字節(jié),自然每個字節(jié)chr()一次自然會亂碼。那又該如何處理變長的UTF-8編碼呢?
附:
UTF-8編碼方式:
1.對于單字節(jié)的符號,字節(jié)的第一位設(shè)為0,后面7位為這個符號的unicode碼。因此對于英語字母, UTF-8編碼和ASCII碼是相同的。
2.對于n字節(jié)的符號(n>1),第一個字節(jié)的前n位都設(shè)為1,第n+1位設(shè)為0,后面字節(jié)的前兩位一律設(shè)為10。剩下的沒有提及的二進制位,全部為這個符號的unicode碼。
其他的一些相關(guān)問題:
https://segmentfault.com/q/10...
https://segmentfault.com/q/10...
這里我想到一個處理多字節(jié)UTF-8的思路,大家看看是否可行:
(循環(huán))當(dāng)檢測到一項的前兩位是"11"時,用正則提出前面的所有1,即這個字符所占字節(jié)數(shù),然后找到后面的字節(jié),去掉10,然后將這幾個字節(jié)去掉前面的部分("1110"/"10")后剩下的合并,就是這個字符對應(yīng)的Unicode編碼了,然后chr(int(i,2))。
那么請教大家,這樣的思路該如何實現(xiàn)?或者各路大神有什么簡便算法呢?抑或是有相關(guān)模塊可以做這樣的處理呢?(初入勿怪)
北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國家
北大青鳥中博軟件學(xué)院創(chuàng)立于2003年,作為華東區(qū)著名互聯(lián)網(wǎng)學(xué)院和江蘇省首批服務(wù)外包人才培訓(xùn)基地,中博成功培育了近30000名軟件工程師走向高薪崗位,合作企業(yè)超4
中公教育集團創(chuàng)建于1999年,經(jīng)過二十年潛心發(fā)展,已由一家北大畢業(yè)生自主創(chuàng)業(yè)的信息技術(shù)與教育服務(wù)機構(gòu),發(fā)展為教育服務(wù)業(yè)的綜合性企業(yè)集團,成為集合面授教學(xué)培訓(xùn)、網(wǎng)
達內(nèi)教育集團成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機構(gòu),是中國一站式人才培養(yǎng)平臺、一站式人才輸送平臺。2014年4月3日在美國成功上市,融資1
曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項目經(jīng)理從事移動互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負責(zé)iOS教學(xué)及管理工作。
浪潮集團項目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺面向?qū)ο箝_發(fā)經(jīng)驗,技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點難點突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗。曾經(jīng)歷任德國Software AG 技術(shù)顧問,美國Dachieve 系統(tǒng)架構(gòu)師,美國AngelEngineers Inc. 系統(tǒng)架構(gòu)師。