博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫中遇到“\xb5”、“xa0”等字符时报错编码错误的处理方式
阅读量:5364 次
发布时间:2019-06-15

本文共 3409 字,大约阅读时间需要 11 分钟。

写python爬虫是遇到编码错误 

报错为:

UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 

经过多方查找发现 \xa0是html网页源码中的空格

解决方法

替换掉字符 :replace(u'\xa0', u' ')

下面是一些html中的常见符号

chr 

HexCode  

Numeric  

HTML entity 

"

\x22

"

"

&

\x26

&

&

\x3C

<

<

\x3E

>

>

空格

\xA0

 

 

¡

\xA1

¡

¡

¢

\xA2

¢

¢

£

\xA3

£

£

¤

\xA4

¤

¤

¥

\xA5

¥

¥

¦

\xA6

¦

¦

§

\xA7

§

§

¨

\xA8

¨

¨

©

\xA9

©

©

ª

\xAA

ª

ª

«

\xAB

«

«

¬

\xAC

¬

¬

 

\xAD

­

­

®

\xAE

®

®

¯

\xAF

¯

¯

°

\xB0

°

°

±

\xB1

±

±

²

\xB2

²

²

³

\xB3

³

³

´

\xB4

´

´

µ

\xB5

µ

µ

\xB6

¶

¶

·

\xB7

·

·

¸

\xB8

¸

¸

¹

\xB9

¹

¹

º

\xBA

º

º

»

\xBB

»

»

¼

\xBC

¼

¼

½

\xBD

½

½

¾

\xBE

¾

¾

¿

\xBF

¿

¿

×

\xD7

×

×

÷

\xF7

÷

÷

ƒ

\u0192

ƒ

ƒ

ˆ

\u02C6

ˆ

ˆ

˜

\u02DC

˜

˜

\u2002

 

 

\u2003

 

 

\u2009

 

 

 

\u200C

‌

‌

 

\u200D

‍

‍

 

\u200E

‎

‎

 

\u200F

‏

‏

\u2013

–

–

\u2014

—

—

\u2018

‘

‘

\u2019

’

’

\u201A

‚

‚

\u201C

“

“

\u201D

”

”

\u201E

„

„

\u2020

†

†

\u2021

‡

‡

\u2022

•

•

\u2026

…

…

\u2030

‰

‰

\u2032

′

′

\u2033

″

″

\u2039

‹

‹

\u203A

›

›

\u203E

‾

‾

\u2044

⁄

⁄

\u20AC

€

€

\u2111

ℑ

ℑ

?

\u2113

ℓ

 

\u2116

№

 

\u2118

℘

℘

\u211C

ℜ

ℜ

\u2122

™

™

\u2135

ℵ

ℵ

\u2190

←

←

\u2191

↑

↑

\u2192

→

→

\u2193

↓

↓

\u2194

↔

↔

\u21B5

↵

↵

\u21D0

⇐

⇐

\u21D1

⇑

⇑

\u21D2

⇒

⇒

\u21D3

⇓

⇓

\u21D4

⇔

⇔

\u2200

∀

∀

\u2202

∂

∂

\u2203

∃

∃

\u2205

∅

∅

\u2207

∇

∇

\u2208

∈

∈

\u2209

∉

∉

\u220B

∋

∋

\u220F

∏

∏

\u2211

∑

∑

\u2212

−

−

\u2217

∗

∗

\u221A

√

√

\u221D

∝

∝

\u221E

∞

∞

\u2220

∠

∠

\u2227

∧

∧

\u2228

∨

∨

\u2229

∩

∩

\u222A

∪

∪

\u222B

∫

∫

\u2234

∴

∴

\u223C

∼

∼

\u2245

≅

≅

\u2248

≈

≈

\u2260

≠

≠

\u2261

≡

≡

\u2264

≤

≤

\u2265

≥

≥

\u2282

⊂

⊂

\u2283

⊃

⊃

\u2284

⊄

⊄

\u2286

⊆

⊆

\u2287

⊇

⊇

\u2295

⊕

⊕

\u2297

⊗

⊗

\u22A5

⊥

⊥

\u22C5

⋅

⋅

\u2308

⌈

⌈

\u2309

⌉

⌉

\u230A

⌊

⌊

\u230B

⌋

⌋

\u2329

〈

⟨

\u232A

〉

⟩

\u25CA

◊

◊

\u2660

♠

♠

\u2663

♣

♣

\u2665

♥

♥

\u2666

♦

♦

转载于:https://www.cnblogs.com/muty/p/11016406.html

你可能感兴趣的文章
SQL Server索引 - 聚集索引、非聚集索引、非聚集唯一索引 <第八篇>
查看>>
转载:详解SAP TPM解决方案在快速消费品行业中的应用
查看>>
Android OpenGL ES 开发(N): OpenGL ES 2.0 机型兼容问题整理
查看>>
项目中用到的技术及工具汇总(持续更新)
查看>>
【算法】各种排序算法测试代码
查看>>
HDU 5776 Sum
查看>>
201521123044 《Java程序设计》第9周学习总结
查看>>
winfrom 图片等比例压缩
查看>>
人工智能实验报告一
查看>>
用LR12录制app,用LR11跑场景,无并发数限制,已试验过,可行!
查看>>
python 多线程就这么简单(转)
查看>>
oracle 简述
查看>>
ajax如何向后台传递数组,在后台该如何接收的问题(项目积累)
查看>>
Solr之java实现增删查操作
查看>>
httpClient连接工具类实测可用
查看>>
CDOJ 1965 连通域统计【DFS】
查看>>
飞机大战3-我的飞机
查看>>
c#接口
查看>>
MyEclipse部署Jboss出现java.lang.OutOfMemoryError: PermGen space
查看>>
ZOJ 1133
查看>>