下做了个 采集的小程序,碰到了几个问题, 但是 通过各种手段,还是解决了!
采集程序大致是这样的, 就是从两个网页上采集 没有开始的比赛, 要现采集
, 把采集到的 内容在当作一个字符串, 然后在采集 里面的 的内容, 就是这么个流程。(这两天我会把程序完善然后贴出来)。
今天碰到的最大的问题就是编码的问题 , 我获得的网页的内容是gbk 的, 但是我网站的内饰是utf-8 的, 所以 就 一个编码的转换, 但是呢,我如果运用 iconv 转换 我 得到的内容, 他会 出现问题, 把正则就给破坏了,
但是呢如果 不在获得 内容后就转码, 会给 后面带来很多不方便的地方。
|