下午做了个 采集的小程序,碰到了几个问题, 但是 通过各种手段,还是解决了!
采集程序大致是这样的, 就是从两个网页上采集 没有开始的比赛, 要现采集
今天碰到的最大的问题就是编码的问题 , 我获得的网页的内容是gbk 的, 但是我网站的内饰是utf-8 的, 所以 就 一个编码的转换, 但是呢,我如果运用 iconv 转换 我 得到的内容, 他会 出现问题, 把正则就给破坏了,
但是呢如果 不在获得 内容后就转码, 会给 后面带来很多不方便的地方。
$contents = file_get_contents($url);
$contents = mb_convert_encoding($contents,”UTF-8″, “GBK”);//这句话是程序成功的重中之重
我说的意思就是 获得网页的内容后,立刻的转码, 必须在这里,! 如果 存在中文 ,必须用 mb_convert_encoding 这个函数, 不能用iconv 这个函数。 千万要记住。
mb_convert_encoding($contents,”UTF-8″, “GBK”);// 第一个参数是要处理的内容,第二个是目的编码, 第三个是转换后的编码
呵呵, 只要是编码问题解决了,程序的问题就是小事了,
最近没上班, 没接触到那么多的东西, 感觉还是有东西做比较好, 这样会碰到 各种个样的问题, 去让你解决, 我一定待快快的投入到程序的战斗当中去。。 呵呵 , 明天入职了, 入职了
王志博23:43
暂无任何评论。