主页 > 教程合集 > 工具推荐 >

PHP采集HTML后中文乱码 转换编码为UTF-8的方法

时间:2020-08-26 阅读:0

HTML字符集是CP936转UTF-8,GB2312转UTF-8,GBK转UTF-8,PHP采集HTML后中文乱码,转换编码为UTF-8的方法

PHP采集HTML后中文乱码 转换编码为UTF-8的方法

这个任务最初是使用QueryList插件来采集分析页面的,但是后来发现采集入库的数据中有乱码,查看分析了一下,全部是源页面字符集为非utf-8的页面,那么就利用QueryList自有的方法来转码。


$result = $ql->get('http://'.$url, null, $options)
                ->rules($rules)
                ->encoding('UTF-8','GB2312')
                ->removeHead()
                ->query()
                ->getData();
 

QueryList官方文档 中介绍,使用encoding('UTF-8','GB2312')方法可以解决,但是实际情况是页面字符集多种多样,刚才测试了三个网站三种编码,CP936,EUC-CN,GBK,真是玩死朕了。那么官方还说如果还是不能解决乱码问题就把removeHead()函数也挂上,没挂之前我感觉它应该是不好使,那也要试一下才能真正的确定啊,试了一下,结果确实还是乱码。

QueryList有时有点诡异,采集时有时会缺内容,不知所以然。

此路不通,只能另寻他途。

思路就是,采集部分就不使用QueryList,使用自己写的Curl吧,之后分析编码,转码,再交给QueryList去分析HTML,再提取相关数据。

下面是各种字符集转为UTF-8编码的函数:


  /**
          * 采集的HTML转码
          * 事由:因为采集到非UTF-8的页面会出现中文乱码,又因为会采集不特定的多个网站,只能先判断页面编码后转码
          * @param string $html
          * @param string $charset 如果此值为 true,则返回此HTML的字符集
          * @return null|string|string[]
          */

        function htmlConvertEncode($html, $charset='UTF-8')
        {
                // 检测编码
                $encode = mb_detect_encoding($html, array("ASCII","UTF-8","GB2312","GBK","CP936","BIG5","EUC-CN"));
                // 转码
                if($encode != $charset){
                        return mb_convert_encoding($html, 'UTF-8', $encode);
                }
                // 返回字符集
                if($charset === true){
                        return $encode;
                }
                return $html;
        }
 

升级为终身VIP,即可免费下载全站所有千余TB网络资源,点击 >>> 资源目录 查看所有资源,覆盖音乐、影视、有声书、电子书、漫画、动漫、课程等,不限时间次数,永久免费,点击 >>> VIP特权 了解更多!

余斗余斗
  • 版权声明:原创文章由发表在工具推荐分类下,2020-08-26最后更新,转载注明出处。

相关推荐

返回顶部