全国统计用区划代码和城乡划分代码 2022年数据[爬虫]【Json+CSV格式】

<noscript>
<h1><strong>Please enable JavaScript and refresh the page.</strong></h1>
</noscript>

所以为了正常获取数据可以使用selenium来获取页面源代码之后在使用以前的bs4来处理数据。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from lxml import etree


chrome_options = Options() # 实例化Option对象
chrome_options.add_argument('--headless') # 把Chrome浏览器设置为静默模式
chrome_options.add_argument('--disable-gpu') # 禁止加载图片
driver = webdriver.Chrome(options = chrome_options) # 设置引擎为Chrome,在后台默默运行

def http_get(url):
    driver.get(url)
    return driver.page_source

此时就可以正常获取数据了。

json转csv工具参数说明:

(venv) (base) zhongming@ZhongMingdeMacBook-Pro get_district % python json2csv.py   
****************************************************************************************************
国家统计局行政区划爬虫 Json转CSV
http://h4ck.org.cn
obaby@mars
Usage: json2csv -a -i <inputfile> -o <outputfile>
 -a 转换当前目录下所有json文件
 -i json文件
 -o 转换后的csv文件
****************************************************************************************************

代码有bug ,-o参数无效,如果要使用-o参数,请自行修改代码。另外,如果转换出错,请删除报错的json文件,重新生成,多数是由于网络问题,导致json文件数据不完整导致的错误,重新爬取对应的省份即可。

csv文件结构预览:

项目开源代码地址:

https://github.com/obaby/administrative-division-spider

 

☆版权☆

* 网站名称:obaby@mars
* 网址:https://h4ck.org.cn/
* 个性:https://oba.by/
* 本文标题: 《全国统计用区划代码和城乡划分代码 2022年数据[爬虫]【Json+CSV格式】》
* 本文链接:https://image.h4ck.org.cn/2023/04/11864
* 短链接:https://oba.by/?p=11864
* 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。


You may also like

5 comments

    1. 公主 Queen 
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn中国–山东–青岛 移动

      这个数据还是非常全的,全国的行政区划基本都有了

  1. Level 1
    Microsoft Edge 112 Microsoft Edge 112 Windows 10 Windows 10 cn中国–内蒙古–通辽 电信

    数据挺全,还是最新的数据。拿走了,谢谢 dance dance

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注