代码拉取完成,页面将自动刷新
同步操作将从 tikazyq/spider-gsxt 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
企业查询爬虫
安装python依赖包
pip3 install -r requirements.txt
vi config.py
python3 app.py
/crawl?name=xxxx
name
为需要查询企业名称
sudo apt-get install libxss1 libappindicator1 libindicator7 libnss3
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome*.deb
到 http://chromedriver.storage.googleapis.com/index.html 下载并安装最新版本的chromedriver (2.33)
wget -N http://chromedriver.storage.googleapis.com/2.33/chromedriver_linux64.zip
unzip chromedriver_linux64.zip
chmod +x chromedriver
sudo mv -f chromedriver /usr/local/share/chromedriver
sudo ln -s /usr/local/share/chromedriver /usr/local/bin/chromedriver
sudo ln -s /usr/local/share/chromedriver /usr/bin/chromedriver
安装xvfb
sudo apt-get -y install xvfb gtk2-engines-pixbuf
sudo apt-get -y install xfonts-cyrillic xfonts-100dpi xfonts-75dpi xfonts-base xfonts-scalable
数据表名为companies
字段映射:
# 注册资本(万)
register_capital
# 法定代表人
representative
# 成立日期
establish_date
# 经营范围
business_scope
# 公司名称
company_name
# 住所(公司地址)
company_address
# 统一社会信用代码
credit_code
# 更新时间
update_ts
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。