Rio157 / url_html_csv Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

BeautifulSoup、seleniumを用いたurl、textの取得、csvへの書き込み

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
driver		driver
gaishi		gaishi
white500		white500
README.md		README.md
at_search.py		at_search.py
at_search_html2csv.py		at_search_html2csv.py
at_search_html2csv_hit.py		at_search_html2csv_hit.py
at_url2csv.py		at_url2csv.py
at_url2csv_iterated.py		at_url2csv_iterated.py

Repository files navigation

url_html_csv

BeautifulSoup、seleniumを用いたurl、textの取得、csvへの書き込み

動作環境

Windows 10
WSL2
Ubuntu
Visual Studio Code

at_search_html2csv.py

csvからsearch_keywordsを取得→Google検索→1番初めのヒットURLを取得→.comまたは.jpで終わるように成型→csvに格納
企業HPを検索するために作成
YouTubeやindeedのような検索を除外
タブ数を増やしすぎて重くならないよう、3になるよう順次削除、新しいタブへ移動の操作を追加
selenium

at_search_html2csv_hit.py

csvからsearch_keywordsを取得→Google検索→ヒット数を取得→数字だけ取得→csvに格納
site:{URL}でページ内検索
[,'福利厚生','健康経営','リモートワーク','お問い合わせ']の検索キーワードを順次イテレーション
selenium
Google検索のため、recaptchaに引っかかってしまう 40回程度で引っかかる　解除時間不明、5時間以内

at_url2csv_iterated.py

fuma.co.jpにアクセス→企業名をurlに変換して検索→textを取得して成型→csvに格納
列は、["","本社位置","資本金","設立年","従業員数"]
beautifulsoup
fuma.co.jpについては、正しい企業名でなければ検索結果が不安定になる　
ex.)（株）→株式会社のように前処理が必要か

つまづいた点

recaptchaに気付かずびっくり
UserAgent認証が必要　chromeだが、versionを合わせること
WSL2は再起動後、もう一度有効化の処理が必要

About

BeautifulSoup、seleniumを用いたurl、textの取得、csvへの書き込み

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%