[[20170727202418]] 『ホームページの決まった場所へアクセスして必要情』(ぱるる) ページの最後に飛ぶ

[ 初めての方へ | 一覧(最新更新順) | 全文検索 | 過去ログ ]

 

『ホームページの決まった場所へアクセスして必要情報取り出ししたい』(ぱるる)

下記のホームページから「この医院の詳細を見る」にアクセスして
医院名と電話番号、住所、ホームページのアドレスを入手しエクセルへ書き出したいです。

アドレスが、ない場合は書き出しはしないで良いです。
東京都23区と、これ以外に美容院や病院もしなければいけないのでなんとかならないかと
思ってます。
アドレスのないものが、多いので実際には終わったとこの例でいうと629件中88件です。

http://www.haishasan.net/exec/pref/-/130050.html

宜しくお願い致します。

< 使用 Excel:Excel2013、使用 OS:Windows7 >


そのサイトの利用規約には、下記の記述があります。
> 本WEBサイト上のコンテンツは、弊社又は弊社が利用許諾を受けた第三者財産であり、著作権法によって保護されております。
> 非営利的且つ個人的な使用を除き、弊社の事前許可なくして、本WEBサイトの一部又は全部を複製・転載・変更・再配布・使用・他の言語に翻訳することを禁じます。
 
どんな目的で情報を取得しようとしていますか?
東京都23区のすべての歯医者を利用する個人はいないわけで、
個人の通常利用を超える、サイトの複製行為とみなされると思います。
運営組織の許可を得ていますか?
業務上の必要があるなら、許可を得るべきでしょう。
 
無許可での業務上利用ということであれば、
他人を巻き込むことは止めてください。
 
むろん技術的には可能でしょう。
すべてのリンクをたどっていけばデータ取得は可能ですし、
当該部分の情報だけを切り出すことも可能です。
「VBA スクレイピング」といったキーワードで検索すると、
色々な情報が得られます。
まずはご自分でトライしたうえで、詰まったところを質問すべきでしょう。
上記の背景説明が必要ですし、
最初からコード一式求めるのはいかがなものでしょうか。
  
なお、数年前「岡崎図書館事件」というものがありました。
図書館サイトへの連続アクセスが発端になって、
操作者が一時逮捕されることになった事件です。
逮捕は不当なものであったわけですが、こうした事例もあるので、
少なくとも一定の間隔をあけてアクセスするといった配慮をはじめ、
トラブルになるリスクは避ける必要があるでしょう。

(γ) 2017/07/28(金) 06:45


そのページのトップは、http://www.haishasan.net/haisha_html/sagase/ かと思います。マクロ抽出するならば、トップに条件指定し、検索ボタンを押し、出てきた結果からテーブル解析して情報を抜き出す。そして複数ページならページ送りしつつ、同じ事を繰り返す。 こういうちょっと高度なコーディングが必要になります。 不可能ではないですが、ちょこっと掲示板で書いてあげるレベルではないので、どこか有料で作成してくれるところで頼んだほうがよろしいかと思います。

また、Excelの「データ」−「外部データの取り込み」−「Webクエリ」を使うという手もあるのですが、対象が1件1表なのでまとめて指定できないし、試してみたところスクリプトエラーになり、うまくいきませんでした。 お手軽案だったのですが、残念。
(???) 2017/07/28(金) 09:53


私もWebクエリはやりましたが、
HTTP 403(forbidden)が返りましたので、
何らかの自衛措置はとっているものと思料。
ただし、ふつうにXMLHTTPRequestではstatus 200が
返りました。(headコマンドだけでしたが)
複数ページも、urlの数値をカウントアップするだけです。
比較的簡単な作りかもしれません。
朝の記憶で書いているので話半分で。
(γ) 2017/07/28(金) 13:09

コメント返信:

[ 一覧(最新更新順) ]


YukiWiki 1.6.7 Copyright (C) 2000,2001 by Hiroshi Yuki. Modified by kazu.