『 'AFast,EnjoyableHTMLParserforRuby¶' 』
html2regexpはHTML要素を抽出する正規表現を自動生成するツールです。 抽出対象のHTML要素を指定したHTMLファイ...
: HTML 中に文字セットが指定されていなかったときの、デフォルトの文字セット。 (ひとつのサイト中で文字コードが変わることは...
『 >>RubyによるWebScrapingライブラリの情報をまとめるためのWikiです。 』
どんなサイトでも、マッシュアップすることができる。APIが公開されていなくてもいい。新たなまとめサイトを構築し、情報付加価値を高...
ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケース...
RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS -...
こんにちは、編集マンの久次です。 なんだかPerlのWeb::Scraperが便利すぎで、やばいです。 これまでWWW::Mec...
AutoPagerizeのSITEINFOに含まれている、次のページへのリンクを示すXPathはAutoPagerize以外の用...
タケシが PHP やらでごにょごにょやっているとかゆっていたので、簡単に取得できる方法を書いとく。 どうやらすでに内部的にも G...
これはちょっと使ってみたい。忘れないようにメモ的エントリー。 htmlSQLはPHPで使うライブラリです。これを使えばHTMLの...
Webサイトを自動操作するのによく使われるのがスクレイピングと呼ばれる技術だ。HTMLを解析し、その中から希望の値を取り出して処...
CSS Selector in Perl とか subtechグループ - Bulknews::Subtech - CSS se...
HTMLのドキュメントから繰り返し部分をみつける - bits and bytesをベースにして、(ページによるけど)3回くらい...
『 rubyのHpricot、Mechanizeを使った高レベルscrapingライブラリ。記述がDSLで独特。使いやすいらしいがど... 』
『 「不正なフォーマットのHTMLファイルであってもパースが可能なほか、HTMLフォームの高度な操作機能などが提供されている。」との... 』
本稿では Ruby スクリプトを使用して Google にログインした後、 Google Bookmarks に1件のブックマー...
第二引数に extractor (専門用語)を指定することができる。extractor の書式では"@" プ...
HTMLをスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、 ページの構造が変化...
ちょっと前に、遅まきながら MT のバージョンを 3.171 から 3.2-ja-2 にアップグレードした。したら、はてなブック...