I <font face="Arial, Helvetica, sans-serif">could borrow that if you decide.<br>
<br>
</font>-----Original Message-----<br>
From: lug-request@lug.boulder.co.us<br>
To: lug@lug.boulder.co.us<br>
Sent: Mon, 5 May 2008 10:12 pm<br>
Subject: LUG Digest, Vol 55, Issue 5<br>
<br>






<div id="AOLMsgPart_0_35028c2e-a2c6-4acb-9dd5-dcfab9cc6bac" style="margin: 0px; font-family: Tahoma,Verdana,Arial,Sans-Serif; font-size: 12px; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);">

<pre style="font-size: 9pt;"><tt>Send LUG mailing list submissions to<br>
    <a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
    <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
or, via email, send a message with subject or body 'help' to<br>
    <a href="mailto:lug-request@lug.boulder.co.us">lug-request@lug.boulder.co.us</a><br>
<br>
You can reach the person managing the list at<br>
    <a href="mailto:lug-owner@lug.boulder.co.us">lug-owner@lug.boulder.co.us</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of LUG digest..."<br>
<br>
<br>
Today's Topics:<br>
<br>
   1. Re: Web crawler advice (Jeffrey Haemer)<br>
   2. Re: Web crawler advice (Nate Duehr)<br>
   3. Re: Web crawler advice (George Sexton)<br>
   4. Re: Web crawler advice (Jeffrey Haemer)<br>
   5. Upcoming Installfest (<a href="mailto:bclarkinco@juno.com">bclarkinco@juno.com</a>)<br>
   6. Re: Web crawler advice (Sean Reifschneider)<br>
   7. Re: ADD-ON to Web crawler advice (Bear Giles)<br>
   8. Re: ADD-ON to Web crawler advice (George Sexton)<br>
   9. Re: Web crawler advice (Nate Duehr)<br>
  10. Re: Web crawler advice (George Sexton)<br>
  11. Re: Web crawler advice (karl horlen)<br>
  12. Re: Web crawler advice (Jeff Falgout)<br>
  13. Re: Web crawler advice (Bear Giles)<br>
  14. Re: Web crawler advice (George Sexton)<br>
  15. Re: ADD-ON to Web crawler advice (Bear Giles)<br>
  16. Re: Web crawler advice (Nate Duehr)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Mon, 5 May 2008 10:26:11 -0600<br>
From: "Jeffrey Haemer" <<a href="mailto:jeffrey.haemer@gmail.com">jeffrey.haemer@gmail.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID:<br>
    <<a href="mailto:5808d4420805050926y358ef070ne44d357deae2ff32@mail.gmail.com">5808d4420805050926y358ef070ne44d357deae2ff32@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="iso-8859-1"<br>
<br>
Gordon,<br>
<br>
I have an ORA book on web spidering that you can probably cannibalize useful<br>
stuff from.  If you're coming to the BLUG talk this Thursday, and want to<br>
borrow it, let me know and I'll bring it.<br>
<br>
On Mon, May 5, 2008 at 10:18 AM, <<a href="mailto:gordongoldin@aim.com">gordongoldin@aim.com</a>> wrote:<br>
<br>
>  I'm doing a project to analyze text content on the web:<br>
><br>
> i need to:<br>
><br>
> start with a list of URLs<br>
> for each URL in the URL list<br>
>    fetch the page<br>
>    throw away non-English pages<br>
>    extract the sentence text content, (not hidden text, menus, lists,<br>
> etc.)<br>
>       write that content to a file<br>
>    extract all the links<br>
>       add just the new links to the URL list (not those already in the<br>
> list of URLs)<br>
><br>
> i could just use java, but then i would have to write everything.<br>
> beautiful soup (written in python) would probably work well to parse the<br>
> pages, but i don't see that it can fetch pages.<br>
> i can't tell to what extent nutch can parse the pages. i know it can give<br>
> me the links, but i don't know if it can extract just the text i care about.<br>
><br>
><br>
><br>
> Gordon Golding<br>
><br>
>  ------------------------------<br>
> Plan your next roadtrip with MapQuest.com<<a href="http://www.mapquest.com/?ncid=mpqmap00030000000004" target="_blank">http://www.mapquest.com/?ncid=mpqmap00030000000004</a>>:<br>
> America's #1 Mapping Site.<br>
><br>
> _______________________________________________<br>
> Web Page:  <a href="http://lug.boulder.co.us" target="_blank">http://lug.boulder.co.us</a><br>
> Mailing List: <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
> Join us on IRC: lug.boulder.co.us port=6667 channel=#colug<br>
><br>
<br>
<br>
<br>
-- <br>
Jeffrey Haemer <<a href="mailto:jeffrey.haemer@gmail.com">jeffrey.haemer@gmail.com</a>><br>
720-837-8908 [cell]<br>
<a href="http://goyishekop.blogspot.com" target="_blank">http://goyishekop.blogspot.com</a><br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <a href="http://lists.community.tummy.com/pipermail/lug/attachments/20080505/d7b1e85c/attachment.html" target="_blank">http://lists.community.tummy.com/pipermail/lug/attachments/20080505/d7b1e85c/attachment.html</a><br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Mon, 05 May 2008 12:22:56 -0600<br>
From: Nate Duehr <<a href="mailto:nate@natetech.com">nate@natetech.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481F5080.1080207@natetech.com">481F5080.1080207@natetech.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
George Sexton wrote:<br>
<br>
> OTOH, threading in Java is dead easy, and this kind of app would benefit <br>
> from multi-threading.<br>
<br>
Dead-easy until it blows up.  :-)<br>
<br>
<a href="http://www.eecs.berkeley.edu/Pubs/TechRpts/2006/EECS-2006-1.html" target="_blank">http://www.eecs.berkeley.edu/Pubs/TechRpts/2006/EECS-2006-1.html</a><br>
<br>
Threading is starting to get as bad a rap as "goto" got in the 70s.<br>
<br>
The author specifically talks about how subtle problems will crop up on <br>
multi-core machines, especially.<br>
<br>
Had something similar lately.  The symptom was that Perl wouldn't start <br>
on a 4-processor Sun box.<br>
<br>
Perl (for some UNHOLY reason) uses floating-point math to compare the <br>
main perl version number with the version numbers in any modules it <br>
loads at run-time.<br>
<br>
What had happened was that the FPU in CPU #3 on the box was flaky. <br>
Since it was running very little else that required floating-point <br>
calculations, the only "symptom" was, "Perl won't run consistently, or <br>
dies halfway through scripts!"  (The scripts that were dying were <br>
loading more modules.<br>
<br>
Frackin' ugly troubleshooting session that was... until we "caught" the <br>
FPU doing naughty things with Sun's hardware test tools.<br>
<br>
I shudder to think how long that would have taken on PeeCee hardware <br>
where such test tools simply don't (really) exist on most hardware/OS <br>
combinations.<br>
<br>
Nate<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Mon, 05 May 2008 12:23:55 -0600<br>
From: George Sexton <<a href="mailto:gsexton@mhsoftware.com">gsexton@mhsoftware.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481F50BB.7010005@mhsoftware.com">481F50BB.7010005@mhsoftware.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
Writing multi-threaded code takes attention to detail that is beyond the <br>
ability of some programmers. It doesn't mean it's not useful. What's the <br>
point of having a nice multi-core machine if you're not using them?<br>
<br>
It's still easier in Java than about anything else.<br>
<br>
Nate Duehr wrote:<br>
> George Sexton wrote:<br>
> <br>
>> OTOH, threading in Java is dead easy, and this kind of app would <br>
>> benefit from multi-threading.<br>
> <br>
> Dead-easy until it blows up.  :-)<br>
> <br>
> <a href="http://www.eecs.berkeley.edu/Pubs/TechRpts/2006/EECS-2006-1.html" target="_blank">http://www.eecs.berkeley.edu/Pubs/TechRpts/2006/EECS-2006-1.html</a><br>
> <br>
> Threading is starting to get as bad a rap as "goto" got in the 70s.<br>
> <br>
> The author specifically talks about how subtle problems will crop up on <br>
> multi-core machines, especially.<br>
> <br>
> Had something similar lately.  The symptom was that Perl wouldn't start <br>
> on a 4-processor Sun box.<br>
> <br>
> Perl (for some UNHOLY reason) uses floating-point math to compare the <br>
> main perl version number with the version numbers in any modules it <br>
> loads at run-time.<br>
> <br>
> What had happened was that the FPU in CPU #3 on the box was flaky. Since <br>
> it was running very little else that required floating-point <br>
> calculations, the only "symptom" was, "Perl won't run consistently, or <br>
> dies halfway through scripts!"  (The scripts that were dying were <br>
> loading more modules.<br>
> <br>
> Frackin' ugly troubleshooting session that was... until we "caught" the <br>
> FPU doing naughty things with Sun's hardware test tools.<br>
> <br>
> I shudder to think how long that would have taken on PeeCee hardware <br>
> where such test tools simply don't (really) exist on most hardware/OS <br>
> combinations.<br>
> <br>
> Nate<br>
> _______________________________________________<br>
> Web Page:  <a href="http://lug.boulder.co.us" target="_blank">http://lug.boulder.co.us</a><br>
> Mailing List: <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
> Join us on IRC: lug.boulder.co.us port=6667 channel=#colug<br>
> <br>
<br>
-- <br>
George Sexton<br>
MH Software, Inc.<br>
Voice: +1 303 438 9585<br>
URL:   <a href="http://www.mhsoftware.com/" target="_blank">http://www.mhsoftware.com/</a><br>
<br>
<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Mon, 5 May 2008 13:17:07 -0600<br>
From: "Jeffrey Haemer" <<a href="mailto:jeffrey.haemer@gmail.com">jeffrey.haemer@gmail.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID:<br>
    <<a href="mailto:5808d4420805051217j20623e79x9df3633c160a8739@mail.gmail.com">5808d4420805051217j20623e79x9df3633c160a8739@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="iso-8859-1"<br>
<br>
> Perl (for some UNHOLY reason) uses floating-point math to compare the main<br>
> perl version number with the version numbers in any modules it loads at<br>
> run-time.<br>
<br>
<br>
In that vein, awk uses floating point for all its arithmetic.  It's also<br>
interpreted, so a simple program like this<br>
<br>
 awk 'BEGIN {for (i=0; i<10000; i++) print i }'<br>
<br>
requires about a jillion conversions between floats and ints.  (I think the<br>
precise number is pi jillion.)<br>
<br>
Long ago, I watched Mark Rochkind run this very program, as a benchmark,<br>
ask, "Why's this so sloooow?" and then smack his forehead; the box he was<br>
running it on had no floating-point processor.<br>
<br>
-- <br>
Jeffrey Haemer <<a href="mailto:jeffrey.haemer@gmail.com">jeffrey.haemer@gmail.com</a>><br>
720-837-8908 [cell]<br>
<a href="http://goyishekop.blogspot.com" target="_blank">http://goyishekop.blogspot.com</a><br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <a href="http://lists.community.tummy.com/pipermail/lug/attachments/20080505/1a50c6c3/attachment.htm" target="_blank">http://lists.community.tummy.com/pipermail/lug/attachments/20080505/1a50c6c3/attachment.htm</a><br>
<br>
------------------------------<br>
<br>
Message: 5<br>
Date: Mon, 5 May 2008 18:58:45 GMT<br>
From: "<a href="mailto:bclarkinco@juno.com">bclarkinco@juno.com</a>" <<a href="mailto:bclarkinco@juno.com">bclarkinco@juno.com</a>><br>
Subject: [lug] Upcoming Installfest<br>
To: <a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a><br>
Message-ID: <<a href="mailto:20080505.125845.28391.0@webmail11.dca.untd.com">20080505.125845.28391.0@webmail11.dca.untd.com</a>><br>
Content-Type: text/plain; charset="windows-1252"<br>
<br>
Hello,<br>
I'm a Linux newbie planning to attend the upcoming InstallFest.  I am looking <br>
for help installing the Ubuntu Hardy Heron LTS release on a box already running <br>
WinXP Home.  My goal is to have the HD partitioned into thirds, where each of <br>
the OS's has a partition and the remaining can be read and written to by each.  <br>
The present setup contains no data requiring backup.<br>
I also have a Compaq laptop running Vista (ugh!) that I bought last July, and if <br>
it is possible I would like to set up Linux as described above on that machine <br>
too.  Again, no data is present requiring backup.<br>
I live in Lafayette and would be happy to carpool with anyone nearby or en <br>
route; I can be driver or passenger.  If interested, please email me at <br>
<a href="mailto:bclarkinco@juno.com">bclarkinco@juno.com</a>, or call 303-666-6449.<br>
Thanks!<br>
Brian Clark<br>
<br>
_____________________________________________________________<br>
Click here for free info on Graduate Degrees.<br>
<a href="http://thirdpartyoffers.juno.com/TGL2121/fc/Ioyw6i3nNPPKN83MrQMLdQKs8L7RgToMkrdi7SWPDQBJmR44TGs43f/?count=1234567890" target="_blank">http://thirdpartyoffers.juno.com/TGL2121/fc/Ioyw6i3nNPPKN83MrQMLdQKs8L7RgToMkrdi7SWPDQBJmR44TGs43f/?count=1234567890</a><br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <a href="http://lists.community.tummy.com/pipermail/lug/attachments/20080505/ff62d355/attachment.html" target="_blank">http://lists.community.tummy.com/pipermail/lug/attachments/20080505/ff62d355/attachment.html</a><br>
<br>
------------------------------<br>
<br>
Message: 6<br>
Date: Mon, 05 May 2008 14:41:33 -0600<br>
From: Sean Reifschneider <<a href="mailto:jafo@tummy.com">jafo@tummy.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481F70FD.2030801@tummy.com">481F70FD.2030801@tummy.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
<a href="mailto:gordongoldin@aim.com">gordongoldin@aim.com</a> wrote:<br>
 > pages, but i don't see that it can fetch pages.<br>
<br>
import urllib2<br>
pagedata = urllib2.urlopen(url).read()<br>
<br>
However, as someone who regularly has to deal with the fallout of poorly<br>
behaving web crawlers I would like to say:<br>
<br>
    Be sure to honor the robots.txt<br>
<br>
    Please rate-limit the number of pages per second you get from particular<br>
    sites.  Just because you can grab 100 URLs in parallel doesn't mean the<br>
    server can do that without causing other users sessions to slow to a<br>
    crawl.<br>
<br>
    Be careful about the number of pages you get from a site.  If you start<br>
    getting more than some number of URLs for a single site, eye-ball them<br>
    to see if you're getting useful data, or if you're just crawling, say,<br>
    the Python package index database or a human genome database.<br>
<br>
Sean<br>
-- <br>
Sean Reifschneider, Member of Technical Staff <<a href="mailto:jafo@tummy.com">jafo@tummy.com</a>><br>
tummy.com, ltd. - Linux Consulting since 1995: Ask me about High Availability<br>
<br>
<br>
------------------------------<br>
<br>
Message: 7<br>
Date: Mon, 05 May 2008 12:00:54 -0600<br>
From: Bear Giles <<a href="mailto:bgiles@coyotesong.com">bgiles@coyotesong.com</a>><br>
Subject: Re: [lug] ADD-ON to Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481F4B56.70401@coyotesong.com">481F4B56.70401@coyotesong.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
George Sexton wrote:<br>
> <a href="mailto:gordongoldin@aim.com">gordongoldin@aim.com</a> wrote:<br>
>><br>
>> See question below - can one get only text - to speed up the <br>
>> text-only search?<br>
>> To get only English - how reliable is the  lang="en" ?<br>
><br>
> you could spot check, but I'm guessing that 99% of the pages don't set <br>
> it.<br>
><br>
> Charset really won't be helpful. I use UTF-8, so there's no telling <br>
> from it.<br>
><br>
> I suppose if it's a non US charset like Windows-1255, or ISO-8859-[<>1]<br>
><br>
> that might be slightly helpful.<br>
<br>
All of the ISO-8859-x have the same ASCII subset so that doesn't help.<br>
<br>
(Remember that ASCII is a 7-bit code, with the high bit clear when <br>
pushed into an 8-bit character.  The ISO-8859-x codes are designed as <br>
extensions of ASCII, not replacements for it.)<br>
<br>
<br>
<br>
------------------------------<br>
<br>
Message: 8<br>
Date: Mon, 05 May 2008 15:44:40 -0600<br>
From: George Sexton <<a href="mailto:gsexton@mhsoftware.com">gsexton@mhsoftware.com</a>><br>
Subject: Re: [lug] ADD-ON to Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481F7FC8.7000900@mhsoftware.com">481F7FC8.7000900@mhsoftware.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
<br>
<br>
Bear Giles wrote:<br>
> George Sexton wrote:<br>
>> <a href="mailto:gordongoldin@aim.com">gordongoldin@aim.com</a> wrote:<br>
>>><br>
>>> See question below - can one get only text - to speed up the <br>
>>> text-only search?<br>
>>> To get only English - how reliable is the  lang="en" ?<br>
>><br>
>> you could spot check, but I'm guessing that 99% of the pages don't set <br>
>> it.<br>
>><br>
>> Charset really won't be helpful. I use UTF-8, so there's no telling <br>
>> from it.<br>
>><br>
>> I suppose if it's a non US charset like Windows-1255, or ISO-8859-[<>1]<br>
>><br>
>> that might be slightly helpful.<br>
> <br>
> All of the ISO-8859-x have the same ASCII subset so that doesn't help.<br>
<br>
Actually it does. ISO-8859-5 does have the same characters in the low <br>
set, but it's fair to assume when you see it that the content of the <br>
page is Hebrew. As you point out, it's not necessarily non-English, but <br>
anyone creating a web page with that encoding is either used to writing <br>
Hebrew pages, or has Hebrew on that page...<br>
<br>
<br>
> <br>
> (Remember that ASCII is a 7-bit code, with the high bit clear when <br>
> pushed into an 8-bit character.  The ISO-8859-x codes are designed as <br>
> extensions of ASCII, not replacements for it.)<br>
<br>
I understand character sets pretty well. The real answer is use UTF-8 <br>
and then you don't have to worry about it. If you fool around with the <br>
ISO-8859- series, then you can't have mixed content on the same page.<br>
<br>
<br>
<br>
> <br>
> _______________________________________________<br>
> Web Page:  <a href="http://lug.boulder.co.us" target="_blank">http://lug.boulder.co.us</a><br>
> Mailing List: <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
> Join us on IRC: lug.boulder.co.us port=6667 channel=#colug<br>
> <br>
<br>
-- <br>
George Sexton<br>
MH Software, Inc.<br>
Voice: +1 303 438 9585<br>
URL:   <a href="http://www.mhsoftware.com/" target="_blank">http://www.mhsoftware.com/</a><br>
<br>
<br>
------------------------------<br>
<br>
Message: 9<br>
Date: Mon, 05 May 2008 15:56:51 -0600<br>
From: Nate Duehr <<a href="mailto:nate@natetech.com">nate@natetech.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481F82A3.4000401@natetech.com">481F82A3.4000401@natetech.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
Sean Reifschneider wrote:<br>
> <a href="mailto:gordongoldin@aim.com">gordongoldin@aim.com</a> wrote:<br>
>  > pages, but i don't see that it can fetch pages.<br>
> <br>
> import urllib2<br>
> pagedata = urllib2.urlopen(url).read()<br>
> <br>
> However, as someone who regularly has to deal with the fallout of poorly<br>
> behaving web crawlers I would like to say:<br>
> <br>
>    Be sure to honor the robots.txt<br>
> <br>
>    Please rate-limit the number of pages per second you get from particular<br>
>    sites.  Just because you can grab 100 URLs in parallel doesn't mean the<br>
>    server can do that without causing other users sessions to slow to a<br>
>    crawl.<br>
> <br>
>    Be careful about the number of pages you get from a site.  If you start<br>
>    getting more than some number of URLs for a single site, eye-ball them<br>
>    to see if you're getting useful data, or if you're just crawling, say,<br>
>    the Python package index database or a human genome database.<br>
<br>
Thanks for mentioning this Sean, there are some idiots (er, admins) over <br>
at Yahoo I would love to strangle... for not doing "sane" behavior along <br>
these lines.<br>
<br>
MySpace and people deep-linking to content off-site is really annoying <br>
on busy pages on their site too, but that's easily handled with a <br>
rewrite rule to send them off to REALLY nasty photos (if I'm in a bad <br>
mood) so they'll stop using me as their "image host", by linking to only <br>
the images in my content and then loading 100 copies of it every time <br>
some moron hits refresh on a MySpace page where some doofus has used my <br>
images in their "avatar".<br>
<br>
Nate<br>
<br>
<br>
------------------------------<br>
<br>
Message: 10<br>
Date: Mon, 05 May 2008 16:04:07 -0600<br>
From: George Sexton <<a href="mailto:gsexton@mhsoftware.com">gsexton@mhsoftware.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481F8457.5010203@mhsoftware.com">481F8457.5010203@mhsoftware.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
<br>
<br>
Nate Duehr wrote:<br>
> MySpace and people deep-linking to content off-site is really annoying <br>
> on busy pages on their site too, but that's easily handled with a <br>
> rewrite rule to send them off to REALLY nasty photos (if I'm in a bad <br>
> mood) so they'll stop using me as their "image host", by linking to only <br>
> the images in my content and then loading 100 copies of it every time <br>
> some moron hits refresh on a MySpace page where some doofus has used my <br>
> images in their "avatar".<br>
<br>
Someone on the newsgroup alt.<a href="http://www.webmaster" target="_blank">www.webmaster</a> used mod_rewrite to have the <br>
image redirected to a graphic saying "I LIKE LITTLE BOYS" when it was <br>
linked from MySpace UNLESS the person viewing was the poster.<br>
<br>
So, everyone but that person saw the wrong graphic.<br>
<br>
-- <br>
George Sexton<br>
MH Software, Inc.<br>
Voice: +1 303 438 9585<br>
URL:   <a href="http://www.mhsoftware.com/" target="_blank">http://www.mhsoftware.com/</a><br>
<br>
<br>
------------------------------<br>
<br>
Message: 11<br>
Date: Mon, 5 May 2008 16:18:35 -0700 (PDT)<br>
From: karl horlen <<a href="mailto:horlenkarl@yahoo.com">horlenkarl@yahoo.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:780330.72422.qm@web58907.mail.re1.yahoo.com">780330.72422.qm@web58907.mail.re1.yahoo.com</a>><br>
Content-Type: text/plain; charset=us-ascii<br>
<br>
Can you say more about how you detect that people are leeching your site content <br>
and how you prevent it.  For instance what specific rewrite rules or other <br>
techniques do you use to help defeat this type of behavior?<br>
<br>
Do you automate the leech detection?  I'd think it would be pretty tedious to <br>
periodically manually inspect the logs looking for this type of behavior.    Do <br>
you have a cron script that periodically checks for certain logfile entries?  If <br>
so would you mind sharing some of it or some techniques used to detect the rogue <br>
hits?<br>
<br>
Finally. Is there any way that one could "inject" "id info" in site content / <br>
pages and then later do a google search with those "id tags" to see if any other <br>
site pages have been spidered under those id tags?  I'm thinking that if you <br>
injected a really unique id tag in the html code, like an element attribute that <br>
wouldn't be displayed, it might actually get flagged by google.  Just a thought?<br>
<br>
Thanks<br>
<br>
<br>
> MySpace and people deep-linking to content off-site is<br>
> really annoying <br>
> on busy pages on their site too, but that's easily<br>
> handled with a <br>
> rewrite rule to send them off to REALLY nasty photos (if<br>
> I'm in a bad <br>
> mood) so they'll stop using me as their "image<br>
> host", by linking to only <br>
> the images in my content and then loading 100 copies of it<br>
> every time <br>
> some moron hits refresh on a MySpace page where some doofus<br>
> has used my <br>
> images in their "avatar".<br>
> <br>
> Nate<br>
> _______________________________________________<br>
> Web Page:  <a href="http://lug.boulder.co.us" target="_blank">http://lug.boulder.co.us</a><br>
> Mailing List:<br>
> <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
> Join us on IRC: lug.boulder.co.us port=6667 channel=#colug<br>
<br>
<br>
      ____________________________________________________________________________________<br>
Be a better friend, newshound, and <br>
know-it-all with Yahoo! Mobile.  Try it now.  <a href="http://mobile.yahoo.com/;_ylt=Ahu06i62sR8HDtDypao8Wcj9tAcJ" target="_blank">http://mobile.yahoo.com/;_ylt=Ahu06i62sR8HDtDypao8Wcj9tAcJ</a><br>
<br>
<br>
------------------------------<br>
<br>
Message: 12<br>
Date: Mon, 5 May 2008 17:32:59 -0600<br>
From: "Jeff Falgout" <<a href="mailto:jtfalgout@gmail.com">jtfalgout@gmail.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID:<br>
    <<a href="mailto:bf3f7bff0805051632k111953b5ndb57b0ec6543d92b@mail.gmail.com">bf3f7bff0805051632k111953b5ndb57b0ec6543d92b@mail.gmail.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1<br>
<br>
On Mon, May 5, 2008 at 2:41 PM, Sean Reifschneider <<a href="mailto:jafo@tummy.com">jafo@tummy.com</a>> wrote:<br>
<br>
>  However, as someone who regularly has to deal with the fallout of poorly<br>
>  behaving web crawlers I would like to say:<br>
><br>
>    Be sure to honor the robots.txt<br>
><br>
>    Please rate-limit the number of pages per second you get from particular<br>
>    sites.  Just because you can grab 100 URLs in parallel doesn't mean the<br>
>    server can do that without causing other users sessions to slow to a<br>
>    crawl.<br>
><br>
>    Be careful about the number of pages you get from a site.  If you start<br>
>    getting more than some number of URLs for a single site, eye-ball them<br>
>    to see if you're getting useful data, or if you're just crawling, say,<br>
>    the Python package index database or a human genome database.<br>
><br>
>  Sean<br>
<br>
Adding to what Sean has said . . .<br>
<br>
Please provide some sort of contact info in your user agent string. I<br>
handle numerous sites and I'm willing to work with the maintainer of<br>
the "crawler", but if someone is beating up my servers and I can't get<br>
a hold of 'em, I'll send them to the bit bucket real fast!<br>
<br>
Also, be mindful of sites that have a lot of dynamically generated<br>
content - needless hits that put a huge load on the db servers will<br>
also get you blacklisted.<br>
<br>
Jeff<br>
<br>
(Who's also dealing with mis-behaving crawlers)<br>
<br>
<br>
------------------------------<br>
<br>
Message: 13<br>
Date: Mon, 05 May 2008 19:06:26 -0600<br>
From: Bear Giles <<a href="mailto:bgiles@coyotesong.com">bgiles@coyotesong.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: <a href="mailto:horlenkarl@yahoo.com">horlenkarl@yahoo.com</a>,   "Boulder (Colorado) Linux Users Group --<br>
    General Mailing List"   <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481FAF12.9080705@coyotesong.com">481FAF12.9080705@coyotesong.com</a>><br>
Content-Type: text/plain; charset=us-ascii; format=flowed<br>
<br>
karl horlen wrote:<br>
> Can you say more about how you detect that people are leeching your site <br>
content and how you prevent it.  For instance what specific rewrite rules or <br>
other techniques do you use to help defeat this type of behavior?<br>
>   <br>
One standard technique is to look at the REFERER (sic) header. It <br>
contains the URL of the page referring to the graphic/page/whatever. <br>
Like all headers it's trivially manipulated by a knowledgeable person, <br>
but it's a good approach for the casual user.<br>
<br>
It's a little confusing at first. Say you're "<a href="mailto:pooh@woods.com">pooh@woods.com</a>" and you <br>
visit the page "badbear.com/lunch.html" that contains a link to the <br>
image honeypot.com/daisy.jpg. The server at honeypot.com will see a <br>
"remote addr" of woods.com and a REFERER header of 'badbear.com/lunch.html"<br>
<br>
It can then decide what to do. Many sites block deep linking by checking <br>
the REFERER and blocking queries from outside of its own domain. More <br>
casual approaches would redirect queries with a REFERER link from <br>
specific blacklisted domains.<br>
<br>
> Do you automate the leech detection?  I'd think it would be pretty tedious to <br>
periodically manually inspect the logs looking for this type of behavior.    Do <br>
you have a cron script that periodically checks for certain logfile entries?  If <br>
so would you mind sharing some of it or some techniques used to detect the rogue <br>
hits?<br>
><br>
> Finally. Is there any way that one could "inject" "id info" in site content / <br>
pages and then later do a google search with those "id tags" to see if any other <br>
site pages have been spidered under those id tags?  I'm thinking that if you <br>
injected a really unique id tag in the html code, like an element attribute that <br>
wouldn't be displayed, it might actually get flagged by google.  Just a thought?<br>
>   <br>
<br>
<br>
------------------------------<br>
<br>
Message: 14<br>
Date: Mon, 05 May 2008 19:34:40 -0600<br>
From: George Sexton <<a href="mailto:gsexton@mhsoftware.com">gsexton@mhsoftware.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: <a href="mailto:horlenkarl@yahoo.com">horlenkarl@yahoo.com</a>,   "Boulder (Colorado) Linux Users Group --<br>
    General Mailing List"   <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481FB5B0.4070002@mhsoftware.com">481FB5B0.4070002@mhsoftware.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
Goto:<br>
<br>
<a href="http://www.aww-faq.org/#quickanswers" target="_blank">http://www.aww-faq.org/#quickanswers</a><br>
<br>
and read "How can I stop someone from hot-linking to my images?"<br>
<br>
karl horlen wrote:<br>
> Can you say more about how you detect that people are leeching your site <br>
content and how you prevent it.  For instance what specific rewrite rules or <br>
other techniques do you use to help defeat this type of behavior?<br>
> <br>
> Do you automate the leech detection?  I'd think it would be pretty tedious to <br>
periodically manually inspect the logs looking for this type of behavior.    Do <br>
you have a cron script that periodically checks for certain logfile entries?  If <br>
so would you mind sharing some of it or some techniques used to detect the rogue <br>
hits?<br>
> <br>
> Finally. Is there any way that one could "inject" "id info" in site content / <br>
pages and then later do a google search with those "id tags" to see if any other <br>
site pages have been spidered under those id tags?  I'm thinking that if you <br>
injected a really unique id tag in the html code, like an element attribute that <br>
wouldn't be displayed, it might actually get flagged by google.  Just a thought?<br>
> <br>
> Thanks<br>
> <br>
> <br>
>> MySpace and people deep-linking to content off-site is<br>
>> really annoying <br>
>> on busy pages on their site too, but that's easily<br>
>> handled with a <br>
>> rewrite rule to send them off to REALLY nasty photos (if<br>
>> I'm in a bad <br>
>> mood) so they'll stop using me as their "image<br>
>> host", by linking to only <br>
>> the images in my content and then loading 100 copies of it<br>
>> every time <br>
>> some moron hits refresh on a MySpace page where some doofus<br>
>> has used my <br>
>> images in their "avatar".<br>
>><br>
>> Nate<br>
>> _______________________________________________<br>
>> Web Page:  <a href="http://lug.boulder.co.us" target="_blank">http://lug.boulder.co.us</a><br>
>> Mailing List:<br>
>> <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
>> Join us on IRC: lug.boulder.co.us port=6667 channel=#colug<br>
> <br>
> <br>
>       ____________________________________________________________________________________<br>
> Be a better friend, newshound, and <br>
> know-it-all with Yahoo! Mobile.  Try it now.  <a href="http://mobile.yahoo.com/;_ylt=Ahu06i62sR8HDtDypao8Wcj9tAcJ" target="_blank">http://mobile.yahoo.com/;_ylt=Ahu06i62sR8HDtDypao8Wcj9tAcJ</a><br>
> _______________________________________________<br>
> Web Page:  <a href="http://lug.boulder.co.us" target="_blank">http://lug.boulder.co.us</a><br>
> Mailing List: <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
> Join us on IRC: lug.boulder.co.us port=6667 channel=#colug<br>
> <br>
<br>
-- <br>
George Sexton<br>
MH Software, Inc.<br>
Voice: +1 303 438 9585<br>
URL:   <a href="http://www.mhsoftware.com/" target="_blank">http://www.mhsoftware.com/</a><br>
<br>
<br>
------------------------------<br>
<br>
Message: 15<br>
Date: Mon, 05 May 2008 19:17:35 -0600<br>
From: Bear Giles <<a href="mailto:bgiles@coyotesong.com">bgiles@coyotesong.com</a>><br>
Subject: Re: [lug] ADD-ON to Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:481FB1AF.5040109@coyotesong.com">481FB1AF.5040109@coyotesong.com</a>><br>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed<br>
<br>
George Sexton wrote:<br>
> Bear Giles wrote:<br>
>> All of the ISO-8859-x have the same ASCII subset so that doesn't help.<br>
><br>
> Actually it does. ISO-8859-5 does have the same characters in the low <br>
> set...<br>
That's what I said,although maybe it wasn't clear that I was referring <br>
"to the subset that is the ASCII character set" instead of a subset of <br>
those characters.<br>
> but it's fair to assume when you see it that the content of the page <br>
> is Hebrew. As you point out, it's not necessarily non-English, but <br>
> anyone creating a web page with that encoding is either used to <br>
> writing Hebrew pages, or has Hebrew on that page...<br>
It's suggestive, but no Monty Hall.  Fortunately it's trivial to filter <br>
-- simply replace anything with the high bit set with a space.  Anything <br>
with a clear high bit is in the Latin alphabet.<br>
<br>
<br>
------------------------------<br>
<br>
Message: 16<br>
Date: Mon, 5 May 2008 22:11:44 -0600<br>
From: Nate Duehr <<a href="mailto:nate@natetech.com">nate@natetech.com</a>><br>
Subject: Re: [lug] Web crawler advice<br>
To: "Boulder (Colorado) Linux Users Group -- General Mailing List"<br>
    <<a href="mailto:lug@lug.boulder.co.us">lug@lug.boulder.co.us</a>><br>
Message-ID: <<a href="mailto:2A73D08A-009B-40D2-9EC0-14C4B967C825@natetech.com">2A73D08A-009B-40D2-9EC0-14C4B967C825@natetech.com</a>><br>
Content-Type: text/plain; charset=US-ASCII; format=flowed; delsp=yes<br>
<br>
<br>
On May 5, 2008, at 7:06 PM, Bear Giles wrote:<br>
<br>
> karl horlen wrote:<br>
>> Can you say more about how you detect that people are leeching your  <br>
>> site content and how you prevent it.  For instance what specific  <br>
>> rewrite rules or other techniques do you use to help defeat this  <br>
>> type of behavior?<br>
>><br>
> One standard technique is to look at the REFERER (sic) header. It  <br>
> contains the URL of the page referring to the graphic/page/whatever.  <br>
> Like all headers it's trivially manipulated by a knowledgeable  <br>
> person, but it's a good approach for the casual user.<br>
><br>
> It's a little confusing at first. Say you're "<a href="mailto:pooh@woods.com">pooh@woods.com</a>" and  <br>
> you visit the page "badbear.com/lunch.html" that contains a link to  <br>
> the image honeypot.com/daisy.jpg. The server at honeypot.com will  <br>
> see a "remote addr" of woods.com and a REFERER header of  <br>
> 'badbear.com/lunch.html"<br>
><br>
> It can then decide what to do. Many sites block deep linking by  <br>
> checking the REFERER and blocking queries from outside of its own  <br>
> domain. More casual approaches would redirect queries with a REFERER  <br>
> link from specific blacklisted domains.<br>
<br>
<br>
Yep, that's how I found it.  I could care less about "casual" deep- <br>
linking to my personal site, but when you're getting bombarded by the  <br>
crappy MySpace stuff (and the browser sends the REFERRER stuff  <br>
correctly) it's pretty obvious... the web server logs are pounded.<br>
<br>
I've since sent not only myspace referrals but also blogspot and  <br>
livejournal to the bit-bucket.  Could care less if people linking from  <br>
those sites see what they want to see on my pages.<br>
<br>
I even had a guy COMPLAIN that he had been SELLING people "custom  <br>
MySpace pages" that included deep-links to my site, and that I had  <br>
"broke" them.  What a tard.<br>
<br>
I suppose I could have turned that into an opportunity of some kind,  <br>
but I just replied saying he was welcome to find the same funny photos  <br>
and things I had on my webserver out on the net and host them on his  <br>
own webservers to deal with the crushing load he'd put on a box on a  <br>
residential connection, that was never meant to service half of the  <br>
world's MySpace teenie boppers saying, "Dude - UR sooo HOOTTT!" to  <br>
some girl they don't know.<br>
<br>
I have stuff I don't even know for sure is not copyrighted, up on the  <br>
blog... I would never make a buck on any of it.  It's just posted as a  <br>
"ha-ha funny" type of thing on my blog pages and I always copy it down  <br>
(to save their server from load) and give credit for where it was  <br>
"found" with a link, if it wasn't e-mailed to me.<br>
<br>
Anyway... since someone else shared, I redirect them to this:<br>
<br>
<<a href="http://publishing2.com/images/LostCherry%20MySpace%20Sucks.gif" target="_blank">http://publishing2.com/images/LostCherry%20MySpace%20Sucks.gif</a>><br>
<br>
[Of course, publishing2 appears to have problems of their own...]<br>
<br>
<<a href="http://publishing2.com/images" target="_blank">http://publishing2.com/images</a>><br>
<br>
And the graphic comes from this article:<br>
<br>
<a href="http://publishing2.com/2006/06/13/lostcherry-takes-aim-at-myspace/" target="_blank">http://publishing2.com/2006/06/13/lostcherry-takes-aim-at-myspace/</a><br>
<br>
Where there's bitching about MySpace, talk of some anti-MySpace site  <br>
called "LostCherry", and then even more bitching about Digg "burying"  <br>
the "Lost Cherry Story"...<br>
<br>
Basically, I redirect the cesspool back to the cesspool, I figure.    <br>
Plus it just continues the "controversy chain" ad-nauseam.  Might as  <br>
well.  These sites love this kind of crap.  More traffic to claim to  <br>
their advertisers, else they wouldn't have a business model.<br>
<br>
The ADD Poster Children who don't understand HTML or browsers who want  <br>
to "investigate" why they're getting a "new" graphic some way they  <br>
don't understand, end up chasing around wondering who publishing2 is,  <br>
find the article, and say "ooh, shiny!" and dive into the comment  <br>
sections of publishing2, LostCherry, MySpace and Digg to continue the  <br>
bitch-fest.<br>
<br>
Probably, anyway...<br>
<br>
Of course, it's a never-ending game.  I wonder how many rewrites from  <br>
Apache a browser will follow before it gives up.  Might be fun to  <br>
redirect to a pool of high-bandwidth servers in a circular rewrite,  <br>
where one hands to the other, which hands to a third, which hands back  <br>
to the original... but I'm not THAT evil.  If the browsers don't stop  <br>
the chain, and I bet they don't... you could probably lock up  <br>
someone's browser bad enough that they would have to close all of  <br>
their tabs and start over.  Imagine that happening in an image link on  <br>
some doofuses MySpace page.<br>
<br>
Game over.  He who dies with the most bandwidth wins.<br>
<br>
--<br>
Nate Duehr<br>
<a href="mailto:nate@natetech.com">nate@natetech.com</a><br>
<br>
<br>
<br>
<br>
<br>
------------------------------<br>
<br>
_______________________________________________<br>
LUG mailing list<br>
<a href="mailto:LUG@lug.boulder.co.us">LUG@lug.boulder.co.us</a><br>
<a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
<br>
<br>
End of LUG Digest, Vol 55, Issue 5<br>
**********************************<br>
</tt></pre>
</div>
 <!-- end of AOLMsgPart_0_35028c2e-a2c6-4acb-9dd5-dcfab9cc6bac -->

<div id='u8CA7DE1A5B9DE50-D48-9E6' class='aol_ad_footer'><FONT style="color: black; font: normal 10pt ARIAL, SAN-SERIF;"><HR style="MARGIN-TOP: 10px">Plan your next roadtrip with <A title="http://www.mapquest.com/?ncid=mpqmap00030000000004" href="http://www.mapquest.com/?ncid=mpqmap00030000000004" target="_blank">MapQuest.com</A>: America's #1 Mapping Site.</FONT> </div>