Repository: code4craft/webmagic
Branch: develop
Commit: 67816a19d68a
Files: 310
Total size: 1.0 MB

Directory structure:
gitextract_m56n222u/

├── .gitignore
├── .travis.yml
├── LICENSE
├── README-zh.md
├── README.md
├── pom.xml
├── src/
│   └── site/
│       └── site.xml
├── webmagic-core/
│   ├── README.md
│   ├── module_webmagic-core.xml
│   ├── pom.xml
│   └── src/
│       ├── main/
│       │   └── java/
│       │       └── us/
│       │           └── codecraft/
│       │               └── webmagic/
│       │                   ├── Page.java
│       │                   ├── Request.java
│       │                   ├── ResultItems.java
│       │                   ├── Site.java
│       │                   ├── Spider.java
│       │                   ├── SpiderListener.java
│       │                   ├── SpiderScheduler.java
│       │                   ├── Task.java
│       │                   ├── downloader/
│       │                   │   ├── AbstractDownloader.java
│       │                   │   ├── CustomRedirectStrategy.java
│       │                   │   ├── Downloader.java
│       │                   │   ├── HttpClientDownloader.java
│       │                   │   ├── HttpClientGenerator.java
│       │                   │   ├── HttpClientRequestContext.java
│       │                   │   ├── HttpUriRequestConverter.java
│       │                   │   └── package.html
│       │                   ├── model/
│       │                   │   └── HttpRequestBody.java
│       │                   ├── package.html
│       │                   ├── pipeline/
│       │                   │   ├── CollectorPipeline.java
│       │                   │   ├── ConsolePipeline.java
│       │                   │   ├── FilePipeline.java
│       │                   │   ├── Pipeline.java
│       │                   │   ├── ResultItemsCollectorPipeline.java
│       │                   │   └── package.html
│       │                   ├── processor/
│       │                   │   ├── PageProcessor.java
│       │                   │   ├── SimplePageProcessor.java
│       │                   │   ├── example/
│       │                   │   │   ├── BaiduBaikePageProcessor.java
│       │                   │   │   ├── GithubRepoPageProcessor.java
│       │                   │   │   └── ZhihuPageProcessor.java
│       │                   │   └── package.html
│       │                   ├── proxy/
│       │                   │   ├── Proxy.java
│       │                   │   ├── ProxyProvider.java
│       │                   │   └── SimpleProxyProvider.java
│       │                   ├── scheduler/
│       │                   │   ├── DuplicateRemovedScheduler.java
│       │                   │   ├── MonitorableScheduler.java
│       │                   │   ├── PriorityScheduler.java
│       │                   │   ├── QueueScheduler.java
│       │                   │   ├── Scheduler.java
│       │                   │   ├── component/
│       │                   │   │   ├── DuplicateRemover.java
│       │                   │   │   ├── HashSetDuplicateRemover.java
│       │                   │   │   └── package.html
│       │                   │   └── package.html
│       │                   ├── selector/
│       │                   │   ├── AbstractSelectable.java
│       │                   │   ├── AndSelector.java
│       │                   │   ├── BaseElementSelector.java
│       │                   │   ├── CssSelector.java
│       │                   │   ├── ElementSelector.java
│       │                   │   ├── Html.java
│       │                   │   ├── HtmlNode.java
│       │                   │   ├── Json.java
│       │                   │   ├── JsonPathSelector.java
│       │                   │   ├── LinksSelector.java
│       │                   │   ├── OrSelector.java
│       │                   │   ├── PlainText.java
│       │                   │   ├── RegexResult.java
│       │                   │   ├── RegexSelector.java
│       │                   │   ├── ReplaceSelector.java
│       │                   │   ├── Selectable.java
│       │                   │   ├── Selector.java
│       │                   │   ├── Selectors.java
│       │                   │   ├── SmartContentSelector.java
│       │                   │   ├── XpathSelector.java
│       │                   │   └── package.html
│       │                   ├── thread/
│       │                   │   └── CountableThreadPool.java
│       │                   └── utils/
│       │                       ├── BaseSelectorUtils.java
│       │                       ├── CharsetUtils.java
│       │                       ├── Experimental.java
│       │                       ├── FilePersistentBase.java
│       │                       ├── HttpClientUtils.java
│       │                       ├── HttpConstant.java
│       │                       ├── NumberUtils.java
│       │                       ├── ProxyUtils.java
│       │                       ├── UrlUtils.java
│       │                       ├── WMCollections.java
│       │                       └── package.html
│       └── test/
│           ├── java/
│           │   └── us/
│           │       └── codecraft/
│           │           └── webmagic/
│           │               ├── HtmlTest.java
│           │               ├── RequestTest.java
│           │               ├── ResultItemsTest.java
│           │               ├── SiteTest.java
│           │               ├── SpiderTest.java
│           │               ├── downloader/
│           │               │   ├── HttpClientDownloaderTest.java
│           │               │   ├── HttpUriRequestConverterTest.java
│           │               │   ├── MockGithubDownloader.java
│           │               │   └── SSLCompatibilityTest.java
│           │               ├── example/
│           │               │   └── GithubRepoPageProcessorTest.java
│           │               ├── pipeline/
│           │               │   └── FilePipelineTest.java
│           │               ├── processor/
│           │               │   └── PageProcessorTest.java
│           │               ├── proxy/
│           │               │   ├── ProxyTest.java
│           │               │   └── SimpleProxyProviderTest.java
│           │               ├── scheduler/
│           │               │   ├── DuplicateRemovedSchedulerTest.java
│           │               │   └── PrioritySchedulerTest.java
│           │               ├── selector/
│           │               │   ├── AndSelectorTest.java
│           │               │   ├── CssSelectorTest.java
│           │               │   ├── ExtractorsTest.java
│           │               │   ├── JsonPathSelectorTest.java
│           │               │   ├── JsonTest.java
│           │               │   ├── LinksSelectorTest.java
│           │               │   ├── OrSelectorTest.java
│           │               │   ├── RegexSelectorTest.java
│           │               │   └── SelectorTest.java
│           │               └── utils/
│           │                   ├── CharsetUtilsTest.java
│           │                   ├── NumberUtilsTest.java
│           │                   └── UrlUtilsTest.java
│           └── resources/
│               ├── html/
│               │   └── mock-github.html
│               └── log4j2-test.xml
├── webmagic-coverage/
│   └── pom.xml
├── webmagic-extension/
│   ├── README.md
│   ├── pom.xml
│   └── src/
│       ├── main/
│       │   ├── java/
│       │   │   └── us/
│       │   │       └── codecraft/
│       │   │           └── webmagic/
│       │   │               ├── MultiPageModel.java
│       │   │               ├── SimpleHttpClient.java
│       │   │               ├── configurable/
│       │   │               │   ├── ConfigurablePageProcessor.java
│       │   │               │   ├── ExpressionType.java
│       │   │               │   └── ExtractRule.java
│       │   │               ├── downloader/
│       │   │               │   └── PhantomJSDownloader.java
│       │   │               ├── example/
│       │   │               │   ├── AppStore.java
│       │   │               │   ├── BaiduBaike.java
│       │   │               │   ├── GithubRepo.java
│       │   │               │   ├── GithubRepoApi.java
│       │   │               │   ├── GithubRepoPageMapper.java
│       │   │               │   ├── MonitorExample.java
│       │   │               │   ├── OschinaBlog.java
│       │   │               │   └── PatternProcessorExample.java
│       │   │               ├── handler/
│       │   │               │   ├── CompositePageProcessor.java
│       │   │               │   ├── CompositePipeline.java
│       │   │               │   ├── PatternProcessor.java
│       │   │               │   ├── PatternRequestMatcher.java
│       │   │               │   ├── RequestMatcher.java
│       │   │               │   ├── SubPageProcessor.java
│       │   │               │   └── SubPipeline.java
│       │   │               ├── model/
│       │   │               │   ├── AfterExtractor.java
│       │   │               │   ├── ConsolePageModelPipeline.java
│       │   │               │   ├── Extractor.java
│       │   │               │   ├── FieldExtractor.java
│       │   │               │   ├── HasKey.java
│       │   │               │   ├── ModelPageProcessor.java
│       │   │               │   ├── ModelPipeline.java
│       │   │               │   ├── OOSpider.java
│       │   │               │   ├── PageMapper.java
│       │   │               │   ├── PageModelCollectorPipeline.java
│       │   │               │   ├── PageModelExtractor.java
│       │   │               │   ├── annotation/
│       │   │               │   │   ├── ComboExtract.java
│       │   │               │   │   ├── ExtractBy.java
│       │   │               │   │   ├── ExtractByUrl.java
│       │   │               │   │   ├── Formatter.java
│       │   │               │   │   ├── HelpUrl.java
│       │   │               │   │   ├── TargetUrl.java
│       │   │               │   │   └── package.html
│       │   │               │   ├── fields/
│       │   │               │   │   ├── MultipleField.java
│       │   │               │   │   ├── PageField.java
│       │   │               │   │   └── SingleField.java
│       │   │               │   ├── formatter/
│       │   │               │   │   ├── BasicClassDetector.java
│       │   │               │   │   ├── BasicTypeFormatter.java
│       │   │               │   │   ├── DateFormatter.java
│       │   │               │   │   ├── ObjectFormatter.java
│       │   │               │   │   ├── ObjectFormatterBuilder.java
│       │   │               │   │   └── ObjectFormatters.java
│       │   │               │   ├── package.html
│       │   │               │   └── sources/
│       │   │               │       ├── Source.java
│       │   │               │       └── SourceTextExtractor.java
│       │   │               ├── monitor/
│       │   │               │   ├── SpiderMonitor.java
│       │   │               │   ├── SpiderStatus.java
│       │   │               │   └── SpiderStatusMXBean.java
│       │   │               ├── pipeline/
│       │   │               │   ├── CollectorPageModelPipeline.java
│       │   │               │   ├── FilePageModelPipeline.java
│       │   │               │   ├── JsonFilePageModelPipeline.java
│       │   │               │   ├── JsonFilePipeline.java
│       │   │               │   ├── MultiPagePipeline.java
│       │   │               │   └── PageModelPipeline.java
│       │   │               ├── scheduler/
│       │   │               │   ├── BloomFilterDuplicateRemover.java
│       │   │               │   ├── FileCacheQueueScheduler.java
│       │   │               │   ├── RedisPriorityScheduler.java
│       │   │               │   └── RedisScheduler.java
│       │   │               └── utils/
│       │   │                   ├── ClassUtils.java
│       │   │                   ├── DoubleKeyMap.java
│       │   │                   ├── ExtractorUtils.java
│       │   │                   ├── IPUtils.java
│       │   │                   ├── MultiKeyMapBase.java
│       │   │                   └── RequestUtils.java
│       │   └── resources/
│       │       ├── crawl.js
│       │       └── spider-config-draft.xml
│       └── test/
│           ├── java/
│           │   └── us/
│           │       └── codecraft/
│           │           └── webmagic/
│           │               ├── MockPageModelPipeline.java
│           │               ├── MockPipeline.java
│           │               ├── SimpleHttpClientTest.java
│           │               ├── configurable/
│           │               │   └── ConfigurablePageProcessorTest.java
│           │               ├── downloader/
│           │               │   └── MockGithubDownloader.java
│           │               ├── formatter/
│           │               │   └── DateFormatterTest.java
│           │               ├── model/
│           │               │   ├── BaseRepo.java
│           │               │   ├── GithubRepo.java
│           │               │   ├── GithubRepoApi.java
│           │               │   ├── GithubRepoTest.java
│           │               │   ├── ModelPageProcessorTest.java
│           │               │   ├── PageMapperTest.java
│           │               │   ├── PageMocker.java
│           │               │   └── PageModelExtractorTest.java
│           │               ├── monitor/
│           │               │   ├── CustomSpiderStatus.java
│           │               │   ├── CustomSpiderStatusMXBean.java
│           │               │   ├── SeedUrlWithPortTest.java
│           │               │   └── SpiderMonitorTest.java
│           │               ├── processor/
│           │               │   └── GithubRepoProcessor.java
│           │               ├── scheduler/
│           │               │   ├── BloomFilterDuplicateRemoverTest.java
│           │               │   ├── RedisPrioritySchedulerTest.java
│           │               │   └── RedisSchedulerTest.java
│           │               └── utils/
│           │                   ├── IPUtilsTest.java
│           │                   └── RequestUtilsTest.java
│           └── resources/
│               ├── html/
│               │   ├── mock-github.html
│               │   └── mock-webmagic.html
│               ├── json/
│               │   └── mock-githubrepo.json
│               └── log4j2-test.xml
├── webmagic-samples/
│   ├── README.md
│   ├── pom.xml
│   └── src/
│       ├── main/
│       │   ├── java/
│       │   │   └── us/
│       │   │       └── codecraft/
│       │   │           └── webmagic/
│       │   │               ├── main/
│       │   │               │   └── QuickStarter.java
│       │   │               ├── model/
│       │   │               │   └── samples/
│       │   │               │       ├── BaiduNews.java
│       │   │               │       ├── Blog.java
│       │   │               │       ├── DianpingFtlDataScanner.java
│       │   │               │       ├── GithubRepo.java
│       │   │               │       ├── IteyeBlog.java
│       │   │               │       ├── JokejiModel.java
│       │   │               │       ├── Kr36NewsModel.java
│       │   │               │       ├── News163.java
│       │   │               │       ├── OschinaAnswer.java
│       │   │               │       ├── OschinaBlog.java
│       │   │               │       └── QQMeishi.java
│       │   │               ├── recover/
│       │   │               │   ├── DuplicateStorageRemover.java
│       │   │               │   ├── MmapQueueScheduler.java
│       │   │               │   └── RecoverSample.java
│       │   │               └── samples/
│       │   │                   ├── AlexanderMcqueenGoodsProcessor.java
│       │   │                   ├── AmanzonPageProcessor.java
│       │   │                   ├── AngularJSProcessor.java
│       │   │                   ├── DiandianBlogProcessor.java
│       │   │                   ├── DiaoyuwengProcessor.java
│       │   │                   ├── F58PageProcesser.java
│       │   │                   ├── GithubRepo.java
│       │   │                   ├── GithubRepoPageProcessor.java
│       │   │                   ├── HuxiuProcessor.java
│       │   │                   ├── InfoQMiniBookProcessor.java
│       │   │                   ├── IteyeBlogProcessor.java
│       │   │                   ├── KaichibaProcessor.java
│       │   │                   ├── MamacnPageProcessor.java
│       │   │                   ├── MeicanProcessor.java
│       │   │                   ├── NjuBBSProcessor.java
│       │   │                   ├── PhantomJSPageProcessor.java
│       │   │                   ├── QzoneBlogProcessor.java
│       │   │                   ├── SinaBlogProcessor.java
│       │   │                   ├── TianyaPageProcesser.java
│       │   │                   ├── ZhihuPageProcessor.java
│       │   │                   ├── formatter/
│       │   │                   │   └── StringTemplateFormatter.java
│       │   │                   ├── pipeline/
│       │   │                   │   ├── OneFilePipeline.java
│       │   │                   │   └── ReplacePipeline.java
│       │   │                   └── scheduler/
│       │   │                       ├── DelayQueueScheduler.java
│       │   │                       ├── LevelLimitScheduler.java
│       │   │                       └── ZipCodePageProcessor.java
│       │   └── resources/
│       │       ├── crawl.js
│       │       └── log4j2.xml
│       └── test/
│           └── java/
│               └── us/
│                   └── codecraft/
│                       └── webmagic/
│                           ├── SpiderTest.java
│                           ├── model/
│                           │   └── ProcessorBenchmark.java
│                           ├── processor/
│                           │   └── SinablogProcessorTest.java
│                           └── samples/
│                               └── scheduler/
│                                   └── DelayQueueSchedulerTest.java
├── webmagic-saxon/
│   ├── README.md
│   ├── pom.xml
│   └── src/
│       ├── main/
│       │   └── java/
│       │       └── us/
│       │           └── codecraft/
│       │               └── webmagic/
│       │                   └── selector/
│       │                       ├── JaxpSelectorUtils.java
│       │                       ├── NodeSelector.java
│       │                       └── Xpath2Selector.java
│       └── test/
│           └── java/
│               └── us/
│                   └── codecraft/
│                       └── webmagic/
│                           └── selector/
│                               └── XpathSelectorTest.java
├── webmagic-scripts/
│   ├── README.md
│   ├── deploy.sh
│   ├── pom.xml
│   └── src/
│       ├── main/
│       │   ├── groovy/
│       │   │   └── Github.groovy
│       │   ├── java/
│       │   │   └── us/
│       │   │       └── codecraft/
│       │   │           └── webmagic/
│       │   │               └── scripts/
│       │   │                   ├── Params.java
│       │   │                   ├── ScriptConsole.java
│       │   │                   ├── ScriptEnginePool.java
│       │   │                   ├── ScriptProcessor.java
│       │   │                   ├── ScriptProcessorBuilder.java
│       │   │                   ├── config/
│       │   │                   │   ├── CommandLineOption.java
│       │   │                   │   └── ConfigLogger.java
│       │   │                   └── languages/
│       │   │                       ├── JRuby.java
│       │   │                       ├── Javascript.java
│       │   │                       ├── Jython.java
│       │   │                       └── Language.java
│       │   ├── kotlin/
│       │   │   └── Github.kt
│       │   └── resources/
│       │       ├── js/
│       │       │   ├── defines.js
│       │       │   ├── github.js
│       │       │   └── oschina.js
│       │       ├── python/
│       │       │   ├── defines.py
│       │       │   └── oschina.py
│       │       └── ruby/
│       │           ├── defines.rb
│       │           ├── github.rb
│       │           └── oschina.rb
│       └── test/
│           ├── java/
│           │   └── us/
│           │       └── codecraft/
│           │           └── webmagic/
│           │               └── scripts/
│           │                   └── ScriptProcessorTest.java
│           └── resources/
│               └── log4j2-test.xml
└── webmagic-selenium/
    ├── README.md
    ├── config.ini
    ├── pom.xml
    └── src/
        ├── main/
        │   └── java/
        │       └── us/
        │           └── codecraft/
        │               └── webmagic/
        │                   └── downloader/
        │                       └── selenium/
        │                           ├── SeleniumDownloader.java
        │                           └── WebDriverPool.java
        └── test/
            ├── java/
            │   └── us/
            │       └── codecraft/
            │           └── webmagic/
            │               ├── downloader/
            │               │   ├── SeleniumTest.java
            │               │   └── selenium/
            │               │       ├── SeleniumDownloaderTest.java
            │               │       └── WebDriverPoolTest.java
            │               └── samples/
            │                   ├── GooglePlayProcessor.java
            │                   └── HuabanProcessor.java
            └── resources/
                └── config.ini

================================================
FILE CONTENTS
================================================

================================================
FILE: .gitignore
================================================
target/
pom.xml.tag
pom.xml.releaseBackup
pom.xml.versionsBackup
pom.xml.next
release.properties
dependency-reduced-pom.xml
buildNumber.properties
.mvn/timing.properties
# https://github.com/takari/maven-wrapper#usage-without-binary-jar
.mvn/wrapper/maven-wrapper.jar

# Eclipse m2e generated files
# Eclipse Core
.project
# JDT-specific (Eclipse Java Development Tools)
.classpath
.metadata
bin/
tmp/
*.tmp
*.bak
*.swp
*~.nib
local.properties
.settings/
.loadpath
.recommenders

# External tool builders
.externalToolBuilders/

# Locally stored "Eclipse launch configurations"
*.launch

# PyDev specific (Python IDE for Eclipse)
*.pydevproject

# CDT-specific (C/C++ Development Tooling)
.cproject

# CDT- autotools
.autotools

# Java annotation processor (APT)
.factorypath

# PDT-specific (PHP Development Tools)
.buildpath

# sbteclipse plugin
.target

# Tern plugin
.tern-project

# TeXlipse plugin
.texlipse

# STS (Spring Tool Suite)
.springBeans

# Code Recommenders
.recommenders/

# Annotation Processing
.apt_generated/
.apt_generated_test/

# Scala IDE specific (Scala & Java development for Eclipse)
.cache-main
.scala_dependencies
.worksheet

# Uncomment this line if you wish to ignore the project description file.
# Typically, this file would be tracked if it contains build/dependency configurations:
#.project


================================================
FILE: .travis.yml
================================================
language: java 
jdk:
  - openjdk9


================================================
FILE: LICENSE
================================================
Apache License
Version 2.0, January 2004
http://www.apache.org/licenses/

TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION

1. Definitions.

"License" shall mean the terms and conditions for use, reproduction, and
distribution as defined by Sections 1 through 9 of this document.

"Licensor" shall mean the copyright owner or entity authorized by the copyright
owner that is granting the License.

"Legal Entity" shall mean the union of the acting entity and all other entities
that control, are controlled by, or are under common control with that entity.
For the purposes of this definition, "control" means (i) the power, direct or
indirect, to cause the direction or management of such entity, whether by
contract or otherwise, or (ii) ownership of fifty percent (50%) or more of the
outstanding shares, or (iii) beneficial ownership of such entity.

"You" (or "Your") shall mean an individual or Legal Entity exercising
permissions granted by this License.

"Source" form shall mean the preferred form for making modifications, including
but not limited to software source code, documentation source, and configuration
files.

"Object" form shall mean any form resulting from mechanical transformation or
translation of a Source form, including but not limited to compiled object code,
generated documentation, and conversions to other media types.

"Work" shall mean the work of authorship, whether in Source or Object form, made
available under the License, as indicated by a copyright notice that is included
in or attached to the work (an example is provided in the Appendix below).

"Derivative Works" shall mean any work, whether in Source or Object form, that
is based on (or derived from) the Work and for which the editorial revisions,
annotations, elaborations, or other modifications represent, as a whole, an
original work of authorship. For the purposes of this License, Derivative Works
shall not include works that remain separable from, or merely link (or bind by
name) to the interfaces of, the Work and Derivative Works thereof.

"Contribution" shall mean any work of authorship, including the original version
of the Work and any modifications or additions to that Work or Derivative Works
thereof, that is intentionally submitted to Licensor for inclusion in the Work
by the copyright owner or by an individual or Legal Entity authorized to submit
on behalf of the copyright owner. For the purposes of this definition,
"submitted" means any form of electronic, verbal, or written communication sent
to the Licensor or its representatives, including but not limited to
communication on electronic mailing lists, source code control systems, and
issue tracking systems that are managed by, or on behalf of, the Licensor for
the purpose of discussing and improving the Work, but excluding communication
that is conspicuously marked or otherwise designated in writing by the copyright
owner as "Not a Contribution."

"Contributor" shall mean Licensor and any individual or Legal Entity on behalf
of whom a Contribution has been received by Licensor and subsequently
incorporated within the Work.

2. Grant of Copyright License.

Subject to the terms and conditions of this License, each Contributor hereby
grants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free,
irrevocable copyright license to reproduce, prepare Derivative Works of,
publicly display, publicly perform, sublicense, and distribute the Work and such
Derivative Works in Source or Object form.

3. Grant of Patent License.

Subject to the terms and conditions of this License, each Contributor hereby
grants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free,
irrevocable (except as stated in this section) patent license to make, have
made, use, offer to sell, sell, import, and otherwise transfer the Work, where
such license applies only to those patent claims licensable by such Contributor
that are necessarily infringed by their Contribution(s) alone or by combination
of their Contribution(s) with the Work to which such Contribution(s) was
submitted. If You institute patent litigation against any entity (including a
cross-claim or counterclaim in a lawsuit) alleging that the Work or a
Contribution incorporated within the Work constitutes direct or contributory
patent infringement, then any patent licenses granted to You under this License
for that Work shall terminate as of the date such litigation is filed.

4. Redistribution.

You may reproduce and distribute copies of the Work or Derivative Works thereof
in any medium, with or without modifications, and in Source or Object form,
provided that You meet the following conditions:

You must give any other recipients of the Work or Derivative Works a copy of
this License; and
You must cause any modified files to carry prominent notices stating that You
changed the files; and
You must retain, in the Source form of any Derivative Works that You distribute,
all copyright, patent, trademark, and attribution notices from the Source form
of the Work, excluding those notices that do not pertain to any part of the
Derivative Works; and
If the Work includes a "NOTICE" text file as part of its distribution, then any
Derivative Works that You distribute must include a readable copy of the
attribution notices contained within such NOTICE file, excluding those notices
that do not pertain to any part of the Derivative Works, in at least one of the
following places: within a NOTICE text file distributed as part of the
Derivative Works; within the Source form or documentation, if provided along
with the Derivative Works; or, within a display generated by the Derivative
Works, if and wherever such third-party notices normally appear. The contents of
the NOTICE file are for informational purposes only and do not modify the
License. You may add Your own attribution notices within Derivative Works that
You distribute, alongside or as an addendum to the NOTICE text from the Work,
provided that such additional attribution notices cannot be construed as
modifying the License.
You may add Your own copyright statement to Your modifications and may provide
additional or different license terms and conditions for use, reproduction, or
distribution of Your modifications, or for any such Derivative Works as a whole,
provided Your use, reproduction, and distribution of the Work otherwise complies
with the conditions stated in this License.

5. Submission of Contributions.

Unless You explicitly state otherwise, any Contribution intentionally submitted
for inclusion in the Work by You to the Licensor shall be under the terms and
conditions of this License, without any additional terms or conditions.
Notwithstanding the above, nothing herein shall supersede or modify the terms of
any separate license agreement you may have executed with Licensor regarding
such Contributions.

6. Trademarks.

This License does not grant permission to use the trade names, trademarks,
service marks, or product names of the Licensor, except as required for
reasonable and customary use in describing the origin of the Work and
reproducing the content of the NOTICE file.

7. Disclaimer of Warranty.

Unless required by applicable law or agreed to in writing, Licensor provides the
Work (and each Contributor provides its Contributions) on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied,
including, without limitation, any warranties or conditions of TITLE,
NON-INFRINGEMENT, MERCHANTABILITY, or FITNESS FOR A PARTICULAR PURPOSE. You are
solely responsible for determining the appropriateness of using or
redistributing the Work and assume any risks associated with Your exercise of
permissions under this License.

8. Limitation of Liability.

In no event and under no legal theory, whether in tort (including negligence),
contract, or otherwise, unless required by applicable law (such as deliberate
and grossly negligent acts) or agreed to in writing, shall any Contributor be
liable to You for damages, including any direct, indirect, special, incidental,
or consequential damages of any character arising as a result of this License or
out of the use or inability to use the Work (including but not limited to
damages for loss of goodwill, work stoppage, computer failure or malfunction, or
any and all other commercial damages or losses), even if such Contributor has
been advised of the possibility of such damages.

9. Accepting Warranty or Additional Liability.

While redistributing the Work or Derivative Works thereof, You may choose to
offer, and charge a fee for, acceptance of support, warranty, indemnity, or
other liability obligations and/or rights consistent with this License. However,
in accepting such obligations, You may act only on Your own behalf and on Your
sole responsibility, not on behalf of any other Contributor, and only if You
agree to indemnify, defend, and hold each Contributor harmless for any liability
incurred by, or claims asserted against, such Contributor by reason of your
accepting any such warranty or additional liability.

END OF TERMS AND CONDITIONS

APPENDIX: How to apply the Apache License to your work

To apply the Apache License to your work, attach the following boilerplate
notice, with the fields enclosed by brackets "{}" replaced with your own
identifying information. (Don't include the brackets!) The text should be
enclosed in the appropriate comment syntax for the file format. We also
recommend that a file or class name and description of purpose be included on
the same "printed page" as the copyright notice for easier identification within
third-party archives.

   Copyright 2025 code4craft

   Licensed under the Apache License, Version 2.0 (the "License");
   you may not use this file except in compliance with the License.
   You may obtain a copy of the License at

     http://www.apache.org/licenses/LICENSE-2.0

   Unless required by applicable law or agreed to in writing, software
   distributed under the License is distributed on an "AS IS" BASIS,
   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
   See the License for the specific language governing permissions and
   limitations under the License.

================================================
FILE: README-zh.md
================================================
![logo](http://webmagic.io/images/logo.jpeg)


[![Maven Central](https://maven-badges.herokuapp.com/maven-central/us.codecraft/webmagic-parent/badge.svg?subject=Maven%20Central)](https://maven-badges.herokuapp.com/maven-central/us.codecraft/webmagic-parent/)
[![License](https://img.shields.io/badge/License-Apache%20License%202.0-blue.svg)](https://www.apache.org/licenses/LICENSE-2.0.html)
[![Build Status](https://travis-ci.org/code4craft/webmagic.png?branch=master)](https://travis-ci.org/code4craft/webmagic)

官方网站[http://webmagic.io/](http://webmagic.io/)

>webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料。


webmagic的主要特色：

* 完全模块化的设计，强大的可扩展性。
* 核心简单但是涵盖爬虫的全部流程，灵活而强大，也是学习爬虫入门的好材料。
* 提供丰富的抽取页面API。
* 无配置，但是可通过POJO+注解形式实现一个爬虫。
* 支持多线程。
* 支持分布式。
* 支持爬取js动态渲染的页面。
* 无框架依赖，可以灵活的嵌入到项目中去。

webmagic的架构和设计参考了以下两个项目，感谢以下两个项目的作者：

python爬虫 **scrapy** [https://github.com/scrapy/scrapy](https://github.com/scrapy/scrapy)

Java爬虫 **Spiderman** [http://git.oschina.net/l-weiwei/spiderman](http://git.oschina.net/l-weiwei/spiderman)

webmagic的github地址：[https://github.com/code4craft/webmagic](https://github.com/code4craft/webmagic)。

## 快速开始

### 使用maven

webmagic使用maven管理依赖，在项目中添加对应的依赖即可使用webmagic：

```xml
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-core</artifactId>
    <version>${webmagic.version}</version>
</dependency>
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-extension</artifactId>
    <version>${webmagic.version}</version>
</dependency>
```
        
WebMagic 使用slf4j-log4j12作为slf4j的实现.如果你自己定制了slf4j的实现，请在项目中去掉此依赖。

```xml
<exclusions>
    <exclusion>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
    </exclusion>
</exclusions>
```

#### 项目结构
	
webmagic主要包括两个包：

* **webmagic-core**
	
	webmagic核心部分，只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。
	
* **webmagic-extension**
	
	webmagic的扩展模块，提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。
	
webmagic还包含两个可用的扩展包，因为这两个包都依赖了比较重量级的工具，所以从主要包中抽离出来，这些包需要下载源码后自己编译：：

* **webmagic-saxon**

	webmagic与Saxon结合的模块。Saxon是一个XPath、XSLT的解析工具，webmagic依赖Saxon来进行XPath2.0语法解析支持。

* **webmagic-selenium**

	webmagic与Selenium结合的模块。Selenium是一个模拟浏览器进行页面渲染的工具，webmagic依赖Selenium进行动态页面的抓取。
	
在项目中，你可以根据需要依赖不同的包。

### 不使用maven

在项目的**lib**目录下，有依赖的所有jar包，直接在IDE里import即可。

### 第一个爬虫

#### 定制PageProcessor

PageProcessor是webmagic-core的一部分，定制一个PageProcessor即可实现自己的爬虫逻辑。以下是抓取osc博客的一段代码：

```java
public class OschinaBlogPageProcessor implements PageProcessor {

    private Site site = Site.me().setDomain("my.oschina.net");

    @Override
    public void process(Page page) {
        List<String> links = page.getHtml().links().regex("http://my\\.oschina\\.net/flashsword/blog/\\d+").all();
        page.addTargetRequests(links);
        page.putField("title", page.getHtml().xpath("//div[@class='BlogEntity']/div[@class='BlogTitle']/h1").toString());
        page.putField("content", page.getHtml().$("div.content").toString());
        page.putField("tags",page.getHtml().xpath("//div[@class='BlogTags']/a/text()").all());
    }

    @Override
    public Site getSite() {
        return site;

    }

    public static void main(String[] args) {
        Spider.create(new OschinaBlogPageProcessor()).addUrl("http://my.oschina.net/flashsword/blog")
             .addPipeline(new ConsolePipeline()).run();
    }
}
```


这里通过page.addTargetRequests()方法来增加要抓取的URL，并通过page.putField()来保存抽取结果。page.getHtml().xpath()则是按照某个规则对结果进行抽取，这里抽取支持链式调用。调用结束后，toString()表示转化为单个String，all()则转化为一个String列表。

Spider是爬虫的入口类。Pipeline是结果输出和持久化的接口，这里ConsolePipeline表示结果输出到控制台。

执行这个main方法，即可在控制台看到抓取结果。webmagic默认有3秒抓取间隔，请耐心等待。

#### 使用注解

webmagic-extension包括了注解方式编写爬虫的方法，只需基于一个POJO增加注解即可完成一个爬虫。以下仍然是抓取oschina博客的一段代码，功能与OschinaBlogPageProcesser完全相同：

```java
@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
public class OschinaBlog {

    @ExtractBy("//title")
    private String title;

    @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)
    private String content;

    @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
    private List<String> tags;

    public static void main(String[] args) {
        OOSpider.create(
        	Site.me(),
			new ConsolePageModelPipeline(), OschinaBlog.class).addUrl("http://my.oschina.net/flashsword/blog").run();
    }
}
```

这个例子定义了一个Model类，Model类的字段'title'、'content'、'tags'均为要抽取的属性。这个类在Pipeline里是可以复用的。

### 详细文档

见[http://webmagic.io/docs/](http://webmagic.io/docs/)。

### 示例

webmagic-samples目录里有一些定制PageProcessor以抽取不同站点的例子。

webmagic的使用可以参考：[oschina openapi 应用：博客搬家](https://git.oschina.net/yashin/MoveBlog)


### 协议

webmagic遵循[Apache 2.0协议](http://opensource.org/licenses/Apache-2.0)

### 邮件组:

Gmail：
[https://groups.google.com/forum/#!forum/webmagic-java](https://groups.google.com/forum/#!forum/webmagic-java)

QQ:
[http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988](http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988)

### QQ群：

373225642(已满) 542327088

### 相关项目：

[Gather Platform](https://github.com/gsh199449/spider)

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台。


================================================
FILE: README.md
================================================
![logo](http://webmagic.io/images/logo.jpeg)

[Readme in Chinese](https://github.com/code4craft/webmagic/tree/master/README-zh.md)


[![Maven Central](https://maven-badges.herokuapp.com/maven-central/us.codecraft/webmagic-parent/badge.svg?subject=Maven%20Central)](https://maven-badges.herokuapp.com/maven-central/us.codecraft/webmagic-parent/)
[![License](https://img.shields.io/badge/License-Apache%20License%202.0-blue.svg)](https://www.apache.org/licenses/LICENSE-2.0.html)
[![Build Status](https://travis-ci.org/code4craft/webmagic.png?branch=master)](https://travis-ci.org/code4craft/webmagic)

>A scalable crawler framework. It covers the whole lifecycle of crawler: downloading, url management, content extraction and persistent. It can simplify the development of a  specific crawler.

## Features:

* Simple core with high flexibility.
* Simple API for html extracting.
* Annotation with POJO to customize a crawler, no configuration.
* Multi-thread and Distribution support.
* Easy to be integrated.

## Install:
  
Add dependencies to your pom.xml:

```xml
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-core</artifactId>
    <version>${webmagic.version}</version>
</dependency>
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-extension</artifactId>
    <version>${webmagic.version}</version>
</dependency>
```
        
WebMagic use slf4j with slf4j-log4j12 implementation. If you customized your slf4j implementation, please exclude slf4j-log4j12.

```xml
<exclusions>
    <exclusion>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
    </exclusion>
</exclusions>
```


## Get Started:

### First crawler:

Write a class implements PageProcessor. For example, I wrote a crawler of github repository information.

```java
public class GithubRepoPageProcessor implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+/\\w+)").all());
        page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());
        page.putField("name", page.getHtml().xpath("//h1[@class='public']/strong/a/text()").toString());
        if (page.getResultItems().get("name")==null){
            //skip this page
            page.setSkip(true);
        }
        page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(5).run();
    }
}
```

* `page.addTargetRequests(links)`
	
	Add urls for crawling.
    
You can also use annotation way:

```java
@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl("https://github.com/\\w+")
public class GithubRepo {

    @ExtractBy(value = "//h1[@class='public']/strong/a/text()", notNull = true)
    private String name;

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']/tidyText()")
    private String readme;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(1000)
                , new ConsolePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/code4craft").thread(5).run();
    }
}
```
		
### Docs and samples:

Documents: [http://webmagic.io/docs/](http://webmagic.io/docs/)

The architecture of webmagic (referred to [Scrapy](http://scrapy.org/))

![image](http://code4craft.github.io/images/posts/webmagic.png)

There are more examples in `webmagic-samples` package.

### License:

Licensed under [Apache 2.0 license](http://opensource.org/licenses/Apache-2.0)

### Thanks:

To write webmagic, I refered to the projects below :

* **Scrapy**

	A crawler framework in Python.
 
	[http://scrapy.org/](http://scrapy.org/)

* **Spiderman**

	Another crawler framework in Java.
	
	[http://git.oschina.net/l-weiwei/spiderman](http://git.oschina.net/l-weiwei/spiderman)

### Mail-list:

[https://groups.google.com/forum/#!forum/webmagic-java](https://groups.google.com/forum/#!forum/webmagic-java)

[http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988](http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988)

QQ Group: 373225642 542327088

### Related Project

* <a href="https://github.com/gsh199449/spider" target="_blank">Gather Platform</a>
	
	A web console based on WebMagic for Spider configuration and management.


================================================
FILE: pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <parent>
        <groupId>org.oxerr</groupId>
        <artifactId>oxerr-parent</artifactId>
        <version>2.3.1</version>
        <relativePath /> <!-- lookup parent from repository -->
    </parent>
    <groupId>us.codecraft</groupId>
    <version>1.0.4-SNAPSHOT</version>
    <packaging>pom</packaging>
    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
        <maven.compiler.source>11</maven.compiler.source>
        <maven.compiler.target>11</maven.compiler.target>
        <assertj.version>3.23.1</assertj.version>
        <commons-cli.version>1.5.0</commons-cli.version>
        <commons-collections4.version>4.4</commons-collections4.version>
        <commons-io.version>2.14.0</commons-io.version>
        <commons-lang3.version>3.12.0</commons-lang3.version>
        <fastjson.version>2.0.19.graal</fastjson.version>
        <groovy-all.version>3.0.13</groovy-all.version>
        <guava.version>32.0.0-jre</guava.version>
        <htmlcleaner.version>2.29</htmlcleaner.version>
        <httpclient.version>4.5.13</httpclient.version>
        <httpcore.version>4.4.15</httpcore.version>
        <jedis.version>3.7.1</jedis.version>
        <jruby.version>9.4.12.1</jruby.version>
        <json-path.version>2.9.0</json-path.version>
        <junit.version>5.10.2</junit.version>
        <junit.platform.version>1.10.2</junit.platform.version>
        <jython.version>2.7.3</jython.version>
        <log4j2.version>2.23.1</log4j2.version>
        <mockito-all.version>2.0.2-beta</mockito-all.version>
        <moco.version>1.3.0</moco.version>
        <phantomjsdriver.version>1.2.0</phantomjsdriver.version>
        <saxon-he.version>12.4</saxon-he.version>
        <selenium-java.version>4.14.1</selenium-java.version>
        <slf4j.version>2.0.4</slf4j.version>
        <spring-version>4.0.0.RELEASE</spring-version>
        <xsoup.version>0.3.5</xsoup.version>
    </properties>
    <artifactId>webmagic</artifactId>
    <name>webmagic</name>
    <description>
        A crawler framework. It covers the whole lifecycle of crawler: downloading, url management, content
        extraction and persistent. It can simply the development of a specific crawler.
    </description>
    <url>https://github.com/code4craft/webmagic/</url>
    <developers>
        <developer>
            <id>code4craft</id>
            <name>Yihua huang</name>
            <email>code4crafer@gmail.com</email>
        </developer>
        <developer>
            <id>yuany</id>
            <name>Ligang Yao</name>
            <email>ligang.yao@answers.com</email>
        </developer>
    </developers>
    <scm>
        <connection>scm:git:git@github.com:code4craft/webmagic.git</connection>
        <developerConnection>scm:git:git@github.com:code4craft/webmagic.git</developerConnection>
        <url>git@github.com:code4craft/webmagic.git</url>
        <tag>WebMagic-${project.version}</tag>
    </scm>
    <licenses>
        <license>
            <name>Apache License, Version 2.0</name>
            <url>http://www.apache.org/licenses/LICENSE-2.0</url>
        </license>
    </licenses>

    <modules>
        <module>webmagic-core</module>
        <module>webmagic-extension/</module>
        <module>webmagic-scripts/</module>
        <module>webmagic-selenium</module>
        <module>webmagic-saxon</module>
        <module>webmagic-samples</module>
        <module>webmagic-coverage</module>
    </modules>

    <dependencies>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-slf4j2-impl</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.junit.jupiter</groupId>
            <artifactId>junit-jupiter-engine</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.junit.vintage</groupId>
            <artifactId>junit-vintage-engine</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.junit.platform</groupId>
            <artifactId>junit-platform-launcher</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.junit.platform</groupId>
            <artifactId>junit-platform-runner</artifactId>
            <scope>test</scope>
        </dependency>
    </dependencies>

    <dependencyManagement>
        <dependencies>
            <dependency>
                <groupId>org.mockito</groupId>
                <artifactId>mockito-all</artifactId>
                <version>${mockito-all.version}</version>
                <scope>test</scope>
            </dependency>
            <dependency>
                <groupId>org.apache.httpcomponents</groupId>
                <artifactId>httpclient</artifactId>
                <version>${httpclient.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.httpcomponents</groupId>
                <artifactId>httpcore</artifactId>
                <version>${httpcore.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.logging.log4j</groupId>
                <artifactId>log4j-core</artifactId>
                <version>${log4j2.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.logging.log4j</groupId>
                <artifactId>log4j-slf4j2-impl</artifactId>
                <version>${log4j2.version}</version>
            </dependency>
            <dependency>
                <groupId>com.google.guava</groupId>
                <artifactId>guava</artifactId>
                <version>${guava.version}</version>
            </dependency>
            <dependency>
                <groupId>com.jayway.jsonpath</groupId>
                <artifactId>json-path</artifactId>
                <version>${json-path.version}</version>
            </dependency>
            <dependency>
                <groupId>org.junit.jupiter</groupId>
                <artifactId>junit-jupiter-engine</artifactId>
                <version>${junit.version}</version>
            </dependency>
            <dependency>
                <groupId>org.junit.vintage</groupId>
                <artifactId>junit-vintage-engine</artifactId>
                <version>${junit.version}</version>
            </dependency>
            <dependency>
                <groupId>org.junit.platform</groupId>
                <artifactId>junit-platform-launcher</artifactId>
                <version>${junit.platform.version}</version>
            </dependency>
            <dependency>
                <groupId>org.junit.platform</groupId>
                <artifactId>junit-platform-runner</artifactId>
                <version>${junit.platform.version}</version>
            </dependency>
            <dependency>
                <groupId>org.slf4j</groupId>
                <artifactId>slf4j-api</artifactId>
                <version>${slf4j.version}</version>
            </dependency>
            <dependency>
                <groupId>us.codecraft</groupId>
                <artifactId>xsoup</artifactId>
                <version>0.3.7</version>
            </dependency>
            <dependency>
                <groupId>com.alibaba</groupId>
                <artifactId>fastjson</artifactId>
                <version>${fastjson.version}</version>
            </dependency>
            <dependency>
                <groupId>com.github.dreamhead</groupId>
                <artifactId>moco-core</artifactId>
                <version>${moco.version}</version>
                <scope>test</scope>
                <exclusions>
                    <exclusion>
                        <groupId>org.slf4j</groupId>
                        <artifactId>slf4j-simple</artifactId>
                    </exclusion>
                </exclusions>
            </dependency>
            <dependency>
                <groupId>org.assertj</groupId>
                <artifactId>assertj-core</artifactId>
                <version>${assertj.version}</version>
                <scope>test</scope>
            </dependency>
            <dependency>
                <groupId>org.apache.commons</groupId>
                <artifactId>commons-lang3</artifactId>
                <version>${commons-lang3.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.commons</groupId>
                <artifactId>commons-collections4</artifactId>
                <version>${commons-collections4.version}</version>
            </dependency>
            <dependency>
                <groupId>commons-io</groupId>
                <artifactId>commons-io</artifactId>
                <version>${commons-io.version}</version>
            </dependency>
            <dependency>
                <groupId>org.codehaus.groovy</groupId>
                <artifactId>groovy-all</artifactId>
                <version>${groovy-all.version}</version>
            </dependency>
            <dependency>
                <groupId>org.jruby</groupId>
                <artifactId>jruby</artifactId>
                <version>${jruby.version}</version>
            </dependency>
            <dependency>
                <groupId>org.python</groupId>
                <artifactId>jython</artifactId>
                <version>${jython.version}</version>
            </dependency>
            <dependency>
                <groupId>org.seleniumhq.selenium</groupId>
                <artifactId>selenium-java</artifactId>
                <version>${selenium-java.version}</version>
            </dependency>
            <dependency>
                <groupId>net.sf.saxon</groupId>
                <artifactId>Saxon-HE</artifactId>
                <version>${saxon-he.version}</version>
            </dependency>
            <dependency>
                <groupId>net.sourceforge.htmlcleaner</groupId>
                <artifactId>htmlcleaner</artifactId>
                <version>${htmlcleaner.version}</version>
            </dependency>
            <dependency>
                <groupId>com.github.detro</groupId>
                <artifactId>phantomjsdriver</artifactId>
                <version>${phantomjsdriver.version}</version>
            </dependency>
            <dependency>
                <groupId>commons-cli</groupId>
                <artifactId>commons-cli</artifactId>
                <version>${commons-cli.version}</version>
            </dependency>
            <dependency>
                <groupId>redis.clients</groupId>
                <artifactId>jedis</artifactId>
                <version>${jedis.version}</version>
            </dependency>
        </dependencies>
    </dependencyManagement>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-javadoc-plugin</artifactId>
                <configuration>
                    <doctitle>WebMagic ${project.version}</doctitle>
                    <locale>en_US</locale>

                    <!-- avoid the issue: https://bugs.openjdk.java.net/browse/JDK-8212233 -->
                    <detectJavaApiLink>false</detectJavaApiLink>

                </configuration>
                <executions>
                    <execution>
                        <id>aggregate</id>
                        <goals>
                            <goal>aggregate</goal>
                        </goals>
                        <phase>site</phase>
                    </execution>
                    <execution>
                        <id>attach-javadocs</id>
                        <goals>
                            <goal>jar</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>org.jacoco</groupId>
                <artifactId>jacoco-maven-plugin</artifactId>
                <executions>
                    <execution>
                        <goals>
                            <goal>prepare-agent</goal>
                        </goals>
                    </execution>
                    <execution>
                        <id>report</id>
                        <phase>verify</phase>
                        <goals>
                            <goal>report</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>com.amashchenko.maven.plugin</groupId>
                <artifactId>gitflow-maven-plugin</artifactId>
                <configuration>
                    <gitFlowConfig>
                        <versionTagPrefix>WebMagic-</versionTagPrefix>
                    </gitFlowConfig>
                </configuration>
            </plugin>
        </plugins>
    </build>

</project>


================================================
FILE: src/site/site.xml
================================================
<project xmlns="http://maven.apache.org/DECORATION/1.6.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://maven.apache.org/DECORATION/1.6.0
        http://maven.apache.org/xsd/decoration-1.6.0.xsd">
    <skin>
        <groupId>org.apache.maven.skins</groupId>
        <artifactId>maven-fluido-skin</artifactId>
        <version>1.11.1</version>
    </skin>
    <body>
        <menu ref="parent" inherit="top" />
        <menu ref="modules" inherit="top" />
        <menu ref="reports" inherit="top" />
    </body>
    <custom>
        <fluidoSkin>
            <topBarEnabled>true</topBarEnabled>
            <sideBarEnabled>true</sideBarEnabled>
            <sourceLineNumbersEnabled>true</sourceLineNumbersEnabled>
            <copyrightClass>pull-right</copyrightClass>
        </fluidoSkin>
    </custom>
</project>


================================================
FILE: webmagic-core/README.md
================================================
webmagic-core
-------
webmagic核心部分。只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。

================================================
FILE: webmagic-core/module_webmagic-core.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project name="module_webmagic-core" default="compile.module.webmagic-core">
  <dirname property="module.webmagic-core.basedir" file="${ant.file.module_webmagic-core}"/>
  
  <property name="module.jdk.home.webmagic-core" value="${project.jdk.home}"/>
  <property name="module.jdk.bin.webmagic-core" value="${project.jdk.bin}"/>
  <property name="module.jdk.classpath.webmagic-core" value="${project.jdk.classpath}"/>
  
  <property name="compiler.args.webmagic-core" value="${compiler.args}"/>
  
  <property name="webmagic-core.output.dir" value="${module.webmagic-core.basedir}/target/classes"/>
  <property name="webmagic-core.testoutput.dir" value="${module.webmagic-core.basedir}/target/test-classes"/>
  
  <path id="webmagic-core.module.bootclasspath">
    <!-- Paths to be included in compilation bootclasspath -->
  </path>
  
  <path id="webmagic-core.module.production.classpath">
    <path refid="${module.jdk.classpath.webmagic-core}"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpclient:4.2.4.classpath"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpcore:4.2.4.classpath"/>
    <path refid="library.maven:_commons-logging:commons-logging:1.1.1.classpath"/>
    <path refid="library.maven:_commons-codec:commons-codec:1.6.classpath"/>
    <path refid="library.maven:_com.google.guava:guava:13.0.1.classpath"/>
    <path refid="library.maven:_org.apache.commons:commons-lang3:3.1.classpath"/>
    <path refid="library.maven:_log4j:log4j:1.2.17.classpath"/>
    <path refid="library.maven:_commons-collections:commons-collections:3.2.1.classpath"/>
    <path refid="library.maven:_net.sourceforge.htmlcleaner:htmlcleaner:2.4.classpath"/>
    <path refid="library.maven:_org.jdom:jdom2:2.0.4.classpath"/>
    <path refid="library.maven:_commons-io:commons-io:1.3.2.classpath"/>
  </path>
  
  <path id="webmagic-core.runtime.production.module.classpath">
    <pathelement location="${webmagic-core.output.dir}"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpclient:4.2.4.classpath"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpcore:4.2.4.classpath"/>
    <path refid="library.maven:_commons-logging:commons-logging:1.1.1.classpath"/>
    <path refid="library.maven:_commons-codec:commons-codec:1.6.classpath"/>
    <path refid="library.maven:_com.google.guava:guava:13.0.1.classpath"/>
    <path refid="library.maven:_org.apache.commons:commons-lang3:3.1.classpath"/>
    <path refid="library.maven:_log4j:log4j:1.2.17.classpath"/>
    <path refid="library.maven:_commons-collections:commons-collections:3.2.1.classpath"/>
    <path refid="library.maven:_net.sourceforge.htmlcleaner:htmlcleaner:2.4.classpath"/>
    <path refid="library.maven:_org.jdom:jdom2:2.0.4.classpath"/>
    <path refid="library.maven:_commons-io:commons-io:1.3.2.classpath"/>
  </path>
  
  <path id="webmagic-core.module.classpath">
    <path refid="${module.jdk.classpath.webmagic-core}"/>
    <pathelement location="${webmagic-core.output.dir}"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpclient:4.2.4.classpath"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpcore:4.2.4.classpath"/>
    <path refid="library.maven:_commons-logging:commons-logging:1.1.1.classpath"/>
    <path refid="library.maven:_commons-codec:commons-codec:1.6.classpath"/>
    <path refid="library.maven:_junit:junit:4.7.classpath"/>
    <path refid="library.maven:_com.google.guava:guava:13.0.1.classpath"/>
    <path refid="library.maven:_org.apache.commons:commons-lang3:3.1.classpath"/>
    <path refid="library.maven:_log4j:log4j:1.2.17.classpath"/>
    <path refid="library.maven:_commons-collections:commons-collections:3.2.1.classpath"/>
    <path refid="library.maven:_net.sourceforge.htmlcleaner:htmlcleaner:2.4.classpath"/>
    <path refid="library.maven:_org.jdom:jdom2:2.0.4.classpath"/>
    <path refid="library.maven:_commons-io:commons-io:1.3.2.classpath"/>
  </path>
  
  <path id="webmagic-core.runtime.module.classpath">
    <pathelement location="${webmagic-core.testoutput.dir}"/>
    <pathelement location="${webmagic-core.output.dir}"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpclient:4.2.4.classpath"/>
    <path refid="library.maven:_org.apache.httpcomponents:httpcore:4.2.4.classpath"/>
    <path refid="library.maven:_commons-logging:commons-logging:1.1.1.classpath"/>
    <path refid="library.maven:_commons-codec:commons-codec:1.6.classpath"/>
    <path refid="library.maven:_junit:junit:4.7.classpath"/>
    <path refid="library.maven:_com.google.guava:guava:13.0.1.classpath"/>
    <path refid="library.maven:_org.apache.commons:commons-lang3:3.1.classpath"/>
    <path refid="library.maven:_log4j:log4j:1.2.17.classpath"/>
    <path refid="library.maven:_commons-collections:commons-collections:3.2.1.classpath"/>
    <path refid="library.maven:_net.sourceforge.htmlcleaner:htmlcleaner:2.4.classpath"/>
    <path refid="library.maven:_org.jdom:jdom2:2.0.4.classpath"/>
    <path refid="library.maven:_commons-io:commons-io:1.3.2.classpath"/>
  </path>
  
  
  <patternset id="excluded.from.module.webmagic-core">
    <patternset refid="ignored.files"/>
  </patternset>
  
  <patternset id="excluded.from.compilation.webmagic-core">
    <patternset refid="excluded.from.module.webmagic-core"/>
  </patternset>
  
  <path id="webmagic-core.module.sourcepath">
    <dirset dir="${module.webmagic-core.basedir}">
      <include name="src/main/java"/>
      <include name="src/main/resources"/>
    </dirset>
  </path>
  
  <path id="webmagic-core.module.test.sourcepath">
    <dirset dir="${module.webmagic-core.basedir}">
      <include name="src/test/java"/>
      <include name="src/test/resources"/>
    </dirset>
  </path>
  
  
  <target name="compile.module.webmagic-core" depends="compile.module.webmagic-core.production,compile.module.webmagic-core.tests" description="Compile module webmagic-core"/>
  
  <target name="compile.module.webmagic-core.production" depends="register.custom.compilers" description="Compile module webmagic-core; production classes">
    <mkdir dir="${webmagic-core.output.dir}"/>
    <javac2 destdir="${webmagic-core.output.dir}" debug="${compiler.debug}" nowarn="${compiler.generate.no.warnings}" memorymaximumsize="${compiler.max.memory}" fork="true" executable="${module.jdk.bin.webmagic-core}/javac">
      <compilerarg line="${compiler.args.webmagic-core}"/>
      <bootclasspath refid="webmagic-core.module.bootclasspath"/>
      <classpath refid="webmagic-core.module.production.classpath"/>
      <src refid="webmagic-core.module.sourcepath"/>
      <patternset refid="excluded.from.compilation.webmagic-core"/>
    </javac2>
    
    <copy todir="${webmagic-core.output.dir}">
      <fileset dir="${module.webmagic-core.basedir}/src/main/java">
        <patternset refid="compiler.resources"/>
        <type type="file"/>
      </fileset>
      <fileset dir="${module.webmagic-core.basedir}/src/main/resources">
        <patternset refid="compiler.resources"/>
        <type type="file"/>
      </fileset>
    </copy>
  </target>
  
  <target name="compile.module.webmagic-core.tests" depends="register.custom.compilers,compile.module.webmagic-core.production" description="compile module webmagic-core; test classes" unless="skip.tests">
    <mkdir dir="${webmagic-core.testoutput.dir}"/>
    <javac2 destdir="${webmagic-core.testoutput.dir}" debug="${compiler.debug}" nowarn="${compiler.generate.no.warnings}" memorymaximumsize="${compiler.max.memory}" fork="true" executable="${module.jdk.bin.webmagic-core}/javac">
      <compilerarg line="${compiler.args.webmagic-core}"/>
      <bootclasspath refid="webmagic-core.module.bootclasspath"/>
      <classpath refid="webmagic-core.module.classpath"/>
      <src refid="webmagic-core.module.test.sourcepath"/>
      <patternset refid="excluded.from.compilation.webmagic-core"/>
    </javac2>
    
    <copy todir="${webmagic-core.testoutput.dir}">
      <fileset dir="${module.webmagic-core.basedir}/src/test/java">
        <patternset refid="compiler.resources"/>
        <type type="file"/>
      </fileset>
      <fileset dir="${module.webmagic-core.basedir}/src/test/resources">
        <patternset refid="compiler.resources"/>
        <type type="file"/>
      </fileset>
    </copy>
  </target>
  
  <target name="clean.module.webmagic-core" description="cleanup module">
    <delete dir="${webmagic-core.output.dir}"/>
    <delete dir="${webmagic-core.testoutput.dir}"/>
  </target>
</project>

================================================
FILE: webmagic-core/pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic</artifactId>
        <version>1.0.4-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>webmagic-core</artifactId>

    <dependencies>
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
        </dependency>

        <dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-lang3</artifactId>
        </dependency>

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>xsoup</artifactId>
        </dependency>

        <dependency>
            <groupId>com.github.dreamhead</groupId>
            <artifactId>moco-core</artifactId>
        </dependency>

        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-api</artifactId>
        </dependency>

        <dependency>
            <groupId>org.mockito</groupId>
            <artifactId>mockito-all</artifactId>
        </dependency>

        <dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-collections4</artifactId>
        </dependency>

        <dependency>
            <groupId>org.assertj</groupId>
            <artifactId>assertj-core</artifactId>
        </dependency>

        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
        </dependency>

        <dependency>
            <groupId>com.jayway.jsonpath</groupId>
            <artifactId>json-path</artifactId>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
        </dependency>

    </dependencies>

</project>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/Page.java
================================================
package us.codecraft.webmagic;

import org.apache.commons.lang3.StringUtils;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.selector.Json;
import us.codecraft.webmagic.selector.Selectable;
import us.codecraft.webmagic.utils.UrlUtils;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Map;

/**
 * Object storing extracted result and urls to fetch.<br>
 * Not thread safe.<br>
 * Main method：                                               <br>
 * {@link #getUrl()} get url of current page                   <br>
 * {@link #getHtml()}  get content of current page                 <br>
 * {@link #putField(String, Object)}  save extracted result            <br>
 * {@link #getResultItems()} get extract results to be used in {@link us.codecraft.webmagic.pipeline.Pipeline}<br>
 * {@link #addTargetRequests(Iterable)} {@link #addTargetRequest(String)} add urls to fetch                 <br>
 *
 * @author code4crafter@gmail.com <br>
 * @see us.codecraft.webmagic.downloader.Downloader
 * @see us.codecraft.webmagic.processor.PageProcessor
 * @since 0.1.0
 */
public class Page {

    private Request request;

    private ResultItems resultItems = new ResultItems();

    private Html html;

    private Json json;

    private String rawText;

    private Selectable url;

    private Map<String,List<String>> headers;

    private int statusCode;

    private boolean downloadSuccess;

    private byte[] bytes;

    private List<Request> targetRequests = new ArrayList<>();

    private String charset;

    /**
     * Returns a {@link Page} with {@link #downloadSuccess} is {@code true},
     * and {@link #request} is specified.
     *
     * @param request the request.
     * @since 1.0.2
     */
    public static Page ofSuccess(Request request) {
        return new Page(request, true);
    }

    /**
     * Returns a {@link Page} with {@link #downloadSuccess} is {@code true},
     * and {@link #request} is specified.
     *
     * @param request the request.
     * @since 1.0.2
     */
    public static Page ofFailure(Request request) {
        return new Page(request, false);
    }

    public Page() {
    }

    /**
     * Constructs a {@link Page} with {@link #request}
     * and {@link #downloadSuccess} specified.
     *
     * @param request the request.
     * @param downloadSuccess the download success flag.
     * @since 1.0.2
     */
    private Page(Request request, boolean downloadSuccess) {
        this.request = request;
        this.downloadSuccess = downloadSuccess;
    }

    /**
     * Returns a {@link Page} with {@link #downloadSuccess} is {@code false}.
     *
     * @return the page.
     * @deprecated Use {@link #fail(Request)} instead.
     */
    @Deprecated
    public static Page fail() {
        return fail(null);
    }

    /**
     * Returns a {@link Page} with {@link #downloadSuccess} is {@code false},
     * and {@link #request} is specified.
     *
     * @param request the {@link Request}.
     * @return the page.
     * @since 0.10.0
     * @deprecated Use {@link #ofFailure(Request)} instead.
     */
    @Deprecated(since = "1.0.2", forRemoval = true)
    public static Page fail(Request request){
        Page page = new Page();
        page.setRequest(request);
        page.setDownloadSuccess(false);
        return page;
    }

    public Page setSkip(boolean skip) {
        resultItems.setSkip(skip);
        return this;

    }

    /**
     * store extract results
     *
     * @param key key
     * @param field field
     */
    public void putField(String key, Object field) {
        resultItems.put(key, field);
    }

    /**
     * get html content of page
     *
     * @return html
     */
    public Html getHtml() {
        if (html == null) {
            html = new Html(rawText, request.getUrl());
        }
        return html;
    }

    /**
     * get json content of page
     *
     * @return json
     * @since 0.5.0
     */
    public Json getJson() {
        if (json == null) {
            json = new Json(rawText);
        }
        return json;
    }

    /**
     * @param html html
     * @deprecated since 0.4.0
     * The html is parse just when first time of calling {@link #getHtml()}, so use {@link #setRawText(String)} instead.
     */
    @Deprecated
	public void setHtml(Html html) {
        this.html = html;
    }

    public List<Request> getTargetRequests() {
        return targetRequests;
    }

    /**
     * add urls to fetch
     *
     * @param requests requests
     */
    public void addTargetRequests(Iterable<String> requests) {
    	addTargetRequests(requests, 0); // Default priority is 0
    }

    /**
     * add urls to fetch
     *
     * @param requests requests
     * @param priority priority
     */
    public void addTargetRequests(Iterable<String> requests, long priority) {
    	if(requests == null) {
    		return;
    	}
    	
        for (String req : requests) {
        	addRequestIfValid(req, priority);
        }
    }
    
    /**
     * Helper method to add a request if it's valid.
     *
     * @param url      URL to add
     * @param priority Priority for the URL
     */
    private void addRequestIfValid(String url, long priority) {
        if (StringUtils.isBlank(url) || url.equals("#") || url.startsWith("javascript:")) {
            return;
        }

        String canonicalizedUrl = UrlUtils.canonicalizeUrl(url, this.url.toString());
        Request req = new Request(canonicalizedUrl);
        if(priority > 0) {
            req.setPriority(priority);
        }
        targetRequests.add(req);
    }

    /**
     * add url to fetch
     *
     * @param requestString requestString
     */
    public void addTargetRequest(String requestString) {
        if (StringUtils.isBlank(requestString) || requestString.equals("#")) {
            return;
        }
        requestString = UrlUtils.canonicalizeUrl(requestString, url.toString());
        targetRequests.add(new Request(requestString));
    }

    /**
     * add requests to fetch
     *
     * @param request request
     */
    public void addTargetRequest(Request request) {
        targetRequests.add(request);
    }

    /**
     * get url of current page
     *
     * @return url of current page
     */
    public Selectable getUrl() {
        return url;
    }

    public void setUrl(Selectable url) {
        this.url = url;
    }

    /**
     * get request of current page
     *
     * @return request
     */
    public Request getRequest() {
        return request;
    }

    public void setRequest(Request request) {
        this.request = request;
        this.resultItems.setRequest(request);
    }

    public ResultItems getResultItems() {
        return resultItems;
    }

    public int getStatusCode() {
        return statusCode;
    }

    public void setStatusCode(int statusCode) {
        this.statusCode = statusCode;
    }

    public String getRawText() {
        return rawText;
    }

    public Page setRawText(String rawText) {
        this.rawText = rawText;
        return this;
    }

    public Map<String, List<String>> getHeaders() {
        return headers;
    }

    public void setHeaders(Map<String, List<String>> headers) {
        this.headers = headers;
    }

    public boolean isDownloadSuccess() {
        return downloadSuccess;
    }

    public void setDownloadSuccess(boolean downloadSuccess) {
        this.downloadSuccess = downloadSuccess;
    }

    public byte[] getBytes() {
        return bytes;
    }

    public void setBytes(byte[] bytes) {
        this.bytes = bytes;
    }

    public String getCharset() {
        return charset;
    }

    public void setCharset(String charset) {
        this.charset = charset;
    }

    @Override
    public String toString() {
        return "Page{" +
                "request=" + request +
                ", resultItems=" + resultItems +
                ", html=" + html +
                ", json=" + json +
                ", rawText='" + rawText + '\'' +
                ", url=" + url +
                ", headers=" + headers +
                ", statusCode=" + statusCode +
                ", downloadSuccess=" + downloadSuccess +
                ", targetRequests=" + targetRequests +
                ", charset='" + charset + '\'' +
                ", bytes=" + Arrays.toString(bytes) +
                '}';
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/Request.java
================================================
package us.codecraft.webmagic;

import java.io.Serializable;
import java.util.Collections;
import java.util.HashMap;
import java.util.Map;

import us.codecraft.webmagic.downloader.Downloader;
import us.codecraft.webmagic.model.HttpRequestBody;
import us.codecraft.webmagic.utils.Experimental;

/**
 * Object contains url to crawl.<br>
 * It contains some additional information.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class Request implements Serializable {

    private static final long serialVersionUID = 2062192774891352043L;

    public static final String CYCLE_TRIED_TIMES = "_cycle_tried_times";

    private String url;

    private String method;

    private HttpRequestBody requestBody;

    /**
     * this req use this downloader
     */
    private Downloader downloader;

    /**
     * Store additional information in extras.
     */
    private Map<String, Object> extras = new HashMap<>();

    /**
     * cookies for current url, if not set use Site's cookies
     */
    private Map<String, String> cookies = new HashMap<String, String>();

    private Map<String, String> headers = new HashMap<String, String>();

    /**
     * Priority of the request.<br>
     * The bigger will be processed earlier. <br>
     * @see us.codecraft.webmagic.scheduler.PriorityScheduler
     */
    private long priority;

    /**
     * When it is set to TRUE, the downloader will not try to parse response body to text.
     *
     */
    private boolean binaryContent = false;

    private String charset;

    public Request() {
    }

    public Request(String url) {
        this.url = url;
    }

    public long getPriority() {
        return priority;
    }

    /**
     * Set the priority of request for sorting.<br>
     * Need a scheduler supporting priority.<br>
     * @see us.codecraft.webmagic.scheduler.PriorityScheduler
     *
     * @param priority priority
     * @return this
     */
    @Experimental
    public Request setPriority(long priority) {
        this.priority = priority;
        return this;
    }

    @SuppressWarnings("unchecked")
    public <T> T getExtra(String key) {
        if (extras == null) {
            return null;
        }
        return (T) extras.get(key);
    }

    public <T> Request putExtra(String key, T value) {
        extras.put(key, value);
        return this;
    }

    public String getUrl() {
        return url;
    }

    public Map<String, Object> getExtras() {
        return Collections.unmodifiableMap(extras);
    }

    public Request setExtras(Map<String, Object> extras) {
        this.extras.putAll(extras);
        return this;
    }

    public Request setUrl(String url) {
        this.url = url;
        return this;
    }

    /**
     * The http method of the request. Get for default.
     * @return httpMethod
     * @see us.codecraft.webmagic.utils.HttpConstant.Method
     * @since 0.5.0
     */
    public String getMethod() {
        return method;
    }

    public Request setMethod(String method) {
        this.method = method;
        return this;
    }

    @Override
    public int hashCode() {
        int result = url != null ? url.hashCode() : 0;
        result = 31 * result + (method != null ? method.hashCode() : 0);
        return result;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;

        Request request = (Request) o;

        if (url != null ? !url.equals(request.url) : request.url != null) return false;
        return method != null ? method.equals(request.method) : request.method == null;
    }

    public Request addCookie(String name, String value) {
        cookies.put(name, value);
        return this;
    }

    public Request addHeader(String name, String value) {
        headers.put(name, value);
        return this;
    }

    public Map<String, String> getCookies() {
        return cookies;
    }

    public Map<String, String> getHeaders() {
        return headers;
    }

    public HttpRequestBody getRequestBody() {
        return requestBody;
    }

    public void setRequestBody(HttpRequestBody requestBody) {
        this.requestBody = requestBody;
    }

    public boolean isBinaryContent() {
        return binaryContent;
    }

    public Downloader getDownloader() {
        return downloader;
    }

    public void setDownloader(Downloader downloader) {
        this.downloader = downloader;
    }

    public Request setBinaryContent(boolean binaryContent) {
        this.binaryContent = binaryContent;
        return this;
    }

    public String getCharset() {
        return charset;
    }

    public Request setCharset(String charset) {
        this.charset = charset;
        return this;
    }

    @Override
    public String toString() {
        return "Request{" +
                "url='" + url + '\'' +
                ", method='" + method + '\'' +
                ", extras=" + extras +
                ", priority=" + priority +
                ", headers=" + headers +
                ", cookies="+ cookies+
                '}';
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/ResultItems.java
================================================
package us.codecraft.webmagic;

import java.util.LinkedHashMap;
import java.util.Map;

/**
 * Object contains extract results.<br>
 * It is contained in Page and will be processed in pipeline.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 * @see Page
 * @see us.codecraft.webmagic.pipeline.Pipeline
 */
public class ResultItems {

    private Map<String, Object> fields = new LinkedHashMap<String, Object>();

    private Request request;

    private boolean skip;

    @SuppressWarnings("unchecked")
    public <T> T get(String key) {
        Object o = fields.get(key);
        if (o == null) {
            return null;
        }
        return (T) fields.get(key);
    }

    public Map<String, Object> getAll() {
        return fields;
    }

    public <T> ResultItems put(String key, T value) {
        fields.put(key, value);
        return this;
    }

    public Request getRequest() {
        return request;
    }

    public ResultItems setRequest(Request request) {
        this.request = request;
        return this;
    }

    /**
     * Whether to skip the result.<br>
     * Result which is skipped will not be processed by Pipeline.
     *
     * @return whether to skip the result
     */
    public boolean isSkip() {
        return skip;
    }


    /**
     * Set whether to skip the result.<br>
     * Result which is skipped will not be processed by Pipeline.
     *
     * @param skip whether to skip the result
     * @return this
     */
    public ResultItems setSkip(boolean skip) {
        this.skip = skip;
        return this;
    }

    @Override
    public String toString() {
        return "ResultItems{" +
                "fields=" + fields +
                ", request=" + request +
                ", skip=" + skip +
                '}';
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/Site.java
================================================
package us.codecraft.webmagic;

import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.Set;
import java.util.UUID;

import us.codecraft.webmagic.utils.HttpConstant;

/**
 * Object contains setting for crawler.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @see us.codecraft.webmagic.processor.PageProcessor
 * @since 0.1.0
 */
public class Site {

    private String domain;

    private String userAgent;

    private Map<String, String> defaultCookies = new LinkedHashMap<String, String>();

    private Map<String, Map<String, String>> cookies = new HashMap<String, Map<String, String>>();

    private String charset;

    private String defaultCharset;

    private int sleepTime = 5000;

    private int retryTimes = 0;

    private int cycleRetryTimes = 0;

    private int retrySleepTime = 1000;

    private int timeOut = 5000;

    private static final Set<Integer> DEFAULT_STATUS_CODE_SET = new HashSet<Integer>();

    private Set<Integer> acceptStatCode = DEFAULT_STATUS_CODE_SET;

    private Map<String, String> headers = new HashMap<String, String>();

    private boolean useGzip = true;

    private boolean disableCookieManagement = false;

    static {
        DEFAULT_STATUS_CODE_SET.add(HttpConstant.StatusCode.CODE_200);
    }

    /**
     * new a Site
     *
     * @return new site
     */
    public static Site me() {
        return new Site();
    }

    /**
     * Add a cookie with domain {@link #getDomain()}
     *
     * @param name name
     * @param value value
     * @return this
     */
    public Site addCookie(String name, String value) {
        defaultCookies.put(name, value);
        return this;
    }

    /**
     * Add a cookie with specific domain.
     *
     * @param domain domain
     * @param name name
     * @param value value
     * @return this
     */
    public Site addCookie(String domain, String name, String value) {
        if (!cookies.containsKey(domain)){
            cookies.put(domain,new HashMap<String, String>());
        }
        cookies.get(domain).put(name, value);
        return this;
    }

    /**
     * set user agent
     *
     * @param userAgent userAgent
     * @return this
     */
    public Site setUserAgent(String userAgent) {
        this.userAgent = userAgent;
        return this;
    }

    /**
     * get cookies
     *
     * @return get cookies
     */
    public Map<String, String> getCookies() {
        return defaultCookies;
    }

    /**
     * get cookies of all domains
     *
     * @return get cookies
     */
    public Map<String,Map<String, String>> getAllCookies() {
        return cookies;
    }

    /**
     * get user agent
     *
     * @return user agent
     */
    public String getUserAgent() {
        return userAgent;
    }

    /**
     * get domain
     *
     * @return get domain
     */
    public String getDomain() {
        return domain;
    }

    /**
     * set the domain of site.
     *
     * @param domain domain
     * @return this
     */
    public Site setDomain(String domain) {
        this.domain = domain;
        return this;
    }

    /**
     * Set charset of page manually.<br>
     * When charset is not set or set to null, it can be auto detected by Http header.
     *
     * @param charset charset
     * @return this
     */
    public Site setCharset(String charset) {
        this.charset = charset;
        return this;
    }

    /**
     * get charset set manually
     *
     * @return charset
     */
    public String getCharset() {
        return charset;
    }

    /**
     * Set default charset of page.
     *
     * When charset detect failed, use this default charset.
     *
     * @param defaultCharset the default charset
     * @return this
     * @since 0.9.0
     */
    public Site setDefaultCharset(String defaultCharset) {
        this.defaultCharset = defaultCharset;
        return this;
    }

    /**
     * The default charset if charset detected failed.
     *
     * @return the defulat charset
     * @since 0.9.0
     */
    public String getDefaultCharset() {
        return defaultCharset;
    }

    public int getTimeOut() {
        return timeOut;
    }

    /**
     * set timeout for downloader in ms
     *
     * @param timeOut timeOut
     * @return this
     */
    public Site setTimeOut(int timeOut) {
        this.timeOut = timeOut;
        return this;
    }

    /**
     * Set acceptStatCode.<br>
     * When status code of http response is in acceptStatCodes, it will be processed.<br>
     * {200} by default.<br>
     * It is not necessarily to be set.<br>
     *
     * @param acceptStatCode acceptStatCode
     * @return this
     */
    public Site setAcceptStatCode(Set<Integer> acceptStatCode) {
        this.acceptStatCode = acceptStatCode;
        return this;
    }

    /**
     * get acceptStatCode
     *
     * @return acceptStatCode
     */
    public Set<Integer> getAcceptStatCode() {
        return acceptStatCode;
    }

    /**
     * Set the interval between the processing of two pages.<br>
     * Time unit is milliseconds.<br>
     *
     * @param sleepTime sleepTime
     * @return this
     */
    public Site setSleepTime(int sleepTime) {
        this.sleepTime = sleepTime;
        return this;
    }

    /**
     * Get the interval between the processing of two pages.<br>
     * Time unit is milliseconds.<br>
     *
     * @return the interval between the processing of two pages,
     */
    public int getSleepTime() {
        return sleepTime;
    }

    /**
     * Get retry times immediately when download fail, 0 by default.<br>
     *
     * @return retry times when download fail
     */
    public int getRetryTimes() {
        return retryTimes;
    }

    public Map<String, String> getHeaders() {
        return headers;
    }

    /**
     * Put an Http header for downloader. <br>
     * Use {@link #addCookie(String, String)} for cookie and {@link #setUserAgent(String)} for user-agent. <br>
     *
     * @param key   key of http header, there are some keys constant in {@link HttpConstant.Header}
     * @param value value of header
     * @return this
     */
    public Site addHeader(String key, String value) {
        headers.put(key, value);
        return this;
    }

    /**
     * Set retry times when download fail, 0 by default.<br>
     *
     * @param retryTimes retryTimes
     * @return this
     */
    public Site setRetryTimes(int retryTimes) {
        this.retryTimes = retryTimes;
        return this;
    }

    /**
     * When cycleRetryTimes is more than 0, it will add back to scheduler and try download again. <br>
     *
     * @return retry times when download fail
     */
    public int getCycleRetryTimes() {
        return cycleRetryTimes;
    }

    /**
     * Set cycleRetryTimes times when download fail, 0 by default. <br>
     *
     * @param cycleRetryTimes cycleRetryTimes
     * @return this
     */
    public Site setCycleRetryTimes(int cycleRetryTimes) {
        this.cycleRetryTimes = cycleRetryTimes;
        return this;
    }

    public boolean isUseGzip() {
        return useGzip;
    }

    public int getRetrySleepTime() {
        return retrySleepTime;
    }

    /**
     * Set retry sleep times when download fail, 1000 by default. <br>
     *
     * @param retrySleepTime retrySleepTime
     * @return this
     */
    public Site setRetrySleepTime(int retrySleepTime) {
        this.retrySleepTime = retrySleepTime;
        return this;
    }

    /**
     * Whether use gzip. <br>
     * Default is true, you can set it to false to disable gzip.
     *
     * @param useGzip useGzip
     * @return this
     */
    public Site setUseGzip(boolean useGzip) {
        this.useGzip = useGzip;
        return this;
    }

    public boolean isDisableCookieManagement() {
        return disableCookieManagement;
    }

    /**
     * Downloader is supposed to store response cookie.
     * Disable it to ignore all cookie fields and stay clean.
     * Warning: Set cookie will still NOT work if disableCookieManagement is true.
     * @param disableCookieManagement disableCookieManagement
     * @return this
     */
    public Site setDisableCookieManagement(boolean disableCookieManagement) {
        this.disableCookieManagement = disableCookieManagement;
        return this;
    }

    public Task toTask() {
        return new Task() {
            @Override
            public String getUUID() {
                String uuid = Site.this.getDomain();
                if (uuid == null) {
                    uuid = UUID.randomUUID().toString();
                }
                return uuid;
            }

            @Override
            public Site getSite() {
                return Site.this;
            }
        };
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;

        Site site = (Site) o;

        if (cycleRetryTimes != site.cycleRetryTimes) return false;
        if (retryTimes != site.retryTimes) return false;
        if (sleepTime != site.sleepTime) return false;
        if (timeOut != site.timeOut) return false;
        if (acceptStatCode != null ? !acceptStatCode.equals(site.acceptStatCode) : site.acceptStatCode != null)
            return false;
        if (charset != null ? !charset.equals(site.charset) : site.charset != null) return false;
        if (defaultCookies != null ? !defaultCookies.equals(site.defaultCookies) : site.defaultCookies != null)
            return false;
        if (domain != null ? !domain.equals(site.domain) : site.domain != null) return false;
        if (headers != null ? !headers.equals(site.headers) : site.headers != null) return false;
        if (userAgent != null ? !userAgent.equals(site.userAgent) : site.userAgent != null) return false;

        return true;
    }

    @Override
    public int hashCode() {
        int result = domain != null ? domain.hashCode() : 0;
        result = 31 * result + (userAgent != null ? userAgent.hashCode() : 0);
        result = 31 * result + (defaultCookies != null ? defaultCookies.hashCode() : 0);
        result = 31 * result + (charset != null ? charset.hashCode() : 0);
        result = 31 * result + sleepTime;
        result = 31 * result + retryTimes;
        result = 31 * result + cycleRetryTimes;
        result = 31 * result + timeOut;
        result = 31 * result + (acceptStatCode != null ? acceptStatCode.hashCode() : 0);
        result = 31 * result + (headers != null ? headers.hashCode() : 0);
        return result;
    }

    @Override
    public String toString() {
        return "Site{" +
                "domain='" + domain + '\'' +
                ", userAgent='" + userAgent + '\'' +
                ", cookies=" + defaultCookies +
                ", charset='" + charset + '\'' +
                ", sleepTime=" + sleepTime +
                ", retryTimes=" + retryTimes +
                ", cycleRetryTimes=" + cycleRetryTimes +
                ", timeOut=" + timeOut +
                ", acceptStatCode=" + acceptStatCode +
                ", headers=" + headers +
                '}';
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/Spider.java
================================================
package us.codecraft.webmagic;


import java.io.Closeable;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Date;
import java.util.List;
import java.util.UUID;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.atomic.AtomicInteger;
import java.util.concurrent.atomic.AtomicLong;
import org.apache.commons.collections4.CollectionUtils;
import org.apache.commons.lang3.SerializationUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.downloader.Downloader;
import us.codecraft.webmagic.downloader.HttpClientDownloader;
import us.codecraft.webmagic.pipeline.CollectorPipeline;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.pipeline.ResultItemsCollectorPipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.QueueScheduler;
import us.codecraft.webmagic.scheduler.Scheduler;
import us.codecraft.webmagic.thread.CountableThreadPool;
import us.codecraft.webmagic.utils.UrlUtils;
import us.codecraft.webmagic.utils.WMCollections;

/**
 * Entrance of a crawler.<br>
 * A spider contains four modules: Downloader, Scheduler, PageProcessor and
 * Pipeline.<br>
 * Every module is a field of Spider. <br>
 * The modules are defined in interface. <br>
 * You can customize a spider with various implementations of them. <br>
 * Examples: <br>
 * <br>
 * A simple crawler: <br>
 * Spider.create(new SimplePageProcessor("http://my.oschina.net/",
 * "http://my.oschina.net/*blog/*")).run();<br>
 * <br>
 * Store results to files by FilePipeline: <br>
 * Spider.create(new SimplePageProcessor("http://my.oschina.net/",
 * "http://my.oschina.net/*blog/*")) <br>
 * .pipeline(new FilePipeline("/data/temp/webmagic/")).run(); <br>
 * <br>
 * Use FileCacheQueueScheduler to store urls and cursor in files, so that a
 * Spider can resume the status when shutdown. <br>
 * Spider.create(new SimplePageProcessor("http://my.oschina.net/",
 * "http://my.oschina.net/*blog/*")) <br>
 * .scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).run(); <br>
 *
 * @author code4crafter@gmail.com <br>
 * @see Downloader
 * @see Scheduler
 * @see PageProcessor
 * @see Pipeline
 * @since 0.1.0
 */
public class Spider implements Runnable, Task {

    protected Downloader downloader;

    protected List<Pipeline> pipelines = new ArrayList<Pipeline>();

    protected PageProcessor pageProcessor;

    protected List<Request> startRequests;

    protected Site site;

    protected String uuid;
    
    protected SpiderScheduler scheduler;
    
    protected Logger logger = LoggerFactory.getLogger(getClass());

    protected CountableThreadPool threadPool;

    protected ExecutorService executorService;

    protected int threadNum = 1;

    protected AtomicInteger stat = new AtomicInteger(STAT_INIT);

    protected volatile boolean exitWhenComplete = true;

    protected final static int STAT_INIT = 0;

    protected final static int STAT_RUNNING = 1;

    protected final static int STAT_STOPPED = 2;

    protected boolean spawnUrl = true;

    protected boolean destroyWhenExit = true;

    private List<SpiderListener> spiderListeners;

    private final AtomicLong pageCount = new AtomicLong(0);

    private Date startTime;

    private long emptySleepTime = 30000;

    /**
     * create a spider with pageProcessor.
     *
     * @param pageProcessor pageProcessor
     * @return new spider
     * @see PageProcessor
     */
    public static Spider create(PageProcessor pageProcessor) {
        return new Spider(pageProcessor);
    }

    /**
     * create a spider with pageProcessor.
     *
     * @param pageProcessor pageProcessor
     */
    public Spider(PageProcessor pageProcessor) {
        this.pageProcessor = pageProcessor;
        this.site = pageProcessor.getSite();
        this.scheduler = new SpiderScheduler(new QueueScheduler());
    }

    /**
     * Set startUrls of Spider.<br>
     * Prior to startUrls of Site.
     *
     * @param startUrls startUrls
     * @return this
     */
    public Spider startUrls(List<String> startUrls) {
        checkIfRunning();
        this.startRequests = UrlUtils.convertToRequests(startUrls);
        return this;
    }

    /**
     * Set startUrls of Spider.<br>
     * Prior to startUrls of Site.
     *
     * @param startRequests startRequests
     * @return this
     */
    public Spider startRequest(List<Request> startRequests) {
        checkIfRunning();
        this.startRequests = startRequests;
        return this;
    }

    /**
     * Set an uuid for spider.<br>
     * Default uuid is domain of site.<br>
     *
     * @param uuid uuid
     * @return this
     */
    public Spider setUUID(String uuid) {
        this.uuid = uuid;
        return this;
    }

    /**
     * set scheduler for Spider
     *
     * @param scheduler scheduler
     * @return this
     * @see #setScheduler(us.codecraft.webmagic.scheduler.Scheduler)
     */
    @Deprecated
    public Spider scheduler(Scheduler scheduler) {
        return setScheduler(scheduler);
    }

    /**
     * set scheduler for Spider
     *
     * @param updateScheduler scheduler
     * @return this
     * @see Scheduler
     * @since 0.2.1
     */
    public Spider setScheduler(Scheduler updateScheduler) {
        checkIfRunning();
        Scheduler oldScheduler = scheduler.getScheduler();
        scheduler.setScheduler(updateScheduler);
        if (oldScheduler != null) {
            Request request;
            while ((request = oldScheduler.poll(this)) != null) {
                this.scheduler.push(request, this);
            }
        }
        return this;
    }

    /**
     * add a pipeline for Spider
     *
     * @param pipeline pipeline
     * @return this
     * @see #addPipeline(us.codecraft.webmagic.pipeline.Pipeline)
     * @deprecated
     */
    @Deprecated
    public Spider pipeline(Pipeline pipeline) {
        return addPipeline(pipeline);
    }

    /**
     * add a pipeline for Spider
     *
     * @param pipeline pipeline
     * @return this
     * @see Pipeline
     * @since 0.2.1
     */
    public Spider addPipeline(Pipeline pipeline) {
        checkIfRunning();
        this.pipelines.add(pipeline);
        return this;
    }

    /**
     * set pipelines for Spider
     *
     * @param pipelines pipelines
     * @return this
     * @see Pipeline
     * @since 0.4.1
     */
    public Spider setPipelines(List<Pipeline> pipelines) {
        checkIfRunning();
        this.pipelines = pipelines;
        return this;
    }

    /**
     * clear the pipelines set
     *
     * @return this
     */
    public Spider clearPipeline() {
        pipelines = new ArrayList<Pipeline>();
        return this;
    }

    /**
     * set the downloader of spider
     *
     * @param downloader downloader
     * @return this
     * @see #setDownloader(us.codecraft.webmagic.downloader.Downloader)
     * @deprecated
     */
    @Deprecated
    public Spider downloader(Downloader downloader) {
        return setDownloader(downloader);
    }

    /**
     * set the downloader of spider
     *
     * @param downloader downloader
     * @return this
     * @see Downloader
     */
    public Spider setDownloader(Downloader downloader) {
        checkIfRunning();
        this.downloader = downloader;
        return this;
    }

    protected void initComponent() {
        if (downloader == null) {
            this.downloader = new HttpClientDownloader();
        }
        if (pipelines.isEmpty()) {
            pipelines.add(new ConsolePipeline());
        }
        downloader.setThread(threadNum);
        if (threadPool == null || threadPool.isShutdown()) {
            if (executorService != null && !executorService.isShutdown()) {
                threadPool = new CountableThreadPool(threadNum, executorService);
            } else {
                threadPool = new CountableThreadPool(threadNum);
            }
        }
        if (startRequests != null) {
            for (Request request : startRequests) {
                addRequest(request);
            }
            startRequests.clear();
        }
        startTime = new Date();
    }

    @Override
    public void run() {
        checkRunningStat();
        initComponent();
        logger.info("Spider {} started!", getUUID());
        // interrupt won't be necessarily detected
        while (!Thread.currentThread().isInterrupted() && stat.get() == STAT_RUNNING) {
            Request poll = scheduler.poll(this);
            if (poll == null) {
                if (threadPool.getThreadAlive() == 0) {
                    //no alive thread anymore , try again
                    poll = scheduler.poll(this);
                    if (poll == null) {
                        if (exitWhenComplete) {
                            break;
                        } else {
                            // wait
                            try {
                                Thread.sleep(emptySleepTime);
                                continue;
                            } catch (InterruptedException e) {
                                Thread.currentThread().interrupt();
                                break;
                            }
                        }
                    }
                } else {
                    // wait until new url added，
                    if (scheduler.waitNewUrl(threadPool, emptySleepTime)) {
                        // if interrupted
                        break;
                    }
                    continue;
                }
            }
            final Request request = poll;
            //this may swallow the interruption
            threadPool.execute(new Runnable() {
                @Override
                public void run() {
                    try {
                        processRequest(request);
                        onSuccess(request);
                    } catch (Exception e) {
                        onError(request, e);
                        logger.error("process request " + request + " error", e);
                    } finally {
                        pageCount.incrementAndGet();
                        scheduler.signalNewUrl();
                    }
                }
            });
        }
        stat.set(STAT_STOPPED);
        // release some resources
        if (destroyWhenExit) {
            close();
        }
        logger.info("Spider {} closed! {} pages downloaded.", getUUID(), pageCount.get());
    }

    /**
     * @deprecated Use {@link #onError(Request, Exception)} instead.
     */
    @Deprecated
    protected void onError(Request request) {
    }

    protected void onError(Request request, Exception e) {
        this.onError(request);

        if (CollectionUtils.isNotEmpty(spiderListeners)) {
            for (SpiderListener spiderListener : spiderListeners) {
                spiderListener.onError(request, e);
            }
        }
    }

    protected void onSuccess(Request request) {
        if (CollectionUtils.isNotEmpty(spiderListeners)) {
            for (SpiderListener spiderListener : spiderListeners) {
                spiderListener.onSuccess(request);
            }
        }
    }

    private void checkRunningStat() {
        while (true) {
            int statNow = stat.get();
            if (statNow == STAT_RUNNING) {
                throw new IllegalStateException("Spider is already running!");
            }
            if (stat.compareAndSet(statNow, STAT_RUNNING)) {
                break;
            }
        }
    }

    public void close() {
        destroyEach(downloader);
        destroyEach(pageProcessor);
        destroyEach(scheduler);
        for (Pipeline pipeline : pipelines) {
            destroyEach(pipeline);
        }
        threadPool.shutdown();
    }

    private void destroyEach(Object object) {
        if (object instanceof Closeable) {
            try {
                ((Closeable) object).close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    /**
     * Process specific urls without url discovering.
     *
     * @param urls urls to process
     */
    public void test(String... urls) {
        initComponent();
        if (urls.length > 0) {
            for (String url : urls) {
                processRequest(new Request(url));
            }
        }
    }

    private void processRequest(Request request) {
        Page page;
        if (null != request.getDownloader()){
            page = request.getDownloader().download(request,this);
        }else {
            page = downloader.download(request, this);
        }
        if (page.isDownloadSuccess()){
            onDownloadSuccess(request, page);
        } else {
            onDownloaderFail(request);
        }
    }

    private void onDownloadSuccess(Request request, Page page) {
        if (site.getAcceptStatCode().contains(page.getStatusCode())){
            pageProcessor.process(page);
            extractAndAddRequests(page, spawnUrl);
            if (!page.getResultItems().isSkip()) {
                for (Pipeline pipeline : pipelines) {
                    pipeline.process(page.getResultItems(), this);
                }
            }
        } else {
            logger.info("page status code error, page {} , code: {}", request.getUrl(), page.getStatusCode());
        }
        sleep(site.getSleepTime());
    }

    private void onDownloaderFail(Request request) {
        if (site.getCycleRetryTimes() == 0) {
            sleep(site.getSleepTime());
        } else {
            // for cycle retry
            doCycleRetry(request);
        }
    }

    private void doCycleRetry(Request request) {
        Object cycleTriedTimesObject = request.getExtra(Request.CYCLE_TRIED_TIMES);
        if (cycleTriedTimesObject == null) {
            addRequest(SerializationUtils.clone(request).setPriority(0).putExtra(Request.CYCLE_TRIED_TIMES, 1));
        } else {
            int cycleTriedTimes = (Integer) cycleTriedTimesObject;
            cycleTriedTimes++;
            if (cycleTriedTimes < site.getCycleRetryTimes()) {
                addRequest(SerializationUtils.clone(request).setPriority(0).putExtra(Request.CYCLE_TRIED_TIMES, cycleTriedTimes));
            }
        }
        sleep(site.getRetrySleepTime());
    }

    protected void sleep(int time) {
        try {
            Thread.sleep(time);
        } catch (InterruptedException e) {
            logger.error("Thread interrupted when sleep",e);
            Thread.currentThread().interrupt();
        }
    }

    protected void extractAndAddRequests(Page page, boolean spawnUrl) {
        if (spawnUrl && CollectionUtils.isNotEmpty(page.getTargetRequests())) {
            for (Request request : page.getTargetRequests()) {
                addRequest(request);
            }
        }
    }

    private void addRequest(Request request) {
        if (site.getDomain() == null && request != null && request.getUrl() != null) {
            site.setDomain(UrlUtils.getDomain(request.getUrl()));
        }
        scheduler.push(request, this);
    }

    protected void checkIfRunning() {
        if (stat.get() == STAT_RUNNING) {
            throw new IllegalStateException("Spider is already running!");
        }
    }

    public void runAsync() {
        Thread thread = new Thread(this);
        thread.setDaemon(false);
        thread.start();
    }

    /**
     * Add urls to crawl. <br>
     *
     * @param urls urls
     * @return this
     */
    public Spider addUrl(String... urls) {
        for (String url : urls) {
            addRequest(new Request(url));
        }
        scheduler.signalNewUrl();
        return this;
    }

    /**
     * Download urls synchronizing.
     *
     * @param urls urls
     * @param <T> type of process result
     * @return list downloaded
     */
    public <T> List<T> getAll(Collection<String> urls) {
        destroyWhenExit = false;
        spawnUrl = false;
        if (startRequests!=null){
            startRequests.clear();
        }
        for (Request request : UrlUtils.convertToRequests(urls)) {
            addRequest(request);
        }
        CollectorPipeline collectorPipeline = getCollectorPipeline();
        pipelines.add(collectorPipeline);
        run();
        spawnUrl = true;
        destroyWhenExit = true;
        return collectorPipeline.getCollected();
    }

    protected CollectorPipeline getCollectorPipeline() {
        return new ResultItemsCollectorPipeline();
    }

    public <T> T get(String url) {
        List<String> urls = WMCollections.newArrayList(url);
        List<T> resultItemses = getAll(urls);
        if (resultItemses != null && resultItemses.size() > 0) {
            return resultItemses.get(0);
        } else {
            return null;
        }
    }

    /**
     * Add urls with information to crawl.<br>
     *
     * @param requests requests
     * @return this
     */
    public Spider addRequest(Request... requests) {
        for (Request request : requests) {
            addRequest(request);
        }
        scheduler.signalNewUrl();
        return this;
    }

    public void start() {
        runAsync();
    }

    public void stop() {
        if (stat.compareAndSet(STAT_RUNNING, STAT_STOPPED)) {
            logger.info("Spider " + getUUID() + " stop success!");
        } else {
            logger.info("Spider " + getUUID() + " stop fail!");
        }
    }

    /**
     * Stop when all tasks in the queue are completed and all worker threads are also completed
     */
    public void stopWhenComplete(){
        this.exitWhenComplete = true;
    }

    /**
     * start with more than one threads
     *
     * @param threadNum threadNum
     * @return this
     */
    public Spider thread(int threadNum) {
        checkIfRunning();
        this.threadNum = threadNum;
        if (threadNum <= 0) {
            throw new IllegalArgumentException("threadNum should be more than one!");
        }
        return this;
    }

    /**
     * start with more than one threads
     *
     * @param executorService executorService to run the spider
     * @param threadNum threadNum
     * @return this
     */
    public Spider thread(ExecutorService executorService, int threadNum) {
        checkIfRunning();
        this.threadNum = threadNum;
        if (threadNum <= 0) {
            throw new IllegalArgumentException("threadNum should be more than one!");
        }
        this.executorService = executorService;
        return this;
    }

    public boolean isExitWhenComplete() {
        return exitWhenComplete;
    }

    /**
     * Exit when complete. <br>
     * True: exit when all url of the site is downloaded. <br>
     * False: not exit until call stop() manually.<br>
     *
     * @param exitWhenComplete exitWhenComplete
     * @return this
     */
    public Spider setExitWhenComplete(boolean exitWhenComplete) {
        this.exitWhenComplete = exitWhenComplete;
        return this;
    }

    public boolean isSpawnUrl() {
        return spawnUrl;
    }

    /**
     * Get page count downloaded by spider.
     *
     * @return total downloaded page count
     * @since 0.4.1
     */
    public long getPageCount() {
        return pageCount.get();
    }

    /**
     * Get running status by spider.
     *
     * @return running status
     * @see Status
     * @since 0.4.1
     */
    public Status getStatus() {
        return Status.fromValue(stat.get());
    }


    public enum Status {
        Init(0), Running(1), Stopped(2);

        private Status(int value) {
            this.value = value;
        }

        private int value;

        int getValue() {
            return value;
        }

        public static Status fromValue(int value) {
            for (Status status : Status.values()) {
                if (status.getValue() == value) {
                    return status;
                }
            }
            //default value
            return Init;
        }
    }

    /**
     * Get thread count which is running
     *
     * @return thread count which is running
     * @since 0.4.1
     */
    public int getThreadAlive() {
        if (threadPool == null) {
            return 0;
        }
        return threadPool.getThreadAlive();
    }

    /**
     * Whether add urls extracted to download.<br>
     * Add urls to download when it is true, and just download seed urls when it is false. <br>
     * DO NOT set it unless you know what it means!
     *
     * @param spawnUrl spawnUrl
     * @return this
     * @since 0.4.0
     */
    public Spider setSpawnUrl(boolean spawnUrl) {
        this.spawnUrl = spawnUrl;
        return this;
    }

    @Override
    public String getUUID() {
        if (uuid != null) {
            return uuid;
        }
        if (site != null) {
            return site.getDomain();
        }
        uuid = UUID.randomUUID().toString();
        return uuid;
    }

    public Spider setExecutorService(ExecutorService executorService) {
        checkIfRunning();
        this.executorService = executorService;
        return this;
    }

    @Override
    public Site getSite() {
        return site;
    }

    public List<SpiderListener> getSpiderListeners() {
        return spiderListeners;
    }

    public Spider setSpiderListeners(List<SpiderListener> spiderListeners) {
        this.spiderListeners = spiderListeners;
        return this;
    }

    public Date getStartTime() {
        return startTime;
    }

    public Scheduler getScheduler() {
        return scheduler.getScheduler();
    }

    /**
     * Set wait time when no url is polled.<br><br>
     *
     * @param emptySleepTime In MILLISECONDS.
     * @return this
     */
    public Spider setEmptySleepTime(long emptySleepTime) {
        if(emptySleepTime<=0){
            throw new IllegalArgumentException("emptySleepTime should be more than zero!");
        }
        this.emptySleepTime = emptySleepTime;
        return this;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/SpiderListener.java
================================================
package us.codecraft.webmagic;

/**
 * Listener of Spider on page processing. Used for monitor and such on.
 *
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public interface SpiderListener {

    void onSuccess(Request request);

    /**
     * @deprecated Use {@link #onError(Request, Exception)} instead.
     */
    @Deprecated
    default void onError(Request request) {
    }

    default void onError(Request request, Exception e) {
        this.onError(request);
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/SpiderScheduler.java
================================================
package us.codecraft.webmagic;

import java.util.concurrent.TimeUnit;
import java.util.concurrent.locks.Condition;
import java.util.concurrent.locks.ReentrantLock;

import us.codecraft.webmagic.scheduler.Scheduler;
import us.codecraft.webmagic.thread.CountableThreadPool;

public class SpiderScheduler {
    private Scheduler scheduler;
    private final ReentrantLock newUrlLock = new ReentrantLock();
    private final Condition newUrlCondition = newUrlLock.newCondition();

    public SpiderScheduler(Scheduler scheduler) {
        this.scheduler = scheduler;
    }

    public Scheduler getScheduler() {
        return scheduler;
    }

    public void setScheduler(Scheduler scheduler) {
        this.scheduler = scheduler;
    }

    public Request poll(Spider spider) {
        return scheduler.poll(spider);
    }

    public void push(Request request, Spider spider) {
        scheduler.push(request, spider);
    }

    public boolean waitNewUrl(CountableThreadPool threadPool, long emptySleepTime) {
        newUrlLock.lock();
        try {
            if (threadPool.getThreadAlive() == 0) {
                return false;
            }
            newUrlCondition.await(emptySleepTime, TimeUnit.MILLISECONDS);
            return false;
        } catch (InterruptedException e) {
            return true;
        } finally {
            newUrlLock.unlock();
        }
    }

    public void signalNewUrl() {
        try {
            newUrlLock.lock();
            newUrlCondition.signalAll();
        } finally {
            newUrlLock.unlock();
        }
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/Task.java
================================================
package us.codecraft.webmagic;

/**
 * Interface for identifying different tasks.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 * @see us.codecraft.webmagic.scheduler.Scheduler
 * @see us.codecraft.webmagic.pipeline.Pipeline
 */
public interface Task {

    /**
     * unique id for a task.
     *
     * @return uuid
     */
    public String getUUID();

    /**
     * site of a task
     *
     * @return site
     */
    public Site getSite();

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/AbstractDownloader.java
================================================
package us.codecraft.webmagic.downloader;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.selector.Html;

/**
 * Base class of downloader with some common methods.
 *
 * @author code4crafter@gmail.com
 * @since 0.5.0
 */
public abstract class AbstractDownloader implements Downloader {

    /**
     * A simple method to download a url.
     *
     * @param url url
     * @return html
     */
    public Html download(String url) {
        return download(url, null);
    }

    /**
     * A simple method to download a url.
     *
     * @param url     url
     * @param charset charset
     * @return html
     */
    public Html download(String url, String charset) {
        Page page = download(new Request(url), Site.me().setCharset(charset).toTask());
        return (Html) page.getHtml();
    }

    /**
     * @param request the {@link Request}.
     * @deprecated Use {@link #onSuccess(Page, Task)} instead.
     */
    @Deprecated
    protected void onSuccess(Request request) {
    }

    /**
     * @param request the {@link Request}.
     * @param task the {@link Task}.
     * @since 0.7.6
     * @deprecated Use {@link #onSuccess(Page, Task)} instead.
     */
    @Deprecated
    protected void onSuccess(Request request, Task task) {
        this.onSuccess(request);
    }

    /**
     * @param page the {@link Page}.
     * @param task the {@link Task}.
     * @since 0.10.0
     */
    protected void onSuccess(Page page, Task task) {
        this.onSuccess(page.getRequest(), task);
    }

    /**
     * @param request the {@link Request}.
     * @deprecated Use {@link #onError(Page, Task, Throwable)} instead.
     */
    @Deprecated
    protected void onError(Request request) {
    }

    /**
     * @param request the {@link Request}.
     * @param task the {@link Task}.
     * @param e the exception.
     * @since 0.7.6
     * @deprecated Use {@link #onError(Page, Task, Throwable)} instead.
     */
    @Deprecated
    protected void onError(Request request, Task task, Throwable e) {
        this.onError(request);
    }

    /**
     * @param page the {@link Page}.
     * @param task the {@link Task}.
     * @param e the exception.
     * @since 0.10.0
     */
    protected void onError(Page page, Task task, Throwable e) {
        this.onError(page.getRequest(), task, e);
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/CustomRedirectStrategy.java
================================================
package us.codecraft.webmagic.downloader;

import java.net.URI;

import org.apache.http.HttpRequest;
import org.apache.http.HttpResponse;
import org.apache.http.ProtocolException;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.client.methods.HttpRequestWrapper;
import org.apache.http.client.methods.HttpUriRequest;
import org.apache.http.impl.client.LaxRedirectStrategy;
import org.apache.http.protocol.HttpContext;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 *支持post 302跳转策略实现类
 *HttpClient默认跳转：httpClientBuilder.setRedirectStrategy(new LaxRedirectStrategy());
 *上述代码在post/redirect/post这种情况下不会传递原有请求的数据信息。所以参考了下SeimiCrawler这个项目的重定向策略。
 *原代码地址：https://github.com/zhegexiaohuozi/SeimiCrawler/blob/master/project/src/main/java/cn/wanghaomiao/seimi/http/hc/SeimiRedirectStrategy.java
 */
public class CustomRedirectStrategy extends LaxRedirectStrategy {
    private Logger logger = LoggerFactory.getLogger(getClass());

    @Override
    public HttpUriRequest getRedirect(HttpRequest request, HttpResponse response, HttpContext context) throws ProtocolException {
        URI uri = getLocationURI(request, response, context);
        String method = request.getRequestLine().getMethod();
        if ("post".equalsIgnoreCase(method)) {
            try {
                HttpRequestWrapper httpRequestWrapper = (HttpRequestWrapper) request;
                httpRequestWrapper.setURI(uri);
                httpRequestWrapper.removeHeaders("Content-Length");
                return httpRequestWrapper;
            } catch (Exception e) {
                logger.error("强转为HttpRequestWrapper出错");
            }
            return new HttpPost(uri);
        } else {
            return new HttpGet(uri);
        }
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/Downloader.java
================================================
package us.codecraft.webmagic.downloader;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

/**
 * Downloader is the part that downloads web pages and store in Page object. <br>
 * Downloader has {@link #setThread(int)} method because downloader is always the bottleneck of a crawler,
 * there are always some mechanisms such as pooling in downloader, and pool size is related to thread numbers.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public interface Downloader {

    /**
     * Downloads web pages and store in Page object.
     *
     * @param request request
     * @param task task
     * @return page
     */
    public Page download(Request request, Task task);

    /**
     * Tell the downloader how many threads the spider used.
     * @param threadNum number of threads
     */
    public void setThread(int threadNum);
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/HttpClientDownloader.java
================================================
package us.codecraft.webmagic.downloader;

import java.io.IOException;
import java.nio.charset.Charset;
import java.util.HashMap;
import java.util.Map;
import java.util.Optional;

import org.apache.commons.io.IOUtils;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.util.EntityUtils;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.proxy.Proxy;
import us.codecraft.webmagic.proxy.ProxyProvider;
import us.codecraft.webmagic.selector.PlainText;
import us.codecraft.webmagic.utils.CharsetUtils;
import us.codecraft.webmagic.utils.HttpClientUtils;

/**
 * The http downloader based on HttpClient.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class HttpClientDownloader extends AbstractDownloader {

    private final Map<String, CloseableHttpClient> httpClients = new HashMap<String, CloseableHttpClient>();

    private HttpClientGenerator httpClientGenerator = new HttpClientGenerator();

    private HttpUriRequestConverter httpUriRequestConverter = new HttpUriRequestConverter();

    private ProxyProvider proxyProvider;

    private boolean responseHeader = true;

    public void setHttpUriRequestConverter(HttpUriRequestConverter httpUriRequestConverter) {
        this.httpUriRequestConverter = httpUriRequestConverter;
    }

    public void setProxyProvider(ProxyProvider proxyProvider) {
        this.proxyProvider = proxyProvider;
    }

    private CloseableHttpClient getHttpClient(Site site) {
        if (site == null) {
            return httpClientGenerator.getClient(null);
        }
        String domain = site.getDomain();
        CloseableHttpClient httpClient = httpClients.get(domain);
        if (httpClient == null) {
            synchronized (this) {
                httpClient = httpClients.get(domain);
                if (httpClient == null) {
                    httpClient = httpClientGenerator.getClient(site);
                    httpClients.put(domain, httpClient);
                }
            }
        }
        return httpClient;
    }

    @Override
    public Page download(Request request, Task task) {
        if (task == null || task.getSite() == null) {
            throw new NullPointerException("task or site can not be null");
        }
        CloseableHttpResponse httpResponse = null;
        CloseableHttpClient httpClient = getHttpClient(task.getSite());
        Proxy proxy = proxyProvider != null ? proxyProvider.getProxy(request, task) : null;
        HttpClientRequestContext requestContext = httpUriRequestConverter.convert(request, task.getSite(), proxy);
        Page page = null;
        try {
            httpResponse = httpClient.execute(requestContext.getHttpUriRequest(), requestContext.getHttpClientContext());
            page = handleResponse(request, request.getCharset() != null ? request.getCharset() : task.getSite().getCharset(), httpResponse, task);
            onSuccess(page, task);
            return page;
        } catch (IOException e) {
            page = Page.ofFailure(request);
            onError(page, task, e);
            return page;
        } finally {
            if (httpResponse != null) {
                //ensure the connection is released back to pool
                EntityUtils.consumeQuietly(httpResponse.getEntity());
            }
            if (proxyProvider != null && proxy != null) {
                proxyProvider.returnProxy(proxy, page, task);
            }
        }
    }

    @Override
    public void setThread(int thread) {
        httpClientGenerator.setPoolSize(thread);
    }

    protected Page handleResponse(Request request, String charset, HttpResponse httpResponse, Task task) throws IOException {
        HttpEntity entity = httpResponse.getEntity();
        byte[] bytes = entity != null ? IOUtils.toByteArray(entity.getContent()) : new byte[0];
        String contentType = entity != null && entity.getContentType() != null ? entity.getContentType().getValue() : null;
        Page page = Page.ofSuccess(request);
        page.setBytes(bytes);
        if (!request.isBinaryContent()) {
            if (charset == null) {
                charset = getHtmlCharset(contentType, bytes, task);
            }
            page.setCharset(charset);
            page.setRawText(new String(bytes, charset));
        }
        page.setUrl(new PlainText(request.getUrl()));
        page.setRequest(request);
        page.setStatusCode(httpResponse.getStatusLine().getStatusCode());
        if (responseHeader) {
            page.setHeaders(HttpClientUtils.convertHeaders(httpResponse.getAllHeaders()));
        }
        return page;
    }

    private String getHtmlCharset(String contentType, byte[] contentBytes, Task task) throws IOException {
        String charset = CharsetUtils.detectCharset(contentType, contentBytes);
        if (charset == null) {
            charset = Optional.ofNullable(task.getSite().getDefaultCharset()).orElseGet(Charset.defaultCharset()::name);
        }
        return charset;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/HttpClientGenerator.java
================================================
package us.codecraft.webmagic.downloader;

import org.apache.commons.lang3.JavaVersion;
import org.apache.commons.lang3.SystemUtils;
import org.apache.http.HttpException;
import org.apache.http.HttpRequest;
import org.apache.http.HttpRequestInterceptor;
import org.apache.http.client.CookieStore;
import org.apache.http.config.Registry;
import org.apache.http.config.RegistryBuilder;
import org.apache.http.config.SocketConfig;
import org.apache.http.conn.socket.ConnectionSocketFactory;
import org.apache.http.conn.socket.PlainConnectionSocketFactory;
import org.apache.http.conn.ssl.SSLConnectionSocketFactory;
import org.apache.http.impl.client.*;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.impl.cookie.BasicClientCookie;
import org.apache.http.protocol.HttpContext;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Site;

import javax.net.ssl.SSLContext;
import javax.net.ssl.TrustManager;
import javax.net.ssl.X509TrustManager;
import java.io.IOException;
import java.security.KeyManagementException;
import java.security.NoSuchAlgorithmException;
import java.security.cert.CertificateException;
import java.security.cert.X509Certificate;
import java.util.Map;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.4.0
 */
public class HttpClientGenerator {

    private Logger logger = LoggerFactory.getLogger(getClass());

    private PoolingHttpClientConnectionManager connectionManager;

    public HttpClientGenerator() {
        Registry<ConnectionSocketFactory> reg = RegistryBuilder.<ConnectionSocketFactory>create()
                .register("http", PlainConnectionSocketFactory.INSTANCE)
                .register("https", buildSSLConnectionSocketFactory())
                .build();
        connectionManager = new PoolingHttpClientConnectionManager(reg);
        connectionManager.setDefaultMaxPerRoute(100);
    }

    private SSLConnectionSocketFactory buildSSLConnectionSocketFactory() {
        try {
            SSLContext sslContext = createIgnoreVerifySSL();
            String[] supportedProtocols;
            if (SystemUtils.isJavaVersionAtLeast(JavaVersion.JAVA_11)) {
                supportedProtocols = new String[]{"SSLv3", "TLSv1", "TLSv1.1", "TLSv1.2", "TLSv1.3"};
            } else {
                supportedProtocols = new String[]{"SSLv3", "TLSv1", "TLSv1.1", "TLSv1.2"};
            }
            logger.debug("supportedProtocols: {}", String.join(", ", supportedProtocols));
            return new SSLConnectionSocketFactory(sslContext, supportedProtocols,
                    null,
                    //不进行主机校验
                    (host, sslSession) -> true); // 优先绕过安全证书
        } catch (KeyManagementException | NoSuchAlgorithmException e) {
            logger.error("ssl connection fail", e);
        }
        return SSLConnectionSocketFactory.getSocketFactory();
    }

    private SSLContext createIgnoreVerifySSL() throws NoSuchAlgorithmException, KeyManagementException {
        // 实现一个X509TrustManager接口，用于绕过验证，不用修改里面的方法
        X509TrustManager trustManager = new X509TrustManager() {

            @Override
            public void checkClientTrusted(X509Certificate[] chain, String authType) throws CertificateException {
            }

            @Override
            public void checkServerTrusted(X509Certificate[] chain, String authType) throws CertificateException {
            }

            @Override
            public X509Certificate[] getAcceptedIssuers() {
                return null;
            }

        };

        SSLContext sc = SSLContext.getInstance("TLS");
        sc.init(null, new TrustManager[]{trustManager}, null);
        return sc;
    }

    public HttpClientGenerator setPoolSize(int poolSize) {
        connectionManager.setMaxTotal(poolSize);
        return this;
    }

    public CloseableHttpClient getClient(Site site) {
        return generateClient(site);
    }

    private CloseableHttpClient generateClient(Site site) {
        HttpClientBuilder httpClientBuilder = HttpClients.custom();

        httpClientBuilder.setConnectionManager(connectionManager);
        if (site.getUserAgent() != null) {
            httpClientBuilder.setUserAgent(site.getUserAgent());
        } else {
            httpClientBuilder.setUserAgent("");
        }
        if (site.isUseGzip()) {
            httpClientBuilder.addInterceptorFirst(new HttpRequestInterceptor() {

                public void process(
                        final HttpRequest request,
                        final HttpContext context) throws HttpException, IOException {
                    if (!request.containsHeader("Accept-Encoding")) {
                        request.addHeader("Accept-Encoding", "gzip");
                    }
                }
            });
        }
        //解决post/redirect/post 302跳转问题
        httpClientBuilder.setRedirectStrategy(new CustomRedirectStrategy());

        SocketConfig.Builder socketConfigBuilder = SocketConfig.custom();
        socketConfigBuilder.setSoKeepAlive(true).setTcpNoDelay(true);
        socketConfigBuilder.setSoTimeout(site.getTimeOut());
        SocketConfig socketConfig = socketConfigBuilder.build();
        httpClientBuilder.setDefaultSocketConfig(socketConfig);
        connectionManager.setDefaultSocketConfig(socketConfig);
        httpClientBuilder.setRetryHandler(new DefaultHttpRequestRetryHandler(site.getRetryTimes(), true));
        generateCookie(httpClientBuilder, site);
        return httpClientBuilder.build();
    }

    private void generateCookie(HttpClientBuilder httpClientBuilder, Site site) {
        if (site.isDisableCookieManagement()) {
            httpClientBuilder.disableCookieManagement();
            return;
        }
        CookieStore cookieStore = new BasicCookieStore();
        for (Map.Entry<String, String> cookieEntry : site.getCookies().entrySet()) {
            BasicClientCookie cookie = new BasicClientCookie(cookieEntry.getKey(), cookieEntry.getValue());
            cookie.setDomain(site.getDomain());
            cookieStore.addCookie(cookie);
        }
        for (Map.Entry<String, Map<String, String>> domainEntry : site.getAllCookies().entrySet()) {
            for (Map.Entry<String, String> cookieEntry : domainEntry.getValue().entrySet()) {
                BasicClientCookie cookie = new BasicClientCookie(cookieEntry.getKey(), cookieEntry.getValue());
                cookie.setDomain(domainEntry.getKey());
                cookieStore.addCookie(cookie);
            }
        }
        httpClientBuilder.setDefaultCookieStore(cookieStore);
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/HttpClientRequestContext.java
================================================
package us.codecraft.webmagic.downloader;

import org.apache.http.client.methods.HttpUriRequest;
import org.apache.http.client.protocol.HttpClientContext;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/4/8
 *         Time: 19:43
 * @since 0.7.0
 */
public class HttpClientRequestContext {

    private HttpUriRequest httpUriRequest;

    private HttpClientContext httpClientContext;

    public HttpUriRequest getHttpUriRequest() {
        return httpUriRequest;
    }

    public void setHttpUriRequest(HttpUriRequest httpUriRequest) {
        this.httpUriRequest = httpUriRequest;
    }

    public HttpClientContext getHttpClientContext() {
        return httpClientContext;
    }

    public void setHttpClientContext(HttpClientContext httpClientContext) {
        this.httpClientContext = httpClientContext;
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/HttpUriRequestConverter.java
================================================
package us.codecraft.webmagic.downloader;

import org.apache.http.HttpHost;
import org.apache.http.auth.AuthState;
import org.apache.http.auth.ChallengeState;
import org.apache.http.auth.UsernamePasswordCredentials;
import org.apache.http.client.CookieStore;
import org.apache.http.client.config.CookieSpecs;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.HttpUriRequest;
import org.apache.http.client.methods.RequestBuilder;
import org.apache.http.client.protocol.HttpClientContext;
import org.apache.http.entity.ByteArrayEntity;
import org.apache.http.impl.auth.BasicScheme;
import org.apache.http.impl.client.BasicCookieStore;
import org.apache.http.impl.cookie.BasicClientCookie;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.proxy.Proxy;
import us.codecraft.webmagic.utils.HttpConstant;
import us.codecraft.webmagic.utils.UrlUtils;

import java.util.Map;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/3/18
 *         Time: 11:28
 *
 * @since 0.7.0
 */
public class HttpUriRequestConverter {

    public HttpClientRequestContext convert(Request request, Site site, Proxy proxy) {
        HttpClientRequestContext httpClientRequestContext = new HttpClientRequestContext();
        httpClientRequestContext.setHttpUriRequest(convertHttpUriRequest(request, site, proxy));
        httpClientRequestContext.setHttpClientContext(convertHttpClientContext(request, site, proxy));
        return httpClientRequestContext;
    }

    private HttpClientContext convertHttpClientContext(Request request, Site site, Proxy proxy) {
        HttpClientContext httpContext = new HttpClientContext();
        if (proxy != null && proxy.getUsername() != null) {
            AuthState authState = new AuthState();
            BasicScheme proxyAuthScheme = new BasicScheme(ChallengeState.PROXY);
            UsernamePasswordCredentials proxyCredentials = new UsernamePasswordCredentials(proxy.getUsername(), proxy.getPassword());
            authState.update(proxyAuthScheme, proxyCredentials);
            httpContext.setAttribute(HttpClientContext.PROXY_AUTH_STATE, authState);
        }
        if (request.getCookies() != null && !request.getCookies().isEmpty()) {
            CookieStore cookieStore = new BasicCookieStore();
            for (Map.Entry<String, String> cookieEntry : request.getCookies().entrySet()) {
                BasicClientCookie cookie1 = new BasicClientCookie(cookieEntry.getKey(), cookieEntry.getValue());
                cookie1.setDomain(UrlUtils.removePort(UrlUtils.getDomain(request.getUrl())));
                cookieStore.addCookie(cookie1);
            }
            httpContext.setCookieStore(cookieStore);
        }
        return httpContext;
    }

    private HttpUriRequest convertHttpUriRequest(Request request, Site site, Proxy proxy) {
        RequestBuilder requestBuilder = selectRequestMethod(request).setUri(UrlUtils.fixIllegalCharacterInUrl(request.getUrl()));
        if (site.getHeaders() != null) {
            for (Map.Entry<String, String> headerEntry : site.getHeaders().entrySet()) {
                requestBuilder.addHeader(headerEntry.getKey(), headerEntry.getValue());
            }
        }

        RequestConfig.Builder requestConfigBuilder = RequestConfig.custom();
        if (site != null) {
            requestConfigBuilder.setConnectionRequestTimeout(site.getTimeOut())
                    .setSocketTimeout(site.getTimeOut())
                    .setConnectTimeout(site.getTimeOut())
                    .setCookieSpec(CookieSpecs.STANDARD);
        }

        if (proxy != null) {
            requestConfigBuilder.setProxy(new HttpHost(proxy.getHost(), proxy.getPort(), proxy.getScheme()));
        }
        requestBuilder.setConfig(requestConfigBuilder.build());
        HttpUriRequest httpUriRequest = requestBuilder.build();
        if (request.getHeaders() != null && !request.getHeaders().isEmpty()) {
            for (Map.Entry<String, String> header : request.getHeaders().entrySet()) {
                httpUriRequest.addHeader(header.getKey(), header.getValue());
            }
        }
        return httpUriRequest;
    }

    private RequestBuilder selectRequestMethod(Request request) {
        String method = request.getMethod();
        if (method == null || method.equalsIgnoreCase(HttpConstant.Method.GET)) {
            //default get
            return RequestBuilder.get();
        } else if (method.equalsIgnoreCase(HttpConstant.Method.POST)) {
            return addFormParams(RequestBuilder.post(),request);
        } else if (method.equalsIgnoreCase(HttpConstant.Method.HEAD)) {
            return RequestBuilder.head();
        } else if (method.equalsIgnoreCase(HttpConstant.Method.PUT)) {
            return addFormParams(RequestBuilder.put(), request);
        } else if (method.equalsIgnoreCase(HttpConstant.Method.DELETE)) {
            return RequestBuilder.delete();
        } else if (method.equalsIgnoreCase(HttpConstant.Method.TRACE)) {
            return RequestBuilder.trace();
        }
        throw new IllegalArgumentException("Illegal HTTP Method " + method);
    }

    private RequestBuilder addFormParams(RequestBuilder requestBuilder, Request request) {
        if (request.getRequestBody() != null) {
            ByteArrayEntity entity = new ByteArrayEntity(request.getRequestBody().getBody());
            entity.setContentType(request.getRequestBody().getContentType());
            requestBuilder.setEntity(entity);
        }
        return requestBuilder;
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/downloader/package.html
================================================
<html>
	<body>
Downloader is the part that downloads web pages and store in Page object.
	</body>
</html>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/model/HttpRequestBody.java
================================================
package us.codecraft.webmagic.model;

import org.apache.http.NameValuePair;
import org.apache.http.client.utils.URLEncodedUtils;
import org.apache.http.message.BasicNameValuePair;

import java.io.Serializable;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/4/8
 */
public class HttpRequestBody implements Serializable {

    private static final long serialVersionUID = 5659170945717023595L;

    public static abstract class ContentType {

        public static final String JSON = "application/json";

        public static final String XML = "text/xml";

        public static final String FORM = "application/x-www-form-urlencoded";

        public static final String MULTIPART = "multipart/form-data";
    }

    private byte[] body;

    private String contentType;

    private String encoding;

    public HttpRequestBody() {
    }

    public HttpRequestBody(byte[] body, String contentType, String encoding) {
        this.body = body;
        this.contentType = contentType;
        this.encoding = encoding;
    }

    public String getContentType() {
        return contentType;
    }

    public String getEncoding() {
        return encoding;
    }

    public void setBody(byte[] body) {
        this.body = body;
    }

    public void setContentType(String contentType) {
        this.contentType = contentType;
    }

    public void setEncoding(String encoding) {
        this.encoding = encoding;
    }

    public static HttpRequestBody json(String json, String encoding) {
        try {
            return new HttpRequestBody(json.getBytes(encoding), ContentType.JSON, encoding);
        } catch (UnsupportedEncodingException e) {
            throw new IllegalArgumentException("illegal encoding " + encoding, e);
        }
    }

    public static HttpRequestBody xml(String xml, String encoding) {
        try {
            return new HttpRequestBody(xml.getBytes(encoding), ContentType.XML, encoding);
        } catch (UnsupportedEncodingException e) {
            throw new IllegalArgumentException("illegal encoding " + encoding, e);
        }
    }

    public static HttpRequestBody custom(byte[] body, String contentType, String encoding) {
        return new HttpRequestBody(body, contentType, encoding);
    }

    public static HttpRequestBody form(Map<String,Object> params, String encoding){
        List<NameValuePair> nameValuePairs = new ArrayList<NameValuePair>(params.size());
        for (Map.Entry<String, Object> entry : params.entrySet()) {
            nameValuePairs.add(new BasicNameValuePair(entry.getKey(), String.valueOf(entry.getValue())));
        }
        try {
            return new HttpRequestBody(URLEncodedUtils.format(nameValuePairs, encoding).getBytes(encoding), ContentType.FORM, encoding);
        } catch (UnsupportedEncodingException e) {
            throw new IllegalArgumentException("illegal encoding " + encoding, e);
        }
    }

    public byte[] getBody() {
        return body;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/package.html
================================================
<html>
	<body>
    <div class="en">
        Main class "Spider" and models.
    </div>
	</body>
</html>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/pipeline/CollectorPipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import java.util.List;

/**
 * Pipeline that can collect and store results. <br>
 * Used for {@link us.codecraft.webmagic.Spider#getAll(java.util.Collection)}
 *
 * @author code4crafter@gmail.com
 * @since 0.4.0
 */
public interface CollectorPipeline<T> extends Pipeline {

    /**
     * Get all results collected.
     *
     * @return collected results
     */
    public List<T> getCollected();
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/pipeline/ConsolePipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;

import java.util.Map;

/**
 * Write results in console.<br>
 * Usually used in test.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class ConsolePipeline implements Pipeline {

    @Override
    public void process(ResultItems resultItems, Task task) {
        System.out.println("get page: " + resultItems.getRequest().getUrl());
        for (Map.Entry<String, Object> entry : resultItems.getAll().entrySet()) {
            System.out.println(entry.getKey() + ":\t" + entry.getValue());
        }
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/pipeline/FilePipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import org.apache.commons.codec.digest.DigestUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.utils.FilePersistentBase;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.util.Map;

/**
 * Store results in files.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class FilePipeline extends FilePersistentBase implements Pipeline {

    private Logger logger = LoggerFactory.getLogger(getClass());

    /**
     * create a FilePipeline with default path"/data/webmagic/"
     */
    public FilePipeline() {
        setPath("/data/webmagic/");
    }

    public FilePipeline(String path) {
        setPath(path);
    }

    @Override
    public void process(ResultItems resultItems, Task task) {
        String path = this.path + PATH_SEPERATOR + task.getUUID() + PATH_SEPERATOR;
        try {
            PrintWriter printWriter = new PrintWriter(new OutputStreamWriter(new FileOutputStream(getFile(path + DigestUtils.md5Hex(resultItems.getRequest().getUrl()) + ".html")),"UTF-8"));
            printWriter.println("url:\t" + resultItems.getRequest().getUrl());
            for (Map.Entry<String, Object> entry : resultItems.getAll().entrySet()) {
                if (entry.getValue() instanceof Iterable) {
                    Iterable value = (Iterable) entry.getValue();
                    printWriter.println(entry.getKey() + ":");
                    for (Object o : value) {
                        printWriter.println(o);
                    }
                } else {
                    printWriter.println(entry.getKey() + ":\t" + entry.getValue());
                }
            }
            printWriter.close();
        } catch (IOException e) {
            logger.warn("write file error", e);
        }
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/pipeline/Pipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;

/**
 * Pipeline is the persistent and offline process part of crawler.<br>
 * The interface Pipeline can be implemented to customize ways of persistent.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 * @see ConsolePipeline
 * @see FilePipeline
 */
public interface Pipeline {

    /**
     * Process extracted results.
     *
     * @param resultItems resultItems
     * @param task task
     */
    public void process(ResultItems resultItems, Task task);
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/pipeline/ResultItemsCollectorPipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;

import java.util.ArrayList;
import java.util.List;

/**
 * @author code4crafter@gmail.com
 * @since 0.4.0
 */
public class ResultItemsCollectorPipeline implements CollectorPipeline<ResultItems> {

    private List<ResultItems> collector = new ArrayList<ResultItems>();

    @Override
    public synchronized void process(ResultItems resultItems, Task task) {
        collector.add(resultItems);
    }

    @Override
    public List<ResultItems> getCollected() {
        return collector;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/pipeline/package.html
================================================
<html>
	<body>
Pipeline is the persistent and offline process part of crawler.
	</body>
</html>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/processor/PageProcessor.java
================================================
package us.codecraft.webmagic.processor;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;

/**
 * Interface to be implemented to customize a crawler.
 *
 * <p>
 * In PageProcessor, you can customize:
 * </p>
 * <ul>
 * <li>start URLs and other settings in {@link Site}</li>
 * <li>how the URLs to fetch are detected</li>
 * <li>how the data are extracted and stored</li>
 * </ul>
 *
 * @author code4crafter@gmail.com <br>
 * @see Site
 * @see Page
 * @since 0.1.0
 */
public interface PageProcessor {

    /**
     * Processes the page, extract URLs to fetch, extract the data and store.
     *
     * @param page page
     */
    void process(Page page);

    /**
     * Returns the site settings.
     *
     * @return site
     * @see Site
     */
    default Site getSite() {
        return Site.me();
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/processor/SimplePageProcessor.java
================================================
package us.codecraft.webmagic.processor;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;

import java.util.List;

/**
 * A simple PageProcessor.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class SimplePageProcessor implements PageProcessor {

    private String urlPattern;

    private Site site;

    public SimplePageProcessor(String urlPattern) {
        this.site = Site.me();
        //compile "*" expression to regex
        this.urlPattern = "(" + urlPattern.replace(".", "\\.").replace("*", "[^\"'#]*") + ")";

    }

    @Override
    public void process(Page page) {
        List<String> requests = page.getHtml().links().regex(urlPattern).all();
        //add urls to fetch
        page.addTargetRequests(requests);
        //extract by XPath
        page.putField("title", page.getHtml().xpath("//title"));
        page.putField("html", page.getHtml().toString());
        //extract by Readability
        page.putField("content", page.getHtml().smartContent());
    }

    @Override
    public Site getSite() {
        //settings
        return site;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/processor/example/BaiduBaikePageProcessor.java
================================================
package us.codecraft.webmagic.processor.example;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.ArrayList;
import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.4.0
 */
public class BaiduBaikePageProcessor implements PageProcessor {

    private Site site = Site.me()//.setHttpProxy(new HttpHost("127.0.0.1",8888))
            .setRetryTimes(3).setSleepTime(1000).setUseGzip(true);

    @Override
    public void process(Page page) {
        page.putField("name", page.getHtml().css("dl.lemmaWgt-lemmaTitle h1","text").toString());
        page.putField("description", page.getHtml().xpath("//div[@class='lemma-summary']/allText()"));
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        //single download
        Spider spider = Spider.create(new BaiduBaikePageProcessor()).thread(2);
        String urlTemplate = "http://baike.baidu.com/search/word?word=%s&pic=1&sug=1&enc=utf8";
        ResultItems resultItems = spider.<ResultItems>get(String.format(urlTemplate, "水力发电"));
        System.out.println(resultItems);

        //multidownload
        List<String> list = new ArrayList<String>();
        list.add(String.format(urlTemplate,"风力发电"));
        list.add(String.format(urlTemplate,"太阳能"));
        list.add(String.format(urlTemplate,"地热发电"));
        list.add(String.format(urlTemplate,"地热发电"));
        List<ResultItems> resultItemses = spider.<ResultItems>getAll(list);
        for (ResultItems resultItemse : resultItemses) {
            System.out.println(resultItemse.getAll());
        }
        spider.close();
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/processor/example/GithubRepoPageProcessor.java
================================================
package us.codecraft.webmagic.processor.example;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.3.2
 */
public class GithubRepoPageProcessor implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000);

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all());
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-])").all());
        page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());
        page.putField("name", page.getHtml().xpath("//h1[@class='public']/strong/a/text()").toString());
        if (page.getResultItems().get("name")==null){
            //skip this page
            page.setSkip(true);
        }
        page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(5).run();
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/processor/example/ZhihuPageProcessor.java
================================================
package us.codecraft.webmagic.processor.example;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.6.0
 */
public class ZhihuPageProcessor implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("https://www\\.zhihu\\.com/question/\\d+/answer/\\d+.*").all());
        page.putField("title", page.getHtml().xpath("//h1[@class='QuestionHeader-title']/text()").toString());
        page.putField("question", page.getHtml().xpath("//div[@class='QuestionRichText']//tidyText()").toString());
        page.putField("answer", page.getHtml().xpath("//div[@class='QuestionAnswer-content']/tidyText()").toString());
        if (page.getResultItems().get("title")==null){
            //skip this page
            page.setSkip(true);
        }
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new ZhihuPageProcessor()).addUrl("https://www.zhihu.com/explore").run();
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/processor/package.html
================================================
<html>
	<body>
PageProcessor custom part of a crawler for specific site.
	</body>
</html>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/proxy/Proxy.java
================================================
package us.codecraft.webmagic.proxy;

import java.io.UnsupportedEncodingException;
import java.net.URI;
import java.net.URISyntaxException;
import java.net.URLEncoder;
import java.nio.charset.StandardCharsets;

import org.apache.commons.lang3.StringUtils;

public class Proxy {

    private String scheme;

    private String host;

    private int port;

    private String username;

    private String password;

    public static Proxy create(final URI uri) {
        Proxy proxy = new Proxy(uri.getHost(), uri.getPort(), uri.getScheme());
        String userInfo = uri.getUserInfo();
        if (userInfo != null) {
            String[] up = userInfo.split(":");
            if (up.length == 1) {
                proxy.username = up[0].isEmpty() ? null : up[0];
            } else {
                proxy.username = up[0].isEmpty() ? null : up[0];
                proxy.password = up[1].isEmpty() ? null : up[1];
            }
        }
        return proxy;
    }

    public Proxy(String host, int port) {
        this(host, port, null);
    }

    public Proxy(String host, int port, String scheme) {
        this.host = host;
        this.port = port;
        this.scheme = scheme;
    }

    public Proxy(String host, int port, String username, String password) {
        this.host = host;
        this.port = port;
        this.username = username;
        this.password = password;
    }

    public String getScheme() {
        return scheme;
    }

    public void setScheme(String scheme) {
        this.scheme = scheme;
    }

	public String getHost() {
        return host;
    }

    public int getPort() {
        return port;
    }

    public String getUsername() {
        return username;
    }

    public String getPassword() {
        return password;
    }

    public URI toURI() {
        final StringBuilder userInfoBuffer = new StringBuilder();
        if (username != null) {
            userInfoBuffer.append(urlencode(username));
        }
        if (password != null) {
            userInfoBuffer.append(":").append(urlencode(password));
        }
        final String userInfo = StringUtils.defaultIfEmpty(userInfoBuffer.toString(), null);
        URI uri;
        try {
            uri = new URI(scheme, userInfo, host, port, null, null, null);
        } catch (URISyntaxException e) {
            throw new IllegalArgumentException(e.getMessage(), e);
        }
        return uri;
    }

    private String urlencode(String s) {
        String enc = StandardCharsets.UTF_8.name();
        try {
            return URLEncoder.encode(s, enc);
        } catch (UnsupportedEncodingException e) {
            throw new IllegalArgumentException(e);
        }
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;

        Proxy proxy = (Proxy) o;

        if (port != proxy.port) return false;
        if (host != null ? !host.equals(proxy.host) : proxy.host != null) return false;
        if (scheme != null ? !scheme.equals(proxy.scheme) : proxy.scheme != null) return false;
        if (username != null ? !username.equals(proxy.username) : proxy.username != null) return false;
        return password != null ? password.equals(proxy.password) : proxy.password == null;
    }

    @Override
    public int hashCode() {
        int result = host != null ? host.hashCode() : 0;
        result = 31 * result + port;
        result = 31 * result + (scheme != null ? scheme.hashCode() : 0);
        result = 31 * result + (username != null ? username.hashCode() : 0);
        result = 31 * result + (password != null ? password.hashCode() : 0);
        return result;
    }

    @Override
    public String toString() {
        return this.toURI().toString();
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/proxy/ProxyProvider.java
================================================
package us.codecraft.webmagic.proxy;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

/**
 * Proxy provider. <br>
 *     
 * @since 0.7.0
 */
public interface ProxyProvider {

    /**
     *
     * Return proxy to Provider when complete a download.
     * @param proxy the proxy config contains host,port and identify info
     * @param page the download result
     * @param task the download task
     */
    void returnProxy(Proxy proxy, Page page, Task task);

    /**
     * Get a proxy for task by some strategy.
     * @param task the download task
     * @return proxy 
     * @deprecated Use {@link #getProxy(Request, Task)} instead.
     */
    @Deprecated
    default Proxy getProxy(Task task) {
        throw new UnsupportedOperationException();
    }

    /**
     * Returns a proxy for the request.
     *
     * @param request the request
     * @param task the download task
     * @return proxy
     * @since 0.9.0
     */
    default Proxy getProxy(Request request, Task task) {
        return this.getProxy(task);
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/proxy/SimpleProxyProvider.java
================================================
package us.codecraft.webmagic.proxy;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * A simple ProxyProvider. Provide proxy as round-robin without heartbeat and error check. It can be used when all proxies are stable.
 * @author code4crafter@gmail.com
 *         Date: 17/4/16
 *         Time: 10:18
 * @since 0.7.0
 */
public class SimpleProxyProvider implements ProxyProvider {

    private final List<Proxy> proxies;

    private final AtomicInteger pointer;

    public SimpleProxyProvider(List<Proxy> proxies) {
        this(proxies, new AtomicInteger(-1));
    }

    private SimpleProxyProvider(List<Proxy> proxies, AtomicInteger pointer) {
        this.proxies = proxies;
        this.pointer = pointer;
    }

    public static SimpleProxyProvider from(Proxy... proxies) {
        List<Proxy> proxiesTemp = new ArrayList<Proxy>(proxies.length);
        for (Proxy proxy : proxies) {
            proxiesTemp.add(proxy);
        }
        return new SimpleProxyProvider(Collections.unmodifiableList(proxiesTemp));
    }

    @Override
    public void returnProxy(Proxy proxy, Page page, Task task) {
        //Donothing
    }

    @Override
    public Proxy getProxy(Request request, Task task) {
        return proxies.get(incrForLoop());
    }

    private int incrForLoop() {
        int p = pointer.incrementAndGet();
        int size = proxies.size();
        if (p < size) {
            return p;
        }
        while (!pointer.compareAndSet(p, p % size)) {
            p = pointer.get();
        }
        return p % size;
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/DuplicateRemovedScheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;
import us.codecraft.webmagic.scheduler.component.HashSetDuplicateRemover;
import us.codecraft.webmagic.utils.HttpConstant;

/**
 * Remove duplicate urls and only push urls which are not duplicate.<br><br>
 *
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public abstract class DuplicateRemovedScheduler implements Scheduler {

    protected Logger logger = LoggerFactory.getLogger(getClass());

    private DuplicateRemover duplicatedRemover = new HashSetDuplicateRemover();

    public DuplicateRemover getDuplicateRemover() {
        return duplicatedRemover;
    }

    public DuplicateRemovedScheduler setDuplicateRemover(DuplicateRemover duplicatedRemover) {
        this.duplicatedRemover = duplicatedRemover;
        return this;
    }

    @Override
    public void push(Request request, Task task) {
        logger.trace("get a candidate url {}", request.getUrl());
        if (shouldReserved(request) || noNeedToRemoveDuplicate(request) || !duplicatedRemover.isDuplicate(request, task)) {
            logger.debug("push to queue {}", request.getUrl());
            pushWhenNoDuplicate(request, task);
        }
    }

    protected boolean shouldReserved(Request request) {
        return request.getExtra(Request.CYCLE_TRIED_TIMES) != null;
    }

    protected boolean noNeedToRemoveDuplicate(Request request) {
        return HttpConstant.Method.POST.equalsIgnoreCase(request.getMethod());
    }

    protected void pushWhenNoDuplicate(Request request, Task task) {

    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/MonitorableScheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import us.codecraft.webmagic.Task;

/**
 * The scheduler whose requests can be counted for monitor.
 *
 * @author code4crafter@gmail.com
 * @since 0.5.0
 */
public interface MonitorableScheduler extends Scheduler {

    public int getLeftRequestsCount(Task task);

    public int getTotalRequestsCount(Task task);

}

================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/PriorityScheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.utils.NumberUtils;

import java.util.Comparator;
import java.util.concurrent.BlockingQueue;
import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.PriorityBlockingQueue;

/**
 * Priority scheduler. Request with higher priority will poll earlier. <br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.1
 */
public class PriorityScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler {

    public static final int INITIAL_CAPACITY = 5;

    private BlockingQueue<Request> noPriorityQueue = new LinkedBlockingQueue<Request>();

    private PriorityBlockingQueue<Request> priorityQueuePlus = new PriorityBlockingQueue<Request>(INITIAL_CAPACITY, new Comparator<Request>() {
        @Override
        public int compare(Request o1, Request o2) {
            return -NumberUtils.compareLong(o1.getPriority(), o2.getPriority());
        }
    });

    private PriorityBlockingQueue<Request> priorityQueueMinus = new PriorityBlockingQueue<Request>(INITIAL_CAPACITY, new Comparator<Request>() {
        @Override
        public int compare(Request o1, Request o2) {
            return -NumberUtils.compareLong(o1.getPriority(), o2.getPriority());
        }
    });

    @Override
    public void pushWhenNoDuplicate(Request request, Task task) {
        if (request.getPriority() == 0) {
            noPriorityQueue.add(request);
        } else if (request.getPriority() > 0) {
            priorityQueuePlus.put(request);
        } else {
            priorityQueueMinus.put(request);
        }
    }

    @Override
    public synchronized Request poll(Task task) {
        Request poll = priorityQueuePlus.poll();
        if (poll != null) {
            return poll;
        }
        poll = noPriorityQueue.poll();
        if (poll != null) {
            return poll;
        }
        return priorityQueueMinus.poll();
    }

    @Override
    public int getLeftRequestsCount(Task task) {
        return noPriorityQueue.size();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return getDuplicateRemover().getTotalRequestsCount(task);
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/QueueScheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import java.util.concurrent.BlockingQueue;
import java.util.concurrent.LinkedBlockingQueue;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

/**
 * Basic Scheduler implementation.<br>
 * Store urls to fetch in LinkedBlockingQueue and remove duplicate urls by HashMap.
 *
 * Note: if you use this {@link QueueScheduler}
 * with {@link Site#getCycleRetryTimes()} enabled, you may encountered dead-lock
 * when the queue is full.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class QueueScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler {

    private final BlockingQueue<Request> queue;

    public QueueScheduler() {
        this.queue = new LinkedBlockingQueue<>();
    }

    /**
     * Creates a {@code QueueScheduler} with the given (fixed) capacity.
     *
     * @param capacity the capacity of this queue,
     * see {@link LinkedBlockingQueue#LinkedBlockingQueue(int)}
     * @since 0.8.0
     */
    public QueueScheduler(int capacity) {
        this.queue = new LinkedBlockingQueue<>(capacity);
    }

    @Override
    public void pushWhenNoDuplicate(Request request, Task task) {
        logger.trace("Remaining capacity: {}", this.queue.remainingCapacity());

        try {
            queue.put(request);
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
        }
    }

    @Override
    public Request poll(Task task) {
        return queue.poll();
    }

    @Override
    public int getLeftRequestsCount(Task task) {
        return queue.size();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return getDuplicateRemover().getTotalRequestsCount(task);
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/Scheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

/**
 * Scheduler is the part of url management.<br>
 * You can implement interface Scheduler to do:
 * manage urls to fetch
 * remove duplicate urls
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public interface Scheduler {

    /**
     * add a url to fetch
     *
     * @param request request
     * @param task task
     */
    public void push(Request request, Task task);

    /**
     * get an url to crawl
     *
     * @param task the task of spider
     * @return the url to crawl
     */
    public Request poll(Task task);

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/component/DuplicateRemover.java
================================================
package us.codecraft.webmagic.scheduler.component;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

/**
 * Remove duplicate requests.
 * @author code4crafer@gmail.com
 * @since 0.5.1
 */
public interface DuplicateRemover {
    /**
     *
     * Check whether the request is duplicate.
     *
     * @param request request
     * @param task task
     * @return true if is duplicate
     */
    public boolean isDuplicate(Request request, Task task);

    /**
     * Reset duplicate check.
     * @param task task
     */
    public void resetDuplicateCheck(Task task);

    /**
     * Get TotalRequestsCount for monitor.
     * @param task task
     * @return number of total request
     */
    public int getTotalRequestsCount(Task task);

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/component/HashSetDuplicateRemover.java
================================================
package us.codecraft.webmagic.scheduler.component;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

import java.util.Collections;
import java.util.Set;
import java.util.concurrent.ConcurrentHashMap;

/**
 * @author code4crafer@gmail.com
 */
public class HashSetDuplicateRemover implements DuplicateRemover {

    private Set<String> urls = Collections.newSetFromMap(new ConcurrentHashMap<String, Boolean>());

    @Override
    public boolean isDuplicate(Request request, Task task) {
        return !urls.add(getUrl(request));
    }

    protected String getUrl(Request request) {
        return request.getUrl();
    }

    @Override
    public void resetDuplicateCheck(Task task) {
        urls.clear();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return urls.size();
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/component/package.html
================================================
<html>
	<body>
Component of scheduler.
	</body>
</html>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/scheduler/package.html
================================================
<html>
	<body>
Scheduler is the part of url management.
	</body>
</html>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/AbstractSelectable.java
================================================
package us.codecraft.webmagic.selector;


import java.util.ArrayList;
import java.util.List;

import org.apache.commons.collections4.CollectionUtils;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.2
 */
public abstract class AbstractSelectable implements Selectable {

    protected abstract List<String> getSourceTexts();

    @Override
    public Selectable css(String selector) {
        return $(selector);
    }

    @Override
    public Selectable css(String selector, String attrName) {
        return $(selector, attrName);
    }

    protected Selectable select(Selector selector, List<String> strings) {
        List<String> results = new ArrayList<String>();
        for (String string : strings) {
            String result = selector.select(string);
            if (result != null) {
                results.add(result);
            }
        }
        return new PlainText(results);
    }

    protected Selectable selectList(Selector selector, List<String> strings) {
        List<String> results = new ArrayList<String>();
        for (String string : strings) {
            List<String> result = selector.selectList(string);
            results.addAll(result);
        }
        return new PlainText(results);
    }

    @Override
    public List<String> all() {
        return getSourceTexts();
    }

    @Override
    public Selectable jsonPath(String jsonPath) {
        throw new UnsupportedOperationException();
    }

    @Override
    public String get() {
    	List<String> sourceTexts = all();
        if (CollectionUtils.isNotEmpty(sourceTexts)) {
            return sourceTexts.get(0);
        } 
        return null;
        
    }

    @Override
    public Selectable select(Selector selector) {
        return select(selector, getSourceTexts());
    }

    @Override
    public Selectable selectList(Selector selector) {
        return selectList(selector, getSourceTexts());
    }

    @Override
    public Selectable regex(String regex) {
        RegexSelector regexSelector = Selectors.regex(regex);
        return selectList(regexSelector, getSourceTexts());
    }

    @Override
    public Selectable regex(String regex, int group) {
        RegexSelector regexSelector = Selectors.regex(regex, group);
        return selectList(regexSelector, getSourceTexts());
    }

    @Override
    public Selectable replace(String regex, String replacement) {
        ReplaceSelector replaceSelector = new ReplaceSelector(regex,replacement);
        return select(replaceSelector, getSourceTexts());
    }

    public String getFirstSourceText() {
    	List<String> sourceTexts = getSourceTexts();
        if (CollectionUtils.isNotEmpty(sourceTexts)) {
            return sourceTexts.get(0);
        }
        return null;
    }

    @Override
    public String toString() {
        return get();
    }

    @Override
    public boolean match() {
        return CollectionUtils.isNotEmpty(getSourceTexts());
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/AndSelector.java
================================================
package us.codecraft.webmagic.selector;

import java.util.ArrayList;
import java.util.List;

/**
 * All selectors will be arranged as a pipeline. <br>
 * The next selector uses the result of the previous as source.
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class AndSelector implements Selector {

    private List<Selector> selectors = new ArrayList<Selector>();

    public AndSelector(Selector... selectors) {
        for (Selector selector : selectors) {
            this.selectors.add(selector);
        }
    }

    public AndSelector(List<Selector> selectors) {
        this.selectors = selectors;
    }

    @Override
    public String select(String text) {
        for (Selector selector : selectors) {
            if (text == null) {
                return null;
            }
            text = selector.select(text);
        }
        return text;
    }

    @Override
    public List<String> selectList(String text) {
        List<String> results = new ArrayList<String>();
        boolean first = true;
        for (Selector selector : selectors) {
            if (first) {
                results = selector.selectList(text);
                first = false;
            } else {
                List<String> resultsTemp = new ArrayList<String>();
                for (String result : results) {
                    resultsTemp.addAll(selector.selectList(result));
                }
                results = resultsTemp;
                if (results == null || results.size() == 0) {
                    return results;
                }
            }
        }
        return results;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/BaseElementSelector.java
================================================
package us.codecraft.webmagic.selector;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import us.codecraft.webmagic.utils.BaseSelectorUtils;

import java.util.ArrayList;
import java.util.List;

/**
 * @author code4crafter@gmail.com
 * @since 0.3.0
 */
public abstract class BaseElementSelector implements Selector, ElementSelector {
    private Document parse(String text) {
        // Jsoup could not parse <tr></tr> or <td></td> tag directly
        // https://stackoverflow.com/questions/63607740/jsoup-couldnt-parse-tr-tag
        text = BaseSelectorUtils.preParse(text);
        return Jsoup.parse(text);
    }

    @Override
    public String select(String text) {
        if (text != null) {
            return select(parse(text));
        }
        return null;
    }

    @Override
    public List<String> selectList(String text) {
        if (text != null) {
            return selectList(parse(text));
        } else {
            return new ArrayList<String>();
        }
    }

    public Element selectElement(String text) {
        if (text != null) {
            return selectElement(parse(text));
        }
        return null;
    }

    public List<Element> selectElements(String text) {
        if (text != null) {
            return selectElements(parse(text));
        } else {
            return new ArrayList<Element>();
        }
    }

    public abstract Element selectElement(Element element);

    public abstract List<Element> selectElements(Element element);

    public abstract boolean hasAttribute();

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/CssSelector.java
================================================
package us.codecraft.webmagic.selector;


import java.util.ArrayList;
import java.util.List;
import org.apache.commons.collections4.CollectionUtils;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.nodes.TextNode;
import org.jsoup.select.Elements;

/**
 * CSS selector. Based on Jsoup.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class CssSelector extends BaseElementSelector {

    private String selectorText;

    private String attrName;

    public CssSelector(String selectorText) {
        this.selectorText = selectorText;
    }

    public CssSelector(String selectorText, String attrName) {
        this.selectorText = selectorText;
        this.attrName = attrName;
    }

    private String getValue(Element element) {
        if (attrName == null) {
            return element.outerHtml();
        } else if ("innerHtml".equalsIgnoreCase(attrName)) {
            return element.html();
        } else if ("text".equalsIgnoreCase(attrName)) {
            return getText(element);
        } else if ("allText".equalsIgnoreCase(attrName)) {
            return element.text();
        } else {
            return element.attr(attrName);
        }
    }

    protected String getText(Element element) {
        StringBuilder accum = new StringBuilder();
        for (Node node : element.childNodes()) {
            if (node instanceof TextNode) {
                TextNode textNode = (TextNode) node;
                accum.append(textNode.text());
            }
        }
        return accum.toString();
    }

    @Override
    public String select(Element element) {
        List<Element> elements = selectElements(element);
        if (CollectionUtils.isEmpty(elements)) {
            return null;
        }
        return getValue(elements.get(0));
    }

    @Override
    public List<String> selectList(Element doc) {
        List<String> strings = new ArrayList<String>();
        List<Element> elements = selectElements(doc);
        if (CollectionUtils.isNotEmpty(elements)) {
            for (Element element : elements) {
                String value = getValue(element);
                if (value != null) {
                    strings.add(value);
                }
            }
        }
        return strings;
    }

    @Override
    public Element selectElement(Element element) {
        Elements elements = element.select(selectorText);
        if (CollectionUtils.isNotEmpty(elements)) {
            return elements.get(0);
        }
        return null;
    }

    @Override
    public List<Element> selectElements(Element element) {
        return element.select(selectorText);
    }

    @Override
    public boolean hasAttribute() {
        return attrName != null;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/ElementSelector.java
================================================
package us.codecraft.webmagic.selector;

import org.jsoup.nodes.Element;

import java.util.List;

/**
 * Selector(extractor) for html elements.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.3.0
 */
public interface ElementSelector {

    /**
     * Extract single result in text.<br>
     * If there are more than one result, only the first will be chosen.
     *
     * @param element element
     * @return result
     */
    public String select(Element element);

    /**
     * Extract all results in text.<br>
     *
     * @param element element
     * @return results
     */
    public List<String> selectList(Element element);

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/Html.java
================================================
package us.codecraft.webmagic.selector;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.util.Collections;
import java.util.List;

/**
 * Selectable html.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class Html extends HtmlNode {

    private Logger logger = LoggerFactory.getLogger(getClass());

	/**
	 * Disable jsoup html entity escape. It can be set just before any Html instance is created.
     * @deprecated
	 */
	public static boolean DISABLE_HTML_ENTITY_ESCAPE = false;

    /**
     * Store parsed document for better performance when only one text exist.
     */
    private Document document;

    public Html(String text, String url) {
        try {
            this.document = Jsoup.parse(text, url);
        } catch (Exception e) {
            this.document = null;
            logger.warn("parse document error ", e);
        }
    }

    public Html(String text) {
        try {
            this.document = Jsoup.parse(text);
        } catch (Exception e) {
            this.document = null;
            logger.warn("parse document error ", e);
        }
    }

    public Html(Document document) {
        this.document = document;
    }

    public Document getDocument() {
        return document;
    }

    @Override
    protected List<Element> getElements() {
        return Collections.<Element>singletonList(getDocument());
    }

    /**
     * @param selector selector
     * @return result
     */
    public String selectDocument(Selector selector) {
        if (selector instanceof ElementSelector) {
            ElementSelector elementSelector = (ElementSelector) selector;
            return elementSelector.select(getDocument());
        } else {
            return selector.select(getFirstSourceText());
        }
    }

    public List<String> selectDocumentForList(Selector selector) {
        if (selector instanceof ElementSelector) {
            ElementSelector elementSelector = (ElementSelector) selector;
            return elementSelector.selectList(getDocument());
        } else {
            return selector.selectList(getFirstSourceText());
        }
    }

    public static Html create(String text) {
        return new Html(text);
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/HtmlNode.java
================================================
package us.codecraft.webmagic.selector;

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

import java.util.ArrayList;
import java.util.List;
import java.util.ListIterator;

/**
 * @author code4crafer@gmail.com
 */
public class HtmlNode extends AbstractSelectable {

    private final List<Element> elements;

    public HtmlNode(List<Element> elements) {
        this.elements = elements;
    }

    public HtmlNode() {
        elements = null;
    }

    protected List<Element> getElements() {
        return elements;
    }

    public Selectable smartContent() {
        SmartContentSelector smartContentSelector = Selectors.smartContent();
        return select(smartContentSelector, getSourceTexts());
    }

    public Selectable smartContent(int threshold) {
        SmartContentSelector smartContentSelector = Selectors.smartContent(threshold);
        return select(smartContentSelector, getSourceTexts());
    }

    @Override
    public Selectable links() {
        return selectElements(new LinksSelector());
    }

    @Override
    public Selectable xpath(String xpath) {
        XpathSelector xpathSelector = Selectors.xpath(xpath);
        return selectElements(xpathSelector);
    }

    @Override
    public Selectable selectList(Selector selector) {
        if (selector instanceof BaseElementSelector) {
           return selectElements((BaseElementSelector) selector);
        }
        return selectList(selector, getSourceTexts());
    }

    @Override
    public Selectable select(Selector selector) {
        return selectList(selector);
    }

    /**
     * select elements
     *
     * @param elementSelector elementSelector
     * @return result
     */
    protected Selectable selectElements(BaseElementSelector elementSelector) {
        ListIterator<Element> elementIterator = getElements().listIterator();
        if (!elementSelector.hasAttribute()) {
            List<Element> resultElements = new ArrayList<Element>();
            while (elementIterator.hasNext()) {
                Element element = checkElementAndConvert(elementIterator);
                List<Element> selectElements = elementSelector.selectElements(element);
                resultElements.addAll(selectElements);
            }
            return new HtmlNode(resultElements);
        } else {
            // has attribute, consider as plaintext
            List<String> resultStrings = new ArrayList<String>();
            while (elementIterator.hasNext()) {
                Element element = checkElementAndConvert(elementIterator);
                List<String> selectList = elementSelector.selectList(element);
                resultStrings.addAll(selectList);
            }
            return new PlainText(resultStrings);

        }
    }

    /**
     * Only document can be select
     * See: https://github.com/code4craft/webmagic/issues/113
     *
     * @param elementIterator elementIterator
     * @return element element
     */
    private Element checkElementAndConvert(ListIterator<Element> elementIterator) {
        Element element = elementIterator.next();
        if (!(element instanceof Document)) {
            Document root = new Document(element.ownerDocument().baseUri());
            Element clone = element.clone();
            root.appendChild(clone);
            elementIterator.set(root);
            return root;
        }
        return element;
    }

    @Override
    public Selectable $(String selector) {
        CssSelector cssSelector = Selectors.$(selector);
        return selectElements(cssSelector);
    }

    @Override
    public Selectable $(String selector, String attrName) {
        CssSelector cssSelector = Selectors.$(selector, attrName);
        return selectElements(cssSelector);
    }

    @Override
    public List<Selectable> nodes() {
        List<Selectable> selectables = new ArrayList<Selectable>();
        for (Element element : getElements()) {
            List<Element> childElements = new ArrayList<Element>(1);
            childElements.add(element);
            selectables.add(new HtmlNode(childElements));
        }
        return selectables;
    }

    @Override
    protected List<String> getSourceTexts() {
        List<String> sourceTexts = new ArrayList<String>(getElements().size());
        for (Element element : getElements()) {
            sourceTexts.add(element.toString());
        }
        return sourceTexts;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/Json.java
================================================
package us.codecraft.webmagic.selector;

import com.alibaba.fastjson.JSON;
import us.codecraft.xsoup.XTokenQueue;

import java.util.List;

/**
 * parse json
 * @author code4crafter@gmail.com
 * @since 0.5.0
 */
public class Json extends PlainText {

    public Json(List<String> strings) {
        super(strings);
    }

    public Json(String text) {
        super(text);
    }

    /**
     * remove padding for JSONP
     * @param padding padding
     * @return json after padding removed
     */
    public Json removePadding(String padding) {
        String text = getFirstSourceText();
        XTokenQueue tokenQueue = new XTokenQueue(text);
        tokenQueue.consumeWhitespace();
        tokenQueue.consume(padding);
        tokenQueue.consumeWhitespace();
        String chompBalanced = tokenQueue.chompBalancedNotInQuotes('(', ')');
        return new Json(chompBalanced);
    }

    public <T> T toObject(Class<T> clazz) {
        if (getFirstSourceText() == null) {
            return null;
        }
        return JSON.parseObject(getFirstSourceText(), clazz);
    }

    public <T> List<T> toList(Class<T> clazz) {
        if (getFirstSourceText() == null) {
            return null;
        }
        return JSON.parseArray(getFirstSourceText(), clazz);
    }

    @Override
    public Selectable jsonPath(String jsonPath) {
        JsonPathSelector jsonPathSelector = new JsonPathSelector(jsonPath);
        return selectList(jsonPathSelector,getSourceTexts());
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/JsonPathSelector.java
================================================
package us.codecraft.webmagic.selector;


import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import com.alibaba.fastjson.JSON;
import com.jayway.jsonpath.JsonPath;

/**
 * JsonPath selector.<br>
 * Used to extract content from JSON.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.1
 */
public class JsonPathSelector implements Selector {

    private final String jsonPathStr;

    private final JsonPath jsonPath;

    public JsonPathSelector(String jsonPathStr) {
        this.jsonPathStr = jsonPathStr;
        this.jsonPath = JsonPath.compile(this.jsonPathStr);
    }

    @SuppressWarnings("unused")
    public String getJsonPathStr() {
        return jsonPathStr;
    }

    @Override
    public String select(String text) {
        Object object = jsonPath.read(text);
        if (object == null) {
            return null;
        }
        if (object instanceof List) {
            List<?> list = (List<?>) object;
            if (list.size() > 0) {
                return toString(list.iterator().next());
            }
        }
        return object.toString();
    }

    private String toString(Object object) {
        if (object instanceof Map) {
            return JSON.toJSONString(object);
        } else {
            return String.valueOf(object);
        }
    }

    @Override
    @SuppressWarnings("unchecked")
    public List<String> selectList(String text) {
        List<String> list = new ArrayList<>();
        Object object = jsonPath.read(text);
        if (object == null) {
            return list;
        }
        if (object instanceof List) {
            List<Object> items = (List<Object>) object;
            for (Object item : items) {
                list.add(toString(item));
            }
        } else {
            list.add(toString(object));
        }
        return list;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/LinksSelector.java
================================================
package us.codecraft.webmagic.selector;

import java.util.ArrayList;
import java.util.List;

import org.apache.commons.lang3.StringUtils;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * Links selector based on jsoup. Use absolute url. <br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.7.0
 */
public class LinksSelector extends BaseElementSelector {

    @Override
    public String select(Element element) {
        throw new UnsupportedOperationException();
    }

    @Override
    public List<String> selectList(Element element) {
        Elements elements = element.select("a");
        List<String> links = new ArrayList<>(elements.size());
        for (Element element0 : elements) {
            if (StringUtils.isNotBlank(element0.baseUri())) {
                links.add(element0.attr("abs:href"));
            } else {
                links.add(element0.attr("href"));
            }
        }
        return links;
    }

    @Override
    public Element selectElement(Element element) {
        throw new UnsupportedOperationException();
    }

    @Override
    public List<Element> selectElements(Element element) {
        throw new UnsupportedOperationException();
    }

    @Override
    public boolean hasAttribute() {
        return true;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/OrSelector.java
================================================
package us.codecraft.webmagic.selector;

import java.util.ArrayList;
import java.util.List;

/**
 * All extractors will do extracting separately, <br>
 * and the results of extractors will combined as the final result.
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class OrSelector implements Selector {

    private List<Selector> selectors = new ArrayList<Selector>();

    public OrSelector(Selector... selectors) {
        for (Selector selector : selectors) {
            this.selectors.add(selector);
        }
    }

    public OrSelector(List<Selector> selectors) {
        this.selectors = selectors;
    }

    @Override
    public String select(String text) {
        for (Selector selector : selectors) {
            String result = selector.select(text);
            if (result != null) {
                return result;
            }
        }
        return null;
    }

    @Override
    public List<String> selectList(String text) {
        List<String> results = new ArrayList<String>();
        for (Selector selector : selectors) {
            List<String> strings = selector.selectList(text);
            results.addAll(strings);
        }
        return results;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/PlainText.java
================================================
package us.codecraft.webmagic.selector;

import java.util.ArrayList;
import java.util.List;

/**
 * Selectable plain text.<br>
 * Can not be selected by XPath or CSS Selector.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class PlainText extends AbstractSelectable {

    protected List<String> sourceTexts;

    public PlainText(List<String> sourceTexts) {
        this.sourceTexts = sourceTexts;
    }

    public PlainText(String text) {
        this.sourceTexts = new ArrayList<String>();
        sourceTexts.add(text);
    }

    public static PlainText create(String text) {
        return new PlainText(text);
    }

    @Override
    public Selectable xpath(String xpath) {
        throw new UnsupportedOperationException("XPath can not apply to plain text. Please check whether you use a previous xpath with attribute select (/@href etc).");
    }

    @Override
    public Selectable $(String selector) {
		throw new UnsupportedOperationException("$ can not apply to plain text. Please check whether you use a previous xpath with attribute select (/@href etc).");
    }

    @Override
    public Selectable $(String selector, String attrName) {
		throw new UnsupportedOperationException("$ can not apply to plain text. Please check whether you use a previous xpath with attribute select (/@href etc).");
    }

    @Override
    public Selectable links() {
		throw new UnsupportedOperationException("Links can not apply to plain text. Please check whether you use a previous xpath with attribute select (/@href etc).");
    }

    @Override
    public List<Selectable> nodes() {
        List<Selectable> nodes = new ArrayList<Selectable>(getSourceTexts().size());
        for (String string : getSourceTexts()) {
            nodes.add(PlainText.create(string));
        }
        return nodes;
    }

    @Override
    protected List<String> getSourceTexts() {
        return sourceTexts;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/RegexResult.java
================================================
package us.codecraft.webmagic.selector;

/**
 * Object contains regex results.<br>
 * For multi group result extension.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
class RegexResult {

    private String[] groups;

    public static final RegexResult EMPTY_RESULT = new RegexResult();

    public RegexResult() {

    }

    public RegexResult(String[] groups) {
        this.groups = groups;
    }

    public String get(int groupId) {
        if (groups == null) {
            return null;
        }
        return groups[groupId];
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/RegexSelector.java
================================================
package us.codecraft.webmagic.selector;

import org.apache.commons.lang3.StringUtils;

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.regex.PatternSyntaxException;

/**
 * Selector in regex.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class RegexSelector implements Selector {

    private String regexStr;

    private Pattern regex;

    private int group = 1;

    public RegexSelector(String regexStr, int group) {
        this.compileRegex(regexStr);
        this.group = group;
    }

    private void compileRegex(String regexStr) {
        if (StringUtils.isBlank(regexStr)) {
            throw new IllegalArgumentException("regex must not be empty");
        }
        try {
            this.regex = Pattern.compile(regexStr, Pattern.DOTALL | Pattern.CASE_INSENSITIVE);
            this.regexStr = regexStr;
        } catch (PatternSyntaxException e) {
            throw new IllegalArgumentException("invalid regex "+regexStr, e);
        }
    }

    /**
     * Create a RegexSelector. When there is no capture group, the value is set to 0 else set to 1.
     * @param regexStr the regular expression.
     */
    public RegexSelector(String regexStr) {
        this.compileRegex(regexStr);
        if (regex.matcher("").groupCount() == 0) {
            this.group = 0;
        } else {
            this.group = 1;
        }
    }

    @Override
    public String select(String text) {
        return selectGroup(text).get(group);
    }

    @Override
    public List<String> selectList(String text) {
        List<String> strings = new ArrayList<String>();
        List<RegexResult> results = selectGroupList(text);
        for (RegexResult result : results) {
            strings.add(result.get(group));
        }
        return strings;
    }

    public RegexResult selectGroup(String text) {
        Matcher matcher = regex.matcher(text);
        if (matcher.find()) {
            String[] groups = new String[matcher.groupCount() + 1];
            for (int i = 0; i < groups.length; i++) {
                groups[i] = matcher.group(i);
            }
            return new RegexResult(groups);
        }
        return RegexResult.EMPTY_RESULT;
    }

    public List<RegexResult> selectGroupList(String text) {
        Matcher matcher = regex.matcher(text);
        List<RegexResult> resultList = new ArrayList<RegexResult>();
        while (matcher.find()) {
            String[] groups = new String[matcher.groupCount() + 1];
            for (int i = 0; i < groups.length; i++) {
                groups[i] = matcher.group(i);
            }
            resultList.add(new RegexResult(groups));
        }
        return resultList;
    }

    @Override
    public String toString() {
        return regexStr;
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/ReplaceSelector.java
================================================
package us.codecraft.webmagic.selector;

import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.regex.PatternSyntaxException;

/**
 * Replace selector.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class ReplaceSelector implements Selector {

    private String regexStr;

    private String replacement;

    private Pattern regex;

    public ReplaceSelector(String regexStr, String replacement) {
        this.regexStr = regexStr;
        this.replacement = replacement;
        try {
            regex = Pattern.compile(regexStr);
        } catch (PatternSyntaxException e) {
            throw new IllegalArgumentException("invalid regex", e);
        }
    }

    @Override
    public String select(String text) {
        Matcher matcher = regex.matcher(text);
        return matcher.replaceAll(replacement);
    }

    @Override
    public List<String> selectList(String text) {
        throw new UnsupportedOperationException();
    }

    @Override
    public String toString() {
        return regexStr + "_" + replacement;
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/Selectable.java
================================================
package us.codecraft.webmagic.selector;

import java.util.List;

/**
 * Selectable text.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public interface Selectable {

    /**
     * select list with xpath
     *
     * @param xpath xpath
     * @return new Selectable after extract
     */
    public Selectable xpath(String xpath);

    /**
     * select list with css selector
     *
     * @param selector css selector expression
     * @return new Selectable after extract
     */
    public Selectable $(String selector);

    /**
     * select list with css selector
     *
     * @param selector css selector expression
     * @param attrName attribute name of css selector
     * @return new Selectable after extract
     */
    public Selectable $(String selector, String attrName);

    /**
     * select list with css selector
     *
     * @param selector css selector expression
     * @return new Selectable after extract
     */
    public Selectable css(String selector);

    /**
     * select list with css selector
     *
     * @param selector css selector expression
     * @param attrName attribute name of css selector
     * @return new Selectable after extract
     */
    public Selectable css(String selector, String attrName);
    /**
     * select all links
     *
     * @return all links
     */
    public Selectable links();

    /**
     * select list with regex, default group is group 1
     *
     * @param regex regex
     * @return new Selectable after extract
     */
    public Selectable regex(String regex);

    /**
     * select list with regex
     *
     * @param regex regex
     * @param group group
     * @return new Selectable after extract
     */
    public Selectable regex(String regex, int group);

    /**
     * replace with regex
     *
     * @param regex regex
     * @param replacement replacement
     * @return new Selectable after extract
     */
    public Selectable replace(String regex, String replacement);

    /**
     * single string result
     *
     * @return single string result
     */
    public String toString();

    /**
     * single string result
     *
     * @return single string result
     */
    public String get();

    /**
     * if result exist for select
     *
     * @return true if result exist
     */
    public boolean match();

    /**
     * multi string result
     *
     * @return multi string result
     */
    public List<String> all();

    /**
     * extract by JSON Path expression
     *
     * @param jsonPath jsonPath
     * @return result
     */
    public Selectable jsonPath(String jsonPath);

    /**
     * extract by custom selector
     *
     * @param selector selector
     * @return result
     */
    public Selectable select(Selector selector);

    /**
     * extract by custom selector
     *
     * @param selector selector
     * @return result
     */
    public Selectable selectList(Selector selector);

    /**
     * get all nodes
     * @return result
     */
    public List<Selectable> nodes();
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/Selector.java
================================================
package us.codecraft.webmagic.selector;

import java.util.List;

/**
 * Selector(extractor) for text.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public interface Selector {

    /**
     * Extract single result in text.<br>
     * If there are more than one result, only the first will be chosen.
     *
     * @param text text
     * @return result
     */
    public String select(String text);

    /**
     * Extract all results in text.<br>
     *
     * @param text text
     * @return results
     */
    public List<String> selectList(String text);

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/Selectors.java
================================================
package us.codecraft.webmagic.selector;

/**
 * Convenient methods for selectors.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.1
 */
public abstract class Selectors {

    public static RegexSelector regex(String expr) {
        return new RegexSelector(expr);
    }

    public static RegexSelector regex(String expr, int group) {
        return new RegexSelector(expr,group);
    }

    public static SmartContentSelector smartContent() {
        return new SmartContentSelector();
    }

    public static SmartContentSelector smartContent(int threshold) {
        return new SmartContentSelector(threshold);
    }

    public static CssSelector $(String expr) {
        return new CssSelector(expr);
    }

    public static CssSelector $(String expr, String attrName) {
        return new CssSelector(expr, attrName);
    }

    public static XpathSelector xpath(String expr) {
        return new XpathSelector(expr);
    }

    /**
     * @see #xpath(String)
     * @param expr expr
     * @return new selector
     */
    @Deprecated
    public static XpathSelector xsoup(String expr) {
        return new XpathSelector(expr);
    }

    public static AndSelector and(Selector... selectors) {
        return new AndSelector(selectors);
    }

    public static OrSelector or(Selector... selectors) {
        return new OrSelector(selectors);
    }

}

================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/SmartContentSelector.java
================================================
package us.codecraft.webmagic.selector;

import us.codecraft.webmagic.utils.Experimental;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

/**
 * Borrowed from https://code.google.com/p/cx-extractor/
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.4.1
 *
 */
@Experimental
public class SmartContentSelector implements Selector {

    private int threshold = 86;

    public SmartContentSelector() {
    }

    public SmartContentSelector(int threshold) {
        this.threshold = threshold;
    }

    @Override
    public String select(String html) {
        html = html.replaceAll("(?is)<!DOCTYPE.*?>", "");
        html = html.replaceAll("(?is)<!--.*?-->", "");				// remove html comment
        html = html.replaceAll("(?is)<script.*?>.*?</script>", ""); // remove javascript
        html = html.replaceAll("(?is)<style.*?>.*?</style>", "");   // remove css
        html = html.replaceAll("&.{2,5};|&#.{2,5};", " ");			// remove special char
        html = html.replaceAll("(?is)<.*?>", "");
        List<String> lines;
        int blocksWidth =3;
        int start;
        int end;
        StringBuilder text = new StringBuilder();
        ArrayList<Integer> indexDistribution = new ArrayList<Integer>();

        lines = Arrays.asList(html.split("\n"));

        for (int i = 0; i < lines.size() - blocksWidth; i++) {
            int wordsNum = 0;
            for (int j = i; j < i + blocksWidth; j++) {
                lines.set(j, lines.get(j).replaceAll("\\s+", ""));
                wordsNum += lines.get(j).length();
            }
            indexDistribution.add(wordsNum);
        }

        start = -1; end = -1;
        boolean boolstart = false, boolend = false;
        text.setLength(0);

        for (int i = 0; i < indexDistribution.size() - 1; i++) {
            if (indexDistribution.get(i) > threshold && ! boolstart) {
                if (indexDistribution.get(i+1).intValue() != 0
                        || indexDistribution.get(i+2).intValue() != 0
                        || indexDistribution.get(i+3).intValue() != 0) {
                    boolstart = true;
                    start = i;
                    continue;
                }
            }
            if (boolstart) {
                if (indexDistribution.get(i).intValue() == 0
                        || indexDistribution.get(i+1).intValue() == 0) {
                    end = i;
                    boolend = true;
                }
            }
            StringBuilder tmp = new StringBuilder();
            if (boolend) {
                //System.out.println(start+1 + "\t\t" + end+1);
                for (int ii = start; ii <= end; ii++) {
                    if (lines.get(ii).length() < 5) continue;
                    tmp.append(lines.get(ii) + "\n");
                }
                String str = tmp.toString();
                //System.out.println(str);
                if (str.contains("Copyright")   ) continue;
                text.append(str);
                boolstart = boolend = false;
            }
        }
        return text.toString();
    }

    @Override
    public List<String> selectList(String text) {
        throw new UnsupportedOperationException();
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/XpathSelector.java
================================================
package us.codecraft.webmagic.selector;


import java.util.List;
import org.apache.commons.collections4.CollectionUtils;
import org.jsoup.nodes.Element;
import us.codecraft.xsoup.XPathEvaluator;
import us.codecraft.xsoup.Xsoup;

/**
 * XPath selector based on Xsoup.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.3.0
 */
public class XpathSelector extends BaseElementSelector {

    private XPathEvaluator xPathEvaluator;

    public XpathSelector(String xpathStr) {
        this.xPathEvaluator = Xsoup.compile(xpathStr);
    }

    @Override
    public String select(Element element) {
        return xPathEvaluator.evaluate(element).get();
    }

    @Override
    public List<String> selectList(Element element) {
        return xPathEvaluator.evaluate(element).list();
    }

    @Override
    public Element selectElement(Element element) {
        List<Element> elements = selectElements(element);
        if (CollectionUtils.isNotEmpty(elements)){
            return elements.get(0);
        }
        return null;
    }

    @Override
    public List<Element> selectElements(Element element) {
        return xPathEvaluator.evaluate(element).getElements();
    }

    @Override
    public boolean hasAttribute() {
        return xPathEvaluator.hasAttribute();
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/selector/package.html
================================================
<html>
	<body>
Selectors for page extraction. Core API is the interface Selectable，and internal core is the interface Selector。
	</body>
</html>


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/thread/CountableThreadPool.java
================================================
package us.codecraft.webmagic.thread;

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.atomic.AtomicInteger;
import java.util.concurrent.locks.Condition;
import java.util.concurrent.locks.ReentrantLock;

/**
 * Thread pool for workers.<br><br>
 * Use {@link java.util.concurrent.ExecutorService} as inner implement. <br><br>
 * New feature: <br><br>
 * 1. Block when thread pool is full to avoid poll many urls without process. <br><br>
 * 2. Count of thread alive for monitor.
 *
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public class CountableThreadPool {

    private int threadNum;

    private AtomicInteger threadAlive = new AtomicInteger();

    private ReentrantLock reentrantLock = new ReentrantLock();

    private Condition condition = reentrantLock.newCondition();

    public CountableThreadPool(int threadNum) {
        this.threadNum = threadNum;
        this.executorService = Executors.newFixedThreadPool(threadNum);
    }

    public CountableThreadPool(int threadNum, ExecutorService executorService) {
        this.threadNum = threadNum;
        this.executorService = executorService;
    }

    public void setExecutorService(ExecutorService executorService) {
        this.executorService = executorService;
    }

    public int getThreadAlive() {
        return threadAlive.get();
    }

    public int getThreadNum() {
        return threadNum;
    }

    private ExecutorService executorService;

    public void execute(final Runnable runnable) {


        if (threadAlive.get() >= threadNum) {
            try {
                reentrantLock.lock();
                while (threadAlive.get() >= threadNum) {
                    try {
                        condition.await();
                    } catch (InterruptedException e) {
                    }
                }
            } finally {
                reentrantLock.unlock();
            }
        }
        threadAlive.incrementAndGet();
        executorService.execute(new Runnable() {
            @Override
            public void run() {
                try {
                    runnable.run();
                } finally {
                    try {
                        reentrantLock.lock();
                        threadAlive.decrementAndGet();
                        condition.signal();
                    } finally {
                        reentrantLock.unlock();
                    }
                }
            }
        });
    }

    public boolean isShutdown() {
        return executorService.isShutdown();
    }

    public void shutdown() {
        executorService.shutdown();
    }


}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/BaseSelectorUtils.java
================================================
package us.codecraft.webmagic.utils;

/**
 * @author hooy
 */
public class BaseSelectorUtils {

    /**
     * Jsoup/HtmlCleaner could not parse "tr" or "td" tag directly
     * https://stackoverflow.com/questions/63607740/jsoup-couldnt-parse-tr-tag
     *
     * @param text - the html string
     * @return text
     */
    public static String preParse(String text) {
        if (((text.startsWith("<tr>") || text.startsWith("<tr ")) && text.endsWith("</tr>"))
                || ((text.startsWith("<td>") || text.startsWith("<td ")) && text.endsWith("</td>"))) {
            text = "<table>" + text + "</table>";
        }
        return text;
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/CharsetUtils.java
================================================
package us.codecraft.webmagic.utils;

import org.apache.commons.lang3.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.nio.charset.Charset;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/3/11
 *         Time: 10:36
 * @since 0.6.2
 */
public abstract class CharsetUtils {

    private static Logger logger = LoggerFactory.getLogger(CharsetUtils.class);

    private CharsetUtils() {
        throw new AssertionError("No us.codecraft.webmagic.utils.CharsetUtils instances for you!");
    }

    public static String detectCharset(String contentType, byte[] contentBytes) throws IOException {
        String charset;
        // charset
        // 1、encoding in http header Content-Type
        charset = UrlUtils.getCharset(contentType);
        if (StringUtils.isNotBlank(contentType) && StringUtils.isNotBlank(charset)) {
            logger.debug("Auto get charset: {}", charset);
            return charset;
        }
        // use default charset to decode first time
        Charset defaultCharset = Charset.defaultCharset();
        String content = new String(contentBytes, defaultCharset);
        // 2、charset in meta
        if (StringUtils.isNotEmpty(content)) {
            Document document = Jsoup.parse(content);
            Elements links = document.select("meta");
            for (Element link : links) {
                // 2.1、html4.01 <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
                String metaContent = link.attr("content");
                String metaCharset = link.attr("charset");
                if (metaContent.indexOf("charset") != -1) {
                    metaContent = metaContent.substring(metaContent.indexOf("charset"), metaContent.length());
                    charset = metaContent.split("=")[1];
                    break;
                }
                // 2.2、html5 <meta charset="UTF-8" />
                else if (StringUtils.isNotEmpty(metaCharset)) {
                    charset = metaCharset;
                    break;
                }
            }
        }
        logger.debug("Auto get charset: {}", charset);
        // 3、todo use tools as cpdetector for content decode
        return charset;
    }
    
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/Experimental.java
================================================
package us.codecraft.webmagic.utils;

/**
 * Stands for features unstable.
 * @author code4crafter@gmail.com <br>
 */
public @interface Experimental {
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/FilePersistentBase.java
================================================
package us.codecraft.webmagic.utils;

import java.io.File;

/**
 * Base object of file persistence.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class FilePersistentBase {

    protected String path;

    public static String PATH_SEPERATOR = "/";

    static {
        String property = System.getProperties().getProperty("file.separator");
        if (property != null) {
            PATH_SEPERATOR = property;
        }
    }

    public void setPath(String path) {
        if (!path.endsWith(PATH_SEPERATOR)) {
            path += PATH_SEPERATOR;
        }
        this.path = path;
    }

    public File getFile(String fullName) {
        checkAndMakeParentDirecotry(fullName);
        return new File(fullName);
    }

    public void checkAndMakeParentDirecotry(String fullName) {
        int index = fullName.lastIndexOf(PATH_SEPERATOR);
        if (index > 0) {
            String path = fullName.substring(0, index);
            File file = new File(path);
            if (!file.exists()) {
                file.mkdirs();
            }
        }
    }

    public String getPath() {
        return path;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/HttpClientUtils.java
================================================
package us.codecraft.webmagic.utils;

import org.apache.http.Header;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/3/27
 */
public abstract class HttpClientUtils {

    public static Map<String,List<String>> convertHeaders(Header[] headers){
        Map<String,List<String>> results = new HashMap<String, List<String>>();
        for (Header header : headers) {
            List<String> list = results.get(header.getName());
            if (list == null) {
                list = new ArrayList<String>();
                results.put(header.getName(), list);
            }
            list.add(header.getValue());
        }
        return results;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/HttpConstant.java
================================================
package us.codecraft.webmagic.utils;

/**
 * Some constants of Http protocal.
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public abstract class HttpConstant {

    public static abstract class Method {

        public static final String GET = "GET";

        public static final String HEAD = "HEAD";

        public static final String POST = "POST";

        public static final String PUT = "PUT";

        public static final String DELETE = "DELETE";

        public static final String TRACE = "TRACE";

        public static final String CONNECT = "CONNECT";

    }

    public static abstract class StatusCode {

        public static final int CODE_200 = 200;

    }

    public static abstract class Header {

        public static final String REFERER = "Referer";

        public static final String USER_AGENT = "User-Agent";
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/NumberUtils.java
================================================
package us.codecraft.webmagic.utils;

/**
 * @author yihua.huang@dianping.com
 */
public abstract class NumberUtils {

    public static int compareLong(long o1, long o2) {
    	return Long.compare(o1, o2);
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/ProxyUtils.java
================================================
package us.codecraft.webmagic.utils;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.proxy.Proxy;

import java.io.IOException;
import java.net.InetSocketAddress;
import java.net.Socket;

/**
 * Pooled Proxy Object
 * 
 * @author yxssfxwzy@sina.com <br>
 * @since 0.5.1
 */

public class ProxyUtils {

	private static final Logger logger = LoggerFactory.getLogger(ProxyUtils.class);

	public static boolean validateProxy(Proxy p) {
		Socket socket = null;
		try {
			socket = new Socket();
			InetSocketAddress endpointSocketAddr = new InetSocketAddress(p.getHost(), p.getPort());
			socket.connect(endpointSocketAddr, 3000);
			return true;
		} catch (IOException e) {
			logger.warn("FAILRE - CAN not connect!  remote: " + p);
			return false;
		} finally {
			if (socket != null) {
				try {
					socket.close();
				} catch (IOException e) {
					logger.warn("Error occurred while closing socket of validating proxy", e);
				}
			}
		}

	}

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/UrlUtils.java
================================================
package us.codecraft.webmagic.utils;

import org.apache.commons.lang3.StringUtils;
import us.codecraft.webmagic.Request;

import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.Collection;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * url and html utils.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.1.0
 */
public class UrlUtils {

    /**
     * canonicalizeUrl
     * <br>
     * Borrowed from Jsoup.
     *
     * @param url url
     * @param refer refer
     * @return canonicalizeUrl
     */
    public static String canonicalizeUrl(String url, String refer) {
        URL base;
        try {
            try {
                base = new URL(refer);
            } catch (MalformedURLException e) {
                // the base is unsuitable, but the attribute may be abs on its own, so try that
                URL abs = new URL(refer);
                return abs.toExternalForm();
            }
            // workaround: java resolves '//path/file + ?foo' to '//path/?foo', not '//path/file?foo' as desired
            if (url.startsWith("?"))
                url = base.getPath() + url;
            URL abs = new URL(base, url);
            return abs.toExternalForm();
        } catch (MalformedURLException e) {
            return "";
        }
    }

    /**
     *
     * @param url url
     * @return new url
     * @deprecated
     */
    public static String encodeIllegalCharacterInUrl(String url) {
        return url.replace(" ", "%20");
    }

    public static String fixIllegalCharacterInUrl(String url) {
        //TODO more charator support
        return url.replace(" ", "%20").replaceAll("#+", "#");
    }

    public static String getHost(String url) {
        String host = url;
        int i = StringUtils.ordinalIndexOf(url, "/", 3);
        if (i > 0) {
            host = StringUtils.substring(url, 0, i);
        }
        return host;
    }

    private static Pattern patternForProtocal = Pattern.compile("[\\w]+://");

    public static String removeProtocol(String url) {
        return patternForProtocal.matcher(url).replaceAll("");
    }

    public static String getDomain(String url) {
        String domain = removeProtocol(url);
        int i = StringUtils.indexOf(domain, "/", 1);
        if (i > 0) {
            domain = StringUtils.substring(domain, 0, i);
        }
        return removePort(domain);
    }

    public static String removePort(String domain) {
        int portIndex = domain.indexOf(":");
        if (portIndex != -1) {
            return domain.substring(0, portIndex);
        }else {
            return domain;
        }
    }

    public static List<Request> convertToRequests(Collection<String> urls) {
        List<Request> requestList = new ArrayList<Request>(urls.size());
        for (String url : urls) {
            requestList.add(new Request(url));
        }
        return requestList;
    }

    public static List<String> convertToUrls(Collection<Request> requests) {
        List<String> urlList = new ArrayList<String>(requests.size());
        for (Request request : requests) {
            urlList.add(request.getUrl());
        }
        return urlList;
    }

    private static final Pattern patternForCharset = Pattern.compile("charset\\s*=\\s*['\"]*([^\\s;'\"]*)", Pattern.CASE_INSENSITIVE);

    public static String getCharset(String contentType) {
        if (contentType == null) {
            return null;
        }

        Matcher matcher = patternForCharset.matcher(contentType);
        if (matcher.find()) {
            String charset = matcher.group(1);
            if (Charset.isSupported(charset)) {
                return charset;
            }
        }
        return null;
    }

}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/WMCollections.java
================================================
package us.codecraft.webmagic.utils;

import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

/**
 * @author code4crafter@gmail.com
 *         Date: 16/12/18
 *         Time: 上午10:16
 */
public class WMCollections {

    public static <T> Set<T> newHashSet(T... t){
        Set<T> set = new HashSet<T>(t.length);
        for (T t1 : t) {
            set.add(t1);
        }
        return set;
    }

    public static <T> List<T> newArrayList(T... t){
        List<T> list = new ArrayList<T>(t.length);
        for (T t1 : t) {
            list.add(t1);
        }
        return list;
    }
}


================================================
FILE: webmagic-core/src/main/java/us/codecraft/webmagic/utils/package.html
================================================
<html>
	<body>
Static utils of webmagic.
	</body>
</html>


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/HtmlTest.java
================================================
package us.codecraft.webmagic;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.selector.Selectable;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-4-21
 * Time: 上午8:42
 */
public class HtmlTest {

    @Test
    public void testRegexSelector() {
        Html selectable = new Html("aaaaaaab");
		assertThat(selectable.regex("(a+b)").replace("aa(a)", "$1bb").toString()).isEqualTo("abbabbab");
    }

	@Ignore("not work in jsoup 1.8.x")
	@Test
	public void testDisableJsoupHtmlEntityEscape() throws Exception {
		Html.DISABLE_HTML_ENTITY_ESCAPE = true;
		Html html = new Html("aaaaaaa&b");
		assertThat(html.regex("(aaaaaaa&b)").toString()).isEqualTo("aaaaaaa&b");
	}

	@Test
	public void testEnableJsoupHtmlEntityEscape() throws Exception {
		Html html = new Html("aaaaaaa&b");
		assertThat(html.regex("(aaaaaaa&amp;b)").toString()).isEqualTo("aaaaaaa&amp;b");
	}

	@Test
	public void testAHrefExtract(){
		Html html = new Html("<a data-tip=\"p$t$xxx\" href=\"/xx/xx\">xx</a>");
		assertThat(html.links().all()).contains("/xx/xx");
	}

	@Test
	public void testNthNodesGet(){
		Html html = new Html("<a data-tip=\"p$t$xxx\" href=\"/xx/xx\">xx</a>");
		assertThat(html.xpath("//a[1]/@href").get()).isEqualTo("/xx/xx");
		Selectable selectable = html.xpath("//a[1]").nodes().get(0);
		assertThat(selectable.xpath("/a/@href").get()).isEqualTo("/xx/xx");
	}

	@Test
	public void testGetHrefsByJsoup(){
		Html html = new Html("<html><a href='issues'>issues</a><img src='webmagic.jpg'/></html>","https://github.com/code4craft/webmagic/");
		assertThat(html.xpath("//a[1]/@abs:href").get()).isEqualTo("https://github.com/code4craft/webmagic/issues");
		assertThat(html.xpath("//img/@abs:src").get()).isEqualTo("https://github.com/code4craft/webmagic/webmagic.jpg");
		html = new Html("<html><base href='https://github.com/code4craft/webmagic/'><a href='issues'>issues</a><img src='webmagic.jpg'/></base></html>");
		assertThat(html.xpath("//a[1]/@abs:href").get()).isEqualTo("https://github.com/code4craft/webmagic/issues");
		assertThat(html.xpath("//img/@abs:src").get()).isEqualTo("https://github.com/code4craft/webmagic/webmagic.jpg");
	}
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/RequestTest.java
================================================
package us.codecraft.webmagic;

import static org.assertj.core.api.Assertions.assertThat;

import java.util.Collections;
import java.util.Map;

import org.junit.Test;

import us.codecraft.webmagic.utils.HttpConstant;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/3/11
 */
public class RequestTest {

    @Test
    public void testEqualsAndHashCode() throws Exception {
        Request requestA = new Request("http://www.google.com/");
        Request requestB = new Request("http://www.google.com/");
        assertThat(requestA.hashCode()).isEqualTo(requestB.hashCode());
        assertThat(requestA).isEqualTo(requestB);
        requestA.setMethod(HttpConstant.Method.GET);
        requestA.setMethod(HttpConstant.Method.POST);
        assertThat(requestA).isNotEqualTo(requestB);
        assertThat(requestA.hashCode()).isNotEqualTo(requestB.hashCode());
    }

    @Test
    public void testSetExtras() {
        Request request = new Request();
        Map<String, Object> extras = Collections.singletonMap("a", "1");
        request.setExtras(extras);
        request.putExtra("b", "2");
        assertThat(request.<String>getExtra("a")).isEqualTo("1");
        assertThat(request.<String>getExtra("b")).isEqualTo("2");
    }

    @Test
    public void testGetExtras() {
        Request request = new Request();
        request.putExtra("a", "1");
        assertThat(request.getExtras()).containsEntry("a", "1");
    }

    @Test(expected = UnsupportedOperationException.class)
    public void testGetExtrasShouldBeUnmodifiable() {
        Request request = new Request();
        request.getExtras().put("a", "1");
    }

}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/ResultItemsTest.java
================================================
package us.codecraft.webmagic;

import org.junit.Test;


import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 */
public class ResultItemsTest {

    @Test
    public void testOrderOfEntries() throws Exception {
        ResultItems resultItems = new ResultItems();
        resultItems.put("a", "a");
        resultItems.put("b", "b");
        resultItems.put("c", "c");
        assertThat(resultItems.getAll().keySet()).containsExactly("a","b","c");

    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/SiteTest.java
================================================
package us.codecraft.webmagic;

import static org.junit.Assert.assertEquals;
import static org.junit.Assert.assertTrue;

import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

import org.junit.Test;

public class SiteTest {

    @Test
    public void test() {
        Site site = Site.me().setDefaultCharset(StandardCharsets.UTF_8.name());
        assertEquals(StandardCharsets.UTF_8.name(), site.getDefaultCharset());
    }

    @Test
    public void addCookieTest(){
        Site site=Site.me().setDefaultCharset(StandardCharsets.UTF_8.name());
        site.addCookie("cookieDefault","cookie-webmagicDefault");
        String firstDomain="example.com";
        String secondDomain="exampleCopy.com";
        site.addCookie(firstDomain, "cookie", "cookie-webmagic");
        site.addCookie(firstDomain, "cookieCopy", "cookie-webmagicCopy");
        site.addCookie(secondDomain, "cookie", "cookie-webmagic");
        Map<String, Map<String, String>> allCookies = site.getAllCookies();
        List<String> domains=new ArrayList<>();
        for(String key : allCookies.keySet()){
            domains.add(key);
        }
        assertEquals("cookie-webmagic", allCookies.get(firstDomain).get("cookie"));
        assertEquals("cookie-webmagicCopy", allCookies.get(firstDomain).get("cookieCopy"));
        assertEquals("cookie-webmagic", allCookies.get(secondDomain).get("cookie"));
        assertEquals(2, domains.size());
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/SpiderTest.java
================================================
package us.codecraft.webmagic;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.downloader.Downloader;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.processor.SimplePageProcessor;
import us.codecraft.webmagic.scheduler.Scheduler;

import java.util.Random;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * @author code4crafter@gmail.com
 */
public class SpiderTest {

    @Ignore("long time")
    @Test
    public void testStartAndStop() throws InterruptedException {
        Spider spider = Spider.create(new SimplePageProcessor( "http://www.oschina.net/*")).addPipeline(new Pipeline() {
            @Override
            public void process(ResultItems resultItems, Task task) {
                System.out.println(1);
            }
        }).thread(1).addUrl("http://www.oschina.net/");
        spider.start();
        Thread.sleep(10000);
        spider.stop();
        Thread.sleep(10000);
        spider.start();
        Thread.sleep(10000);
    }

    @Ignore("long time")
    @Test
    public void testWaitAndNotify() throws InterruptedException {
        for (int i = 0; i < 10000; i++) {
            System.out.println("round " + i);
            testRound();
        }
    }

    private void testRound() {
        Spider spider = Spider.create(new PageProcessor() {

            private AtomicInteger count = new AtomicInteger();

            @Override
            public void process(Page page) {
                page.setSkip(true);
            }

            @Override
            public Site getSite() {
                return Site.me().setSleepTime(0);
            }
        }).setDownloader(new Downloader() {
            @Override
            public Page download(Request request, Task task) {
                return new Page().setRawText("");
            }

            @Override
            public void setThread(int threadNum) {

            }
        }).setScheduler(new Scheduler() {

            private AtomicInteger count = new AtomicInteger();

            private Random random = new Random();

            @Override
            public void push(Request request, Task task) {

            }

            @Override
            public synchronized Request poll(Task task) {
                if (count.incrementAndGet() > 1000) {
                    return null;
                }
                if (random.nextInt(100)>90){
                    return null;
                }
                return new Request("test");
            }
        }).thread(10);
        spider.run();
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/downloader/HttpClientDownloaderTest.java
================================================
package us.codecraft.webmagic.downloader;


import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.Map;
import org.apache.commons.collections4.map.HashedMap;
import org.apache.commons.io.IOUtils;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpUriRequest;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.junit.Test;
import com.github.dreamhead.moco.HttpServer;
import com.github.dreamhead.moco.Runnable;
import com.github.dreamhead.moco.Runner;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.model.HttpRequestBody;
import us.codecraft.webmagic.proxy.Proxy;
import us.codecraft.webmagic.proxy.SimpleProxyProvider;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.utils.CharsetUtils;
import us.codecraft.webmagic.utils.HttpConstant;
import static com.github.dreamhead.moco.Moco.and;
import static com.github.dreamhead.moco.Moco.by;
import static com.github.dreamhead.moco.Moco.cookie;
import static com.github.dreamhead.moco.Moco.eq;
import static com.github.dreamhead.moco.Moco.form;
import static com.github.dreamhead.moco.Moco.header;
import static com.github.dreamhead.moco.Moco.httpServer;
import static com.github.dreamhead.moco.Moco.method;
import static com.github.dreamhead.moco.Moco.not;
import static com.github.dreamhead.moco.Moco.query;
import static com.github.dreamhead.moco.Moco.text;
import static com.github.dreamhead.moco.Moco.uri;
import static com.github.dreamhead.moco.Moco.with;
import static org.assertj.core.api.Assertions.assertThat;
import static org.junit.Assert.assertEquals;
import static org.junit.Assert.assertThrows;
import static org.junit.Assert.assertTrue;

/**
 * @author code4crafer@gmail.com
 */
public class HttpClientDownloaderTest {

    public static final String PAGE_ALWAYS_NOT_EXISTS = "http://localhost:13423/404";

    @Test
    public void testDownloader() {
        HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
        Html html = httpClientDownloader.download("https://www.baidu.com/");
        assertTrue(!html.getFirstSourceText().isEmpty());
    }

    @Test(expected = IllegalArgumentException.class)
    public void testDownloaderInIllegalUrl() throws UnsupportedEncodingException {
        HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
        httpClientDownloader.download("http://www.oschina.net/>");
    }

    @Test
    public void test_download_fail() {
        HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
        Task task = Site.me().setDomain("localhost").setCycleRetryTimes(5).toTask();
        Request request = new Request(PAGE_ALWAYS_NOT_EXISTS);
        Page page = httpClientDownloader.download(request, task);
        assertThat(page.isDownloadSuccess()).isFalse();
    }

    @Test
    public void testGetHtmlCharset() throws Exception {
        HttpServer server = httpServer(13423);
        server.get(by(uri("/header"))).response(header("Content-Type", "text/html; charset=gbk"));
        server.get(by(uri("/meta4"))).response(with(text("<html>\n" +
                "  <head>\n" +
                "    <meta charset='gbk'/>\n" +
                "  </head>\n" +
                "  <body></body>\n" +
                "</html>")),header("Content-Type","text/html; charset=gbk"));
        server.get(by(uri("/meta5"))).response(with(text("<html>\n" +
                "  <head>\n" +
                "    <meta http-equiv=\"Content-Type\" content=\"text/html; charset=gbk\" />\n" +
                "  </head>\n" +
                "  <body></body>\n" +
                "</html>")),header("Content-Type","text/html"));
        Runner.running(server, new Runnable() {
            @Override
            public void run() {
                String charset = getCharsetByUrl("http://127.0.0.1:13423/header");
                assertEquals(charset, "gbk");
                charset = getCharsetByUrl("http://127.0.0.1:13423/meta4");
                assertEquals(charset, "gbk");
                charset = getCharsetByUrl("http://127.0.0.1:13423/meta5");
                assertEquals(charset, "gbk");
            }

            private String getCharsetByUrl(String url) {
                HttpClientDownloader downloader = new HttpClientDownloader();
                Site site = Site.me();
                CloseableHttpClient httpClient = new HttpClientGenerator().getClient(site);
                // encoding in http header Content-Type
                Request requestGBK = new Request(url);
                CloseableHttpResponse httpResponse = null;
                try {
                    httpResponse = httpClient.execute(new HttpUriRequestConverter().convert(requestGBK, site, null).getHttpUriRequest());
                } catch (IOException e) {
                    e.printStackTrace();
                }
                String charset = null;
                try {
                    byte[] contentBytes = IOUtils.toByteArray(httpResponse.getEntity().getContent());
                    charset = CharsetUtils.detectCharset(httpResponse.getEntity().getContentType().getValue(), contentBytes);
                } catch (IOException e) {
                    e.printStackTrace();
                }
                return charset;
            }
        });
    }

    @Test
    public void test_selectRequestMethod() throws Exception {
        final int port = 13423;
        HttpServer server = httpServer(port);
        server.get(eq(query("q"), "webmagic")).response("get");
        server.post(eq(form("q"), "webmagic")).response("post");
        server.put(eq(form("q"), "webmagic")).response("put");
        server.delete(eq(query("q"), "webmagic")).response("delete");
        server.request(and(by(method("HEAD")),eq(query("q"), "webmagic"))).response(header("method","head"));
        server.request(and(by(method("TRACE")),eq(query("q"), "webmagic"))).response("trace");
        final HttpUriRequestConverter httpUriRequestConverter = new HttpUriRequestConverter();
        final Site site = Site.me();
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                Request request = new Request();
                request.setUrl("http://127.0.0.1:" + port + "/search?q=webmagic");
                request.setMethod(HttpConstant.Method.GET);
                Map<String,Object> params = new HashedMap();
                params.put("q","webmagic");
                HttpUriRequest httpUriRequest = httpUriRequestConverter.convert(request,site,null).getHttpUriRequest();
                assertThat(EntityUtils.toString(HttpClients.custom().build().execute(httpUriRequest).getEntity())).isEqualTo("get");
                request.setMethod(HttpConstant.Method.DELETE);
                httpUriRequest = httpUriRequestConverter.convert(request, site, null).getHttpUriRequest();
                assertThat(EntityUtils.toString(HttpClients.custom().build().execute(httpUriRequest).getEntity())).isEqualTo("delete");
                request.setMethod(HttpConstant.Method.HEAD);
                httpUriRequest = httpUriRequestConverter.convert(request, site, null).getHttpUriRequest();
                assertThat(HttpClients.custom().build().execute(httpUriRequest).getFirstHeader("method").getValue()).isEqualTo("head");
                request.setMethod(HttpConstant.Method.TRACE);
                httpUriRequest = httpUriRequestConverter.convert(request, site, null).getHttpUriRequest();
                assertThat(EntityUtils.toString(HttpClients.custom().build().execute(httpUriRequest).getEntity())).isEqualTo("trace");
                request.setUrl("http://127.0.0.1:" + port + "/search");
                request.setMethod(HttpConstant.Method.POST);
                request.setRequestBody(HttpRequestBody.form(params, "utf-8"));
                httpUriRequest = httpUriRequestConverter.convert(request, site, null).getHttpUriRequest();
                assertThat(EntityUtils.toString(HttpClients.custom().build().execute(httpUriRequest).getEntity())).isEqualTo("post");
                request.setMethod(HttpConstant.Method.PUT);
                httpUriRequest = httpUriRequestConverter.convert(request, site, null).getHttpUriRequest();
                assertThat(EntityUtils.toString(HttpClients.custom().build().execute(httpUriRequest).getEntity())).isEqualTo("put");
            }
        });
    }

    @Test
    public void test_set_request_cookie() throws Exception {
        HttpServer server = httpServer(13423);
        server.get(eq(cookie("cookie"), "cookie-webmagic")).response("ok");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setUrl("http://127.0.0.1:13423");
                request.addCookie("cookie","cookie-webmagic");
                Page page = httpClientDownloader.download(request, Site.me().toTask());
                assertThat(page.getRawText()).isEqualTo("ok");
            }
        });
    }

    @Test
    public void test_disableCookieManagement() throws Exception {
        HttpServer server = httpServer(13423);
        server.get(not(eq(cookie("cookie"), "cookie-webmagic"))).response("ok");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setUrl("http://127.0.0.1:13423");
                request.addCookie("cookie","cookie-webmagic");
                Page page = httpClientDownloader.download(request, Site.me().setDisableCookieManagement(true).toTask());
                assertThat(page.getRawText()).isEqualTo("ok");
            }
        });
    }

    @Test
    public void test_set_request_header() throws Exception {
        HttpServer server = httpServer(13423);
        server.get(eq(header("header"), "header-webmagic")).response("ok");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setUrl("http://127.0.0.1:13423");
                request.addHeader("header","header-webmagic");
                Page page = httpClientDownloader.download(request, Site.me().toTask());
                assertThat(page.getRawText()).isEqualTo("ok");
            }
        });
    }

    @Test
    public void test_set_site_header() throws Exception {
        HttpServer server = httpServer(13423);
        server.get(eq(header("header"), "header-webmagic")).response("ok");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setUrl("http://127.0.0.1:13423");
                Page page = httpClientDownloader.download(request, Site.me().addHeader("header","header-webmagic").toTask());
                assertThat(page.getRawText()).isEqualTo("ok");
            }
        });
    }

    @Test
    public void test_set_site_cookie() throws Exception {
        HttpServer server = httpServer(13423);
        server.get(eq(cookie("cookie"), "cookie-webmagic")).response("ok");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setUrl("http://127.0.0.1:13423");
                Site site = Site.me().addCookie("cookie", "cookie-webmagic").setDomain("127.0.0.1");
                Page page = httpClientDownloader.download(request, site.toTask());
                assertThat(page.getRawText()).isEqualTo("ok");
            }
        });
    }

    @Test
    public void test_download_when_task_is_null() throws Exception {
        HttpServer server = httpServer(13423);
        server.response("foo");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                final HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setUrl("http://127.0.0.1:13423/");
                Page page = httpClientDownloader.download(request, Site.me().toTask());
                assertThat(page.getRawText()).isEqualTo("foo");
            }
        });
    }

    @Test
    public void test_download_auth_by_SimpleProxyProvider() throws Exception {
        HttpServer server = httpServer(13423);
        server.get(eq(header("Proxy-Authorization"), "Basic dXNlcm5hbWU6cGFzc3dvcmQ=")).response("ok");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                httpClientDownloader.setProxyProvider(SimpleProxyProvider.from(new Proxy("127.0.0.1", 13423, "username", "password")));
                Request request = new Request();
                request.setUrl("http://www.baidu.com");
                Page page = httpClientDownloader.download(request, Site.me().toTask());
                assertThat(page.getRawText()).isEqualTo("ok");
            }
        });
    }

    @Test
    public void test_download_binary_content() throws Exception {
        HttpServer server = httpServer(13423);
        server.response("binary");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                final HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setBinaryContent(true);
                request.setUrl("http://127.0.0.1:13423/");
                Page page = httpClientDownloader.download(request, Site.me().toTask());
                assertThat(page.getRawText()).isNull();
                assertThat(page.getBytes()).isEqualTo("binary".getBytes());
            }
        });
    }

    @Test
    public void test_download_set_charset() throws Exception {
        HttpServer server = httpServer(13423);
        server.response(header("Content-Type","text/html; charset=utf-8")).response("hello world!");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                final HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setUrl("http://127.0.0.1:13423/");
                Page page = httpClientDownloader.download(request, Site.me().toTask());
                assertThat(page.getCharset()).isEqualTo("utf-8");
            }
        });
    }

    @Test
    public void test_download_set_request_charset() throws Exception {
        HttpServer server = httpServer(13423);
        server.response("hello world!");
        Runner.running(server, new Runnable() {
            @Override
            public void run() throws Exception {
                final HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
                Request request = new Request();
                request.setCharset("utf-8");
                request.setUrl("http://127.0.0.1:13423/");
                Page page = httpClientDownloader.download(request, Site.me().setCharset("gbk").toTask());
                assertThat(page.getCharset()).isEqualTo("utf-8");
            }
        });
    }

    @Test
    public void test_no_task_download(){
        Request request = new Request();
        request.setUrl("http://127.0.0.1:13423/");
        HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
         assertThrows(NullPointerException.class, () -> httpClientDownloader.download(request,null));       
    }


}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/downloader/HttpUriRequestConverterTest.java
================================================
package us.codecraft.webmagic.downloader;

import org.junit.Test;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.utils.UrlUtils;

import java.net.URI;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/7/22
 *         Time: 下午5:29
 */
public class HttpUriRequestConverterTest {

    @Test
    public void test_illegal_uri_correct() throws Exception {
        HttpUriRequestConverter httpUriRequestConverter = new HttpUriRequestConverter();
        HttpClientRequestContext requestContext = httpUriRequestConverter.convert(new Request(UrlUtils.fixIllegalCharacterInUrl("http://bj.zhongkao.com/beikao/yimo/##")), Site.me(), null);
        assertThat(requestContext.getHttpUriRequest().getURI()).isEqualTo(new URI("http://bj.zhongkao.com/beikao/yimo/#"));
    }
}

================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/downloader/MockGithubDownloader.java
================================================
package us.codecraft.webmagic.downloader;


import java.io.IOException;
import java.io.InputStream;
import java.nio.charset.Charset;
import org.apache.commons.io.IOUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.selector.PlainText;


/**
 * @author code4crafter@gmail.com
 */
public class MockGithubDownloader implements Downloader {

    @Override
    public Page download(Request request, Task task) {
        Page page = new Page();
        InputStream resourceAsStream = this.getClass().getResourceAsStream("/html/mock-github.html");
        try {
            page.setRawText(IOUtils.toString(resourceAsStream, Charset.defaultCharset()));
        } catch (IOException e) {
            e.printStackTrace();
        }
        page.setRequest(new Request("https://github.com/code4craft/webmagic"));
        page.setUrl(new PlainText("https://github.com/code4craft/webmagic"));
        return page;
    }

    @Override
    public void setThread(int threadNum) {
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/downloader/SSLCompatibilityTest.java
================================================
package us.codecraft.webmagic.downloader;

import org.junit.Test;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/11/29
 *         Time: 下午1:32
 */
public class SSLCompatibilityTest {

    @Test
    public void test_tls12() throws Exception {
        HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
        Task task = Site.me().setCycleRetryTimes(5).toTask();
        Request request = new Request("https://juejin.im/");
        Page page = httpClientDownloader.download(request, task);
        assertThat(page.isDownloadSuccess()).isTrue();
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/example/GithubRepoPageProcessorTest.java
================================================
package us.codecraft.webmagic.example;

import org.junit.Test;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.downloader.MockGithubDownloader;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.processor.example.GithubRepoPageProcessor;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 16/1/19
 *         Time: 上午7:27
 */
public class GithubRepoPageProcessorTest {

    @Test
    public void test_github() throws Exception {
        Spider.create(new GithubRepoPageProcessor()).addPipeline(new Pipeline() {
            @Override
            public void process(ResultItems resultItems, Task task) {
                assertThat(((String) resultItems.get("name")).trim()).isEqualTo("webmagic");
                assertThat(((String) resultItems.get("author")).trim()).isEqualTo("code4craft");
            }
        }).setDownloader(new MockGithubDownloader()).test("https://github.com/code4craft/webmagic");
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/pipeline/FilePipelineTest.java
================================================
package us.codecraft.webmagic.pipeline;

import org.junit.BeforeClass;
import org.junit.Test;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

import java.util.UUID;

/**
 * Created by ywooer on 2014/5/6 0006.
 */
public class FilePipelineTest {

    private static ResultItems resultItems;
    private static Task task;

    @BeforeClass
    public static void before() {
        resultItems = new ResultItems();
        resultItems.put("content", "webmagic 爬虫工具");
        Request request = new Request("http://www.baidu.com");
        resultItems.setRequest(request);

        task = new Task() {
            @Override
            public String getUUID() {
                return UUID.randomUUID().toString();
            }

            @Override
            public Site getSite() {
                return null;
            }
        };
    }
    @Test
    public void testProcess() {
        FilePipeline filePipeline = new FilePipeline();
        filePipeline.process(resultItems, task);
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/processor/PageProcessorTest.java
================================================
package us.codecraft.webmagic.processor;

import static org.junit.Assert.assertEquals;

import org.junit.Test;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;

public class PageProcessorTest {

    @Test
    public void testGetSite() {
        Site actualSite = new PageProcessor() {

            @Override
            public void process(Page page) {
            }

        }.getSite();

        assertEquals(Site.me(), actualSite);

        actualSite = new PageProcessor() {

            @Override
            public void process(Page page) {
            }

            @Override
			public Site getSite() {
                return Site.me().setTimeOut(123);
            };

        }.getSite();

        assertEquals(Site.me().setTimeOut(123), actualSite);
    }

}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/proxy/ProxyTest.java
================================================
package us.codecraft.webmagic.proxy;

import static org.junit.Assert.assertEquals;
import static org.junit.Assert.assertNull;

import java.net.URI;
import java.util.ArrayList;
import java.util.List;

import org.apache.http.HttpHost;
import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;

/**
 * @author yxssfxwzy@sina.com May 30, 2014
 *
 */
class ProxyTest {

    private static List<String[]> httpProxyList = new ArrayList<String[]>();

    @BeforeAll
    static void before() {
        // String[] source = { "0.0.0.1:0", "0.0.0.2:0", "0.0.0.3:0",
        // "0.0.0.4:0" };
        String[] source = { "::0.0.0.1:0", "::0.0.0.2:0", "::0.0.0.3:0", "::0.0.0.4:0" };
        for (String line : source) {
            httpProxyList.add(new String[] {line.split(":")[0], line.split(":")[1], line.split(":")[2], line.split(":")[3] });
        }
    }

    class Fetch extends Thread {
        HttpHost hp;

        public Fetch(HttpHost hp) {
            this.hp = hp;
        }

        @Override
        public void run() {
            try {
                System.out.println("fetch web page use proxy: " + hp.getHostName() + ":" + hp.getPort());
                sleep(500);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }

    @Test
    void testCreate() {
        Proxy proxy = Proxy.create(URI.create("//127.0.0.1:8080"));
        assertNull(proxy.getScheme());
        assertNull(proxy.getUsername());
        assertNull(proxy.getPassword());
        assertEquals("127.0.0.1", proxy.getHost());
        assertEquals(8080, proxy.getPort());

        proxy = Proxy.create(URI.create("http://127.0.0.1:8080"));
        assertEquals("http", proxy.getScheme());
        assertNull(proxy.getUsername());
        assertNull(proxy.getPassword());
        assertEquals("127.0.0.1", proxy.getHost());
        assertEquals(8080, proxy.getPort());

        proxy = Proxy.create(URI.create("//username:password@127.0.0.1:8080"));
        assertNull(proxy.getScheme());
        assertEquals("username", proxy.getUsername());
        assertEquals("password", proxy.getPassword());
        assertEquals("127.0.0.1", proxy.getHost());
        assertEquals(8080, proxy.getPort());

        proxy = Proxy.create(URI.create("//username@127.0.0.1:8080"));
        assertNull(proxy.getScheme());
        assertEquals("username", proxy.getUsername());
        assertNull(proxy.getPassword());
        assertEquals("127.0.0.1", proxy.getHost());
        assertEquals(8080, proxy.getPort());

        proxy = Proxy.create(URI.create("//:password@127.0.0.1:8080"));
        assertNull(proxy.getScheme());
        assertNull(proxy.getUsername());
        assertEquals("password", proxy.getPassword());
        assertEquals("127.0.0.1", proxy.getHost());
        assertEquals(8080, proxy.getPort());
    }

    @Test
    void testEqualsHashCode() {
        var proxy0 = new Proxy("::1", 1080);
        var proxy1 = new Proxy("::1", 1080);
        assertEquals(proxy0, proxy1);
        assertEquals(proxy0.hashCode(), proxy1.hashCode());
    }

    @Test
    void testToString() {
        assertEquals("//127.0.0.1:8080", new Proxy("127.0.0.1", 8080).toString());
        assertEquals("http://127.0.0.1:8080", new Proxy("127.0.0.1", 8080, "http").toString());
        assertEquals("//username:password@127.0.0.1:8080", new Proxy("127.0.0.1", 8080, "username", "password").toString());
        assertEquals("//username@127.0.0.1:8080", new Proxy("127.0.0.1", 8080, "username", null).toString());
        assertEquals("//:password@127.0.0.1:8080", new Proxy("127.0.0.1", 8080, null, "password").toString());
    }

}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/proxy/SimpleProxyProviderTest.java
================================================
package us.codecraft.webmagic.proxy;

import org.junit.Test;
import org.mockito.Mockito;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/4/16
 *         Time: 上午10:29
 */
public class SimpleProxyProviderTest {

    public static final Task TASK = Site.me().toTask();

    @Test
    public void test_get_proxy() throws Exception {
        Proxy originProxy1 = new Proxy("127.0.0.1", 1087);
        Proxy originProxy2 = new Proxy("127.0.0.1", 1088);
        SimpleProxyProvider proxyProvider = SimpleProxyProvider.from(originProxy1, originProxy2);
        Request request = Mockito.mock(Request.class);
        Proxy proxy = proxyProvider.getProxy(request, TASK);
        assertThat(proxy).isEqualTo(originProxy1);
        proxy = proxyProvider.getProxy(request, TASK);
        assertThat(proxy).isEqualTo(originProxy2);
        proxy = proxyProvider.getProxy(request, TASK);
        assertThat(proxy).isEqualTo(originProxy1);
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/scheduler/DuplicateRemovedSchedulerTest.java
================================================
package us.codecraft.webmagic.scheduler;

import org.junit.Test;
import org.junit.runner.RunWith;
import org.mockito.Mockito;
import org.mockito.runners.MockitoJUnitRunner;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;
import us.codecraft.webmagic.utils.HttpConstant;

import static org.mockito.Matchers.any;
import static org.mockito.Mockito.times;
import static org.mockito.Mockito.verify;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/3/11
 *         Time: 上午11:26
 */
@RunWith(MockitoJUnitRunner.class)
public class DuplicateRemovedSchedulerTest {

    private DuplicateRemovedScheduler duplicateRemovedScheduler = new DuplicateRemovedScheduler() {
        @Override
        public Request poll(Task task) {
            return null;
        }
    };

    @Test
    public void test_no_duplicate_removed_for_post_request() throws Exception {
        DuplicateRemover duplicateRemover = Mockito.mock(DuplicateRemover.class);
        duplicateRemovedScheduler.setDuplicateRemover(duplicateRemover);
        Request request = new Request("https://www.google.com/");
        request.setMethod(HttpConstant.Method.POST);
        duplicateRemovedScheduler.push(request, null);
        verify(duplicateRemover,times(0)).isDuplicate(any(Request.class),any(Task.class));
    }

    @Test
    public void test_duplicate_removed_for_get_request() throws Exception {
        DuplicateRemover duplicateRemover = Mockito.mock(DuplicateRemover.class);
        duplicateRemovedScheduler.setDuplicateRemover(duplicateRemover);
        Request request = new Request("https://www.google.com/");
        request.setMethod(HttpConstant.Method.GET);
        duplicateRemovedScheduler.push(request, null);
        verify(duplicateRemover,times(1)).isDuplicate(any(Request.class),any(Task.class));
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/scheduler/PrioritySchedulerTest.java
================================================
package us.codecraft.webmagic.scheduler;

import junit.framework.Assert;
import org.junit.Test;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

/**
 * @author code4crafter@gmail.com <br>
 */
public class PrioritySchedulerTest {

    private PriorityScheduler priorityScheduler = new PriorityScheduler();

    private Task task = new Task() {
        @Override
        public String getUUID() {
            return "1";
        }

        @Override
        public Site getSite() {
            return null;
        }
    };

    @Test
    public void testDifferentPriority() {
        Request request = new Request("a");
        request.setPriority(100);
        priorityScheduler.push(request,task);

        request = new Request("b");
        request.setPriority(900);
        priorityScheduler.push(request,task);

        request = new Request("c");
        priorityScheduler.push(request,task);

        request = new Request("d");
        request.setPriority(-900);
        priorityScheduler.push(request,task);

        Request poll = priorityScheduler.poll(task);
        Assert.assertEquals("b",poll.getUrl());
        poll = priorityScheduler.poll(task);
        Assert.assertEquals("a",poll.getUrl());
        poll = priorityScheduler.poll(task);
        Assert.assertEquals("c",poll.getUrl());
        poll = priorityScheduler.poll(task);
        Assert.assertEquals("d",poll.getUrl());
    }

    @Test
    public void testNoPriority() {
        Request request = new Request("a");
        priorityScheduler.push(request,task);

        request = new Request("b");
        priorityScheduler.push(request,task);

        request = new Request("c");
        priorityScheduler.push(request,task);

        Request poll = priorityScheduler.poll(task);
        Assert.assertEquals("a",poll.getUrl());

        poll = priorityScheduler.poll(task);
        Assert.assertEquals("b",poll.getUrl());

        poll = priorityScheduler.poll(task);
        Assert.assertEquals("c",poll.getUrl());
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/AndSelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import static org.junit.Assert.assertEquals;

import java.util.ArrayList;
import java.util.List;

import org.junit.Test;

public class AndSelectorTest {

    @Test
    public void testSelectList() {
        String htmlContent = "<!DOCTYPE html>\n" +
                "<html lang=\"en\">\n" +
                "<head>\n" +
                "    <meta charset=\"UTF-8\">\n" +
                "    <meta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">\n" +
                "    <title>HTML with XPath</title>\n" +
                "</head>\n" +
                "<body>\n" +
                "    <div class=\"container\">\n" +
                "        <div class=\"item1\">Item 1</div>\n" +
                "        <div class=\"item2\">Item 2</div>\n" +
                "    </div>\n" +
                "</body>\n" +
                "</html>";
        List<Selector> selectors = new ArrayList<Selector>();
        selectors.add(new CssSelector("div"));
        selectors.add(new XpathSelector("//div[@class='item1']"));
        AndSelector andSelector = new AndSelector(selectors);
        List<String> result = andSelector.selectList(htmlContent);
        assertEquals("<div class=\"item1\">\n Item 1\n</div>", result.get(0));
    }

    @Test
    public void testSelectList_NoResults() {
        String htmlContent = "<!DOCTYPE html>\n" +
                "<html lang=\"en\">\n" +
                "<head>\n" +
                "    <meta charset=\"UTF-8\">\n" +
                "    <meta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">\n" +
                "    <title>HTML with XPath</title>\n" +
                "</head>\n" +
                "<body>\n" +
                "    <div class=\"container\">\n" +
                "        <div class=\"item1\">Item 1</div>\n" +
                "        <div class=\"item2\">Item 2</div>\n" +
                "    </div>\n" +
                "</body>\n" +
                "</html>";
        List<Selector> selectors = new ArrayList<Selector>();
        selectors.add(new CssSelector("div"));
        selectors.add(new XpathSelector("//div[@class='item']"));
        AndSelector andSelector = new AndSelector(selectors);
        List<String> result = andSelector.selectList(htmlContent);
        assertEquals(0, result.size());
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/CssSelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.Test;
import org.junit.runner.RunWith;
import org.mockito.Mock;
import org.mockito.Mockito;
import org.mockito.runners.MockitoJUnitRunner;

import java.util.List;
import static org.junit.Assert.*;

public class CssSelectorTest {

    @Test
    public void testSelectElement() {
        CssSelector cssSelector = new CssSelector("div");
        String htmlContent = "<html><head><title>Dummy Page</title></head><body><div id=\"dummyDiv\">Hello World!</div></body></html>";
        Document doc = Jsoup.parse(htmlContent);
        Element dummyElement = doc.getElementById("dummyDiv");
        Element resultElement = cssSelector.selectElement(dummyElement);
        assertNotNull(resultElement);
    }

    @Test
    public void testSelectList() {
        CssSelector cssSelector = new CssSelector("div");
        String htmlContent = "<html><head><title>Dummy Page</title></head><body><div id=\"dummyDiv\">Hello World!</div></body></html>";
        Document doc = Jsoup.parse(htmlContent);
        Element dummyElement = doc.getElementById("dummyDiv");
        List<String> result = cssSelector.selectList(dummyElement);
        assertEquals(1, result.size());
        assertEquals("[<div id=\"dummyDiv\">\n Hello World!\n</div>]", result.toString());
    }

}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/ExtractorsTest.java
================================================
package us.codecraft.webmagic.selector;

import org.junit.Test;

import static org.assertj.core.api.Assertions.assertThat;
import static us.codecraft.webmagic.selector.Selectors.*;

/**
 * @author code4crafter@gmail.com <br>
 */
public class ExtractorsTest {

    String html = "<div><h1>test<a href=\"xxx\">aabbcc</a></h1></div>";

    String html2 = "<title>aabbcc</title>";

    @Test
    public void testEach() {
        assertThat($("div h1 a").select(html)).isEqualTo("<a href=\"xxx\">aabbcc</a>");
        assertThat($("div h1 a", "href").select(html)).isEqualTo("xxx");
        assertThat($("div h1 a", "innerHtml").select(html)).isEqualTo("aabbcc");
        assertThat(xpath("//a/@href").select(html)).isEqualTo("xxx");
        assertThat(regex("a href=\"(.*)\"").select(html)).isEqualTo("xxx");
        assertThat(regex("(a href)=\"(.*)\"", 2).select(html)).isEqualTo("xxx");
    }

    @Test
    public void testCombo() {
        assertThat(and($("title"), regex("aa(bb)cc")).select(html2)).isEqualTo("bb");
        OrSelector or = or($("div h1 a", "innerHtml"), xpath("//title"));
        assertThat(or.select(html)).isEqualTo("aabbcc");
        assertThat(or.select(html2)).isEqualTo("<title>aabbcc</title>");
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/JsonPathSelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.junit.Test;

import java.util.List;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmai.com <br>
 */
public class JsonPathSelectorTest {

    private String text = "{ \"store\": {\n" +
            "    \"book\": [ \n" +
            "      { \"category\": \"reference\",\n" +
            "        \"author\": \"Nigel Rees\",\n" +
            "        \"title\": \"Sayings of the Century\",\n" +
            "        \"price\": 8.95\n" +
            "      },\n" +
            "      { \"category\": \"fiction\",\n" +
            "        \"author\": \"Evelyn Waugh\",\n" +
            "        \"title\": \"Sword of Honour\",\n" +
            "        \"price\": 12.99,\n" +
            "        \"isbn\": \"0-553-21311-3\"\n" +
            "      }\n" +
            "    ],\n" +
            "    \"bicycle\": {\n" +
            "      \"color\": \"red\",\n" +
            "      \"price\": 19.95\n" +
            "    }\n" +
            "  }\n" +
            "}";

    @Test
    public void testJsonPath() {
        JsonPathSelector jsonPathSelector = new JsonPathSelector("$.store.book[*].author");
        String select = jsonPathSelector.select(text);
        List<String> list = jsonPathSelector.selectList(text);
        assertThat(select).isEqualTo("Nigel Rees");
        assertThat(list).contains("Nigel Rees","Evelyn Waugh");
        jsonPathSelector = new JsonPathSelector("$.store.book[?(@.category == 'reference')].title");
        list = jsonPathSelector.selectList(text);
        select = jsonPathSelector.select(text);
        assertThat(select).isEqualTo("Sayings of the Century");
        assertThat(list).contains("Sayings of the Century");
        jsonPathSelector = new JsonPathSelector("$.store.book[?(@.category == 'reference')]");
        select = jsonPathSelector.select(text);
        JSONObject object1= JSON.parseObject(select);
        JSONObject object2=JSON.parseObject("{\"author\":\"Nigel Rees\",\"title\":\"Sayings of the Century\",\"category\":\"reference\",\"price\":8.95}");
        assertThat(object1).isEqualTo(object2);
    }

}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/JsonTest.java
================================================
package us.codecraft.webmagic.selector;

import org.junit.Test;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmai.com
 * @since 0.5.0
 */
public class JsonTest {

    private String text = "callback({\"name\":\"json\"})";

    private String textWithBrackerInContent = "callback({\"name\":\"json)\"})";

    @Test
    public void testRemovePadding() throws Exception {
        String name = new Json(text).removePadding("callback").jsonPath("$.name").get();
        assertThat(name).isEqualTo("json");
    }

    @Test
    public void testRemovePaddingForQuotes() throws Exception {
        String name = new Json(textWithBrackerInContent).removePadding("callback").jsonPath("$.name").get();
        assertThat(name).isEqualTo("json)");
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/LinksSelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import org.jsoup.Jsoup;
import org.junit.Test;

import java.util.List;

/**
 * @author code4crafter@gmail.com
 *         Date: 17/4/8
 *         Time: 下午9:41
 */
public class LinksSelectorTest {

    private String html = "<div><a href='http://whatever.com/aaa'></a></div><div><a href='http://whatever.com/bbb'></a></div>";

    @Test
    public void testLinks() throws Exception {
        LinksSelector linksSelector = new LinksSelector();
        List<String> links = linksSelector.selectList(html);
        System.out.println(links);

        html = "<div><a href='aaa'></a></div><div><a href='http://whatever.com/bbb'></a></div><div><a href='http://other.com/bbb'></a></div>";
        links = linksSelector.selectList(Jsoup.parse(html, "http://whatever.com/"));
        System.out.println(links);
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/OrSelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import static org.junit.Assert.assertEquals;

import java.util.ArrayList;
import java.util.List;

import org.junit.Test;

public class OrSelectorTest {
    @Test
    public void testSelectList() {
        String htmlContent = "<!DOCTYPE html>\n" +
                "<html lang=\"en\">\n" +
                "<head>\n" +
                "    <meta charset=\"UTF-8\">\n" +
                "    <meta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">\n" +
                "    <title>HTML with XPath</title>\n" +
                "</head>\n" +
                "<body>\n" +
                "    <div class=\"container\">\n" +
                "        <div class=\"item1\">Item 1</div>\n" +
                "        <div class=\"item2\">Item 2</div>\n" +
                "    </div>\n" +
                "</body>\n" +
                "</html>";
        String expectedResult = "[<head>\n" +
                " <meta charset=\"UTF-8\">\n" +
                " <meta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">\n" +
                " <title>HTML with XPath</title>\n" +
                "</head>, <div class=\"item1\">\n" +
                " Item 1\n" +
                "</div>, <div class=\"item2\">\n" +
                " Item 2\n" +
                "</div>]";
        List<Selector> selectors = new ArrayList<Selector>();
        selectors.add(new CssSelector("head"));
        selectors.add(new XpathSelector("//div[@class='item1']"));
        selectors.add(new XpathSelector("//div[@class='item2']"));
        OrSelector orSelector = new OrSelector(selectors);
        List<String> result = orSelector.selectList(htmlContent);
        assertEquals(expectedResult, result.toString());
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/RegexSelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import org.assertj.core.api.Assertions;
import org.junit.Test;

/**
 * @author code4crafter@gmail.com <br>
 */
public class RegexSelectorTest {

    @Test(expected = IllegalArgumentException.class)
    public void testRegexWithSingleLeftBracket() {
        String regex = "\\d+(";
        new RegexSelector(regex);
    }

    @Test
    public void testRegexWithLeftBracketQuoted() {
        String regex = "\\(.+";
        String source = "(hello world";
        RegexSelector regexSelector = new RegexSelector(regex);
        String select = regexSelector.select(source);
        Assertions.assertThat(select).isEqualTo(source);
    }

    @Test
    public void testRegexWithZeroWidthAssertions() {
        String regex = "^.*(?=\\?)(?!\\?yy)";
        String source = "hello world?xx?yy";
        RegexSelector regexSelector = new RegexSelector(regex);
        String select = regexSelector.select(source);
        Assertions.assertThat(select).isEqualTo("hello world");


        regex = "\\d{3}(?!\\d)";
        source = "123456asdf";
        regexSelector = new RegexSelector(regex);
        select = regexSelector.select(source);
        Assertions.assertThat(select).isEqualTo("456");
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/selector/SelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import org.junit.Test;

import java.util.List;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 */
public class SelectorTest {

    private String html = "<div><a href='http://whatever.com/aaa'></a></div><div><a href='http://whatever.com/bbb'></a></div>";

    @Test
    public void testChain() throws Exception {
        Html selectable = new Html(html);
        List<String> linksWithoutChain = selectable.links().all();
        Selectable xpath = selectable.xpath("//div");
        List<String> linksWithChainFirstCall = xpath.links().all();
        List<String> linksWithChainSecondCall = xpath.links().all();
        assertThat(linksWithoutChain).hasSameSizeAs(linksWithChainFirstCall);
        assertThat(linksWithChainFirstCall).hasSameSizeAs(linksWithChainSecondCall);
    }

    @Test
    public void testNodes() throws Exception {
        Html selectable = new Html(html);
        List<Selectable> links = selectable.xpath("//a").nodes();
        assertThat(links.get(0).links().get()).isEqualTo("http://whatever.com/aaa");
    }
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/utils/CharsetUtilsTest.java
================================================
package us.codecraft.webmagic.utils;

import static org.junit.jupiter.api.Assertions.assertNull;

import java.io.IOException;

import org.junit.jupiter.api.Test;

class CharsetUtilsTest {

    @Test
    void testDetectCharset() throws IOException {
        assertNull(CharsetUtils.detectCharset(null, new byte[0]));
    }

}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/utils/NumberUtilsTest.java
================================================
package us.codecraft.webmagic.utils;

import org.junit.Assert;
import org.junit.Test;

public class NumberUtilsTest {

	@Test
	public void testCompareLong() {
		Assert.assertEquals(0, NumberUtils.compareLong(0L, 0L));
		Assert.assertEquals(1, NumberUtils.compareLong(9L, 0L));
		Assert.assertEquals(-1, NumberUtils.compareLong(0L, 9L));
		Assert.assertEquals(-1, NumberUtils.compareLong(-9L, 0L));
		Assert.assertEquals(1, NumberUtils.compareLong(0L, -9L));
	}
}


================================================
FILE: webmagic-core/src/test/java/us/codecraft/webmagic/utils/UrlUtilsTest.java
================================================
package us.codecraft.webmagic.utils;

import static org.junit.Assert.assertNull;

import org.junit.Assert;
import org.junit.Test;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-4-21
 * Time: 下午2:22
 */
public class UrlUtilsTest {

    @Test
    public void testFixRelativeUrl() {
        String absoluteUrl = UrlUtils.canonicalizeUrl("aa", "http://www.dianping.com/sh/ss/com");
        assertThat(absoluteUrl).isEqualTo("http://www.dianping.com/sh/ss/aa");

        absoluteUrl = UrlUtils.canonicalizeUrl("../aa", "http://www.dianping.com/sh/ss/com");
        assertThat(absoluteUrl).isEqualTo("http://www.dianping.com/sh/aa");

        absoluteUrl = UrlUtils.canonicalizeUrl("../mshz", "http://www.court.gov.cn/zgcpwsw/zgrmfy/");
        assertThat(absoluteUrl).isEqualTo("http://www.court.gov.cn/zgcpwsw/mshz");

        absoluteUrl = UrlUtils.canonicalizeUrl("..aa", "http://www.dianping.com/sh/ss/com");
        assertThat(absoluteUrl).isEqualTo("http://www.dianping.com/sh/ss/..aa");

        absoluteUrl = UrlUtils.canonicalizeUrl("../../aa", "http://www.dianping.com/sh/ss/com/");
        assertThat(absoluteUrl).isEqualTo("http://www.dianping.com/sh/aa");

        absoluteUrl = UrlUtils.canonicalizeUrl("../../aa", "http://www.dianping.com/sh/ss/com");
        assertThat(absoluteUrl).isEqualTo("http://www.dianping.com/aa");
    }

    @Test
    public void testGetDomain(){
        String url = "http://www.dianping.com/aa/";
        Assert.assertEquals("www.dianping.com",UrlUtils.getDomain(url));
        url = "www.dianping.com/aa/";
        Assert.assertEquals("www.dianping.com",UrlUtils.getDomain(url));
        url = "http://www.dianping.com";
        Assert.assertEquals("www.dianping.com",UrlUtils.getDomain(url));
    }

    @Test
    public void testGetCharset() {
        assertNull(UrlUtils.getCharset(null));
    }

}


================================================
FILE: webmagic-core/src/test/resources/html/mock-github.html
================================================


<!DOCTYPE html>
<html lang="en" class=" is-u2f-enabled">
<head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# object: http://ogp.me/ns/object# article: http://ogp.me/ns/article# profile: http://ogp.me/ns/profile#">
    <meta charset='utf-8'>
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta http-equiv="Content-Language" content="en">
    <meta name="viewport" content="width=1020">


    <title>code4craft/webmagic</title>
    <link rel="search" type="application/opensearchdescription+xml" href="/opensearch.xml" title="GitHub">
    <link rel="fluid-icon" href="https://github.com/fluidicon.png" title="GitHub">
    <link rel="apple-touch-icon" sizes="57x57" href="/apple-touch-icon-114.png">
    <link rel="apple-touch-icon" sizes="114x114" href="/apple-touch-icon-114.png">
    <link rel="apple-touch-icon" sizes="72x72" href="/apple-touch-icon-144.png">
    <link rel="apple-touch-icon" sizes="144x144" href="/apple-touch-icon-144.png">
    <meta property="fb:app_id" content="1401488693436528">

    <meta content="@github" name="twitter:site" /><meta content="summary" name="twitter:card" /><meta content="code4craft/webmagic" name="twitter:title" /><meta content="webmagic - A scalable web crawler framework." name="twitter:description" /><meta content="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=400" name="twitter:image:src" />
    <meta content="GitHub" property="og:site_name" /><meta content="object" property="og:type" /><meta content="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=400" property="og:image" /><meta content="code4craft/webmagic" property="og:title" /><meta content="https://github.com/code4craft/webmagic" property="og:url" /><meta content="webmagic - A scalable web crawler framework." property="og:description" />
    <meta name="browser-stats-url" content="https://api.github.com/_private/browser/stats">
    <meta name="browser-errors-url" content="https://api.github.com/_private/browser/errors">
    <link rel="assets" href="https://assets-cdn.github.com/">
    <link rel="web-socket" href="wss://live.github.com/_sockets/MTM1MTg4NDo3YWI4NmUwOGM3MzhlMjU5MzVhZGNiNmFmOWUxNjExNTpjNWZlMzRmNzk5NjE4NGMxNDQwZDMzY2Q5ZWE3NGRmMmZkZWMwYTg2NTRkOTA2YTU2Mjk5NDYxYTk1ZjljNDJj--22ca52337ffde7621f032b082bfd863eeade6f9c">
    <meta name="pjax-timeout" content="1000">
    <link rel="sudo-modal" href="/sessions/sudo_modal">

    <meta name="msapplication-TileImage" content="/windows-tile.png">
    <meta name="msapplication-TileColor" content="#ffffff">
    <meta name="selected-link" value="repo_source" data-pjax-transient>

    <meta name="google-site-verification" content="KT5gs8h0wvaagLKAVWq8bbeNwnZZK1r1XQysX3xurLU">
    <meta name="google-analytics" content="UA-3769691-2">

    <meta content="collector.githubapp.com" name="octolytics-host" /><meta content="github" name="octolytics-app-id" /><meta content="6AB91C29:10EF:6D4972F:569D042D" name="octolytics-dimension-request_id" /><meta content="1351884" name="octolytics-actor-id" /><meta content="code4craft" name="octolytics-actor-login" /><meta content="b87866a7952857ad32eeb0a33a8d3f9743660184e01113bc601ed02f292f8597" name="octolytics-actor-hash" />
    <meta content="/&lt;user-name&gt;/&lt;repo-name&gt;" data-pjax-transient="true" name="analytics-location" />
    <meta content="Rails, view, files#disambiguate" data-pjax-transient="true" name="analytics-event" />


    <meta class="js-ga-set" name="dimension1" content="Logged In">


    <meta name="hostname" content="github.com">
    <meta name="user-login" content="code4craft">

    <meta name="expected-hostname" content="github.com">

    <link rel="mask-icon" href="https://assets-cdn.github.com/pinned-octocat.svg" color="#4078c0">
    <link rel="icon" type="image/x-icon" href="https://assets-cdn.github.com/favicon.ico">

    <meta content="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" name="form-nonce" />

    <link crossorigin="anonymous" href="https://assets-cdn.github.com/assets/github-1b53a0bcb9add868a6c5ae469ecabb8b236ffa8f2b05360fde027f75eb714f1b.css" media="all" rel="stylesheet" />
    <link crossorigin="anonymous" href="https://assets-cdn.github.com/assets/github2-70af51f1bed4904749e6ef486ad11871c8ce4361ac82bb5f96a090b7f5346580.css" media="all" rel="stylesheet" />


    <meta http-equiv="x-pjax-version" content="4222bfcb881548243f94e18e8a3bcfd0">


    <meta name="description" content="webmagic - A scalable web crawler framework.">
    <meta name="go-import" content="github.com/code4craft/webmagic git https://github.com/code4craft/webmagic.git">

    <meta content="1351884" name="octolytics-dimension-user_id" /><meta content="code4craft" name="octolytics-dimension-user_login" /><meta content="9623064" name="octolytics-dimension-repository_id" /><meta content="code4craft/webmagic" name="octolytics-dimension-repository_nwo" /><meta content="true" name="octolytics-dimension-repository_public" /><meta content="false" name="octolytics-dimension-repository_is_fork" /><meta content="9623064" name="octolytics-dimension-repository_network_root_id" /><meta content="code4craft/webmagic" name="octolytics-dimension-repository_network_root_nwo" />
    <link href="https://github.com/code4craft/webmagic/commits/master.atom" rel="alternate" title="Recent Commits to webmagic:master" type="application/atom+xml">

</head>


<body class="logged_in   env-production macintosh vis-public">
<a href="#start-of-content" tabindex="1" class="accessibility-aid js-skip-to-content">Skip to content</a>


<div class="header header-logged-in true" role="banner">
    <div class="container clearfix">

        <a class="header-logo-invertocat" href="https://github.com/" data-hotkey="g d" aria-label="Homepage" data-ga-click="Header, go to dashboard, icon:logo">
            <span aria-hidden="true" class="mega-octicon octicon-mark-github"></span>
        </a>


        <div class="site-search repo-scope js-site-search" role="search">
            <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/search" class="js-site-search-form" data-global-search-url="/search" data-repo-search-url="/code4craft/webmagic/search" method="get"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /></div>
            <label class="js-chromeless-input-container form-control">
                <div class="scope-badge">This repository</div>
                <input type="text"
                       class="js-site-search-focus js-site-search-field is-clearable chromeless-input"
                       data-hotkey="s"
                       name="q"
                       placeholder="Search"
                       aria-label="Search this repository"
                       data-global-scope-placeholder="Search GitHub"
                       data-repo-scope-placeholder="Search"
                       tabindex="1"
                       autocapitalize="off">
            </label>
        </form>
        </div>

        <ul class="header-nav left" role="navigation">
            <li class="header-nav-item">
                <a href="/pulls" class="js-selected-navigation-item header-nav-link" data-ga-click="Header, click, Nav menu - item:pulls context:user" data-hotkey="g p" data-selected-links="/pulls /pulls/assigned /pulls/mentioned /pulls">
                    Pull requests
                </a>        </li>
            <li class="header-nav-item">
                <a href="/issues" class="js-selected-navigation-item header-nav-link" data-ga-click="Header, click, Nav menu - item:issues context:user" data-hotkey="g i" data-selected-links="/issues /issues/assigned /issues/mentioned /issues">
                    Issues
                </a>        </li>
            <li class="header-nav-item">
                <a class="header-nav-link" href="https://gist.github.com/" data-ga-click="Header, go to gist, text:gist">Gist</a>
            </li>
        </ul>


        <ul class="header-nav user-nav right" id="user-links">
            <li class="header-nav-item">
      <span class="js-socket-channel js-updatable-content"
            data-channel="notification-changed:code4craft"
            data-url="/notifications/header">
      <a href="/notifications" aria-label="You have no unread notifications" class="header-nav-link notification-indicator tooltipped tooltipped-s" data-ga-click="Header, go to notifications, icon:read" data-hotkey="g n">
          <span class="mail-status all-read"></span>
          <span aria-hidden="true" class="octicon octicon-bell"></span>
      </a>  </span>

            </li>

            <li class="header-nav-item dropdown js-menu-container">
                <a class="header-nav-link tooltipped tooltipped-s js-menu-target" href="/new"
                   aria-label="Create new…"
                   data-ga-click="Header, create new, icon:add">
                    <span aria-hidden="true" class="octicon octicon-plus left"></span>
                    <span class="dropdown-caret"></span>
                </a>

                <div class="dropdown-menu-content js-menu-content">
                    <ul class="dropdown-menu dropdown-menu-sw">

                        <a class="dropdown-item" href="/new" data-ga-click="Header, create new repository">
                            New repository
                        </a>


                        <a class="dropdown-item" href="/organizations/new" data-ga-click="Header, create new organization">
                            New organization
                        </a>


                        <div class="dropdown-divider"></div>
                        <div class="dropdown-header">
                            <span title="code4craft/webmagic">This repository</span>
                        </div>
                        <a class="dropdown-item" href="/code4craft/webmagic/issues/new" data-ga-click="Header, create new issue">
                            New issue
                        </a>
                        <a class="dropdown-item" href="/code4craft/webmagic/settings/collaboration" data-ga-click="Header, create new collaborator">
                            New collaborator
                        </a>

                    </ul>
                </div>
            </li>

            <li class="header-nav-item dropdown js-menu-container">
                <a class="header-nav-link name tooltipped tooltipped-sw js-menu-target" href="/code4craft"
                   aria-label="View profile and more"
                   data-ga-click="Header, show menu, icon:avatar">
                    <img alt="@code4craft" class="avatar" height="20" src="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=40" width="20" />
                    <span class="dropdown-caret"></span>
                </a>

                <div class="dropdown-menu-content js-menu-content">
                    <div class="dropdown-menu  dropdown-menu-sw">
                        <div class=" dropdown-header header-nav-current-user css-truncate">
                            Signed in as <strong class="css-truncate-target">code4craft</strong>

                        </div>


                        <div class="dropdown-divider"></div>

                        <a class="dropdown-item" href="/code4craft" data-ga-click="Header, go to profile, text:your profile">
                            Your profile
                        </a>
                        <a class="dropdown-item" href="/stars" data-ga-click="Header, go to starred repos, text:your stars">
                            Your stars
                        </a>
                        <a class="dropdown-item" href="/explore" data-ga-click="Header, go to explore, text:explore">
                            Explore
                        </a>
                        <a class="dropdown-item" href="/integrations" data-ga-click="Header, go to integrations, text:integrations">
                            Integrations
                        </a>
                        <a class="dropdown-item" href="https://help.github.com" data-ga-click="Header, go to help, text:help">
                            Help
                        </a>

                        <div class="dropdown-divider"></div>

                        <a class="dropdown-item" href="/settings/profile" data-ga-click="Header, go to settings, icon:settings">
                            Settings
                        </a>

                        <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/logout" class="logout-form" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="ZINKeCzFexhof31oC9cCA+iEXymQ95S66nGpEO1oOhr5jI03Z1aD4k6dtjVPp11IJlwY9sSGIpgQt/SthVhr5Q==" /></div>
                        <button class="dropdown-item dropdown-signout" data-ga-click="Header, sign out, icon:logout">
                            Sign out
                        </button>
                    </form>
                    </div>
                </div>
            </li>
        </ul>


    </div>
</div>


<div id="start-of-content" class="accessibility-aid"></div>

<div id="js-flash-container">
</div>


<div role="main" class="main-content">
    <div itemscope itemtype="http://schema.org/WebPage">
        <div id="js-repo-pjax-container" class="context-loader-container js-repo-nav-next" data-pjax-container>

            <div class="pagehead repohead instapaper_ignore readability-menu experiment-repo-nav">
                <div class="container repohead-details-container">


                    <ul class="pagehead-actions">

                        <li>
                            <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/notifications/subscribe" class="js-social-container" data-autosubmit="true" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="A8U/nsuWmrNcDVP1LvjcaT2gKFrPqnmC5eOwH18NcsePFGlsinj0uaf9yaNxnk741gXv+8QIVEYn0veSA3qRUQ==" /></div>      <input id="repository_id" name="repository_id" type="hidden" value="9623064" />

                            <div class="select-menu js-menu-container js-select-menu">
                                <a href="/code4craft/webmagic/subscription"
                                   class="btn btn-sm btn-with-count select-menu-button js-menu-target" role="button" tabindex="0" aria-haspopup="true"
                                   data-ga-click="Repository, click Watch settings, action:files#disambiguate">
            <span class="js-select-button">
              <span aria-hidden="true" class="octicon octicon-eye"></span>
              Unwatch
            </span>
                                </a>
                                <a class="social-count js-social-count" href="/code4craft/webmagic/watchers">
                                    367
                                </a>

                                <div class="select-menu-modal-holder">
                                    <div class="select-menu-modal subscription-menu-modal js-menu-content" aria-hidden="true">
                                        <div class="select-menu-header">
                                            <span aria-label="Close" class="octicon octicon-x js-menu-close" role="button"></span>
                                            <span class="select-menu-title">Notifications</span>
                                        </div>

                                        <div class="select-menu-list js-navigation-container" role="menu">

                                            <div class="select-menu-item js-navigation-item " role="menuitem" tabindex="0">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                <div class="select-menu-item-text">
                                                    <input id="do_included" name="do" type="radio" value="included" />
                                                    <span class="select-menu-item-heading">Not watching</span>
                                                    <span class="description">Be notified when participating or @mentioned.</span>
                    <span class="js-select-button-text hidden-select-button-text">
                      <span aria-hidden="true" class="octicon octicon-eye"></span>
                      Watch
                    </span>
                                                </div>
                                            </div>

                                            <div class="select-menu-item js-navigation-item selected" role="menuitem" tabindex="0">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                <div class="select-menu-item-text">
                                                    <input checked="checked" id="do_subscribed" name="do" type="radio" value="subscribed" />
                                                    <span class="select-menu-item-heading">Watching</span>
                                                    <span class="description">Be notified of all conversations.</span>
                    <span class="js-select-button-text hidden-select-button-text">
                      <span aria-hidden="true" class="octicon octicon-eye"></span>
                      Unwatch
                    </span>
                                                </div>
                                            </div>

                                            <div class="select-menu-item js-navigation-item " role="menuitem" tabindex="0">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                <div class="select-menu-item-text">
                                                    <input id="do_ignore" name="do" type="radio" value="ignore" />
                                                    <span class="select-menu-item-heading">Ignoring</span>
                                                    <span class="description">Never be notified.</span>
                    <span class="js-select-button-text hidden-select-button-text">
                      <span aria-hidden="true" class="octicon octicon-mute"></span>
                      Stop ignoring
                    </span>
                                                </div>
                                            </div>

                                        </div>

                                    </div>
                                </div>
                            </div>
                        </form>
                        </li>

                        <li>

                            <div class="js-toggler-container js-social-container starring-container ">

                                <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/unstar" class="js-toggler-form starred js-unstar-button" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="mGh0BvguuVTHUZ1Lnf51zYVJ7dGdABVF+Bavja/Jqy7OjG/oveUKfauEqgIowVAM3UFe636pTW6E8jHFtSR0Aw==" /></div>
                                <button
                                        class="btn btn-sm btn-with-count js-toggler-target"
                                        aria-label="Unstar this repository" title="Unstar code4craft/webmagic"
                                        data-ga-click="Repository, click unstar button, action:files#disambiguate; text:Unstar">
                                    <span aria-hidden="true" class="octicon octicon-star"></span>
                                    Unstar
                                </button>
                                <a class="social-count js-social-count" href="/code4craft/webmagic/stargazers">
                                    1,743
                                </a>
                            </form>
                                <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/star" class="js-toggler-form unstarred js-star-button" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="nQnqpsGUUYVDCSka1tYn2QpcwUBYoqFTCehYIBwHWhcW9+tWTg+gBXa/spd+Hhfe2xNjXBfz7iTXZpHy4+ksEg==" /></div>
                                <button
                                        class="btn btn-sm btn-with-count js-toggler-target"
                                        aria-label="Star this repository" title="Star code4craft/webmagic"
                                        data-ga-click="Repository, click star button, action:files#disambiguate; text:Star">
                                    <span aria-hidden="true" class="octicon octicon-star"></span>
                                    Star
                                </button>
                                <a class="social-count js-social-count" href="/code4craft/webmagic/stargazers">
                                    1,743
                                </a>
                            </form>  </div>

                        </li>

                        <li>
                            <a href="#fork-destination-box" class="btn btn-sm btn-with-count"
                               title="Fork your own copy of code4craft/webmagic to your account"
                               aria-label="Fork your own copy of code4craft/webmagic to your account"
                               rel="facebox"
                               data-ga-click="Repository, show fork modal, action:files#disambiguate; text:Fork">
                                <span aria-hidden="true" class="octicon octicon-repo-forked"></span>
                                Fork
                            </a>

                            <div id="fork-destination-box" style="display: none;">
                                <h2 class="facebox-header" data-facebox-id="facebox-header">Where should we fork this repository?</h2>
                                <include-fragment src=""
                                                  class="js-fork-select-fragment fork-select-fragment"
                                                  data-url="/code4craft/webmagic/fork?fragment=1">
                                    <img alt="Loading" height="64" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-128.gif" width="64" />
                                </include-fragment>
                            </div>

                            <a href="/code4craft/webmagic/network" class="social-count">
                                1,128
                            </a>
                        </li>
                    </ul>

                    <h1 itemscope itemtype="http://data-vocabulary.org/Breadcrumb" class="entry-title public ">
                        <span aria-hidden="true" class="octicon octicon-repo"></span>
                        <span class="author"><a href="/code4craft" class="url fn" itemprop="url" rel="author"><span itemprop="title">code4craft</span></a></span><!--
--><span class="path-divider">/</span><!--
--><strong><a href="/code4craft/webmagic" data-pjax="#js-repo-pjax-container">webmagic</a></strong>

  <span class="page-context-loader">
    <img alt="" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
  </span>

                    </h1>

                </div>
                <div class="container">

                    <nav class="reponav js-repo-nav js-sidenav-container-pjax js-octicon-loaders"
                         role="navigation"
                         data-pjax="#js-repo-pjax-container">

                        <a href="/code4craft/webmagic" aria-label="Code" aria-selected="true" class="js-selected-navigation-item selected reponav-item" data-hotkey="g c" data-selected-links="repo_source repo_downloads repo_commits repo_releases repo_tags repo_branches /code4craft/webmagic">
                            <span aria-hidden="true" class="octicon octicon-code"></span>
                            Code
                        </a>
                        <a href="/code4craft/webmagic/issues" class="js-selected-navigation-item reponav-item" data-hotkey="g i" data-selected-links="repo_issues repo_labels repo_milestones /code4craft/webmagic/issues">
                            <span aria-hidden="true" class="octicon octicon-issue-opened"></span>
                            Issues
                            <span class="counter">67</span>
                        </a>
                        <a href="/code4craft/webmagic/pulls" class="js-selected-navigation-item reponav-item" data-hotkey="g p" data-selected-links="repo_pulls /code4craft/webmagic/pulls">
                            <span aria-hidden="true" class="octicon octicon-git-pull-request"></span>
                            Pull requests
                            <span class="counter">14</span>
                        </a>
                        <a href="/code4craft/webmagic/wiki" class="js-selected-navigation-item reponav-item" data-hotkey="g w" data-selected-links="repo_wiki /code4craft/webmagic/wiki">
                            <span aria-hidden="true" class="octicon octicon-book"></span>
                            Wiki
                        </a>
                        <a href="/code4craft/webmagic/pulse" class="js-selected-navigation-item reponav-item" data-selected-links="pulse /code4craft/webmagic/pulse">
                            <span aria-hidden="true" class="octicon octicon-pulse"></span>
                            Pulse
                        </a>
                        <a href="/code4craft/webmagic/graphs" class="js-selected-navigation-item reponav-item" data-selected-links="repo_graphs repo_contributors /code4craft/webmagic/graphs">
                            <span aria-hidden="true" class="octicon octicon-graph"></span>
                            Graphs
                        </a>
                        <a href="/code4craft/webmagic/settings" class="js-selected-navigation-item reponav-item" data-selected-links="repo_settings repo_branch_settings hooks /code4craft/webmagic/settings">
                            <span aria-hidden="true" class="octicon octicon-gear"></span>
                            Settings
                        </a>
                    </nav>

                </div>
            </div>

            <div class="container new-discussion-timeline experiment-repo-nav">
                <div class="repository-content">


                    <div class="repository-meta js-details-container">
  <span class="repository-meta-content">
        A scalable web crawler framework.
        <a href="http://webmagic.io/" rel="nofollow">http://webmagic.io/</a>
  </span>

                        <span class="edit-link js-details-target">— <a href="#" class="muted-link">Edit</a></span>
                        <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/settings/update_meta" class="edit-repository-meta" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="_method" type="hidden" value="put" /><input name="authenticity_token" type="hidden" value="7xX6fGJkjyARqJhxbtYg5AK+hzEpZLP8qatQsSBLDA39GuvJkVwzO80SeWX37wxYpvr1bIudI8ojlj1p5I1zvw==" /></div>

                        <div class="field">
                            <label for="repo_description">Description</label>
                            <input type="text" id="repo_description" class="input-contrast repo-description-field" name="repo_description" value="A scalable web crawler framework." placeholder="Short description of this repository">
                        </div>

                        <div class="field" >
                            <label for="repo_homepage">Website</label>
                            <input type="url" id="repo_homepage" class="input-contrast repo-website-field" name="repo_homepage" value="http://webmagic.io/" placeholder="Website for this repository (optional)">
                        </div>

                        <button class="btn">Save</button>
                        or <a href="#" class="js-details-target">Cancel</a>
                    </form></div>


                    <div class="overall-summary overall-summary-bottomless">

                        <div class="stats-switcher-viewport js-stats-switcher-viewport">
                            <div class="stats-switcher-wrapper">
                                <ul class="numbers-summary">
                                    <li class="commits">
                                        <a data-pjax href="/code4craft/webmagic/commits/master">
                                            <span aria-hidden="true" class="octicon octicon-history"></span>
            <span class="num text-emphasized">
              698
            </span>
                                            commits
                                        </a>
                                    </li>
                                    <li>
                                        <a data-pjax href="/code4craft/webmagic/branches">
                                            <span aria-hidden="true" class="octicon octicon-git-branch"></span>
          <span class="num text-emphasized">
            6
          </span>
                                            branches
                                        </a>
                                    </li>

                                    <li>
                                        <a data-pjax href="/code4craft/webmagic/releases">
                                            <span aria-hidden="true" class="octicon octicon-tag"></span>
          <span class="num text-emphasized">
            13
          </span>
                                            releases
                                        </a>
                                    </li>

                                    <li>

                                        <a href="/code4craft/webmagic/graphs/contributors">
                                            <span aria-hidden="true" class="octicon octicon-organization"></span>
    <span class="num text-emphasized">
      23
    </span>
                                            contributors
                                        </a>
                                    </li>
                                </ul>

                                <div class="repository-lang-stats">
                                    <ol class="repository-lang-stats-numbers">
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=java">
                                                <span class="color-block language-color" style="background-color:#b07219;"></span>
                                                <span class="lang">Java</span>
                                                <span class="percent">72.2%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=css">
                                                <span class="color-block language-color" style="background-color:#563d7c;"></span>
                                                <span class="lang">CSS</span>
                                                <span class="percent">11.6%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=javascript">
                                                <span class="color-block language-color" style="background-color:#f1e05a;"></span>
                                                <span class="lang">JavaScript</span>
                                                <span class="percent">8.5%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=freemarker">
                                                <span class="color-block language-color" style="background-color:#0050b2;"></span>
                                                <span class="lang">FreeMarker</span>
                                                <span class="percent">7.4%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=html">
                                                <span class="color-block language-color" style="background-color:#e44b23;"></span>
                                                <span class="lang">HTML</span>
                                                <span class="percent">0.2%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=ruby">
                                                <span class="color-block language-color" style="background-color:#701516;"></span>
                                                <span class="lang">Ruby</span>
                                                <span class="percent">0.1%</span>
                                            </a>
                                        </li>
                                    </ol>
                                </div>
                            </div>
                        </div>

                    </div>

                    <div class="repository-lang-stats-graph js-toggle-lang-stats" title="Click for language details">
                        <span class="language-color" aria-label="Java 72.2%" style="width:72.2%; background-color:#b07219;" itemprop="keywords">Java</span>
                        <span class="language-color" aria-label="CSS 11.6%" style="width:11.6%; background-color:#563d7c;" itemprop="keywords">CSS</span>
                        <span class="language-color" aria-label="JavaScript 8.5%" style="width:8.5%; background-color:#f1e05a;" itemprop="keywords">JavaScript</span>
                        <span class="language-color" aria-label="FreeMarker 7.4%" style="width:7.4%; background-color:#0050b2;" itemprop="keywords">FreeMarker</span>
                        <span class="language-color" aria-label="HTML 0.2%" style="width:0.2%; background-color:#e44b23;" itemprop="keywords">HTML</span>
                        <span class="language-color" aria-label="Ruby 0.1%" style="width:0.1%; background-color:#701516;" itemprop="keywords">Ruby</span>
                    </div>

                    <include-fragment src="/code4craft/webmagic/show_partial?partial=tree%2Frecently_touched_branches_list"></include-fragment>

                    <div class="file-navigation in-mid-page file-navigation-new">
                        <div class="right">
                            <div class="btn-group">

                                <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/new/master" class="button_to js-new-blob-form" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="XOKyr9wZjCR+NGJTatrBJTz6EfVIx0qK42atG8cU8mGVCvihIi+04Zb0Y916iB+cmvs9fIDiC+Gg45gG6Y1inw==" /></div>
                                <button class="btn btn-sm tooltipped tooltipped-n js-new-blob-submit" type="submit"
                                        data-disable-with="working…" aria-label="Create a new file here">
                                    New file
                                </button>
                            </form>


                                <a href="/code4craft/webmagic/find/master"
                                   class="btn btn-sm empty-icon right js-show-file-finder"
                                   data-pjax
                                   data-hotkey="t"
                                   data-ga-click="Repository, find file, location:repo overview">
                                    Find file
                                </a>
                            </div>
                            <div class="file-navigation-options" data-multiple>

                                <div class="file-navigation-option">
                                    <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/users/set_protocol" class="js-set-user-protocol-preference" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="Sx794jiPAE0pdEIUNJhp4AUyhkPwdamIAAKBQQGDtNe+0e8whjFgMrGl63/fDAEmggpzui33hAJ0GQ0EEYf/Rw==" /></div>
                                    <input type="hidden" name="protocol_type" value="push">

                                    <div class="select-menu js-menu-container js-select-menu">
                                        <div class="input-group js-select-button js-zeroclipboard-container">
                                            <div class="input-group-button">
                                                <button type="button" class="btn btn-sm select-menu-button js-menu-target" data-ga-click="Repository, clone SSH, location:repo overview">
                                                    SSH
                                                </button>
                                            </div>
                                            <input type="text" class="input-monospace input-mini js-zeroclipboard-target js-url-field" value="git@github.com:code4craft/webmagic.git" readonly>
                                            <div class="input-group-button">
                                                <button aria-label="Copy to clipboard" class="js-zeroclipboard btn btn-sm zeroclipboard-button tooltipped tooltipped-s" data-copied-hint="Copied!" type="button"><span aria-hidden="true" class="octicon octicon-clippy"></span></button>
                                            </div>

                                        </div>

                                        <div class="select-menu-modal-holder">
                                            <div class="select-menu-modal js-menu-content" aria-hidden="true">
                                                <div class="select-menu-header">
                                                    <span aria-label="Close" class="octicon octicon-x js-menu-close" role="button"></span>
                                                    <span class="select-menu-title">Choose a clone URL</span>
                                                </div>

                                                <div class="select-menu-list js-navigation-container" role="menu">
                                                    <div class="select-menu-item js-navigation-item " role="menuitem" tabindex="0">
                                                        <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                        <div class="select-menu-item-text">
                                                            <input type="radio" name="protocol_selector" value="http" >
                          <span class="select-menu-item-heading">
                            HTTPS
                            (recommended)
                          </span>
                            <span class="description">
                              Clone with Git or checkout with SVN using the repository's web address.
                            </span>
                          <span class="js-select-button-text hidden-select-button-text">
                            <div class="input-group-button">
                                <button type="button" class="btn btn-sm select-menu-button js-menu-target" data-ga-click="Repository, clone HTTPS, location:repo overview">
                                    HTTPS
                                </button>
                            </div>
<input type="text" class="input-monospace input-mini js-zeroclipboard-target js-url-field" value="https://github.com/code4craft/webmagic.git" readonly>
<div class="input-group-button">
    <button aria-label="Copy to clipboard" class="js-zeroclipboard btn btn-sm zeroclipboard-button tooltipped tooltipped-s" data-copied-hint="Copied!" type="button"><span aria-hidden="true" class="octicon octicon-clippy"></span></button>
</div>

                          </span>
                                                        </div>
                                                    </div>
                                                    <div class="select-menu-item js-navigation-item selected" role="menuitem" tabindex="0">
                                                        <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                        <div class="select-menu-item-text">
                                                            <input type="radio" name="protocol_selector" value="ssh" checked>
                          <span class="select-menu-item-heading">
                            SSH

                          </span>
                            <span class="description">
                              Clone with an SSH key and passphrase from your GitHub settings.
                            </span>
                          <span class="js-select-button-text hidden-select-button-text">
                            <div class="input-group-button">
                                <button type="button" class="btn btn-sm select-menu-button js-menu-target" data-ga-click="Repository, clone SSH, location:repo overview">
                                    SSH
                                </button>
                            </div>
<input type="text" class="input-monospace input-mini js-zeroclipboard-target js-url-field" value="git@github.com:code4craft/webmagic.git" readonly>
<div class="input-group-button">
    <button aria-label="Copy to clipboard" class="js-zeroclipboard btn btn-sm zeroclipboard-button tooltipped tooltipped-s" data-copied-hint="Copied!" type="button"><span aria-hidden="true" class="octicon octicon-clippy"></span></button>
</div>

                          </span>
                                                        </div>
                                                    </div>
                                                </div>
                                                <div class="select-menu-list" role="menu">
                                                    <a class="select-menu-item select-menu-action" href="https://help.github.com/articles/which-remote-url-should-i-use" target="_blank">
                                                        <span aria-hidden="true" class="octicon octicon-question select-menu-item-icon"></span>
                                                        <div class="select-menu-item-text">
                                                            Learn more about clone URLs
                                                        </div>
                                                    </a>
                                                </div>
                                            </div>
                                        </div>
                                    </div>
                                </form>        </div>

                                <div class="file-navigation-option">
                                    <a href="github-mac://openRepo/https://github.com/code4craft/webmagic" class="btn btn-sm tooltipped tooltipped-s tooltipped-multiline" aria-label="Save code4craft/webmagic to your computer and use it in GitHub Desktop.">
                                        <span aria-hidden="true" class="octicon octicon-desktop-download"></span>
                                    </a>
                                </div>


                                <div class="file-navigation-option">
                                    <a href="/code4craft/webmagic/archive/master.zip"
                                       class="btn btn-sm"
                                       rel="nofollow"
                                       data-ga-click="Repository, download zip, location:repo overview">
                                        Download ZIP
                                    </a>
                                </div>
                            </div>
                        </div>


                        <div class="select-menu js-menu-container js-select-menu left">
                            <button class="btn btn-sm select-menu-button js-menu-target css-truncate" data-hotkey="w"
                                    title="master"
                                    type="button" aria-label="Switch branches or tags" tabindex="0" aria-haspopup="true">
                                <i>Branch:</i>
                                <span class="js-select-button css-truncate-target">master</span>
                            </button>

                            <div class="select-menu-modal-holder js-menu-content js-navigation-container" data-pjax aria-hidden="true">

                                <div class="select-menu-modal">
                                    <div class="select-menu-header">
                                        <span aria-label="Close" class="octicon octicon-x js-menu-close" role="button"></span>
                                        <span class="select-menu-title">Switch branches/tags</span>
                                    </div>

                                    <div class="select-menu-filters">
                                        <div class="select-menu-text-filter">
                                            <input type="text" aria-label="Find or create a branch…" id="context-commitish-filter-field" class="js-filterable-field js-navigation-enable" placeholder="Find or create a branch…">
                                        </div>
                                        <div class="select-menu-tabs">
                                            <ul>
                                                <li class="select-menu-tab">
                                                    <a href="#" data-tab-filter="branches" data-filter-placeholder="Find or create a branch…" class="js-select-menu-tab" role="tab">Branches</a>
                                                </li>
                                                <li class="select-menu-tab">
                                                    <a href="#" data-tab-filter="tags" data-filter-placeholder="Find a tag…" class="js-select-menu-tab" role="tab">Tags</a>
                                                </li>
                                            </ul>
                                        </div>
                                    </div>

                                    <div class="select-menu-list select-menu-tab-bucket js-select-menu-tab-bucket" data-tab-filter="branches" role="menu">

                                        <div data-filterable-for="context-commitish-filter-field" data-filterable-type="substring">


                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/0.4.x"
                                               data-name="0.4.x"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="0.4.x">
                0.4.x
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/0.6.0"
                                               data-name="0.6.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="0.6.0">
                0.6.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/en-webmagic"
                                               data-name="en-webmagic"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="en-webmagic">
                en-webmagic
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/gh-pages"
                                               data-name="gh-pages"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="gh-pages">
                gh-pages
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open selected"
                                               href="/code4craft/webmagic/tree/master"
                                               data-name="master"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="master">
                master
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/stable"
                                               data-name="stable"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="stable">
                stable
              </span>
                                            </a>
                                        </div>

                                        <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/branches" class="js-create-branch select-menu-item select-menu-new-item-form js-navigation-item js-new-item-form" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="TFV2kT/IcGmiqdH0NqRYxcNkepWIxxCkgnxla0/LxJMYaWluy1/I4QYo83JwZFB5WnNJPxF7S+BqjspGMqGmwA==" /></div>
                                        <span aria-hidden="true" class="octicon octicon-git-branch select-menu-item-icon"></span>
                                        <div class="select-menu-item-text">
                                            <span class="select-menu-item-heading">Create branch: <span class="js-new-item-name"></span></span>
                                            <span class="description">from ‘master’</span>
                                        </div>
                                        <input type="hidden" name="name" id="name" class="js-new-item-value">
                                        <input type="hidden" name="branch" id="branch" value="master">
                                        <input type="hidden" name="path" id="path" value="">
                                    </form>
                                    </div>

                                    <div class="select-menu-list select-menu-tab-bucket js-select-menu-tab-bucket" data-tab-filter="tags">
                                        <div data-filterable-for="context-commitish-filter-field" data-filterable-type="substring">


                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmaigc-0.4.3"
                                               data-name="webmaigc-0.4.3"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmaigc-0.4.3">
                webmaigc-0.4.3
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-parent-0.3.1"
                                               data-name="webmagic-parent-0.3.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-parent-0.3.1">
                webmagic-parent-0.3.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-parent-0.2.1"
                                               data-name="webmagic-parent-0.2.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-parent-0.2.1">
                webmagic-parent-0.2.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.4.2"
                                               data-name="webmagic-0.4.2"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.4.2">
                webmagic-0.4.2
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.4.1"
                                               data-name="webmagic-0.4.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.4.1">
                webmagic-0.4.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.4.0"
                                               data-name="webmagic-0.4.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.4.0">
                webmagic-0.4.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.3.2"
                                               data-name="webmagic-0.3.2"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.3.2">
                webmagic-0.3.2
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.3.0"
                                               data-name="webmagic-0.3.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.3.0">
                webmagic-0.3.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/version-0.2.0"
                                               data-name="version-0.2.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="version-0.2.0">
                version-0.2.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/version-0.1.0"
                                               data-name="version-0.1.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="version-0.1.0">
                version-0.1.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/WebMagic-0.5.2"
                                               data-name="WebMagic-0.5.2"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="WebMagic-0.5.2">
                WebMagic-0.5.2
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/WebMagic-0.5.1"
                                               data-name="WebMagic-0.5.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="WebMagic-0.5.1">
                WebMagic-0.5.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/WebMagic-0.5.0"
                                               data-name="WebMagic-0.5.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="WebMagic-0.5.0">
                WebMagic-0.5.0
              </span>
                                            </a>
                                        </div>

                                        <div class="select-menu-no-results">Nothing to show</div>
                                    </div>

                                </div>
                            </div>
                        </div>


                        <a href="/code4craft/webmagic/pull/new/master" class="btn btn-sm btn-primary" data-pjax data-ga-click="Repository, new pull request, location:repo overview">
                            New pull request
                        </a>

                        <div class="breadcrumb">

                        </div>
                    </div>


                    <div class="commit-tease js-details-container">
    <span class="right">
      Latest commit
      <a class="commit-tease-sha" href="/code4craft/webmagic/commit/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" data-pjax>
          800f66c
      </a>
      <time datetime="2016-01-18T15:20:08Z" is="relative-time">Jan 18, 2016</time>
    </span>


    <span class="commit-author-section">
      <img alt="@code4craft" class="avatar" height="20" src="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=40" width="20" />
      <a href="/code4craft" class="user-mention" rel="author">code4craft</a>
    </span>

                        <a href="/code4craft/webmagic/commit/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" class="message" data-pjax="true" title="Revert &quot;remove some unkown config&quot;

This reverts commit 0e245c989605c94b8daa21be8da9ac7002c10568.">Revert "remove some unkown config"</a>
          <span class="hidden-text-expander inline">
            <a href="#" class="js-details-target">…</a>
          </span>
                        </span>

                        <div class="commit-desc"><pre class="text-small">This reverts commit <a href="https://github.com/code4craft/webmagic/commit/0e245c989605c94b8daa21be8da9ac7002c10568" class="commit-link"><tt>0e245c9</tt></a>.</pre></div>
                    </div>


                    <div class="file-wrap ">

                        <a href="/code4craft/webmagic/tree/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" class="hidden js-permalink-shortcut" data-hotkey="y">Permalink</a>

                        <table class="files js-navigation-container js-active-navigation-container" data-pjax>


                            <tbody>
                            <tr class="warning include-fragment-error">
                                <td class="icon"><span aria-hidden="true" class="octicon octicon-alert"></span></td>
                                <td class="content" colspan="3">Failed to load latest commit information.</td>
                            </tr>

                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/assets" class="js-directory-link js-navigation-open" id="32bb636196f91ed59d7a49190e26b42c-3bc5c153572a8e40990cf593b34139cba724f15c" title="assets">assets</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/644e8d1f72c08c83348e5c31a42f0f0dfa32f07d" class="message" data-pjax="true" title="同步官方源码">同步官方源码</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-04-12T14:32:22Z" is="time-ago">Apr 12, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/en_docs" class="js-directory-link js-navigation-open" id="025516923597c2d7f987828ad6657c14-d80a6b0dee9c88e6b198bc58b3cb0704b3ce07c4" title="en_docs">en_docs</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/dbebcbe44f07acb8871a0e3f786dd3d10d938a1c" class="message" data-pjax="true" title="docs">docs</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-02T22:14:31Z" is="time-ago">May 3, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-avalon" class="js-directory-link js-navigation-open" id="079d784782a58fecda2d64e6fadff4ca-c2dff4951c408dd117233ed6a57daa4b7cda0473" title="webmagic-avalon">webmagic-avalon</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/7668731f08a3118390e7651002d56b2223d4e656" class="message" data-pjax="true" title="update version to snapshot">update version to snapshot</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-04T23:03:55Z" is="time-ago">May 5, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-core" class="js-directory-link js-navigation-open" id="39809e13bc65c3873f79570b81852d62-a2cf4af3f59391cccb922597dd0c4819a3426667" title="webmagic-core">webmagic-core</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/90e14b31b0c229d5664092ea01f739f264e419a8" class="message" data-pjax="true" title="修正FileCacheQueueScheduler导致程序不能正常结束和未关闭流

FileCacheQueueScheduler中开启了一个线程周期运行来保存数据但在爬虫结束后没有关闭导致程序无法结束，以及没有关闭io流。

解决方法：
让FileCacheQueueScheduler实现Closable接口，在close方法中关闭线程以及流。
在Spider的close方法中添加对scheduler的关闭操作。">修正FileCacheQueueScheduler导致程序不能正常结束和未关闭流</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2015-11-12T15:10:20Z" is="time-ago">Nov 12, 2015</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-extension" class="js-directory-link js-navigation-open" id="dc82c79bcb262e1942088502bb426876-35467ae616c037bd947e6752a20167d5fb74d3b5" title="webmagic-extension">webmagic-extension</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/cfde3b7657d208a80625b61b430bef11889ecc0e" class="message" data-pjax="true" title="Merge pull request #237 from SpenceZhou/master

Update RedisScheduler.java">Merge pull request</a> <a href="https://github.com/code4craft/webmagic/pull/237" class="issue-link js-issue-link" data-url="https://github.com/code4craft/webmagic/issues/237" data-id="119897705" data-error-text="Failed to load issue title" data-permission-text="Issue title is private">#237</a> <a href="/code4craft/webmagic/commit/cfde3b7657d208a80625b61b430bef11889ecc0e" class="message" data-pjax="true" title="Merge pull request #237 from SpenceZhou/master

Update RedisScheduler.java">from SpenceZhou/master</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2015-12-02T14:17:00Z" is="time-ago">Dec 2, 2015</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-samples" class="js-directory-link js-navigation-open" id="4284b70d4c5e11003fb292b0d0f7539f-264e0e2eafe7960dcd72844100faa1460fad5cfb" title="webmagic-samples">webmagic-samples</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/84b046e4c962841b725cb1be6165f40c549e2ef8" class="message" data-pjax="true" title="Merge pull request #227 from hsqlu/master

update deprecated method">Merge pull request</a> <a href="https://github.com/code4craft/webmagic/pull/227" class="issue-link js-issue-link" data-url="https://github.com/code4craft/webmagic/issues/227" data-id="107109677" data-error-text="Failed to load issue title" data-permission-text="Issue title is private">#227</a> <a href="/code4craft/webmagic/commit/84b046e4c962841b725cb1be6165f40c549e2ef8" class="message" data-pjax="true" title="Merge pull request #227 from hsqlu/master

update deprecated method">from hsqlu/master</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2016-01-16T11:36:52Z" is="time-ago">Jan 16, 2016</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-saxon" class="js-directory-link js-navigation-open" id="5ee0de5b970664e15f6805d957403c63-8311a46ae76f5669f4be3da0e2a01cce327caf97" title="webmagic-saxon">webmagic-saxon</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5f8c3fd5c518099b7028369fc35df4c01065f42e" class="message" data-pjax="true" title="update version">update version</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T09:33:30Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-scripts" class="js-directory-link js-navigation-open" id="8ecc7fcb462c06097aa24a7048097d3d-0422570614304398e2739f4d5e13c12ee403add9" title="webmagic-scripts">webmagic-scripts</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5f8c3fd5c518099b7028369fc35df4c01065f42e" class="message" data-pjax="true" title="update version">update version</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T09:33:30Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-selenium" class="js-directory-link js-navigation-open" id="988c197af393f3198711cebacce7fd65-455315f3cbd4108203da09a88afd566d65d161e1" title="webmagic-selenium">webmagic-selenium</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5d365f7bf46f854d2e05dc31a066cd6c37994fab" class="message" data-pjax="true" title="update and validate pom.xml

Update selenium and GhostDriver (PhantomJSDriver) to latest version.">update and validate pom.xml</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2015-07-11T14:43:49Z" is="time-ago">Jul 11, 2015</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/zh_docs" class="js-directory-link js-navigation-open" id="bec3b859688b0bbdb94899b1a5b56441-e305b1e0799520204fb6aca537fa5a922240329a" title="zh_docs">zh_docs</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/2a15bc028962e650463db331794f2b515a77880a" class="message" data-pjax="true" title="contributor">contributor</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T14:27:16Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/.gitignore" class="js-directory-link js-navigation-open" id="a084b794bc0759e7a6b77810e01874f2-0175dbaadc0ab38c5b79ca4a0944fb63b4f8973c" title=".gitignore">.gitignore</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/07ea04223f419d3eb4f3e68c2b69391c93283454" class="message" data-pjax="true" title="change_gitignore">change_gitignore</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-19T07:56:22Z" is="time-ago">May 19, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/.travis.yml" class="js-directory-link js-navigation-open" id="354f30a63fb0907d4ad57269548329e3-a9f233f37f99ae2dcd5aa2cfefe18738158dd470" title=".travis.yml">.travis.yml</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/73ae7a1d52253bd097283b62a7152f22ffadb60d" class="message" data-pjax="true" title="remove ci for jdk6">remove ci for jdk6</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2016-01-18T15:19:39Z" is="time-ago">Jan 18, 2016</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/README.md" class="js-directory-link js-navigation-open" id="04c6e90faac2675aa89e2176d2eec7d8-98fea5a59788254b208d7f2752baf2d77a029dca" title="README.md">README.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5e8ca02ec670e18f52361296072929fc0a93efc3" class="message" data-pjax="true" title="contributor">contributor</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T14:26:56Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/pom.xml" class="js-directory-link js-navigation-open" id="600376dffeb79835ede4a0b285078036-e7290bc95daf3ae60b8ace743d5c822e99223be5" title="pom.xml">pom.xml</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" class="message" data-pjax="true" title="Revert &quot;remove some unkown config&quot;

This reverts commit 0e245c989605c94b8daa21be8da9ac7002c10568.">Revert "remove some unkown config"</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2016-01-18T15:20:08Z" is="time-ago">Jan 18, 2016</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/release-note.md" class="js-directory-link js-navigation-open" id="d59c2d5d8d04d144da5f1cd251c384ad-f44704efd075006a4fc3935fb6607b158f3815b4" title="release-note.md">release-note.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="https://github.com/code4craft/webmagic/issues/34" class="issue-link js-issue-link" data-url="https://github.com/code4craft/webmagic/issues/34" data-id="22319882" data-error-text="Failed to load issue title" data-permission-text="Issue title is private">#34</a> <a href="/code4craft/webmagic/commit/b838c4e4331326e38e7c30c56d39be9d71fc930a" class="message" data-pjax="true" title="#34 Close reader in FileCacheQueueScheduler">Close reader in FileCacheQueueScheduler</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2013-11-08T06:59:09Z" is="time-ago">Nov 8, 2013</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/user-manual.md" class="js-directory-link js-navigation-open" id="a5d0f6c7ea51007118aea16b56f50a6a-17f65291cbb26141ec6f27422918d8da7f6b8755" title="user-manual.md">user-manual.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5f6f48931497d80463dace8a97e66e9a7b10d79e" class="message" data-pjax="true" title="deperate in user manual">deperate in user manual</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-02T22:29:37Z" is="time-ago">May 3, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/webmagic-avalon.md" class="js-directory-link js-navigation-open" id="5fbef994bb80a792d34444969fa7f80c-bcf39ea065c240dd3bbbbb758ada151d2f1e025c" title="webmagic-avalon.md">webmagic-avalon.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/7c43b5146e6eb8c309c3a6cdfd58bda70ab932ec" class="message" data-pjax="true" title="scripts readme">scripts readme</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2013-11-28T04:04:05Z" is="time-ago">Nov 28, 2013</time></span>
                                </td>
                            </tr>
                            </tbody>
                        </table>

                    </div>


                    <div id="readme" class="boxed-group clearfix announce instapaper_body md">
                        <h3>
                            <span aria-hidden="true" class="octicon octicon-book"></span>
                            README.md
                        </h3>

                        <article class="markdown-body entry-content" itemprop="mainContentOfPage"><p><a href="https://camo.githubusercontent.com/77fe3da40f9b2c5839df0267890a2457a64003e0/68747470733a2f2f7261772e6769746875622e636f6d2f636f64653463726166742f7765626d616769632f6d61737465722f6173736574732f6c6f676f2e6a7067" target="_blank"><img src="https://camo.githubusercontent.com/77fe3da40f9b2c5839df0267890a2457a64003e0/68747470733a2f2f7261772e6769746875622e636f6d2f636f64653463726166742f7765626d616769632f6d61737465722f6173736574732f6c6f676f2e6a7067" alt="logo" data-canonical-src="https://raw.github.com/code4craft/webmagic/master/assets/logo.jpg" style="max-width:100%;"></a></p>

                            <p><a href="https://github.com/code4craft/webmagic/tree/master/zh_docs">Readme in Chinese</a></p>

                            <p><a href="https://github.com/code4craft/webmagic/blob/master/user-manual.md">User Manual (Chinese)</a></p>

                            <p><a href="https://travis-ci.org/code4craft/webmagic"><img src="https://camo.githubusercontent.com/28f799aaf9175c6e3b3c131896651cf1775b2bc8/68747470733a2f2f7472617669732d63692e6f72672f636f64653463726166742f7765626d616769632e706e673f6272616e63683d6d6173746572" alt="Build Status" data-canonical-src="https://travis-ci.org/code4craft/webmagic.png?branch=master" style="max-width:100%;"></a></p>

                            <blockquote>
                                <p>A scalable crawler framework. It covers the whole lifecycle of crawler: downloading, url management, content extraction and persistent. It can simplify the development of a  specific crawler.</p>
                            </blockquote>

                            <h2><a id="user-content-features" class="anchor" href="#features" aria-hidden="true"><span class="octicon octicon-link"></span></a>Features:</h2>

                            <ul>
                                <li>Simple core with high flexibility.</li>
                                <li>Simple API for html extracting.</li>
                                <li>Annotation with POJO to customize a crawler, no configuration.</li>
                                <li>Multi-thread and Distribution support.</li>
                                <li>Easy to be integrated.</li>
                            </ul>

                            <h2><a id="user-content-install" class="anchor" href="#install" aria-hidden="true"><span class="octicon octicon-link"></span></a>Install:</h2>

                            <p>Add dependencies to your pom.xml:</p>

                            <div class="highlight highlight-text-xml"><pre>&lt;<span class="pl-ent">dependency</span>&gt;
    &lt;<span class="pl-ent">groupId</span>&gt;us.codecraft&lt;/<span class="pl-ent">groupId</span>&gt;
    &lt;<span class="pl-ent">artifactId</span>&gt;webmagic-core&lt;/<span class="pl-ent">artifactId</span>&gt;
    &lt;<span class="pl-ent">version</span>&gt;0.5.2&lt;/<span class="pl-ent">version</span>&gt;
&lt;/<span class="pl-ent">dependency</span>&gt;
&lt;<span class="pl-ent">dependency</span>&gt;
    &lt;<span class="pl-ent">groupId</span>&gt;us.codecraft&lt;/<span class="pl-ent">groupId</span>&gt;
    &lt;<span class="pl-ent">artifactId</span>&gt;webmagic-extension&lt;/<span class="pl-ent">artifactId</span>&gt;
    &lt;<span class="pl-ent">version</span>&gt;0.5.2&lt;/<span class="pl-ent">version</span>&gt;
&lt;/<span class="pl-ent">dependency</span>&gt;</pre></div>

                            <p>WebMagic use slf4j with slf4j-log4j12 implementation. If you customized your slf4j implementation, please exclude slf4j-log4j12.</p>

                            <div class="highlight highlight-text-xml"><pre>&lt;<span class="pl-ent">exclusions</span>&gt;
    &lt;<span class="pl-ent">exclusion</span>&gt;
        &lt;<span class="pl-ent">groupId</span>&gt;org.slf4j&lt;/<span class="pl-ent">groupId</span>&gt;
        &lt;<span class="pl-ent">artifactId</span>&gt;slf4j-log4j12&lt;/<span class="pl-ent">artifactId</span>&gt;
    &lt;/<span class="pl-ent">exclusion</span>&gt;
&lt;/<span class="pl-ent">exclusions</span>&gt;</pre></div>

                            <h2><a id="user-content-get-started" class="anchor" href="#get-started" aria-hidden="true"><span class="octicon octicon-link"></span></a>Get Started:</h2>

                            <h3><a id="user-content-first-crawler" class="anchor" href="#first-crawler" aria-hidden="true"><span class="octicon octicon-link"></span></a>First crawler:</h3>

                            <p>Write a class implements PageProcessor. For example, I wrote a crawler of github repository infomation.</p>

                            <div class="highlight highlight-source-java"><pre><span class="pl-k">public</span> <span class="pl-k">class</span> <span class="pl-en">GithubRepoPageProcessor</span> <span class="pl-k">implements</span> <span class="pl-e">PageProcessor</span> {

    <span class="pl-k">private</span> <span class="pl-smi">Site</span> site <span class="pl-k">=</span> <span class="pl-smi">Site</span><span class="pl-k">.</span>me()<span class="pl-k">.</span>setRetryTimes(<span class="pl-c1">3</span>)<span class="pl-k">.</span>setSleepTime(<span class="pl-c1">1000</span>);

    <span class="pl-k">@Override</span>
    <span class="pl-k">public</span> <span class="pl-k">void</span> <span class="pl-en">process</span>(<span class="pl-smi">Page</span> <span class="pl-v">page</span>) {
        page<span class="pl-k">.</span>addTargetRequests(page<span class="pl-k">.</span>getHtml()<span class="pl-k">.</span>links()<span class="pl-k">.</span>regex(<span class="pl-s"><span class="pl-pds">"</span>(https://github<span class="pl-cce">\\</span>.com/<span class="pl-cce">\\</span>w+/<span class="pl-cce">\\</span>w+)<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>all());
        page<span class="pl-k">.</span>putField(<span class="pl-s"><span class="pl-pds">"</span>author<span class="pl-pds">"</span></span>, page<span class="pl-k">.</span>getUrl()<span class="pl-k">.</span>regex(<span class="pl-s"><span class="pl-pds">"</span>https://github<span class="pl-cce">\\</span>.com/(<span class="pl-cce">\\</span>w+)/.*<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>toString());
        page<span class="pl-k">.</span>putField(<span class="pl-s"><span class="pl-pds">"</span>name<span class="pl-pds">"</span></span>, page<span class="pl-k">.</span>getHtml()<span class="pl-k">.</span>xpath(<span class="pl-s"><span class="pl-pds">"</span>//h1[@class='entry-title public']/strong/a/text()<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>toString());
        <span class="pl-k">if</span> (page<span class="pl-k">.</span>getResultItems()<span class="pl-k">.</span>get(<span class="pl-s"><span class="pl-pds">"</span>name<span class="pl-pds">"</span></span>)<span class="pl-k">==</span><span class="pl-c1">null</span>){
            <span class="pl-c">//skip this page</span>
            page<span class="pl-k">.</span>setSkip(<span class="pl-c1">true</span>);
        }
        page<span class="pl-k">.</span>putField(<span class="pl-s"><span class="pl-pds">"</span>readme<span class="pl-pds">"</span></span>, page<span class="pl-k">.</span>getHtml()<span class="pl-k">.</span>xpath(<span class="pl-s"><span class="pl-pds">"</span>//div[@id='readme']/tidyText()<span class="pl-pds">"</span></span>));
    }

    <span class="pl-k">@Override</span>
    <span class="pl-k">public</span> <span class="pl-smi">Site</span> <span class="pl-en">getSite</span>() {
        <span class="pl-k">return</span> site;
    }

    <span class="pl-k">public</span> <span class="pl-k">static</span> <span class="pl-k">void</span> <span class="pl-en">main</span>(<span class="pl-k">String</span>[] <span class="pl-v">args</span>) {
        <span class="pl-smi">Spider</span><span class="pl-k">.</span>create(<span class="pl-k">new</span> <span class="pl-smi">GithubRepoPageProcessor</span>())<span class="pl-k">.</span>addUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/code4craft<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>thread(<span class="pl-c1">5</span>)<span class="pl-k">.</span>run();
    }
}</pre></div>

                            <ul>
                                <li><p><code>page.addTargetRequests(links)</code></p>

                                    <p>Add urls for crawling.</p></li>
                            </ul>

                            <p>You can also use annotation way:</p>

                            <div class="highlight highlight-source-java"><pre>@TargetUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/<span class="pl-cce">\\</span>w+/<span class="pl-cce">\\</span>w+<span class="pl-pds">"</span></span>)
@HelpUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/<span class="pl-cce">\\</span>w+<span class="pl-pds">"</span></span>)
<span class="pl-k">public</span> <span class="pl-k">class</span> <span class="pl-en">GithubRepo</span> {

    <span class="pl-k">@ExtractBy</span>(<span class="pl-c1">value</span> <span class="pl-k">=</span> <span class="pl-s"><span class="pl-pds">"</span>//h1[@class='entry-title public']/strong/a/text()<span class="pl-pds">"</span></span>, <span class="pl-c1">notNull</span> <span class="pl-k">=</span> <span class="pl-c1">true</span>)
    <span class="pl-k">private</span> <span class="pl-smi">String</span> name;

    <span class="pl-k">@ExtractByUrl</span>(<span class="pl-s"><span class="pl-pds">"</span>https://github<span class="pl-cce">\\</span>.com/(<span class="pl-cce">\\</span>w+)/.*<span class="pl-pds">"</span></span>)
    <span class="pl-k">private</span> <span class="pl-smi">String</span> author;

    <span class="pl-k">@ExtractBy</span>(<span class="pl-s"><span class="pl-pds">"</span>//div[@id='readme']/tidyText()<span class="pl-pds">"</span></span>)
    <span class="pl-k">private</span> <span class="pl-smi">String</span> readme;

    <span class="pl-k">public</span> <span class="pl-k">static</span> <span class="pl-k">void</span> <span class="pl-en">main</span>(<span class="pl-k">String</span>[] <span class="pl-v">args</span>) {
        <span class="pl-smi">OOSpider</span><span class="pl-k">.</span>create(<span class="pl-smi">Site</span><span class="pl-k">.</span>me()<span class="pl-k">.</span>setSleepTime(<span class="pl-c1">1000</span>)
                , <span class="pl-k">new</span> <span class="pl-smi">ConsolePageModelPipeline</span>(), <span class="pl-smi">GithubRepo</span><span class="pl-k">.</span>class)
                .addUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/code4craft<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>thread(<span class="pl-c1">5</span>)<span class="pl-k">.</span>run();
    }
}</pre></div>

                            <h3><a id="user-content-docs-and-samples" class="anchor" href="#docs-and-samples" aria-hidden="true"><span class="octicon octicon-link"></span></a>Docs and samples:</h3>

                            <p>Documents: <a href="http://webmagic.io/docs/">http://webmagic.io/docs/</a></p>

                            <p>The architecture of webmagic (refered to <a href="http://scrapy.org/">Scrapy</a>)</p>

                            <p><a href="https://camo.githubusercontent.com/06cb8227231a6adf6d2a57b14b60a25389a25fe9/687474703a2f2f636f64653463726166742e6769746875622e696f2f696d616765732f706f7374732f7765626d616769632e706e67" target="_blank"><img src="https://camo.githubusercontent.com/06cb8227231a6adf6d2a57b14b60a25389a25fe9/687474703a2f2f636f64653463726166742e6769746875622e696f2f696d616765732f706f7374732f7765626d616769632e706e67" alt="image" data-canonical-src="http://code4craft.github.io/images/posts/webmagic.png" style="max-width:100%;"></a></p>

                            <p>Javadocs: <a href="http://code4craft.github.io/webmagic/docs/en/">http://code4craft.github.io/webmagic/docs/en/</a></p>

                            <p>There are some samples in <code>webmagic-samples</code> package.</p>

                            <h3><a id="user-content-lisence" class="anchor" href="#lisence" aria-hidden="true"><span class="octicon octicon-link"></span></a>Lisence:</h3>

                            <p>Lisenced under <a href="http://opensource.org/licenses/Apache-2.0">Apache 2.0 lisence</a></p>

                            <h3><a id="user-content-contributors" class="anchor" href="#contributors" aria-hidden="true"><span class="octicon octicon-link"></span></a>Contributors:</h3>

                            <p>Thanks these people for commiting source code, reporting bugs or suggesting for new feature:</p>

                            <ul>
                                <li><a href="https://github.com/ccliangbo">ccliangbo</a></li>
                                <li><a href="https://github.com/yuany">yuany</a></li>
                                <li><a href="https://github.com/yxssfxwzy">yxssfxwzy</a></li>
                                <li><a href="https://github.com/linkerlin">linkerlin</a></li>
                                <li><a href="https://github.com/d0ngw">d0ngw</a></li>
                                <li><a href="https://github.com/xuchaoo">xuchaoo</a></li>
                                <li><a href="https://github.com/supermicah">supermicah</a></li>
                                <li><a href="https://github.com/SimpleExpress">SimpleExpress</a></li>
                                <li><a href="https://github.com/aruanruan">aruanruan</a></li>
                                <li><a href="https://github.com/l1z2g9">l1z2g9</a></li>
                                <li><a href="https://github.com/zhegexiaohuozi">zhegexiaohuozi</a></li>
                                <li><a href="https://github.com/ywooer">ywooer</a></li>
                                <li><a href="https://github.com/yyw258520">yyw258520</a></li>
                                <li><a href="https://github.com/perfecking">perfecking</a></li>
                                <li><a href="http://my.oschina.net/lidongyang">lidongyang</a></li>
                                <li><a href="https://github.com/seveniu">seveniu</a></li>
                                <li><a href="https://github.com/sebastian1118">sebastian1118</a></li>
                                <li><a href="https://github.com/codev777">codev777</a></li>
                                <li><a href="https://github.com/fengwuze">fengwuze</a></li>
                            </ul>

                            <h3><a id="user-content-thanks" class="anchor" href="#thanks" aria-hidden="true"><span class="octicon octicon-link"></span></a>Thanks:</h3>

                            <p>To write webmagic, I refered to the projects below :</p>

                            <ul>
                                <li><p><strong>Scrapy</strong></p>

                                    <p>A crawler framework in Python.</p>

                                    <p><a href="http://scrapy.org/">http://scrapy.org/</a></p></li>
                                <li><p><strong>Spiderman</strong></p>

                                    <p>Another crawler framework in Java.</p>

                                    <p><a href="https://gitcafe.com/laiweiwei/Spiderman">https://gitcafe.com/laiweiwei/Spiderman</a></p></li>
                            </ul>

                            <h3><a id="user-content-mail-list" class="anchor" href="#mail-list" aria-hidden="true"><span class="octicon octicon-link"></span></a>Mail-list:</h3>

                            <p><a href="https://groups.google.com/forum/#!forum/webmagic-java">https://groups.google.com/forum/#!forum/webmagic-java</a></p>

                            <p><a href="http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988">http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988</a></p>

                            <p>QQ Group: 373225642</p>

                            <p><a href="https://bitdeli.com/free" title="Bitdeli Badge"><img src="https://camo.githubusercontent.com/ac3c3cde05f612ce1a1c9a8be3bf2893ffa6d64d/68747470733a2f2f64327765637a68766c38323376302e636c6f756466726f6e742e6e65742f636f64653463726166742f7765626d616769632f7472656e642e706e67" alt="Bitdeli Badge" data-canonical-src="https://d2weczhvl823v0.cloudfront.net/code4craft/webmagic/trend.png" style="max-width:100%;"></a></p>
                        </article>
                    </div>


                </div>
                <div class="modal-backdrop"></div>
            </div>

        </div>
    </div>

</div>

<div class="container">
    <div class="site-footer" role="contentinfo">
        <ul class="site-footer-links right">
            <li><a href="https://status.github.com/" data-ga-click="Footer, go to status, text:status">Status</a></li>
            <li><a href="https://developer.github.com" data-ga-click="Footer, go to api, text:api">API</a></li>
            <li><a href="https://training.github.com" data-ga-click="Footer, go to training, text:training">Training</a></li>
            <li><a href="https://shop.github.com" data-ga-click="Footer, go to shop, text:shop">Shop</a></li>
            <li><a href="https://github.com/blog" data-ga-click="Footer, go to blog, text:blog">Blog</a></li>
            <li><a href="https://github.com/about" data-ga-click="Footer, go to about, text:about">About</a></li>
            <li><a href="https://github.com/pricing" data-ga-click="Footer, go to pricing, text:pricing">Pricing</a></li>

        </ul>

        <a href="https://github.com" aria-label="Homepage">
            <span aria-hidden="true" class="mega-octicon octicon-mark-github" title="GitHub "></span>
        </a>
        <ul class="site-footer-links">
            <li>&copy; 2016 <span title="0.16501s from github-fe119-cp1-prd.iad.github.net">GitHub</span>, Inc.</li>
            <li><a href="https://github.com/site/terms" data-ga-click="Footer, go to terms, text:terms">Terms</a></li>
            <li><a href="https://github.com/site/privacy" data-ga-click="Footer, go to privacy, text:privacy">Privacy</a></li>
            <li><a href="https://github.com/security" data-ga-click="Footer, go to security, text:security">Security</a></li>
            <li><a href="https://github.com/contact" data-ga-click="Footer, go to contact, text:contact">Contact</a></li>
            <li><a href="https://help.github.com" data-ga-click="Footer, go to help, text:help">Help</a></li>
        </ul>
    </div>
</div>


<div id="ajax-error-message" class="flash flash-error">
    <span aria-hidden="true" class="octicon octicon-alert"></span>
    <button type="button" class="flash-close js-flash-close js-ajax-error-dismiss" aria-label="Dismiss error">
        <span aria-hidden="true" class="octicon octicon-x"></span>
    </button>
    Something went wrong with that request. Please try again.
</div>


<script crossorigin="anonymous" src="https://assets-cdn.github.com/assets/frameworks-2895475c714f13790b63e636b5389a6918a260259c5b22a15acf5ef26bd6ef09.js"></script>
<script async="async" crossorigin="anonymous" src="https://assets-cdn.github.com/assets/github-c0404608a3bcd1310776df0ab26e107bfd70ff0382408f43ede1a81e730e39cd.js"></script>


<div class="js-stale-session-flash stale-session-flash flash flash-warn flash-banner hidden">
    <span aria-hidden="true" class="octicon octicon-alert"></span>
    <span class="signed-in-tab-flash">You signed in with another tab or window. <a href="">Reload</a> to refresh your session.</span>
    <span class="signed-out-tab-flash">You signed out in another tab or window. <a href="">Reload</a> to refresh your session.</span>
</div>
<div class="facebox" id="facebox" style="display:none;">
    <div class="facebox-popup">
        <div class="facebox-content" role="dialog" aria-labelledby="facebox-header" aria-describedby="facebox-description">
        </div>
        <button type="button" class="facebox-close js-facebox-close" aria-label="Close modal">
            <span aria-hidden="true" class="octicon octicon-x"></span>
        </button>
    </div>
</div>

</body>
</html>


================================================
FILE: webmagic-core/src/test/resources/log4j2-test.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<Configuration>
    <Appenders>
        <Console name="stdout" target="SYSTEM_OUT">
            <PatternLayout pattern="%d{yy-MM-dd HH:mm:ss,SSS} %-5p %c(%F:%L) ## %m%n" />
        </Console>
    </Appenders>
    <Loggers>
        <Logger name="org.apache" level="warn" additivity="false">
            <AppenderRef ref="stdout" />
        </Logger>
        <Root level="info">
            <AppenderRef ref="stdout" />
        </Root>
    </Loggers>
</Configuration>


================================================
FILE: webmagic-coverage/pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/maven-v4_0_0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <parent>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic</artifactId>
        <version>1.0.4-SNAPSHOT</version>
    </parent>

    <artifactId>webmagic-coverage</artifactId>
    <packaging>pom</packaging>
    <name>webmagic-coverage</name>
    <description>Compute aggregated test code coverage</description>

    <properties>
        <maven.deploy.skip>true</maven.deploy.skip>
    </properties>

    <dependencies>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-scripts</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-selenium</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-saxon</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-samples</artifactId>
            <version>${project.version}</version>
        </dependency>
    </dependencies>

    <reporting>
        <plugins>
            <plugin>
                <groupId>org.jacoco</groupId>
                <artifactId>jacoco-maven-plugin</artifactId>
                <reportSets>
                    <reportSet>
                        <reports>
                            <report>report-aggregate</report>
                        </reports>
                    </reportSet>
                </reportSets>
            </plugin>
        </plugins>
    </reporting>

</project>


================================================
FILE: webmagic-extension/README.md
================================================
webmagic-extension
-------
webmagic的扩展模块。包括注解格式定义爬虫、JSON、分布式等支持。

================================================
FILE: webmagic-extension/pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic</artifactId>
        <version>1.0.4-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>webmagic-extension</artifactId>

    <dependencies>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <version>1.18.32</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>redis.clients</groupId>
            <artifactId>jedis</artifactId>
        </dependency>
        <dependency>
            <groupId>org.assertj</groupId>
            <artifactId>assertj-core</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>${project.version}</version>
        </dependency>
    </dependencies>

</project>


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/MultiPageModel.java
================================================
package us.codecraft.webmagic;

import us.codecraft.webmagic.utils.Experimental;

import java.util.Collection;

/**
 * Extract an object of more than one pages, such as news and articles.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
@Experimental
public interface MultiPageModel {

    /**
     * Page key is the identifier for the object.
     *
     * @return page key
     */
    public String getPageKey();

    /**
     * page is the identifier of a page in pages for one object.
     *
     * @return page
     */
    public String getPage();

    /**
     * other pages to be extracted.<br>
     * It is used to judge whether an object contains more than one page, and whether the pages of the object are all extracted.
     *
     * @return other pages
     */
    public Collection<String> getOtherPages();

    /**
     * Combine multiPageModels to a whole object.
     *
     * @param multiPageModel multiPageModel
     * @return multiPageModel combined
     */
    public MultiPageModel combine(MultiPageModel multiPageModel);

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/SimpleHttpClient.java
================================================
package us.codecraft.webmagic;

import us.codecraft.webmagic.downloader.HttpClientDownloader;
import us.codecraft.webmagic.model.PageMapper;
import us.codecraft.webmagic.proxy.ProxyProvider;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/5/27
 * @since 0.7.0
 */
public class SimpleHttpClient {

    private final HttpClientDownloader httpClientDownloader;

    private final Site site;

    public SimpleHttpClient() {
        this(Site.me());
    }

    public SimpleHttpClient(Site site) {
        this.site = site;
        this.httpClientDownloader = new HttpClientDownloader();
    }

    public void setProxyProvider(ProxyProvider proxyProvider){
        this.httpClientDownloader.setProxyProvider(proxyProvider);
    }

    public <T> T get(String url, Class<T> clazz) {
        return get(new Request(url), clazz);
    }

    public <T> T get(Request request, Class<T> clazz) {
        Page page = httpClientDownloader.download(request, site.toTask());
        if (!page.isDownloadSuccess()) {
            return null;
        }
        return new PageMapper<T>(clazz).get(page);
    }

    public Page get(String url) {
        return httpClientDownloader.download(new Request(url), site.toTask());
    }

    public Page get(Request request) {
        return httpClientDownloader.download(request, site.toTask());
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/configurable/ConfigurablePageProcessor.java
================================================
package us.codecraft.webmagic.configurable;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.utils.Experimental;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
@Experimental
public class ConfigurablePageProcessor implements PageProcessor {

    private Site site;

    private List<ExtractRule> extractRules;

    public ConfigurablePageProcessor(Site site, List<ExtractRule> extractRules) {
        this.site = site;
        this.extractRules = extractRules;
    }

    @Override
    public void process(Page page) {
        for (ExtractRule extractRule : extractRules) {
            if (extractRule.isMulti()) {
                List<String> results = page.getHtml().selectDocumentForList(extractRule.getSelector());
                if (extractRule.isNotNull() && results.size() == 0) {
                    page.setSkip(true);
                } else {
                    page.getResultItems().put(extractRule.getFieldName(), results);
                }
            } else {
                String result = page.getHtml().selectDocument(extractRule.getSelector());
                if (extractRule.isNotNull() && result == null) {
                    page.setSkip(true);
                } else {
                    page.getResultItems().put(extractRule.getFieldName(), result);
                }
            }
        }
    }

    @Override
    public Site getSite() {
        return site;
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/configurable/ExpressionType.java
================================================
package us.codecraft.webmagic.configurable;

/**
 * @author code4crafter@gmail.com
 */
public enum ExpressionType {

    XPath, Regex, Css, JsonPath;

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/configurable/ExtractRule.java
================================================
package us.codecraft.webmagic.configurable;

import us.codecraft.webmagic.selector.JsonPathSelector;
import us.codecraft.webmagic.selector.Selector;

import static us.codecraft.webmagic.selector.Selectors.*;

/**
 * @author code4crafter@gmail.com
 */
public class ExtractRule {

    private String fieldName;

    private ExpressionType expressionType;

    private String expressionValue;

    private String[] expressionParams;

    private boolean multi = false;

    private volatile Selector selector;

    private boolean notNull = false;

    public String getFieldName() {
        return fieldName;
    }

    public void setFieldName(String fieldName) {
        this.fieldName = fieldName;
    }

    public ExpressionType getExpressionType() {
        return expressionType;
    }

    public void setExpressionType(ExpressionType expressionType) {
        this.expressionType = expressionType;
    }

    public String getExpressionValue() {
        return expressionValue;
    }

    public void setExpressionValue(String expressionValue) {
        this.expressionValue = expressionValue;
    }

    public String[] getExpressionParams() {
        return expressionParams;
    }

    public void setExpressionParams(String[] expressionParams) {
        this.expressionParams = expressionParams;
    }

    public boolean isMulti() {
        return multi;
    }

    public void setMulti(boolean multi) {
        this.multi = multi;
    }

    public Selector getSelector() {
        if (selector == null) {
            synchronized (this) {
                if (selector == null) {
                    selector = compileSelector();
                }
            }
        }
        return selector;
    }

    private Selector compileSelector() {
        switch (expressionType) {
            case Css:
                if (expressionParams.length >= 1) {
                    return $(expressionValue, expressionParams[0]);
                } else {
                    return $(expressionValue);
                }
            case XPath:
                return xpath(expressionValue);
            case Regex:
                if (expressionParams.length >= 1) {
                    return regex(expressionValue, Integer.parseInt(expressionParams[0]));
                } else {
                    return regex(expressionValue);
                }
            case JsonPath:
                return new JsonPathSelector(expressionValue);
            default:
                return xpath(expressionValue);
        }
    }

    public void setSelector(Selector selector) {
        this.selector = selector;
    }

    public boolean isNotNull() {
        return notNull;
    }

    public void setNotNull(boolean notNull) {
        this.notNull = notNull;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/downloader/PhantomJSDownloader.java
================================================
package us.codecraft.webmagic.downloader;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.selector.PlainText;
import us.codecraft.webmagic.utils.HttpConstant;

import java.io.*;

/**
 * this downloader is used to download pages which need to render the javascript
 *
 * @author dolphineor@gmail.com
 * @version 0.5.3
 */
public class PhantomJSDownloader extends AbstractDownloader {
    private static final Logger logger = LoggerFactory.getLogger(PhantomJSDownloader.class);
    private static String crawlJsPath;
    private static String phantomJsCommand = "phantomjs"; // default

    public PhantomJSDownloader() {
        this.initPhantomjsCrawlPath();
    }

    /**
     * 添加新的构造函数，支持phantomjs自定义命令
     * <p>
     * example:
     * phantomjs.exe 支持windows环境
     * phantomjs --ignore-ssl-errors=yes 忽略抓取地址是https时的一些错误
     * /usr/local/bin/phantomjs 命令的绝对路径，避免因系统环境变量引起的IOException
     *
     * @param phantomJsCommand phantomJsCommand
     */
    public PhantomJSDownloader(String phantomJsCommand) {
        this.initPhantomjsCrawlPath();
        PhantomJSDownloader.phantomJsCommand = phantomJsCommand;
    }

    /**
     * 新增构造函数，支持crawl.js路径自定义，因为当其他项目依赖此jar包时，runtime.exec()执行phantomjs命令时无使用法jar包中的crawl.js
     * <pre>
     * crawl.js start --
     *
     *   var system = require('system');
     *   var url = system.args[1];
     *
     *   var page = require('webpage').create();
     *   page.settings.loadImages = false;
     *   page.settings.resourceTimeout = 5000;
     *
     *   page.open(url, function (status) {
     *       if (status != 'success') {
     *           console.log("HTTP request failed!");
     *       } else {
     *           console.log(page.content);
     *       }
     *
     *       page.close();
     *       phantom.exit();
     *   });
     *
     * -- crawl.js end
     * </pre>
     * 具体项目时可以将以上js代码复制下来使用
     * <p>
     * example:
     * new PhantomJSDownloader("/your/path/phantomjs", "/your/path/crawl.js");
     *
     * @param phantomJsCommand phantomJsCommand
     * @param crawlJsPath      crawlJsPath
     */
    public PhantomJSDownloader(String phantomJsCommand, String crawlJsPath) {
        PhantomJSDownloader.phantomJsCommand = phantomJsCommand;
        PhantomJSDownloader.crawlJsPath = crawlJsPath;
    }

    private void initPhantomjsCrawlPath() {
        PhantomJSDownloader.crawlJsPath = new File(this.getClass().getResource("/").getPath()).getPath()
                + System.getProperty("file.separator") + "crawl.js ";
    }

    @Override
    public Page download(Request request, Task task) {
        if (logger.isInfoEnabled()) {
            logger.info("downloading page: " + request.getUrl());
        }

        Page page = Page.fail(request);
        try {
            String content = getPage(request);
            if (!content.contains("HTTP request failed")) {
                page.setDownloadSuccess(true);
                page.setRawText(content);
                page.setUrl(new PlainText(request.getUrl()));
                page.setRequest(request);
                page.setStatusCode(HttpConstant.StatusCode.CODE_200);
            }
            onSuccess(page, task);
        } catch (Exception e) {
            onError(page, task, e);
            logger.warn("download page {} error", request.getUrl(), e);
        }
        return page;
    }

    @Override
    public void setThread(int threadNum) {
        // ignore
    }

    protected String getPage(Request request) throws Exception {
        String url = request.getUrl();
        Runtime runtime = Runtime.getRuntime();
        Process process = runtime.exec(phantomJsCommand + " " + crawlJsPath + " " + url);
        InputStream is = process.getInputStream();
        BufferedReader br = new BufferedReader(new InputStreamReader(is));
        StringBuilder builder = new StringBuilder();
        String line;
        while ((line = br.readLine()) != null) {
            builder.append(line).append("\n");
        }
        return builder.toString();
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/AppStore.java
================================================
package us.codecraft.webmagic.example;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.utils.Experimental;

import java.util.List;

/**
 * @author code4crafter@gmail.com
 * @since 0.4.1
 */
@Experimental
public class AppStore {

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$..trackName")
    private String trackName;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$..description")
    private String description;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$..userRatingCount")
    private int userRatingCount;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$..screenshotUrls")
    private List<String> screenshotUrls;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$..supportedDevices")
    private List<String> supportedDevices;

    public static void main(String[] args) {
        AppStore appStore = OOSpider.create(Site.me(), AppStore.class).<AppStore>get("http://itunes.apple.com/lookup?id=653350791&country=cn&entity=software");
        System.out.println(appStore.trackName);
        System.out.println(appStore.description);
        System.out.println(appStore.userRatingCount);
        System.out.println(appStore.screenshotUrls);
        System.out.println(appStore.supportedDevices);
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/BaiduBaike.java
================================================
package us.codecraft.webmagic.example;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;

import java.util.ArrayList;
import java.util.List;

/**
 * @since 0.4.0
 * @author code4crafter@gmail.com
 */
public class BaiduBaike{

    @ExtractBy("//h1[@class=title]/div[@class=lemmaTitleH1]/text()")
    private String name;

    @ExtractBy("//div[@id='lemmaContent-0']//div[@class='para']/allText()")
    private String description;

    @Override
    public String toString() {
        return "BaiduBaike{" +
                "name='" + name + '\'' +
                ", description='" + description + '\'' +
                '}';
    }

    public static void main(String[] args) {
        OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(0), BaiduBaike.class);
        //single download
        String urlTemplate = "http://baike.baidu.com/search/word?word=%s&pic=1&sug=1&enc=utf8";
        BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
        System.out.println(baike);

        //multidownload
        List<String> list = new ArrayList<String>();
        list.add(String.format(urlTemplate,"风力发电"));
        list.add(String.format(urlTemplate,"太阳能"));
        list.add(String.format(urlTemplate,"地热发电"));
        list.add(String.format(urlTemplate,"地热发电"));
        List<BaiduBaike> resultItemses = ooSpider.<BaiduBaike>getAll(list);
        for (BaiduBaike resultItemse : resultItemses) {
            System.out.println(resultItemse);
        }
        ooSpider.close();
    }

    public String getName() {
        return name;
    }

    public String getDescription() {
        return description;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/GithubRepo.java
================================================
package us.codecraft.webmagic.example;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.ConsolePageModelPipeline;
import us.codecraft.webmagic.model.HasKey;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.ExtractByUrl;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.3.2
 */
@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl({"https://github.com/\\w+\\?tab=repositories", "https://github.com/\\w+", "https://github.com/explore/*"})
public class GithubRepo implements HasKey {

    @ExtractBy(value = "//h1[@class='public']/strong/a/text()", notNull = true)
    private String name;

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']/tidyText()")
    private String readme;

    @ExtractBy(value = "//div[@class='repository-lang-stats']//li//span[@class='lang']/text()", multi = true)
    private List<String> language;

    @ExtractBy("//ul[@class='pagehead-actions']/li[1]//a[@class='social-count js-social-count']/text()")
    private int star;

    @ExtractBy("//ul[@class='pagehead-actions']/li[2]//a[@class='social-count']/text()")
    private int fork;

    @ExtractByUrl
    private String url;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(100)
                , new ConsolePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/code4craft").thread(10).run();
    }

    @Override
    public String key() {
        return author + ":" + name;
    }

    public String getName() {
        return name;
    }

    public String getReadme() {
        return readme;
    }

    public String getAuthor() {
        return author;
    }

    public List<String> getLanguage() {
        return language;
    }

    public String getUrl() {
        return url;
    }

    public int getStar() {
        return star;
    }

    public int getFork() {
        return fork;
    }

    @Override
    public String toString() {
        return "GithubRepo{" +
                "name='" + name + '\'' +
                ", author='" + author + '\'' +
                ", readme='" + readme + '\'' +
                ", language=" + language +
                ", star=" + star +
                ", fork=" + fork +
                ", url='" + url + '\'' +
                '}';
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/GithubRepoApi.java
================================================
package us.codecraft.webmagic.example;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.ConsolePageModelPipeline;
import us.codecraft.webmagic.model.HasKey;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.ExtractByUrl;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.4.1
 */
public class GithubRepoApi implements HasKey {

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$.name", source = ExtractBy.Source.RawText)
    private String name;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$..owner.login", source = ExtractBy.Source.RawText)
    private String author;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$.language",multi = true, source = ExtractBy.Source.RawText)
    private List<String> language;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$.stargazers_count", source = ExtractBy.Source.RawText)
    private int star;

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$.forks_count", source = ExtractBy.Source.RawText)
    private int fork;

    @ExtractByUrl
    private String url;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(100)
                , new ConsolePageModelPipeline(), GithubRepoApi.class)
                .addUrl("https://api.github.com/repos/code4craft/webmagic").run();
    }

    @Override
    public String key() {
        return author + ":" + name;
    }

    public String getName() {
        return name;
    }

    public String getAuthor() {
        return author;
    }

    public List<String> getLanguage() {
        return language;
    }

    public String getUrl() {
        return url;
    }

    public int getStar() {
        return star;
    }

    public int getFork() {
        return fork;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/GithubRepoPageMapper.java
================================================
package us.codecraft.webmagic.example;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.model.PageMapper;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.3.2
 */
public class GithubRepoPageMapper implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(0);

    private PageMapper<GithubRepo> githubRepoPageMapper = new PageMapper<GithubRepo>(GithubRepo.class);

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+/\\w+)").all());
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+)").all());
        GithubRepo githubRepo = githubRepoPageMapper.get(page);
        if (githubRepo == null) {
            page.setSkip(true);
        } else {
            page.putField("repo", githubRepo);
        }

    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new GithubRepoPageMapper()).addUrl("https://github.com/code4craft").thread(5).run();
    }
}

================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/MonitorExample.java
================================================
package us.codecraft.webmagic.example;

import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.monitor.SpiderMonitor;
import us.codecraft.webmagic.processor.example.GithubRepoPageProcessor;
import us.codecraft.webmagic.processor.example.ZhihuPageProcessor;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public class MonitorExample {

    public static void main(String[] args) throws Exception {

        Spider zhihuSpider = Spider.create(new ZhihuPageProcessor())
                .addUrl("http://my.oschina.net/flashsword/blog");
        Spider githubSpider = Spider.create(new GithubRepoPageProcessor())
                .addUrl("https://github.com/code4craft");

        SpiderMonitor.instance().register(zhihuSpider);
        SpiderMonitor.instance().register(githubSpider);
        zhihuSpider.start();
        githubSpider.start();
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/OschinaBlog.java
================================================
package us.codecraft.webmagic.example;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.Formatter;
import us.codecraft.webmagic.model.annotation.TargetUrl;
import us.codecraft.webmagic.pipeline.JsonFilePageModelPipeline;

import java.util.Date;
import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.3.2
 */
@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
public class OschinaBlog {

    @ExtractBy("//title/text()")
    private String title;

    @ExtractBy(value = "div.BlogContent", type = ExtractBy.Type.Css)
    private String content;

    @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
    private List<String> tags;

    @ExtractBy("//div[@class='BlogStat']/regex('\\d+-\\d+-\\d+\\s+\\d+:\\d+')")
    private Date date;

    public static void main(String[] args) {
        //results will be saved to "/data/webmagic/" in json format
        OOSpider.create(Site.me(), new JsonFilePageModelPipeline("/data/webmagic/"), OschinaBlog.class)
                .addUrl("http://my.oschina.net/flashsword/blog").run();
    }

    public String getTitle() {
        return title;
    }

    public String getContent() {
        return content;
    }

    public List<String> getTags() {
        return tags;
    }

    public Date getDate() {
        return date;
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/example/PatternProcessorExample.java
================================================
package us.codecraft.webmagic.example;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import us.codecraft.webmagic.*;
import us.codecraft.webmagic.handler.CompositePageProcessor;
import us.codecraft.webmagic.handler.CompositePipeline;
import us.codecraft.webmagic.handler.PatternProcessor;
import us.codecraft.webmagic.handler.RequestMatcher;

/**
 * Created with IntelliJ IDEA.
 * User: Sebastian MA
 * Date: April 04, 2014
 * Time: 21:23
 */
public class PatternProcessorExample {

    private static Logger log = LoggerFactory.getLogger(PatternProcessorExample.class);

    public static void main(String... args) {

        // define a patternProcessor which handles only "http://item.jd.com/.*"
        PatternProcessor githubRepoProcessor = new PatternProcessor("https://github\\.com/[\\w\\-]+/[\\w\\-]+") {

            @Override
            public RequestMatcher.MatchOther processPage(Page page) {
                page.putField("reponame", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());
                return RequestMatcher.MatchOther.YES;
            }

            @Override
            public RequestMatcher.MatchOther processResult(ResultItems resultItems, Task task) {
                log.info("Extracting from repo" + resultItems.getRequest());
                System.out.println("Repo name: "+resultItems.get("reponame"));
                return RequestMatcher.MatchOther.YES;
            }
        };

        PatternProcessor githubUserProcessor = new PatternProcessor("https://github\\.com/[\\w\\-]+") {

            @Override
            public RequestMatcher.MatchOther processPage(Page page) {
                log.info("Extracting from " + page.getUrl());
                page.addTargetRequests(page.getHtml().links().regex("https://github\\.com/[\\w\\-]+/[\\w\\-]+").all());
                page.addTargetRequests(page.getHtml().links().regex("https://github\\.com/[\\w\\-]+").all());
                page.putField("username", page.getHtml().xpath("//span[@class='vcard-fullname']/text()").toString());
                return RequestMatcher.MatchOther.YES;
            }

            @Override
            public RequestMatcher.MatchOther processResult(ResultItems resultItems, Task task) {
                System.out.println("User name: "+resultItems.get("username"));
                return RequestMatcher.MatchOther.YES;
            }
        };

        CompositePageProcessor pageProcessor = new CompositePageProcessor(Site.me().setDomain("github.com").setRetryTimes(3));
        CompositePipeline pipeline = new CompositePipeline();

        pageProcessor.setSubPageProcessors(githubRepoProcessor, githubUserProcessor);
        pipeline.setSubPipeline(githubRepoProcessor, githubUserProcessor);

        Spider.create(pageProcessor).addUrl("https://github.com/code4craft").thread(5).addPipeline(pipeline).runAsync();
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/handler/CompositePageProcessor.java
================================================
package us.codecraft.webmagic.handler;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.ArrayList;
import java.util.List;

/**
 * @author code4crafter@gmail.com
 */
public class CompositePageProcessor implements PageProcessor {

    private Site site;

    private List<SubPageProcessor> subPageProcessors = new ArrayList<SubPageProcessor>();

    public CompositePageProcessor(Site site) {
        this.site = site;
    }

    @Override
    public void process(Page page) {
        for (SubPageProcessor subPageProcessor : subPageProcessors) {
            if (subPageProcessor.match(page.getRequest())) {
                SubPageProcessor.MatchOther matchOtherProcessorProcessor = subPageProcessor.processPage(page);
                if (matchOtherProcessorProcessor == null || matchOtherProcessorProcessor != SubPageProcessor.MatchOther.YES) {
                    return;
                }
            }
        }
    }

    public CompositePageProcessor setSite(Site site) {
        this.site = site;
        return this;
    }

    public CompositePageProcessor addSubPageProcessor(SubPageProcessor subPageProcessor) {
        this.subPageProcessors.add(subPageProcessor);
        return this;
    }

    public CompositePageProcessor setSubPageProcessors(SubPageProcessor... subPageProcessors) {
        this.subPageProcessors = new ArrayList<SubPageProcessor>();
        for (SubPageProcessor subPageProcessor : subPageProcessors) {
            this.subPageProcessors.add(subPageProcessor);
        }
        return this;
    }

    @Override
    public Site getSite() {
        return site;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/handler/CompositePipeline.java
================================================
package us.codecraft.webmagic.handler;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

import java.util.ArrayList;
import java.util.List;

/**
 * @author code4crafer@gmail.com
 */
public class CompositePipeline implements Pipeline {

    private List<SubPipeline> subPipelines = new ArrayList<SubPipeline>();

    @Override
    public void process(ResultItems resultItems, Task task) {
        for (SubPipeline subPipeline : subPipelines) {
            if (subPipeline.match(resultItems.getRequest())) {
                RequestMatcher.MatchOther matchOtherProcessorProcessor = subPipeline.processResult(resultItems, task);
                if (matchOtherProcessorProcessor == null || matchOtherProcessorProcessor != RequestMatcher.MatchOther.YES) {
                    return;
                }
            }
        }
    }

    public CompositePipeline addSubPipeline(SubPipeline subPipeline) {
        this.subPipelines.add(subPipeline);
        return this;
    }

    public CompositePipeline setSubPipeline(SubPipeline... subPipelines) {
        this.subPipelines = new ArrayList<SubPipeline>();
        for (SubPipeline subPipeline : subPipelines) {
            this.subPipelines.add(subPipeline);
        }
        return this;
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/handler/PatternProcessor.java
================================================
package us.codecraft.webmagic.handler;

/**
 * @author code4crafer@gmail.com
 */
public abstract class PatternProcessor extends PatternRequestMatcher implements SubPipeline, SubPageProcessor {
    /**
     * @param pattern url pattern to handle
     */
    public PatternProcessor(String pattern) {
        super(pattern);
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/handler/PatternRequestMatcher.java
================================================
package us.codecraft.webmagic.handler;

import us.codecraft.webmagic.Request;

import java.util.regex.Pattern;

/**
 * Created with IntelliJ IDEA.
 * User: Sebastian MA
 * Date: April 03, 2014
 * Time: 10:00
 * <p>
 * A PatternHandler is in charge of both page extraction and data processing by implementing
 * its two abstract methods.
 */
public abstract class PatternRequestMatcher implements RequestMatcher {

    /**
     * match pattern. only matched page should be handled.
     */
    protected String pattern;

    private Pattern patternCompiled;

    /**
     * @param pattern url pattern to handle
     */
    public PatternRequestMatcher(String pattern) {
        this.pattern = pattern;
        this.patternCompiled = Pattern.compile(pattern);
    }

    @Override
    public boolean match(Request request) {
        return patternCompiled.matcher(request.getUrl()).matches();
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/handler/RequestMatcher.java
================================================
package us.codecraft.webmagic.handler;

import us.codecraft.webmagic.Request;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public interface RequestMatcher {

    /**
     * Check whether to process the page.<br><br>
     * Please DO NOT change page status in this method.
     *
     * @param page page
     *
     * @return whether matches
     */
    public boolean match(Request page);

    public enum MatchOther {
        YES, NO
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/handler/SubPageProcessor.java
================================================
package us.codecraft.webmagic.handler;

import us.codecraft.webmagic.Page;

/**
 * @author code4crafter@gmail.com
 */
public interface SubPageProcessor extends RequestMatcher {

	/**
	 * process the page, extract urls to fetch, extract the data and store
	 *
	 * @param page page
	 *
	 * @return whether continue to match
	 */
	public MatchOther processPage(Page page);

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/handler/SubPipeline.java
================================================
package us.codecraft.webmagic.handler;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public interface SubPipeline extends RequestMatcher {

    /**
     * process the page, extract urls to fetch, extract the data and store
     *
     * @param resultItems resultItems
     * @param task task
     * @return whether continue to match
     */
    public MatchOther processResult(ResultItems resultItems, Task task);

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/AfterExtractor.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.Page;

/**
 * Interface to be implemented by page models that need to do something after fields are extracted.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public interface AfterExtractor {

    public void afterProcess(Page page);
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/ConsolePageModelPipeline.java
================================================
package us.codecraft.webmagic.model;

import org.apache.commons.lang3.builder.ToStringBuilder;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.PageModelPipeline;

/**
 * Print page model in console.<br>
 * Usually used in test.<br>
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class ConsolePageModelPipeline implements PageModelPipeline {
    @Override
    public void process(Object o, Task task) {
        System.out.println(ToStringBuilder.reflectionToString(o));
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/Extractor.java
================================================
package us.codecraft.webmagic.model;

import lombok.Getter;
import lombok.Setter;

import us.codecraft.webmagic.model.sources.Source;
import us.codecraft.webmagic.selector.Selector;

/**
 * The object contains 'ExtractBy' information.
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class Extractor {

    @Getter @Setter
    protected Selector selector;

    @Getter
    protected final Source source;

    protected final boolean notNull;

    protected final boolean multi;
  
    public Extractor(Selector selector, Source source, boolean notNull, boolean multi) {
        this.selector = selector;
        this.source = source;
        this.notNull = notNull;
        this.multi = multi;
    }

    public boolean isNotNull() {
        return notNull;
    }

    public boolean isMulti() {
        return multi;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/FieldExtractor.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.model.formatter.ObjectFormatter;
import us.codecraft.webmagic.model.sources.Source;
import us.codecraft.webmagic.selector.Selector;

import java.lang.reflect.Field;
import java.lang.reflect.Method;

import lombok.Getter;
import lombok.Setter;

/**
 * Wrapper of field and extractor.
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class FieldExtractor extends Extractor {

    @Getter
    private final Field field;

    @Getter @Setter
    private Method setterMethod;

    @Getter @Setter
    private ObjectFormatter objectFormatter;

    public FieldExtractor(Field field, Selector selector, Source source, boolean notNull, boolean multi) {
        super(selector, source, notNull, multi);
        this.field = field;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/HasKey.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.utils.Experimental;

/**
 * Interface to be implemented by page mode.<br>
 * Can be used to identify a page model, or be used as name of file storing the object.<br>
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
@Experimental
public interface HasKey {

    /**
     *
     *
     * @return key
     */
    public String key();
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/ModelPageProcessor.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selector;

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * The extension to PageProcessor for page model extractor.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
class ModelPageProcessor implements PageProcessor {

    private List<PageModelExtractor> pageModelExtractorList = new ArrayList<PageModelExtractor>();

    private Site site;

    private boolean extractLinks = true;

    public static ModelPageProcessor create(Site site, Class... clazzs) {
        ModelPageProcessor modelPageProcessor = new ModelPageProcessor(site);
        for (Class clazz : clazzs) {
            modelPageProcessor.addPageModel(clazz);
        }
        return modelPageProcessor;
    }


    public ModelPageProcessor addPageModel(Class clazz) {
        PageModelExtractor pageModelExtractor = PageModelExtractor.create(clazz);
        pageModelExtractorList.add(pageModelExtractor);
        return this;
    }

    private ModelPageProcessor(Site site) {
        this.site = site;
    }

    @Override
    public void process(Page page) {
        for (PageModelExtractor pageModelExtractor : pageModelExtractorList) {
            if (extractLinks) {
                extractLinks(page, pageModelExtractor.getHelpUrlRegionSelector(), pageModelExtractor.getHelpUrlPatterns());
                extractLinks(page, pageModelExtractor.getTargetUrlRegionSelector(), pageModelExtractor.getTargetUrlPatterns());
            }
            Object process = pageModelExtractor.process(page);
            if (process == null || (process instanceof List && ((List) process).size() == 0)) {
                continue;
            }
            postProcessPageModel(pageModelExtractor.getClazz(), process);
            page.putField(pageModelExtractor.getClazz().getCanonicalName(), process);
        }
        if (page.getResultItems().getAll().size() == 0) {
            page.getResultItems().setSkip(true);
        }
    }

    private void extractLinks(Page page, Selector urlRegionSelector, List<Pattern> urlPatterns) {
        List<String> links;
        if (urlRegionSelector == null) {
            links = page.getHtml().links().all();
        } else {
            links = page.getHtml().selectList(urlRegionSelector).links().all();
        }
        for (String link : links) {
            for (Pattern targetUrlPattern : urlPatterns) {
                Matcher matcher = targetUrlPattern.matcher(link);
                if (matcher.find()) {
                    page.addTargetRequest(new Request(matcher.group(0)));
                }
            }
        }
    }

    protected void postProcessPageModel(Class clazz, Object object) {
    }

    @Override
    public Site getSite() {
        return site;
    }

    public boolean isExtractLinks() {
        return extractLinks;
    }

    public void setExtractLinks(boolean extractLinks) {
        this.extractLinks = extractLinks;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/ModelPipeline.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.pipeline.PageModelPipeline;
import us.codecraft.webmagic.pipeline.Pipeline;

import java.lang.annotation.Annotation;
import java.util.List;
import java.util.Map;
import java.util.concurrent.ConcurrentHashMap;

/**
 * The extension to Pipeline for page model extractor.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
class ModelPipeline implements Pipeline {

    private Map<Class, PageModelPipeline> pageModelPipelines = new ConcurrentHashMap<Class, PageModelPipeline>();

    public ModelPipeline() {
    }

    public ModelPipeline put(Class clazz, PageModelPipeline pageModelPipeline) {
        pageModelPipelines.put(clazz, pageModelPipeline);
        return this;
    }

    @Override
    public void process(ResultItems resultItems, Task task) {
        for (Map.Entry<Class, PageModelPipeline> classPageModelPipelineEntry : pageModelPipelines.entrySet()) {
            Object o = resultItems.get(classPageModelPipelineEntry.getKey().getCanonicalName());
            if (o != null) {
                Annotation annotation = classPageModelPipelineEntry.getKey().getAnnotation(ExtractBy.class);
                if (annotation == null || !((ExtractBy) annotation).multi()) {
                    classPageModelPipelineEntry.getValue().process(o, task);
                } else {
                    List<Object> list = (List<Object>) o;
                    for (Object o1 : list) {
                        classPageModelPipelineEntry.getValue().process(o1, task);
                    }
                }
            }
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/OOSpider.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.CollectorPipeline;
import us.codecraft.webmagic.pipeline.PageModelPipeline;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.ArrayList;
import java.util.List;

/**
 * The spider for page model extractor.<br>
 * In webmagic, we call a POJO containing extract result as "page model". <br>
 * You can customize a crawler by write a page model with annotations. <br>
 * Such as:
 * <pre>
 * {@literal @}TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
 *  public class OschinaBlog{
 *
 *      {@literal @}ExtractBy("//title")
 *      private String title;
 *
 *      {@literal @}ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)
 *      private String content;
 *
 *      {@literal @}ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
 *      private List&lt;String&gt; tags;
 * }
 * </pre>
 * And start the spider by:
 * <pre>
 *   OOSpider.create(Site.me().addStartUrl("http://my.oschina.net/flashsword/blog")
 *        ,new JsonFilePageModelPipeline(), OschinaBlog.class).run();
 * }
 * </pre>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class OOSpider<T> extends Spider {

    private ModelPageProcessor modelPageProcessor;

    private ModelPipeline modelPipeline;

    private PageModelPipeline pageModelPipeline;

    private List<Class> pageModelClasses = new ArrayList<Class>();

    protected OOSpider(ModelPageProcessor modelPageProcessor) {
        super(modelPageProcessor);
        this.modelPageProcessor = modelPageProcessor;
    }

    public OOSpider(PageProcessor pageProcessor) {
        super(pageProcessor);
    }

    /**
     * create a spider
     *
     * @param site site
     * @param pageModelPipeline pageModelPipeline
     * @param pageModels pageModels
     */
    public OOSpider(Site site, PageModelPipeline pageModelPipeline, Class... pageModels) {
        this(ModelPageProcessor.create(site, pageModels));
        this.modelPipeline = new ModelPipeline();
        super.addPipeline(modelPipeline);
        for (Class pageModel : pageModels) {
            if (pageModelPipeline != null) {
                this.modelPipeline.put(pageModel, pageModelPipeline);
            }
            pageModelClasses.add(pageModel);
        }
    }

    @Override
    protected CollectorPipeline getCollectorPipeline() {
        return new PageModelCollectorPipeline<T>(pageModelClasses.get(0));
    }

    public static OOSpider create(Site site, Class... pageModels) {
        return new OOSpider(site, null, pageModels);
    }

    public static OOSpider create(Site site, PageModelPipeline pageModelPipeline, Class... pageModels) {
        return new OOSpider(site, pageModelPipeline, pageModels);
    }

    public OOSpider addPageModel(PageModelPipeline pageModelPipeline, Class... pageModels) {
        for (Class pageModel : pageModels) {
            modelPageProcessor.addPageModel(pageModel);
            modelPipeline.put(pageModel, pageModelPipeline);
        }
        return this;
    }

    public OOSpider setIsExtractLinks(boolean isExtractLinks){
        modelPageProcessor.setExtractLinks(isExtractLinks);
        return this;
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/PageMapper.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.Page;

import java.util.List;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.2
 */
public class PageMapper<T> {

    private Class<T> clazz;

    private PageModelExtractor pageModelExtractor;

    public PageMapper(Class<T> clazz) {
        this.clazz = clazz;
        this.pageModelExtractor = PageModelExtractor.create(clazz);
    }

    public T get(Page page) {
        return (T) pageModelExtractor.process(page);
    }

    public List<T> getAll(Page page) {
        return (List<T>) pageModelExtractor.process(page);
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/PageModelCollectorPipeline.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.pipeline.CollectorPageModelPipeline;
import us.codecraft.webmagic.pipeline.CollectorPipeline;

import java.lang.annotation.Annotation;
import java.util.List;

/**
 * @author code4crafter@gmail.com
 * @since 0.4.0
 */
class PageModelCollectorPipeline<T> implements CollectorPipeline<T> {

    private final CollectorPageModelPipeline<T> classPipeline = new CollectorPageModelPipeline<T>();

    private final Class<?> clazz;

    PageModelCollectorPipeline(Class<?> clazz) {
        this.clazz = clazz;
    }

    @Override
    public List<T> getCollected() {
        return classPipeline.getCollected();
    }

    @Override
    public synchronized void process(ResultItems resultItems, Task task) {
        Object o = resultItems.get(clazz.getCanonicalName());
        if (o != null) {
            Annotation annotation = clazz.getAnnotation(ExtractBy.class);
            if (annotation == null || !((ExtractBy) annotation).multi()) {
                classPipeline.process((T) o, task);
            } else {
                List<Object> list = (List<Object>) o;
                for (Object o1 : list) {
                   classPipeline.process((T) o1, task);
                }
            }
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/PageModelExtractor.java
================================================
package us.codecraft.webmagic.model;

import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import lombok.Getter;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.model.annotation.*;
import us.codecraft.webmagic.model.fields.PageField;
import us.codecraft.webmagic.model.formatter.ObjectFormatterBuilder;
import us.codecraft.webmagic.model.sources.Source;
import us.codecraft.webmagic.model.sources.SourceTextExtractor;
import us.codecraft.webmagic.model.sources.Source.*;
import us.codecraft.webmagic.selector.*;
import us.codecraft.webmagic.utils.ClassUtils;
import us.codecraft.webmagic.utils.ExtractorUtils;

import java.lang.annotation.Annotation;
import java.lang.reflect.Field;
import java.lang.reflect.Method;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Pattern;

import static us.codecraft.webmagic.model.annotation.ExtractBy.Source.RawText;

/**
 * The main internal logic of page model extractor.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
class PageModelExtractor {

    @Getter
    private List<Pattern> targetUrlPatterns = new ArrayList<Pattern>();

    @Getter
    private Selector targetUrlRegionSelector;

    @Getter
    private List<Pattern> helpUrlPatterns = new ArrayList<Pattern>();

    @Getter
    private Selector helpUrlRegionSelector;

    @Getter
    private Class clazz;

    private List<FieldExtractor> fieldExtractors;

    private Extractor objectExtractor;

    private Logger logger = LoggerFactory.getLogger(getClass());

    public static PageModelExtractor create(Class clazz) {
        PageModelExtractor pageModelExtractor = new PageModelExtractor();
        pageModelExtractor.init(clazz);
        return pageModelExtractor;
    }

    private void init(Class clazz) {
        this.clazz = clazz;
        initClassExtractors();
        fieldExtractors = new ArrayList<FieldExtractor>();
        for (Field field : ClassUtils.getFieldsIncludeSuperClass(clazz)) {
            field.setAccessible(true);
            FieldExtractor fieldExtractor = getAnnotationExtractBy(clazz, field);
            FieldExtractor fieldExtractorTmp = getAnnotationExtractCombo(clazz, field);
            if (fieldExtractor != null && fieldExtractorTmp != null) {
                throw new IllegalStateException("Only one of 'ExtractBy ComboExtract ExtractByUrl' can be added to a field!");
            } else if (fieldExtractor == null && fieldExtractorTmp != null) {
                fieldExtractor = fieldExtractorTmp;
            }
            fieldExtractorTmp = getAnnotationExtractByUrl(clazz, field);
            if (fieldExtractor != null && fieldExtractorTmp != null) {
                throw new IllegalStateException("Only one of 'ExtractBy ComboExtract ExtractByUrl' can be added to a field!");
            } else if (fieldExtractor == null && fieldExtractorTmp != null) {
                fieldExtractor = fieldExtractorTmp;
            }
            if (fieldExtractor != null) {
                fieldExtractor.setObjectFormatter(new ObjectFormatterBuilder().setField(field).build());
                fieldExtractors.add(fieldExtractor);
            }
        }
    }

    private FieldExtractor getAnnotationExtractByUrl(Class clazz, Field field) {
        FieldExtractor fieldExtractor = null;
        ExtractByUrl extractByUrl = field.getAnnotation(ExtractByUrl.class);
        if (extractByUrl != null) {
            String regexPattern = extractByUrl.value();
            if (regexPattern.trim().equals("")) {
                regexPattern = ".*";
            }
            fieldExtractor = new FieldExtractor(field,
                    new RegexSelector(regexPattern), new Url(), extractByUrl.notNull(),
                    extractByUrl.multi() || List.class.isAssignableFrom(field.getType()));
            Method setterMethod = getSetterMethod(clazz, field);
            if (setterMethod != null) {
                fieldExtractor.setSetterMethod(setterMethod);
            }
        }
        return fieldExtractor;
    }

    private FieldExtractor getAnnotationExtractCombo(Class clazz, Field field) {
        FieldExtractor fieldExtractor = null;
        ComboExtract comboExtract = field.getAnnotation(ComboExtract.class);
        if (comboExtract != null) {
            ExtractBy[] extractBies = comboExtract.value();
            Selector selector;
            switch (comboExtract.op()) {
                case And:
                    selector = new AndSelector(ExtractorUtils.getSelectors(extractBies));
                    break;
                case Or:
                    selector = new OrSelector(ExtractorUtils.getSelectors(extractBies));
                    break;
                default:
                    selector = new AndSelector(ExtractorUtils.getSelectors(extractBies));
            }
            fieldExtractor = new FieldExtractor(field, selector, comboExtract.source() == ComboExtract.Source.RawHtml ? new RawHtml() : new SelectedHtml(),
                    comboExtract.notNull(), comboExtract.multi() || List.class.isAssignableFrom(field.getType()));
            Method setterMethod = getSetterMethod(clazz, field);
            if (setterMethod != null) {
                fieldExtractor.setSetterMethod(setterMethod);
            }
        }
        return fieldExtractor;
    }

    private FieldExtractor getAnnotationExtractBy(Class clazz, Field field) {
        FieldExtractor fieldExtractor = null;
        ExtractBy extractBy = field.getAnnotation(ExtractBy.class);
        if (extractBy != null) {
            Selector selector = ExtractorUtils.getSelector(extractBy);
            ExtractBy.Source extractSource = extractBy.source();
            if (extractBy.type()== ExtractBy.Type.JsonPath)
                extractSource = RawText;
            Source source = null;
            switch (extractSource) {
                case RawText:
                    source = new RawText();
                    break;
                case RawHtml:
                    source = new RawHtml();
                    break;
                case SelectedHtml:
                    source = new SelectedHtml();
                    break;
                default:
                    source = new SelectedHtml();
            }
            fieldExtractor = new FieldExtractor(field, selector, source,
                    extractBy.notNull(), List.class.isAssignableFrom(field.getType()));
            fieldExtractor.setSetterMethod(getSetterMethod(clazz, field));
        }
        return fieldExtractor;
    }

    public static Method getSetterMethod(Class clazz, Field field) {
        String name = "set" + StringUtils.capitalize(field.getName());
        try {
            Method declaredMethod = clazz.getDeclaredMethod(name, field.getType());
            declaredMethod.setAccessible(true);
            return declaredMethod;
        } catch (NoSuchMethodException e) {
            return null;
        }
    }

    private void initClassExtractors() {
        Annotation annotation = clazz.getAnnotation(TargetUrl.class);
        if (annotation == null) {
            targetUrlPatterns.add(Pattern.compile(".*"));
        } else {
            TargetUrl targetUrl = (TargetUrl) annotation;
            String[] value = targetUrl.value();
            for (String s : value) {
                targetUrlPatterns.add(Pattern.compile(s.replace(".", "\\.").replace("*", "[^\"'#]*")));
            }
            if (!targetUrl.sourceRegion().equals("")) {
                targetUrlRegionSelector = new XpathSelector(targetUrl.sourceRegion());
            }
        }
        annotation = clazz.getAnnotation(HelpUrl.class);
        if (annotation != null) {
            HelpUrl helpUrl = (HelpUrl) annotation;
            String[] value = helpUrl.value();
            for (String s : value) {
                helpUrlPatterns.add(Pattern.compile(s.replace(".", "\\.").replace("*", "[^\"'#]*")));
            }
            if (!helpUrl.sourceRegion().equals("")) {
                helpUrlRegionSelector = new XpathSelector(helpUrl.sourceRegion());
            }
        }
        annotation = clazz.getAnnotation(ExtractBy.class);
        if (annotation != null) {
            ExtractBy extractBy = (ExtractBy) annotation;
            objectExtractor = new Extractor(new XpathSelector(extractBy.value()), new SelectedHtml(), extractBy.notNull(), extractBy.multi());
        }
    }

    public Object process(Page page) {
        boolean matched = false;
        for (Pattern targetPattern : targetUrlPatterns) {
            if (targetPattern.matcher(page.getUrl().toString()).matches()) {
                matched = true;
            }
        }
        if (!matched) {
            return null;
        }
        if (objectExtractor == null) {
            return processSingle(page, null, true);
        } else {
            if (objectExtractor.multi) {
                List<Object> os = new ArrayList<Object>();
                List<String> list = objectExtractor.getSelector().selectList(page.getRawText());
                for (String s : list) {
                    Object o = processSingle(page, s, false);
                    if (o != null) {
                        os.add(o);
                    }
                }
                return os;
            } else {
                String select = objectExtractor.getSelector().select(page.getRawText());
                Object o = processSingle(page, select, false);
                return o;
            }
        }
    }

    private Object processSingle(Page page, String html, boolean isRaw) {
        Object o = null;
        try {
            o = clazz.newInstance();
            for (FieldExtractor fieldExtractor : fieldExtractors) {
                PageField field = SourceTextExtractor.getText(page, html, isRaw, fieldExtractor);
                if (!field.operation(o, fieldExtractor, logger))
                    return null;
            }
            if (AfterExtractor.class.isAssignableFrom(clazz))
                ((AfterExtractor) o).afterProcess(page);
        } catch (Exception e) {
            logger.error("extract fail", e);
        }
        return o;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/annotation/ComboExtract.java
================================================
package us.codecraft.webmagic.model.annotation;

import java.lang.annotation.ElementType;
import java.lang.annotation.Retention;
import java.lang.annotation.Target;

/**
 * Combo 'ExtractBy' extractor with and/or operator.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.1
 */
@Retention(java.lang.annotation.RetentionPolicy.RUNTIME)
@Target({ElementType.FIELD, ElementType.TYPE})
public @interface ComboExtract {

    /**
     * The extractors to be combined.
     *
     * @return the extractors to be combined
     */
    ExtractBy[] value();

    public static enum Op {
        /**
         * All extractors will be arranged as a pipeline. <br>
         * The next extractor uses the result of the previous as source.
         */
        And,
        /**
         * All extractors will do extracting separately, <br>
         * and the results of extractors will combined as the final result.
         */
        Or;
    }

    /**
     * Combining operation of extractors.<br>
     *
     * @return combining operation of extractors
     */
    Op op() default Op.And;

    /**
     * Define whether the field can be null.<br>
     * If set to 'true' and the extractor get no result, the entire class will be discarded. <br>
     *
     * @return whether the field can be null
     */
    boolean notNull() default false;

    /**
     * types of source for extracting.
     */
    public static enum Source {
        /**
         * extract from the content extracted by class extractor
         */
        SelectedHtml,
        /**
         * extract from the raw html
         */
        RawHtml
    }

    /**
     * The source for extracting. <br>
     * It works only if you already added 'ExtractBy' to Class. <br>
     *
     * @return the source for extracting
     */
    Source source() default Source.SelectedHtml;

    /**
     * Define whether the extractor return more than one result.
     * When set to 'true', the extractor return a list of string (so you should define the field as List). <br>
     *
     * Deprecated since 0.4.2. This option is determined automatically by the class of field.
     * @deprecated since 0.4.2
     * @return whether the extractor return more than one result
     */
    boolean multi() default false;

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/annotation/ExtractBy.java
================================================
package us.codecraft.webmagic.model.annotation;

import java.lang.annotation.ElementType;
import java.lang.annotation.Retention;
import java.lang.annotation.Target;

/**
 * Define the extractor for field or class.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
@Retention(java.lang.annotation.RetentionPolicy.RUNTIME)
@Target({ElementType.FIELD, ElementType.TYPE})
public @interface ExtractBy {

    /**
     * Extractor expression, support XPath, CSS Selector and regex.
     *
     * @return extractor expression
     */
    String value();

    /**
     * types of extractor expressions
     */
    public static enum Type {XPath, Regex, Css, JsonPath}

    /**
     * Extractor type, support XPath, CSS Selector and regex.
     *
     * @return extractor type
     */
    Type type() default Type.XPath;

    /**
     * Define whether the field can be null.<br>
     * If set to 'true' and the extractor get no result, the entire class will be discarded. <br>
     *
     * @return whether the field can be null
     */
    boolean notNull() default false;

    /**
     * types of source for extracting.
     */
    public static enum Source {
        /**
         * extract from the content extracted by class extractor
         */
        SelectedHtml,
        /**
         * extract from the raw html
         */
        RawHtml,
        RawText
    }

    /**
     * The source for extracting. <br>
     * It works only if you already added 'ExtractBy' to Class. <br>
     *
     * @return the source for extracting
     */
    Source source() default Source.SelectedHtml;

    /**
     * Define whether the extractor return more than one result.
     * When set to 'true', the extractor return a list of string (so you should define the field as List). <br>
     *
     * Deprecated since 0.4.2. This option is determined automatically by the class of field.
     * @deprecated since 0.4.2
     * @return whether the extractor return more than one result
     */
    boolean multi() default false;

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/annotation/ExtractByUrl.java
================================================
package us.codecraft.webmagic.model.annotation;

import java.lang.annotation.ElementType;
import java.lang.annotation.Retention;
import java.lang.annotation.Target;

/**
 * Define a extractor to extract data in url of current page. Only regex can be used. <br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
@Retention(java.lang.annotation.RetentionPolicy.RUNTIME)
@Target({ElementType.FIELD})
public @interface ExtractByUrl {

    /**
     * Extractor expression, only regex can be used
     *
     * @return extractor expression
     */
    String value() default "";

    /**
     * Define whether the field can be null.<br>
     * If set to 'true' and the extractor get no result, the entire class will be discarded. <br>
     *
     * @return whether the field can be null
     */
    boolean notNull() default false;

    /**
     * Define whether the extractor return more than one result.
     * When set to 'true', the extractor return a list of string (so you should define the field as List). <br>
     *
     * Deprecated since 0.4.2. This option is determined automatically by the class of field.
     * @deprecated since 0.4.2
     * @return whether the extractor return more than one result
     */
    boolean multi() default false;

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/annotation/Formatter.java
================================================
package us.codecraft.webmagic.model.annotation;

import us.codecraft.webmagic.model.formatter.ObjectFormatter;

import java.lang.annotation.ElementType;
import java.lang.annotation.Retention;
import java.lang.annotation.Target;

/**
 * Define how the result string is convert to an object for field.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.3.2
 */
@Retention(java.lang.annotation.RetentionPolicy.RUNTIME)
@Target({ElementType.FIELD})
public @interface Formatter {

    Class<ObjectFormatter> DEFAULT_FORMATTER = ObjectFormatter.class;

    /**
     * Set formatter params.
     *
     * @return formatter params
     */
    String[] value() default "";

    /**
     * Specific the class of field of class of elements in collection for field. <br>
     * It is not necessary to be set because we can detect the class by class of field,
     * unless you use a collection as a field. <br>
     *
     * @return the class of field
     */
    Class subClazz() default Void.class;

    /**
     * If there are more than one formatter for a class, just specify the implement.
     * @return implement
     */
    Class<? extends ObjectFormatter> formatter() default ObjectFormatter.class;

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/annotation/HelpUrl.java
================================================
package us.codecraft.webmagic.model.annotation;

import java.lang.annotation.ElementType;
import java.lang.annotation.Retention;
import java.lang.annotation.Target;

/**
 * Define the 'help' url patterns for class. <br>
 * All urls matching the pattern will be crawled and but not extracted for new objects. <br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
@Retention(java.lang.annotation.RetentionPolicy.RUNTIME)
@Target({ElementType.TYPE})
public @interface HelpUrl {

    /**
     * The url patterns to crawl. <br>
     * Use regex expression with some changes: <br>
     *      "." stand for literal character "." instead of "any character". <br>
     *      "*" stand for any legal character for url in 0-n length ([^"'#]*) instead of "any length". <br>
     *
     * @return the url patterns for class
     */
    String[] value();

    /**
     * Define the region for url extracting. <br>
     * Only support XPath.<br>
     * When sourceRegion is set, the urls will be extracted only from the region instead of entire content. <br>
     *
     * @return the region for url extracting
     */
    String sourceRegion() default "";
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/annotation/TargetUrl.java
================================================
package us.codecraft.webmagic.model.annotation;

import java.lang.annotation.ElementType;
import java.lang.annotation.Retention;
import java.lang.annotation.Target;

/**
 * Define the url patterns for class. <br>
 * All urls matching the pattern will be crawled and extracted for new objects. <br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
@Retention(java.lang.annotation.RetentionPolicy.RUNTIME)
@Target({ElementType.TYPE})
public @interface TargetUrl {

    /**
     * The url patterns for class.<br>
     * Use regex expression with some changes: <br>
     *      "." stand for literal character "." instead of "any character". <br>
     *      "*" stand for any legal character for url in 0-n length ([^"'#]*) instead of "any length". <br>
     *
     * @return the url patterns for class
     */
    String[] value();

    /**
     * Define the region for url extracting. <br>
     * Only support XPath.<br>
     * When sourceRegion is set, the urls will be extracted only from the region instead of entire content. <br>
     *
     * @return the region for url extracting
     */
    String sourceRegion() default "";

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/annotation/package.html
================================================
<html>
	<body>
Annotations for defining a extractor.
	</body>
</html>


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/fields/MultipleField.java
================================================
package us.codecraft.webmagic.model.fields;

import java.lang.reflect.InvocationTargetException;
import java.util.ArrayList;
import java.util.List;

import org.slf4j.Logger;

import lombok.Getter;
import us.codecraft.webmagic.model.FieldExtractor;
import us.codecraft.webmagic.model.formatter.ObjectFormatter;

public class MultipleField extends PageField {
   @Getter
   private List<String> fieldNames; 

   public MultipleField(List<String> fieldNames) {
      this.fieldNames = fieldNames;
   }
   
   public boolean operation(Object o, FieldExtractor fieldExtractor, Logger logger) throws IllegalAccessException, InvocationTargetException {
      if ((this.fieldNames == null || this.fieldNames.size() == 0) && fieldExtractor.isNotNull())
         return false;
      if (fieldExtractor.getObjectFormatter() != null) {
         List<Object> converted = this.convert(this.fieldNames, fieldExtractor.getObjectFormatter(), logger);
         setField(o, fieldExtractor, converted);
      }
      else
         setField(o, fieldExtractor, this.fieldNames);
      return true;
   }

   private List<Object> convert(List<String> values, ObjectFormatter objectFormatter, Logger logger) {
      List<Object> objects = new ArrayList<>();
      for (String value : values) {
          Object converted = this.convert(value, objectFormatter, logger);
          if (converted != null)
              objects.add(converted);
      }
      return objects;
  }
}

================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/fields/PageField.java
================================================
package us.codecraft.webmagic.model.fields;

import java.lang.reflect.InvocationTargetException;

import org.slf4j.Logger;

import us.codecraft.webmagic.model.FieldExtractor;
import us.codecraft.webmagic.model.formatter.ObjectFormatter;

public abstract class PageField {
   public abstract boolean operation(Object o, FieldExtractor fieldExtractor, Logger logger) throws IllegalAccessException, InvocationTargetException;

   protected Object convert(String value, ObjectFormatter objectFormatter, Logger logger) {
      try {
         Object format = objectFormatter.format(value);
         logger.debug("String {} is converted to {}", value, format);
         return format;
      } catch (Exception e) {
            logger.error("convert " + value + " to " + objectFormatter.clazz() + " error!", e);
      }
      return null;
   }

   protected void setField(Object o, FieldExtractor fieldExtractor, Object value) throws IllegalAccessException, InvocationTargetException {
      if (value != null) {
         if (fieldExtractor.getSetterMethod() != null)
            fieldExtractor.getSetterMethod().invoke(o, value);
         fieldExtractor.getField().set(o, value);
      }
   }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/fields/SingleField.java
================================================
package us.codecraft.webmagic.model.fields;

import java.lang.reflect.InvocationTargetException;

import org.slf4j.Logger;

import lombok.Getter;
import us.codecraft.webmagic.model.FieldExtractor;

public class SingleField extends PageField {
   @Getter
   private String fieldName; 

   public SingleField(String fieldName) {
      this.fieldName = fieldName;
   }

   public boolean operation(Object o, FieldExtractor fieldExtractor, Logger logger) throws IllegalAccessException, InvocationTargetException {
      if (fieldExtractor.getObjectFormatter() != null) {
         Object converted = this.convert(this.fieldName, fieldExtractor.getObjectFormatter(), logger);
         if (converted == null && fieldExtractor.isNotNull())
            return false;
         setField(o, fieldExtractor, converted);
      } else
         setField(o, fieldExtractor, this.fieldName);
      return true;
   }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/formatter/BasicClassDetector.java
================================================
package us.codecraft.webmagic.model.formatter;

public interface BasicClassDetector {
    Class<?> detectBasicClass(Class<?> type);
}

class IntegerClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Integer.TYPE) || type.equals(Integer.class)) {
            return Integer.class;
        }
        return null;
    }
}

class LongClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Long.TYPE) || type.equals(Long.class)) {
            return Long.class;
        }
        return null;
    }
}

class DoubleClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Double.TYPE) || type.equals(Double.class)) {
            return Double.class;
        }
        return null;
    }
}

class FloatClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Float.TYPE) || type.equals(Float.class)) {
            return Float.class;
        }
        return null;
    }
}

class ShortClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Short.TYPE) || type.equals(Short.class)) {
            return Short.class;
        }
        return null;
    }
}

class CharacterClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Character.TYPE) || type.equals(Character.class)) {
            return Character.class;
        }
        return null;
    }
}

class ByteClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Byte.TYPE) || type.equals(Byte.class)) {
            return Byte.class;
        }
        return null;
    }
}

class BooleanClassDetector implements BasicClassDetector {
    @Override
    public Class<?> detectBasicClass(Class<?> type) {
        if (type.equals(Boolean.TYPE) || type.equals(Boolean.class)) {
            return Boolean.class;
        }
        return null;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/formatter/BasicTypeFormatter.java
================================================
package us.codecraft.webmagic.model.formatter;

import java.util.Arrays;
import java.util.List;

/**
 * @author code4crafter@gmail.com
 * @since 0.3.2
 */
public abstract class BasicTypeFormatter<T> implements ObjectFormatter<T> {

    @Override
    public void initParam(String[] extra) {

    }

    @Override
    public T format(String raw) throws Exception {
        if (raw == null) {
            return null;
        }
        raw = raw.trim();
        return formatTrimmed(raw);
    }

    protected abstract T formatTrimmed(String raw) throws Exception;
    public static final List<Class<? extends ObjectFormatter>> basicTypeFormatters = Arrays.<Class<? extends ObjectFormatter>>asList(IntegerFormatter.class,
            LongFormatter.class, DoubleFormatter.class, FloatFormatter.class, ShortFormatter.class,
            CharactorFormatter.class, ByteFormatter.class, BooleanFormatter.class);
    public static final List<BasicClassDetector> basicClassDetector= Arrays.asList(new IntegerClassDetector(),
            new LongClassDetector(),
            new FloatClassDetector(),
            new DoubleClassDetector(),
            new ShortClassDetector(),
            new ByteClassDetector(),
            new BooleanClassDetector(),
            new CharacterClassDetector());

    public static Class<?> detectBasicClass(Class<?> type) {
        for (BasicClassDetector detector : basicClassDetector) {
            Class<?> detectedClass = detector.detectBasicClass(type);
            if (detectedClass != null) {
                return detectedClass;
            }
        }
        return type;
    }

    public static class IntegerFormatter extends BasicTypeFormatter<Integer> {
        @Override
        public Integer formatTrimmed(String raw) throws Exception {
            return Integer.parseInt(raw);
        }

        @Override
        public Class<Integer> clazz() {
            return Integer.class;
        }
    }

    public static class LongFormatter extends BasicTypeFormatter<Long> {
        @Override
        public Long formatTrimmed(String raw) throws Exception {
            return Long.parseLong(raw);
        }

        @Override
        public Class<Long> clazz() {
            return Long.class;
        }
    }

    public static class DoubleFormatter extends BasicTypeFormatter<Double> {
        @Override
        public Double formatTrimmed(String raw) throws Exception {
            return Double.parseDouble(raw);
        }

        @Override
        public Class<Double> clazz() {
            return Double.class;
        }
    }

    public static class FloatFormatter extends BasicTypeFormatter<Float> {
        @Override
        public Float formatTrimmed(String raw) throws Exception {
            return Float.parseFloat(raw);
        }

        @Override
        public Class<Float> clazz() {
            return Float.class;
        }
    }

    public static class ShortFormatter extends BasicTypeFormatter<Short> {
        @Override
        public Short formatTrimmed(String raw) throws Exception {
            return Short.parseShort(raw);
        }

        @Override
        public Class<Short> clazz() {
            return Short.class;
        }
    }

    public static class CharactorFormatter extends BasicTypeFormatter<Character> {
        @Override
        public Character formatTrimmed(String raw) throws Exception {
            return raw.charAt(0);
        }

        @Override
        public Class<Character> clazz() {
            return Character.class;
        }
    }

    public static class ByteFormatter extends BasicTypeFormatter<Byte> {
        @Override
        public Byte formatTrimmed(String raw) throws Exception {
            return Byte.parseByte(raw, 10);
        }

        @Override
        public Class<Byte> clazz() {
            return Byte.class;
        }
    }

    public static class BooleanFormatter extends BasicTypeFormatter<Boolean> {
        @Override
        public Boolean formatTrimmed(String raw) throws Exception {
            return Boolean.parseBoolean(raw);
        }

        @Override
        public Class<Boolean> clazz() {
            return Boolean.class;
        }
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/formatter/DateFormatter.java
================================================
package us.codecraft.webmagic.model.formatter;

import org.apache.commons.lang3.time.DateUtils;

import java.util.Date;

/**
 * @author code4crafter@gmail.com
 * @since 0.3.2
 */
public class DateFormatter implements ObjectFormatter<Date> {

    public static final String[] DEFAULT_PATTERN = new String[]{"yyyy-MM-dd HH:mm"};
    private String[] datePatterns = DEFAULT_PATTERN;

    @Override
    public Date format(String raw) throws Exception {
        return DateUtils.parseDate(raw, datePatterns);
    }

    @Override
    public Class<Date> clazz() {
        return Date.class;
    }

    @Override
    public void initParam(String[] extra) {
        if (extra != null && !(extra.length == 1 && extra[0].length() == 0)) {
            datePatterns = extra;
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/formatter/ObjectFormatter.java
================================================
package us.codecraft.webmagic.model.formatter;

/**
 * @author code4crafter@gmail.com
 */
public interface ObjectFormatter<T> {

    T format(String raw) throws Exception;

    Class<T> clazz();

    void initParam(String[] extra);

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/formatter/ObjectFormatterBuilder.java
================================================
package us.codecraft.webmagic.model.formatter;

import us.codecraft.webmagic.model.annotation.Formatter;

import java.lang.reflect.Field;
import java.util.List;

/**
 * @author code4crafter@gmail.com
 * @since 0.7.0
 *         Date: 2017/6/3
 */
public class ObjectFormatterBuilder {

    private Field field;

    public ObjectFormatterBuilder setField(Field field) {
        this.field = field;
        return this;
    }

    private ObjectFormatter initFormatterForType(Class<?> fieldClazz, String[] params) {
        if (fieldClazz.equals(String.class) || List.class.isAssignableFrom(fieldClazz)){
            return null;
        }
        Class<? extends ObjectFormatter> formatterClass = ObjectFormatters.get(BasicTypeFormatter.detectBasicClass(fieldClazz));
        if (formatterClass == null) {
            throw new IllegalStateException("Can't find formatter for field " + field.getName() + " of type " + fieldClazz);
        }
        return initFormatter(formatterClass, params);
    }

    private ObjectFormatter initFormatter(Class<? extends ObjectFormatter> formatterClazz, String[] params) {
        try {
            ObjectFormatter objectFormatter = formatterClazz.newInstance();
            objectFormatter.initParam(params);
            return objectFormatter;
        } catch (InstantiationException e) {
            throw new RuntimeException(e);
        } catch (IllegalAccessException e) {
            throw new RuntimeException(e);
        }
    }

    public ObjectFormatter build() {
        Formatter formatter = field.getAnnotation(Formatter.class);
        if (formatter != null && !formatter.formatter().equals(Formatter.DEFAULT_FORMATTER)) {
            return initFormatter(formatter.formatter(), formatter.value());
        }
        if (formatter == null || formatter.subClazz().equals(Void.class)) {
            return initFormatterForType(field.getType(), formatter != null ? formatter.value() : null);
        } else {
            return initFormatterForType(formatter.subClazz(), formatter.value());
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/formatter/ObjectFormatters.java
================================================
package us.codecraft.webmagic.model.formatter;

import java.util.Map;
import java.util.concurrent.ConcurrentHashMap;

/**
 * @author code4crafter@gmail.com
 * @since 0.3.2
 */
public class ObjectFormatters {

    private static Map<Class, Class<? extends ObjectFormatter>> formatterMap = new ConcurrentHashMap<Class, Class<? extends ObjectFormatter>>();

    static {
        for (Class<? extends ObjectFormatter> basicTypeFormatter : BasicTypeFormatter.basicTypeFormatters) {
            put(basicTypeFormatter);
        }
        put(DateFormatter.class);
    }

    public static void put(Class<? extends ObjectFormatter> objectFormatter) {
        try {
            formatterMap.put(objectFormatter.newInstance().clazz(), objectFormatter);
        } catch (InstantiationException e) {
            throw new RuntimeException(e);
        } catch (IllegalAccessException e) {
            throw new RuntimeException(e);
        }
    }

    public static Class<? extends ObjectFormatter> get(Class<?> clazz){
        return formatterMap.get(clazz);
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/package.html
================================================
<html>
	<body>
Page model and annotations used to customize a crawler.
	</body>
</html>


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/sources/Source.java
================================================
package us.codecraft.webmagic.model.sources;

import java.util.List;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.model.FieldExtractor;

public interface Source {
   public String getText(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor);
   public List<String> getTextList(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor);

   public class RawHtml implements Source {
      public String getText(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return page.getHtml().selectDocument(fieldExtractor.getSelector());
      }
   
      public List<String> getTextList(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return page.getHtml().selectDocumentForList(fieldExtractor.getSelector());
      }
   }
   
   public class SelectedHtml implements Source {
      public String getText(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         if (isRaw)
            return page.getHtml().selectDocument(fieldExtractor.getSelector());
         else
            return fieldExtractor.getSelector().select(html);
      }
   
      public List<String> getTextList(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         if (isRaw)
            return page.getHtml().selectDocumentForList(fieldExtractor.getSelector());
         else
            return fieldExtractor.getSelector().selectList(html);
      }
   }
   
   public class Url implements Source {
      public String getText(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return fieldExtractor.getSelector().select(page.getUrl().toString());
      }
   
      public List<String> getTextList(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return fieldExtractor.getSelector().selectList(page.getUrl().toString());
      }
   }
   
   public class RawText implements Source {
      public String getText(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return fieldExtractor.getSelector().select(page.getRawText());
      }
   
      public List<String> getTextList(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return fieldExtractor.getSelector().selectList(page.getRawText());
      }
   }
   
   public class DefaultSource implements Source {
      public String getText(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return fieldExtractor.getSelector().select(html);
      }
   
      public List<String> getTextList(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
         return fieldExtractor.getSelector().selectList(html);
      }
   }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/model/sources/SourceTextExtractor.java
================================================
package us.codecraft.webmagic.model.sources;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.model.FieldExtractor;
import us.codecraft.webmagic.model.fields.MultipleField;
import us.codecraft.webmagic.model.fields.PageField;
import us.codecraft.webmagic.model.fields.SingleField;

public class SourceTextExtractor {
   public static PageField getText(Page page, String html, boolean isRaw, FieldExtractor fieldExtractor) {
      Source source = fieldExtractor.getSource();
      if (fieldExtractor.isMulti())
         return new MultipleField(source.getTextList(page, html, isRaw, fieldExtractor));
      else
         return new SingleField(source.getText(page, html, isRaw, fieldExtractor));
   }
}

================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/monitor/SpiderMonitor.java
================================================
package us.codecraft.webmagic.monitor;

import java.lang.management.ManagementFactory;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.concurrent.atomic.AtomicInteger;

import javax.management.InstanceAlreadyExistsException;
import javax.management.JMException;
import javax.management.MBeanRegistrationException;
import javax.management.MBeanServer;
import javax.management.MalformedObjectNameException;
import javax.management.NotCompliantMBeanException;
import javax.management.ObjectName;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.SpiderListener;
import us.codecraft.webmagic.utils.Experimental;
import us.codecraft.webmagic.utils.UrlUtils;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
@Experimental
public class SpiderMonitor {

    private static final SpiderMonitor INSTANCE = new SpiderMonitor();

    private MBeanServer mbeanServer;

    private String jmxServerName;

    private List<SpiderStatusMXBean> spiderStatuses = new ArrayList<>();

    protected SpiderMonitor() {
        jmxServerName = "WebMagic";
        mbeanServer = ManagementFactory.getPlatformMBeanServer();
    }

    /**
     * Register spider for monitor.
     *
     * @param spiders spiders
     * @return this
     * @throws JMException JMException
     */
    public synchronized SpiderMonitor register(Spider... spiders) throws JMException {
        for (Spider spider : spiders) {
            MonitorSpiderListener monitorSpiderListener = new MonitorSpiderListener();
            if (spider.getSpiderListeners() == null) {
                List<SpiderListener> spiderListeners = new ArrayList<>();
                spiderListeners.add(monitorSpiderListener);
                spider.setSpiderListeners(spiderListeners);
            } else {
                spider.getSpiderListeners().add(monitorSpiderListener);
            }
            SpiderStatusMXBean spiderStatusMBean = getSpiderStatusMBean(spider, monitorSpiderListener);
            registerMBean(spiderStatusMBean);
            spiderStatuses.add(spiderStatusMBean);
        }
        return this;
    }

    protected SpiderStatusMXBean getSpiderStatusMBean(Spider spider, MonitorSpiderListener monitorSpiderListener) {
        return new SpiderStatus(spider, monitorSpiderListener);
    }

    protected List<SpiderStatusMXBean> getSpiderStatuses() {
        return this.spiderStatuses;
    }

    public static SpiderMonitor instance() {
        return INSTANCE;
    }

    public class MonitorSpiderListener implements SpiderListener {

        private final AtomicInteger successCount = new AtomicInteger(0);

        private final AtomicInteger errorCount = new AtomicInteger(0);

        private List<String> errorUrls = Collections.synchronizedList(new ArrayList<String>());

        @Override
        public void onSuccess(Request request) {
            successCount.incrementAndGet();
        }

        @Override
        public void onError(Request request, Exception e) {
            errorUrls.add(request.getUrl());
            errorCount.incrementAndGet();
        }

        public AtomicInteger getSuccessCount() {
            return successCount;
        }

        public AtomicInteger getErrorCount() {
            return errorCount;
        }

        public List<String> getErrorUrls() {
            return errorUrls;
        }
    }

    protected void registerMBean(SpiderStatusMXBean spiderStatus) throws MalformedObjectNameException, InstanceAlreadyExistsException, MBeanRegistrationException, NotCompliantMBeanException {
        ObjectName objName = new ObjectName(jmxServerName + ":name=" + UrlUtils.removePort(spiderStatus.getName()));
        mbeanServer.registerMBean(spiderStatus, objName);
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/monitor/SpiderStatus.java
================================================
package us.codecraft.webmagic.monitor;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.scheduler.MonitorableScheduler;

import java.util.Date;
import java.util.List;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public class SpiderStatus implements SpiderStatusMXBean {

    protected final Spider spider;

    protected Logger logger = LoggerFactory.getLogger(getClass());

    protected final SpiderMonitor.MonitorSpiderListener monitorSpiderListener;

    public SpiderStatus(Spider spider, SpiderMonitor.MonitorSpiderListener monitorSpiderListener) {
        this.spider = spider;
        this.monitorSpiderListener = monitorSpiderListener;
    }

    public String getName() {
        return spider.getUUID();
    }

    public int getLeftPageCount() {
        if (spider.getScheduler() instanceof MonitorableScheduler) {
            return ((MonitorableScheduler) spider.getScheduler()).getLeftRequestsCount(spider);
        }
        logger.warn("Get leftPageCount fail, try to use a Scheduler implement MonitorableScheduler for monitor count!");
        return -1;
    }

    public int getTotalPageCount() {
        if (spider.getScheduler() instanceof MonitorableScheduler) {
            return ((MonitorableScheduler) spider.getScheduler()).getTotalRequestsCount(spider);
        }
        logger.warn("Get totalPageCount fail, try to use a Scheduler implement MonitorableScheduler for monitor count!");
        return -1;
    }

    @Override
    public int getSuccessPageCount() {
        return monitorSpiderListener.getSuccessCount().get();
    }

    @Override
    public int getErrorPageCount() {
        return monitorSpiderListener.getErrorCount().get();
    }

    public List<String> getErrorPages() {
        return monitorSpiderListener.getErrorUrls();
    }

    @Override
    public String getStatus() {
        return spider.getStatus().name();
    }

    @Override
    public int getThread() {
        return spider.getThreadAlive();
    }

    public void start() {
        spider.start();
    }

    public void stop() {
        spider.stop();
    }

    @Override
    public Date getStartTime() {
        return spider.getStartTime();
    }

    @Override
    public int getPagePerSecond() {
        if (getStartTime() != null) {
            int runSeconds = (int) (System.currentTimeMillis() - getStartTime().getTime()) / 1000;
            if (runSeconds != 0) {
                return getSuccessPageCount() / runSeconds;
            }
        }
        return -1;
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/monitor/SpiderStatusMXBean.java
================================================
package us.codecraft.webmagic.monitor;

import java.util.Date;
import java.util.List;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public interface SpiderStatusMXBean {

    public String getName();

    public String getStatus();

    public int getThread();

    public int getTotalPageCount();

    public int getLeftPageCount();

    public int getSuccessPageCount();

    public int getErrorPageCount();

    public List<String> getErrorPages();

    public void start();

    public void stop();

    public Date getStartTime();

    public int getPagePerSecond();
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/pipeline/CollectorPageModelPipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import us.codecraft.webmagic.Task;

import java.util.ArrayList;
import java.util.List;

/**
 * @author code4crafter@gmail.com
 */
public class CollectorPageModelPipeline<T> implements PageModelPipeline<T> {

    private List<T> collected = new ArrayList<T>();

    @Override
    public synchronized void process(T t, Task task) {
        collected.add(t);
    }

    public List<T> getCollected() {
        return collected;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/pipeline/FilePageModelPipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import org.apache.commons.codec.digest.DigestUtils;
import org.apache.commons.lang3.builder.ToStringBuilder;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.model.HasKey;
import us.codecraft.webmagic.utils.FilePersistentBase;

import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;

/**
 * Store results objects (page models) to files in plain format.<br>
 * Use model.getKey() as file name if the model implements HasKey.<br>
 * Otherwise use SHA1 as file name.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.3.0
 */
public class FilePageModelPipeline extends FilePersistentBase implements PageModelPipeline {

    private Logger logger = LoggerFactory.getLogger(getClass());

    /**
     * new JsonFilePageModelPipeline with default path "/data/webmagic/"
     */
    public FilePageModelPipeline() {
        setPath("/data/webmagic/");
    }

    public FilePageModelPipeline(String path) {
        setPath(path);
    }

    @Override
    public void process(Object o, Task task) {
        String path = this.path + PATH_SEPERATOR + task.getUUID() + PATH_SEPERATOR;
        try {
            String filename;
            if (o instanceof HasKey) {
                filename = path + ((HasKey) o).key() + ".html";
            } else {
                filename = path + DigestUtils.md5Hex(ToStringBuilder.reflectionToString(o)) + ".html";
            }
            PrintWriter printWriter = new PrintWriter(new FileWriter(getFile(filename)));
            printWriter.write(ToStringBuilder.reflectionToString(o));
            printWriter.close();
        } catch (IOException e) {
            logger.warn("write file error", e);
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/pipeline/JsonFilePageModelPipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import com.alibaba.fastjson.JSON;
import org.apache.commons.codec.digest.DigestUtils;
import org.apache.commons.lang3.builder.ToStringBuilder;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.model.HasKey;
import us.codecraft.webmagic.utils.FilePersistentBase;

import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;

/**
 * Store results objects (page models) to files in JSON format.<br>
 * Use model.getKey() as file name if the model implements HasKey.<br>
 * Otherwise use SHA1 as file name.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class JsonFilePageModelPipeline extends FilePersistentBase implements PageModelPipeline {

    private Logger logger = LoggerFactory.getLogger(getClass());

    /**
     * new JsonFilePageModelPipeline with default path "/data/webmagic/"
     */
    public JsonFilePageModelPipeline() {
        setPath("/data/webmagic/");
    }

    public JsonFilePageModelPipeline(String path) {
        setPath(path);
    }

    @Override
    public void process(Object o, Task task) {
        String path = this.path + PATH_SEPERATOR + task.getUUID() + PATH_SEPERATOR;
        try {
            String filename;
            if (o instanceof HasKey) {
                filename = path + ((HasKey) o).key() + ".json";
            } else {
                filename = path + DigestUtils.md5Hex(ToStringBuilder.reflectionToString(o)) + ".json";
            }
            PrintWriter printWriter = new PrintWriter(new FileWriter(getFile(filename)));
            printWriter.write(JSON.toJSONString(o));
            printWriter.close();
        } catch (IOException e) {
            logger.warn("write file error", e);
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/pipeline/JsonFilePipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import com.alibaba.fastjson.JSON;
import org.apache.commons.codec.digest.DigestUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.utils.FilePersistentBase;

import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;

/**
 * Store results to files in JSON format.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class JsonFilePipeline extends FilePersistentBase implements Pipeline {

    private Logger logger = LoggerFactory.getLogger(getClass());

    /**
     * new JsonFilePageModelPipeline with default path "/data/webmagic/"
     */
    public JsonFilePipeline() {
        setPath("/data/webmagic");
    }

    public JsonFilePipeline(String path) {
        setPath(path);
    }

    @Override
    public void process(ResultItems resultItems, Task task) {
        String path = this.path + PATH_SEPERATOR + task.getUUID() + PATH_SEPERATOR;
        try {
            PrintWriter printWriter = new PrintWriter(new FileWriter(getFile(path + DigestUtils.md5Hex(resultItems.getRequest().getUrl()) + ".json")));
            printWriter.write(JSON.toJSONString(resultItems.getAll()));
            printWriter.close();
        } catch (IOException e) {
            logger.warn("write file error", e);
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/pipeline/MultiPagePipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import us.codecraft.webmagic.MultiPageModel;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.utils.Experimental;
import us.codecraft.webmagic.utils.DoubleKeyMap;

import java.util.*;
import java.util.concurrent.ConcurrentHashMap;

/**
 * A pipeline combines the result in more than one page together.<br>
 * Used for news and articles containing more than one web page. <br>
 * MultiPagePipeline will store parts of object and output them when all parts are extracted.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
@Experimental
public class MultiPagePipeline implements Pipeline {

    private DoubleKeyMap<String, String, Boolean> pageMap = new DoubleKeyMap<String, String, Boolean>(ConcurrentHashMap.class);

    private DoubleKeyMap<String, String, MultiPageModel> objectMap = new DoubleKeyMap<String, String, MultiPageModel>(ConcurrentHashMap.class);

    @Override
    public void process(ResultItems resultItems, Task task) {
        Map<String, Object> resultItemsAll = resultItems.getAll();
        Iterator<Map.Entry<String, Object>> iterator = resultItemsAll.entrySet().iterator();
        while (iterator.hasNext()) {
            handleObject(iterator);
        }
    }

    private void handleObject(Iterator<Map.Entry<String, Object>> iterator) {
        Map.Entry<String, Object> objectEntry = iterator.next();
        Object o = objectEntry.getValue();
        //需要拼凑
        if (o instanceof MultiPageModel) {
            MultiPageModel multiPageModel = (MultiPageModel) o;
            //这次处理的部分，设置为完成
            pageMap.put(multiPageModel.getPageKey(), multiPageModel.getPage(), Boolean.FALSE);
            //每个key单独加锁
            synchronized (pageMap.get(multiPageModel.getPageKey())) {
                pageMap.put(multiPageModel.getPageKey(), multiPageModel.getPage(), Boolean.TRUE);
                //其他需要拼凑的部分
                if (multiPageModel.getOtherPages() != null) {
                    for (String otherPage : multiPageModel.getOtherPages()) {
                        Boolean aBoolean = pageMap.get(multiPageModel.getPageKey(), otherPage);
                        if (aBoolean == null) {
                            pageMap.put(multiPageModel.getPageKey(), otherPage, Boolean.FALSE);
                        }
                    }
                }
                //check if all pages are processed
                Map<String, Boolean> booleanMap = pageMap.get(multiPageModel.getPageKey());
                objectMap.put(multiPageModel.getPageKey(), multiPageModel.getPage(), multiPageModel);
                if (booleanMap == null) {
                    return;
                }
                // /过滤，这次完成的page item中，还未拼凑完整的item，不进入下一个pipeline
                for (Map.Entry<String, Boolean> stringBooleanEntry : booleanMap.entrySet()) {
                    if (!stringBooleanEntry.getValue()) {
                        iterator.remove();
                        return;
                    }
                }
                List<Map.Entry<String, MultiPageModel>> entryList = new ArrayList<Map.Entry<String, MultiPageModel>>();
                entryList.addAll(objectMap.get(multiPageModel.getPageKey()).entrySet());
                if (entryList.size() != 0) {
                    Collections.sort(entryList, new Comparator<Map.Entry<String, MultiPageModel>>() {
                        @Override
                        public int compare(Map.Entry<String, MultiPageModel> o1, Map.Entry<String, MultiPageModel> o2) {
                            try {
                                int i1 = Integer.parseInt(o1.getKey());
                                int i2 = Integer.parseInt(o2.getKey());
                                return i1 - i2;
                            } catch (NumberFormatException e) {
                                return o1.getKey().compareTo(o2.getKey());
                            }
                        }
                    });
                    // 合并
                    MultiPageModel value = entryList.get(0).getValue();
                    for (int i = 1; i < entryList.size(); i++) {
                        value = value.combine(entryList.get(i).getValue());
                    }
                    objectEntry.setValue(value);
                }
            }
        }

    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/pipeline/PageModelPipeline.java
================================================
package us.codecraft.webmagic.pipeline;

import us.codecraft.webmagic.Task;

/**
 * Implements PageModelPipeline to persistent your page model.
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public interface PageModelPipeline<T> {

    public void process(T t, Task task);

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/scheduler/BloomFilterDuplicateRemover.java
================================================
package us.codecraft.webmagic.scheduler;

/**
 * @author code4crafter@gmail.com
 *         Date: 16/12/18
 *         Time: 上午10:23
 */

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;

import java.nio.charset.Charset;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * BloomFilterDuplicateRemover for huge number of urls.
 *
 * @author code4crafer@gmail.com
 * @since 0.5.1
 */
public class BloomFilterDuplicateRemover implements DuplicateRemover {

    private int expectedInsertions;

    private double fpp;

    private AtomicInteger counter;

    public BloomFilterDuplicateRemover(int expectedInsertions) {
        this(expectedInsertions, 0.01);
    }

    /**
     *
     * @param expectedInsertions the number of expected insertions to the constructed
     * @param fpp the desired false positive probability (must be positive and less than 1.0)
     */
    public BloomFilterDuplicateRemover(int expectedInsertions, double fpp) {
        this.expectedInsertions = expectedInsertions;
        this.fpp = fpp;
        this.bloomFilter = rebuildBloomFilter();
    }

    protected BloomFilter<CharSequence> rebuildBloomFilter() {
        counter = new AtomicInteger(0);
        return BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), expectedInsertions, fpp);
    }

    private final BloomFilter<CharSequence> bloomFilter;

    @Override
    public boolean isDuplicate(Request request, Task task) {
        boolean isDuplicate = bloomFilter.mightContain(getUrl(request));
        if (!isDuplicate) {
            bloomFilter.put(getUrl(request));
            counter.incrementAndGet();
        }
        return isDuplicate;
    }

    protected String getUrl(Request request) {
        return request.getUrl();
    }

    @Override
    public void resetDuplicateCheck(Task task) {
        rebuildBloomFilter();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return counter.get();
    }
}

================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/scheduler/FileCacheQueueScheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import org.apache.commons.lang3.math.NumberUtils;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

import java.io.*;
import java.util.concurrent.*;
import java.util.concurrent.atomic.AtomicBoolean;
import java.util.concurrent.atomic.AtomicInteger;


/**
 * Store urls and cursor in files so that a Spider can resume the status when shutdown.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class FileCacheQueueScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler, Closeable {

    private String filePath = System.getProperty("java.io.tmpdir");

    private String fileUrlAllName = ".urls.txt";

    private Task task;

    private String fileCursor = ".cursor.txt";

    private PrintWriter fileUrlWriter;

    private PrintWriter fileCursorWriter;

    private AtomicInteger cursor = new AtomicInteger();

    private AtomicBoolean inited = new AtomicBoolean(false);

    private BlockingQueue<Request> queue;

    private ScheduledExecutorService flushThreadPool;

    public FileCacheQueueScheduler(String filePath) {
        if (!filePath.endsWith("/") && !filePath.endsWith("\\")) {
            filePath += "/";
        }
        this.filePath = filePath;
        initDuplicateRemover();
    }

    private void flush() {
        fileUrlWriter.flush();
        fileCursorWriter.flush();
    }

    private void init(Task task) {
        this.task = task;
        File file = new File(filePath);
        if (!file.exists()) {
            file.mkdirs();
        }
        readFile();
        initWriter();
        initFlushThread();
        inited.set(true);
        logger.info("init cache scheduler success");
    }

    private void initDuplicateRemover() {
        BloomFilterDuplicateRemover bloomFilterDuplicateRemover = new BloomFilterDuplicateRemover(this.filePath.hashCode());
        setDuplicateRemover(bloomFilterDuplicateRemover);
    }

    private void initFlushThread() {
        flushThreadPool = Executors.newScheduledThreadPool(1);
        flushThreadPool.scheduleAtFixedRate(this::flush, 10, 10, TimeUnit.SECONDS);
    }

    private void initWriter() {
        try {
            fileUrlWriter = new PrintWriter(new FileWriter(getFileName(fileUrlAllName), true));
            fileCursorWriter = new PrintWriter(new FileWriter(getFileName(fileCursor), false));
        } catch (IOException e) {
            throw new RuntimeException("init cache scheduler error", e);
        }
    }

    private void readFile() {
        try {
            queue = new LinkedBlockingQueue<Request>();
            readCursorFile();
            readUrlFile();
            // initDuplicateRemover();
        } catch (FileNotFoundException e) {
            //init
            logger.info("init cache file " + getFileName(fileUrlAllName));
        } catch (IOException e) {
            logger.error("init file error", e);
        }
    }

    private void readUrlFile() throws IOException {
        try (BufferedReader fileUrlReader = new BufferedReader(new FileReader(getFileName(fileUrlAllName)))) {
            String line;
            int lineReaded = 0;
            while ((line = fileUrlReader.readLine()) != null) {
                Request request = deserializeRequest(line);
                this.getDuplicateRemover().isDuplicate(request, null);
                lineReaded++;
                if (lineReaded > cursor.get()) {
                    queue.add(request);
                }
            }
        }
    }

    private void readCursorFile() throws IOException {
        String fileName = getFileName(fileCursor);
        try (BufferedReader fileCursorReader = new BufferedReader(new FileReader(fileName))) {
            String line;
            String lastLine = null;
            //read the last number
            while ((line = fileCursorReader.readLine()) != null) {
                line = line.trim();
                if (!line.isEmpty()) {
                    lastLine = line;
                }
            }
            if (lastLine != null) {
                cursor.set(NumberUtils.toInt(lastLine));
            }
        }
    }

    public void close() throws IOException {
        flushThreadPool.shutdown();
        fileUrlWriter.close();
        fileCursorWriter.close();
    }

    private String getFileName(String filename) {
        return filePath + task.getUUID() + filename;
    }

    @Override
    protected void pushWhenNoDuplicate(Request request, Task task) {
        if (!inited.get()) {
            init(task);
        }
        queue.add(request);
        fileUrlWriter.println(serializeRequest(request));
    }

    @Override
    public synchronized Request poll(Task task) {
        if (!inited.get()) {
            init(task);
        }
        fileCursorWriter.println(cursor.incrementAndGet());
        return queue.poll();
    }

    @Override
    public int getLeftRequestsCount(Task task) {
        return queue.size();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return getDuplicateRemover().getTotalRequestsCount(task);
    }

    protected String serializeRequest(Request request) {
        return request.getUrl();
    }

    protected Request deserializeRequest(String line) {
        return new Request(line);
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/scheduler/RedisPriorityScheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import java.util.Set;

import org.apache.commons.codec.digest.DigestUtils;
import org.apache.commons.lang3.StringUtils;

import com.alibaba.fastjson.JSON;

import redis.clients.jedis.Jedis;
import redis.clients.jedis.JedisPool;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;

/**
 * the redis scheduler with priority
 * @author sai
 * Created by sai on 16-5-27.
 */
public class RedisPriorityScheduler extends RedisScheduler {

    private static final String ZSET_PREFIX = "zset_";

    private static final String QUEUE_PREFIX = "queue_";

    private static final String NO_PRIORITY_SUFFIX = "_zore";

    private static final String PLUS_PRIORITY_SUFFIX    = "_plus";

    private static final String MINUS_PRIORITY_SUFFIX   = "_minus";

    public RedisPriorityScheduler(String host) {
        super(host);
    }

    public RedisPriorityScheduler(JedisPool pool) {
        super(pool);
    }

    @Override
    protected void pushWhenNoDuplicate(Request request, Task task) {
        try (Jedis jedis = pool.getResource()) {
            if (request.getPriority() > 0) {
                jedis.zadd(getZsetPlusPriorityKey(task), request.getPriority(), request.getUrl());
            } else if (request.getPriority() < 0) {
                jedis.zadd(getZsetMinusPriorityKey(task), request.getPriority(), request.getUrl());
            } else {
                jedis.lpush(getQueueNoPriorityKey(task), request.getUrl());
            }

            setExtrasInItem(jedis, request, task);
        }
    }

    @Override
    public synchronized Request poll(Task task) {
        try (Jedis jedis = pool.getResource()) {
            String url = getRequest(jedis, task);
            if (StringUtils.isBlank(url)) {
                return null;
            }
            return getExtrasInItem(jedis, url, task);
        }
    }

    private String getRequest(Jedis jedis, Task task) {
        String url;
        Set<String> urls = jedis.zrevrange(getZsetPlusPriorityKey(task), 0, 0);
        if (urls.isEmpty()) {
            url = jedis.lpop(getQueueNoPriorityKey(task));
            if (StringUtils.isBlank(url)) {
                urls = jedis.zrevrange(getZsetMinusPriorityKey(task), 0, 0);
                if (!urls.isEmpty()) {
                    url = urls.toArray(new String[0])[0];
                    jedis.zrem(getZsetMinusPriorityKey(task), url);
                }
            }
        } else {
            url = urls.toArray(new String[0])[0];
            jedis.zrem(getZsetPlusPriorityKey(task), url);
        }
        return url;
    }

    @Override
    public void resetDuplicateCheck(Task task) {
        try (Jedis jedis = pool.getResource()) {
            jedis.del(getSetKey(task));
        }
    }

    private String getZsetPlusPriorityKey(Task task) {
        return ZSET_PREFIX + task.getUUID() + PLUS_PRIORITY_SUFFIX;
    }

    private String getQueueNoPriorityKey(Task task) {
        return QUEUE_PREFIX + task.getUUID() + NO_PRIORITY_SUFFIX;
    }

    private String getZsetMinusPriorityKey(Task task) {
        return ZSET_PREFIX + task.getUUID() + MINUS_PRIORITY_SUFFIX;
    }

    private void setExtrasInItem(Jedis jedis,Request request, Task task) {
        if (!request.getExtras().isEmpty()) {
            String field = DigestUtils.sha1Hex(request.getUrl());
            String value = JSON.toJSONString(request);
            jedis.hset(getItemKey(task), field, value);
        }
    }

    private Request getExtrasInItem(Jedis jedis, String url, Task task) {
        String key      = getItemKey(task);
        String field    = DigestUtils.sha1Hex(url);
        byte[] bytes    = jedis.hget(key.getBytes(), field.getBytes());
        if (bytes != null) {
            return JSON.parseObject(new String(bytes), Request.class);
        }
        return new Request(url);
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/scheduler/RedisScheduler.java
================================================
package us.codecraft.webmagic.scheduler;

import org.apache.commons.codec.digest.DigestUtils;
import org.apache.commons.lang3.StringUtils;

import com.alibaba.fastjson.JSON;

import redis.clients.jedis.Jedis;
import redis.clients.jedis.JedisPool;
import redis.clients.jedis.JedisPoolConfig;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;

/**
 * Use Redis as url scheduler for distributed crawlers.<br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.0
 */
public class RedisScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler, DuplicateRemover {

    protected JedisPool pool;

    private static final String QUEUE_PREFIX = "queue_";

    private static final String SET_PREFIX = "set_";

    private static final String ITEM_PREFIX = "item_";

    public RedisScheduler(String host) {
        this(new JedisPool(new JedisPoolConfig(), host));
    }

    public RedisScheduler(JedisPool pool) {
        this.pool = pool;
        setDuplicateRemover(this);
    }

    @Override
    public void resetDuplicateCheck(Task task) {
        try (Jedis jedis = pool.getResource()) {
            jedis.del(getSetKey(task));
        }
    }

    @Override
    public boolean isDuplicate(Request request, Task task) {
		try (Jedis jedis = pool.getResource()) {
            return jedis.sadd(getSetKey(task), request.getUrl()) == 0;
        }

    }

    @Override
    protected void pushWhenNoDuplicate(Request request, Task task) {
        Jedis jedis = pool.getResource();
        try {
            jedis.rpush(getQueueKey(task), request.getUrl());
            if (checkForAdditionalInfo(request)) {
                String field = DigestUtils.sha1Hex(request.getUrl());
                String value = JSON.toJSONString(request);
                jedis.hset((ITEM_PREFIX + task.getUUID()), field, value);
            }
        } finally {
            jedis.close();
        }
    }

    private boolean checkForAdditionalInfo(Request request) {
        if (request == null) {
            return false;
        }

        if (!request.getHeaders().isEmpty() || !request.getCookies().isEmpty()) {
            return true;
        }

        if (StringUtils.isNotBlank(request.getCharset()) || StringUtils.isNotBlank(request.getMethod())) {
            return true;
        }

        if (request.isBinaryContent() || request.getRequestBody() != null) {
            return true;
        }

        if (!request.getExtras().isEmpty()) {
            return true;
        }
        if (request.getPriority() != 0L) {
            return true;
        }

        return false;
    }

    @Override
    public synchronized Request poll(Task task) {
		try (Jedis jedis = pool.getResource()) {
            String url = jedis.lpop(getQueueKey(task));
            if (url == null) {
                return null;
            }
            String key = ITEM_PREFIX + task.getUUID();
            String field = DigestUtils.sha1Hex(url);
            byte[] bytes = jedis.hget(key.getBytes(), field.getBytes());
            if (bytes != null) {
                Request o = JSON.parseObject(new String(bytes), Request.class);
                return o;
            }
            Request request = new Request(url);
            return request;
        }
    }

    protected String getSetKey(Task task) {
        return SET_PREFIX + task.getUUID();
    }

    protected String getQueueKey(Task task) {
        return QUEUE_PREFIX + task.getUUID();
    }

    protected String getItemKey(Task task) {
        return ITEM_PREFIX + task.getUUID();
    }

    @Override
    public int getLeftRequestsCount(Task task) {
        try (Jedis jedis = pool.getResource()) {
            Long size = jedis.llen(getQueueKey(task));
            return size.intValue();
        }
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        try (Jedis jedis = pool.getResource()) {
            Long size = jedis.scard(getSetKey(task));
            return size.intValue();
        }
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/utils/ClassUtils.java
================================================
package us.codecraft.webmagic.utils;

import java.lang.reflect.Field;
import java.util.LinkedHashSet;
import java.util.Set;

/**
 * @author code4crafter@gmail.com
 * @since 0.5.0
 */
public abstract class ClassUtils {

    public static Set<Field> getFieldsIncludeSuperClass(Class clazz) {
        Set<Field> fields = new LinkedHashSet<Field>();
        Class current = clazz;
        while (current != null) {
            Field[] currentFields = current.getDeclaredFields();
            for (Field currentField : currentFields) {
                fields.add(currentField);
            }
            current = current.getSuperclass();
        }
        return fields;
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/utils/DoubleKeyMap.java
================================================
package us.codecraft.webmagic.utils;

import java.util.Map;

/**
 * @author code4crafter@gmail.com
 */
public class DoubleKeyMap<K1, K2, V> extends MultiKeyMapBase {
    private Map<K1, Map<K2, V>> map;

    public DoubleKeyMap() {
        init();
    }

    public DoubleKeyMap(Map<K1, Map<K2, V>> map) {
        this(map,DEFAULT_CLAZZ);
    }

    public DoubleKeyMap(Class<? extends Map> protoMapClass) {
        super(protoMapClass);
        init();
    }

    private void init() {
        if (map == null) {
            map = this.<K1, Map<K2, V>>newMap();
        }
    }

    /**
     * init map with protoMapClass
     *
     * @param map the origin map to contains the DoubleKeyMap
     * @param protoMapClass protoMapClass
     */
    @SuppressWarnings("rawtypes")
    public DoubleKeyMap(Map<K1, Map<K2, V>> map, Class<? extends Map> protoMapClass) {
        super(protoMapClass);
        this.map = map;
        init();
    }

    /**
     * @param key key
     * @return map
     */
    public Map<K2, V> get(K1 key) {
        return map.get(key);
    }

    /**
     * @param key1 key1
     * @param key2 key2
     * @return value
     */
    public V get(K1 key1, K2 key2) {
        if (get(key1) == null) {
            return null;
        }
        return get(key1).get(key2);
    }


    /**
     * @param key1 key1
     * @param submap submap
     * @return value
     */
    public V put(K1 key1, Map<K2, V> submap) {
        return put(key1, submap);
    }

    /**
     * @param key1 key1
     * @param key2 key2
     * @param value value
     * @return value
     */
    public synchronized V put(K1 key1, K2 key2, V value) {
        if (map.get(key1) == null) {
            //不加锁的话，多个线程有可能都会执行到这里
            map.put(key1, this.<K2, V>newMap());
        }
        return get(key1).put(key2, value);
    }

    /**
     * @param key1 key1
     * @param key2 key2
     * @return value
     */
    public synchronized V remove(K1 key1, K2 key2) {
        if (get(key1) == null) {
            return null;
        }
        V remove = get(key1).remove(key2);
        if (get(key1).size() == 0) {
            remove(key1);
        }
        return remove;
    }

    /**
     * @param key1 key1
     * @return map
     */
    public Map<K2, V> remove(K1 key1) {
        Map<K2, V> remove = map.remove(key1);
        return remove;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/utils/ExtractorUtils.java
================================================
package us.codecraft.webmagic.utils;

import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.selector.*;

import java.util.ArrayList;
import java.util.List;

/**
 * Tools for annotation converting. <br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.1
 */
public class ExtractorUtils {

    public static Selector getSelector(ExtractBy extractBy) {
        String value = extractBy.value();
        Selector selector;
        switch (extractBy.type()) {
            case Css:
                selector = new CssSelector(value);
                break;
            case Regex:
                selector = new RegexSelector(value);
                break;
            case XPath:
                selector = new XpathSelector(value);
                break;
            case JsonPath:
                selector = new JsonPathSelector(value);
                break;
            default:
                selector = new XpathSelector(value);
        }
        return selector;
    }

    public static List<Selector> getSelectors(ExtractBy[] extractBies) {
        List<Selector> selectors = new ArrayList<Selector>();
        if (extractBies == null) {
            return selectors;
        }
        for (ExtractBy extractBy : extractBies) {
            selectors.add(getSelector(extractBy));
        }
        return selectors;
    }
}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/utils/IPUtils.java
================================================
package us.codecraft.webmagic.utils;

import java.net.Inet6Address;
import java.net.InetAddress;
import java.net.NetworkInterface;
import java.net.SocketException;
import java.util.Enumeration;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public abstract class IPUtils {

    public static String getFirstNoLoopbackIPAddresses() throws SocketException {

        Enumeration<NetworkInterface> networkInterfaces = NetworkInterface.getNetworkInterfaces();

        InetAddress localAddress = null;
        while (networkInterfaces.hasMoreElements()) {
            NetworkInterface networkInterface = networkInterfaces.nextElement();
            Enumeration<InetAddress> inetAddresses = networkInterface.getInetAddresses();
            while (inetAddresses.hasMoreElements()) {
                InetAddress address = inetAddresses.nextElement();
                if (!address.isLoopbackAddress() && !Inet6Address.class.isInstance(address)) {
                    return address.getHostAddress();
                } else if (!address.isLoopbackAddress()) {
                    localAddress = address;
                }
            }
        }

        return localAddress.getHostAddress();
    }

}


================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/utils/MultiKeyMapBase.java
================================================
package us.codecraft.webmagic.utils;

/**
 * @author code4crafter@gmail.com
 */

import java.util.HashMap;
import java.util.Map;

/**
 * multi-key map, some basic objects *
 *
 * @author yihua.huang
 */
public abstract class MultiKeyMapBase {

    protected static final Class<? extends Map> DEFAULT_CLAZZ = HashMap.class;
    @SuppressWarnings("rawtypes")
    private Class<? extends Map> protoMapClass = DEFAULT_CLAZZ;

    public MultiKeyMapBase() {
    }

    @SuppressWarnings("rawtypes")
    public MultiKeyMapBase(Class<? extends Map> protoMapClass) {
        this.protoMapClass = protoMapClass;
    }

    @SuppressWarnings("unchecked")
    protected <K, V2> Map<K, V2> newMap() {
        try {
            return (Map<K, V2>) protoMapClass.newInstance();
        } catch (InstantiationException e) {
            throw new IllegalArgumentException("wrong proto type map "
                    + protoMapClass);
        } catch (IllegalAccessException e) {
            throw new IllegalArgumentException("wrong proto type map "
                    + protoMapClass);
        }
    }
}

================================================
FILE: webmagic-extension/src/main/java/us/codecraft/webmagic/utils/RequestUtils.java
================================================
package us.codecraft.webmagic.utils;

import us.codecraft.webmagic.Request;

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/6/5
 *         Time: 下午4:58
 */
public abstract class RequestUtils {

    private static Pattern p4Range = Pattern.compile("\\[(\\d+)\\-(\\d+)\\]");

    public static List<Request> from(String exp){
        Matcher matcher = p4Range.matcher(exp);
        if (!matcher.find()) {
            return Collections.singletonList(new Request(exp));
        }
        int rangeFrom = Integer.parseInt(matcher.group(1));
        int rangeTo = Integer.parseInt(matcher.group(2));
        if (rangeFrom > rangeTo) {
            return Collections.emptyList();
        }
        List<Request> requests = new ArrayList<Request>(rangeTo - rangeFrom + 1);
        for (int i = rangeFrom; i <= rangeTo; i++) {
            requests.add(new Request(matcher.replaceAll(String.valueOf(i))));
        }
        return requests;
    }

}


================================================
FILE: webmagic-extension/src/main/resources/crawl.js
================================================
var system = require('system');
var url = system.args[1];

var page = require('webpage').create();
page.settings.loadImages = false;
page.settings.resourceTimeout = 5000;

page.open(url, function (status) {
    if (status != 'success') {
        console.log("HTTP request failed!");
    } else {
        console.log(page.content);
    }

    page.close();
    phantom.exit();
});

================================================
FILE: webmagic-extension/src/main/resources/spider-config-draft.xml
================================================
<!--This is a draft of config file.
If you have any advice, go https://github.com/code4craft/webmagic/issues/106 and comment!-->
<spider>
    <site>
        <charset>utf-8</charset>
        <user-agent></user-agent>
        <cookies>
            <cookie domain="" path="" name="" value="">
            </cookie>
        </cookies>
        <heads>
            <head name="" value=""/>
        </heads>
    </site>

    <startUrls>
        <url></url>
    </startUrls>

    <extraction targetUrl="" helpUrl="">
        <field name="title">
            <extractor type="xpath" value="//div[@class='title']"/>
        </field>
        <field name="content">
            <extractor type="xpath" value="//div[@class='content']"/>
        </field>
    </extraction>

</spider>

================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/MockPageModelPipeline.java
================================================
package us.codecraft.webmagic;

import junit.framework.Assert;
import us.codecraft.webmagic.pipeline.PageModelPipeline;

/**
 * @author code4crafter@gmail.com
 */
public class MockPageModelPipeline implements PageModelPipeline{
    @Override
    public void process(Object o, Task task) {
        Assert.assertNotNull(o);
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/MockPipeline.java
================================================
package us.codecraft.webmagic;

import us.codecraft.webmagic.pipeline.Pipeline;

/**
 * @author code4crafter@gmail.com
 */
public class MockPipeline implements Pipeline{
    @Override
    public void process(ResultItems resultItems, Task task) {

    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/SimpleHttpClientTest.java
================================================
package us.codecraft.webmagic;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.model.AfterExtractor;
import us.codecraft.webmagic.model.annotation.ExtractBy;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/6/3
 *         Time: 下午2:54
 */
public class SimpleHttpClientTest {

    public static class Weather implements AfterExtractor {

        private String location;

        @ExtractBy(notNull = true, value = "//div[@id='7d']//ul[@class='t']/li[2]/p[@class='tem']/i/regex('([\\-\\d]+)',1)")
        private Integer lowTemperature;

        @ExtractBy(notNull = true, value = "//div[@id='7d']//ul[@class='t']/li[2]/p[@class='tem']/span/regex('([\\-\\d]+)',1)")
        private Integer highTemperature;

        @ExtractBy(notNull = true, value = "//div[@id='7d']//ul[@class='t']/li[2]/p[@class='wea']/text()")
        private String desc;

        @Override
        public void afterProcess(Page page) {
            if (lowTemperature > highTemperature) {
                int temp = lowTemperature;
                lowTemperature = highTemperature;
                highTemperature = temp;
            }
        }

        public String getLocation() {
            return location;
        }

        public void setLocation(String location) {
            this.location = location;
        }

        public Integer getLowTemperature() {
            return lowTemperature;
        }

        public void setLowTemperature(Integer lowTemperature) {
            this.lowTemperature = lowTemperature;
        }

        public Integer getHighTemperature() {
            return highTemperature;
        }

        public void setHighTemperature(Integer highTemperature) {
            this.highTemperature = highTemperature;
        }

        public String getDesc() {
            return desc;
        }

        public void setDesc(String desc) {
            this.desc = desc;
        }

        @Override
        public String toString() {
            return "Weather{" +
                    "location='" + location + '\'' +
                    ", lowTemperature=" + lowTemperature +
                    ", highTemperature=" + highTemperature +
                    ", desc='" + desc + '\'' +
                    '}';
        }
    }

    @Ignore
    @Test
    public void test() throws Exception {
        Weather weather = new SimpleHttpClient(Site.me()).get("http://www.weather.com.cn/weather/101020100.shtml", Weather.class);
        assertThat(weather).isNotNull();
    }

}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/configurable/ConfigurablePageProcessorTest.java
================================================
package us.codecraft.webmagic.configurable;

import org.junit.Test;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.downloader.MockGithubDownloader;

import java.util.ArrayList;
import java.util.List;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 */
public class ConfigurablePageProcessorTest {

    @Test
    public void test() throws Exception {
        List<ExtractRule> extractRules = new ArrayList<ExtractRule>();
        ExtractRule extractRule = new ExtractRule();
        extractRule.setExpressionType(ExpressionType.XPath);
        extractRule.setExpressionValue("//title");
        extractRule.setFieldName("title");
        extractRules.add(extractRule);
        extractRule = new ExtractRule();
        extractRule.setExpressionType(ExpressionType.XPath);
        extractRule.setExpressionValue("//ul[@class='pagehead-actions']/li[1]//a[@class='social-count js-social-count']/text()");
        extractRule.setFieldName("star");
        extractRules.add(extractRule);
        ResultItems resultItems = Spider.create(new ConfigurablePageProcessor(Site.me(), extractRules))
                .setDownloader(new MockGithubDownloader()).get("https://github.com/code4craft/webmagic");
        assertThat(resultItems.getAll()).containsEntry("title", "<title>code4craft/webmagic · GitHub</title>");
        assertThat(resultItems.getAll()).containsEntry("star", " 86 ");

    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/downloader/MockGithubDownloader.java
================================================
package us.codecraft.webmagic.downloader;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.selector.PlainText;

/**
 * @author code4crafter@gmail.com
 */
public class MockGithubDownloader implements Downloader{

    private String html = "\n" +
            "\n" +
            "\n" +
            "\n" +
            "<!DOCTYPE html>\n" +
            "<html>\n" +
            "  <head prefix=\"og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# githubog: http://ogp.me/ns/fb/githubog#\">\n" +
            "    <meta charset='utf-8'>\n" +
            "    <meta http-equiv=\"X-UA-Compatible\" content=\"IE=edge\">\n" +
            "        <title>code4craft/webmagic · GitHub</title>\n" +
            "    <link rel=\"search\" type=\"application/opensearchdescription+xml\" href=\"/opensearch.xml\" title=\"GitHub\" />\n" +
            "    <link rel=\"fluid-icon\" href=\"https://github.com/fluidicon.png\" title=\"GitHub\" />\n" +
            "    <link rel=\"apple-touch-icon\" sizes=\"57x57\" href=\"/apple-touch-icon-114.png\" />\n" +
            "    <link rel=\"apple-touch-icon\" sizes=\"114x114\" href=\"/apple-touch-icon-114.png\" />\n" +
            "    <link rel=\"apple-touch-icon\" sizes=\"72x72\" href=\"/apple-touch-icon-144.png\" />\n" +
            "    <link rel=\"apple-touch-icon\" sizes=\"144x144\" href=\"/apple-touch-icon-144.png\" />\n" +
            "    <link rel=\"logo\" type=\"image/svg\" href=\"https://github-media-downloads.s3.amazonaws.com/github-logo.svg\" />\n" +
            "    <meta property=\"og:image\" content=\"https://github.global.ssl.fastly.net/images/modules/logos_page/Octocat.png\">\n" +
            "    <meta name=\"hostname\" content=\"github-fe114-cp1-prd.iad.github.net\">\n" +
            "    <meta name=\"ruby\" content=\"ruby 1.9.3p194-tcs-github-tcmalloc (2012-05-25, TCS patched 2012-05-27, GitHub v1.0.36) [x86_64-linux]\">\n" +
            "    <link rel=\"assets\" href=\"https://github.global.ssl.fastly.net/\">\n" +
            "    <link rel=\"xhr-socket\" href=\"/_sockets\" />\n" +
            "    \n" +
            "    \n" +
            "\n" +
            "\n" +
            "    <meta name=\"msapplication-TileImage\" content=\"/windows-tile.png\" />\n" +
            "    <meta name=\"msapplication-TileColor\" content=\"#ffffff\" />\n" +
            "    <meta name=\"selected-link\" value=\"repo_source\" data-pjax-transient />\n" +
            "    <meta content=\"collector.githubapp.com\" name=\"octolytics-host\" /><meta content=\"github\" name=\"octolytics-app-id\" /><meta content=\"D2167A02:4E87:89497A:523FCC67\" name=\"octolytics-dimension-request_id\" />\n" +
            "    \n" +
            "\n" +
            "    \n" +
            "    \n" +
            "    <link rel=\"icon\" type=\"image/x-icon\" href=\"/favicon.ico\" />\n" +
            "\n" +
            "    <meta content=\"authenticity_token\" name=\"csrf-param\" />\n" +
            "<meta content=\"i4/tXwrpqoMtPPKJTN4eSSPnFfrSzZkuIkeP//SUW34=\" name=\"csrf-token\" />\n" +
            "\n" +
            "    <link href=\"https://github.global.ssl.fastly.net/assets/github-4d622651f87d0cfd8c33f1c020455121d2af0be0.css\" media=\"all\" rel=\"stylesheet\" type=\"text/css\" />\n" +
            "    <link href=\"https://github.global.ssl.fastly.net/assets/github2-2c867c2081830b4a942703b9d3d565bf90f6046d.css\" media=\"all\" rel=\"stylesheet\" type=\"text/css\" />\n" +
            "    \n" +
            "\n" +
            "    \n" +
            "\n" +
            "      <script src=\"https://github.global.ssl.fastly.net/assets/frameworks-8db79d6d3d61c3bdec72ede901c2b6dbd4a79dad.js\" type=\"text/javascript\"></script>\n" +
            "      <script src=\"https://github.global.ssl.fastly.net/assets/github-0053cb56d6961482e50d72f8e19dc915009ce6b7.js\" type=\"text/javascript\"></script>\n" +
            "      \n" +
            "      <meta http-equiv=\"x-pjax-version\" content=\"b5479068af2118811ca4dcd8c0c29e66\">\n" +
            "\n" +
            "        <meta property=\"og:title\" content=\"webmagic\"/>\n" +
            "  <meta property=\"og:type\" content=\"githubog:gitrepository\"/>\n" +
            "  <meta property=\"og:url\" content=\"https://github.com/code4craft/webmagic\"/>\n" +
            "  <meta property=\"og:image\" content=\"https://github.global.ssl.fastly.net/images/gravatars/gravatar-user-420.png\"/>\n" +
            "  <meta property=\"og:site_name\" content=\"GitHub\"/>\n" +
            "  <meta property=\"og:description\" content=\"webmagic - A scalable web crawler framework.\"/>\n" +
            "\n" +
            "  <meta name=\"description\" content=\"webmagic - A scalable web crawler framework.\" />\n" +
            "\n" +
            "  <meta content=\"1351884\" name=\"octolytics-dimension-user_id\" /><meta content=\"code4craft\" name=\"octolytics-dimension-user_login\" /><meta content=\"9623064\" name=\"octolytics-dimension-repository_id\" /><meta content=\"code4craft/webmagic\" name=\"octolytics-dimension-repository_nwo\" /><meta content=\"true\" name=\"octolytics-dimension-repository_public\" /><meta content=\"false\" name=\"octolytics-dimension-repository_is_fork\" /><meta content=\"9623064\" name=\"octolytics-dimension-repository_network_root_id\" /><meta content=\"code4craft/webmagic\" name=\"octolytics-dimension-repository_network_root_nwo\" />\n" +
            "  <link href=\"https://github.com/code4craft/webmagic/commits/master.atom\" rel=\"alternate\" title=\"Recent Commits to webmagic:master\" type=\"application/atom+xml\" />\n" +
            "\n" +
            "  </head>\n" +
            "\n" +
            "\n" +
            "  <body class=\"logged_out  env-production macintosh vis-public\">\n" +
            "    <div class=\"wrapper\">\n" +
            "      \n" +
            "      \n" +
            "      \n" +
            "\n" +
            "\n" +
            "      \n" +
            "      <div class=\"header header-logged-out\">\n" +
            "  <div class=\"container clearfix\">\n" +
            "\n" +
            "    <a class=\"header-logo-wordmark\" href=\"https://github.com/\">\n" +
            "      <span class=\"mega-octicon octicon-logo-github\"></span>\n" +
            "    </a>\n" +
            "\n" +
            "    <div class=\"header-actions\">\n" +
            "        <a class=\"button primary\" href=\"/signup\">Sign up</a>\n" +
            "      <a class=\"button signin\" href=\"/login?return_to=%2Fcode4craft%2Fwebmagic\">Sign in</a>\n" +
            "    </div>\n" +
            "\n" +
            "    <div class=\"command-bar js-command-bar  in-repository\">\n" +
            "\n" +
            "      <ul class=\"top-nav\">\n" +
            "          <li class=\"explore\"><a href=\"/explore\">Explore</a></li>\n" +
            "        <li class=\"features\"><a href=\"/features\">Features</a></li>\n" +
            "          <li class=\"enterprise\"><a href=\"https://enterprise.github.com/\">Enterprise</a></li>\n" +
            "          <li class=\"blog\"><a href=\"/blog\">Blog</a></li>\n" +
            "      </ul>\n" +
            "        <form accept-charset=\"UTF-8\" action=\"/search\" class=\"command-bar-form\" id=\"top_search_form\" method=\"get\">\n" +
            "\n" +
            "<input type=\"text\" data-hotkey=\"/ s\" name=\"q\" id=\"js-command-bar-field\" placeholder=\"Search or type a command\" tabindex=\"1\" autocapitalize=\"off\"\n" +
            "    \n" +
            "    \n" +
            "      data-repo=\"code4craft/webmagic\"\n" +
            "      data-branch=\"master\"\n" +
            "      data-sha=\"c5ed5916d20b96963d906dde8bccc3627568e486\"\n" +
            "  >\n" +
            "\n" +
            "    <input type=\"hidden\" name=\"nwo\" value=\"code4craft/webmagic\" />\n" +
            "\n" +
            "    <div class=\"select-menu js-menu-container js-select-menu search-context-select-menu\">\n" +
            "      <span class=\"minibutton select-menu-button js-menu-target\">\n" +
            "        <span class=\"js-select-button\">This repository</span>\n" +
            "      </span>\n" +
            "\n" +
            "      <div class=\"select-menu-modal-holder js-menu-content js-navigation-container\">\n" +
            "        <div class=\"select-menu-modal\">\n" +
            "\n" +
            "          <div class=\"select-menu-item js-navigation-item js-this-repository-navigation-item selected\">\n" +
            "            <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "            <input type=\"radio\" class=\"js-search-this-repository\" name=\"search_target\" value=\"repository\" checked=\"checked\" />\n" +
            "            <div class=\"select-menu-item-text js-select-button-text\">This repository</div>\n" +
            "          </div> <!-- /.select-menu-item -->\n" +
            "\n" +
            "          <div class=\"select-menu-item js-navigation-item js-all-repositories-navigation-item\">\n" +
            "            <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "            <input type=\"radio\" name=\"search_target\" value=\"global\" />\n" +
            "            <div class=\"select-menu-item-text js-select-button-text\">All repositories</div>\n" +
            "          </div> <!-- /.select-menu-item -->\n" +
            "\n" +
            "        </div>\n" +
            "      </div>\n" +
            "    </div>\n" +
            "\n" +
            "  <span class=\"octicon help tooltipped downwards\" title=\"Show command bar help\">\n" +
            "    <span class=\"octicon octicon-question\"></span>\n" +
            "  </span>\n" +
            "\n" +
            "\n" +
            "  <input type=\"hidden\" name=\"ref\" value=\"cmdform\">\n" +
            "\n" +
            "</form>\n" +
            "    </div>\n" +
            "\n" +
            "  </div>\n" +
            "</div>\n" +
            "\n" +
            "\n" +
            "      \n" +
            "\n" +
            "\n" +
            "          <div class=\"site\" itemscope itemtype=\"http://schema.org/WebPage\">\n" +
            "    \n" +
            "    <div class=\"pagehead repohead instapaper_ignore readability-menu\">\n" +
            "      <div class=\"container\">\n" +
            "        \n" +
            "\n" +
            "<ul class=\"pagehead-actions\">\n" +
            "\n" +
            "\n" +
            "  <li>\n" +
            "  <a href=\"/login?return_to=%2Fcode4craft%2Fwebmagic\"\n" +
            "  class=\"minibutton with-count js-toggler-target star-button entice tooltipped upwards\"\n" +
            "  title=\"You must be signed in to use this feature\" rel=\"nofollow\">\n" +
            "  <span class=\"octicon octicon-star\"></span>Star\n" +
            "</a>\n" +
            "<a class=\"social-count js-social-count\" href=\"/code4craft/webmagic/stargazers\">\n" +
            "  86\n" +
            "</a>\n" +
            "\n" +
            "  </li>\n" +
            "\n" +
            "    <li>\n" +
            "      <a href=\"/login?return_to=%2Fcode4craft%2Fwebmagic\"\n" +
            "        class=\"minibutton with-count js-toggler-target fork-button entice tooltipped upwards\"\n" +
            "        title=\"You must be signed in to fork a repository\" rel=\"nofollow\">\n" +
            "        <span class=\"octicon octicon-git-branch\"></span>Fork\n" +
            "      </a>\n" +
            "      <a href=\"/code4craft/webmagic/network\" class=\"social-count\">\n" +
            "        70\n" +
            "      </a>\n" +
            "    </li>\n" +
            "</ul>\n" +
            "\n" +
            "        <h1 itemscope itemtype=\"http://data-vocabulary.org/Breadcrumb\" class=\"entry-title public\">\n" +
            "          <span class=\"repo-label\"><span>public</span></span>\n" +
            "          <span class=\"mega-octicon octicon-repo\"></span>\n" +
            "          <span class=\"author\">\n" +
            "            <a href=\"/code4craft\" class=\"url fn\" itemprop=\"url\" rel=\"author\"><span itemprop=\"title\">code4craft</span></a></span\n" +
            "          ><span class=\"repohead-name-divider\">/</span><strong\n" +
            "          ><a href=\"/code4craft/webmagic\" class=\"js-current-repository js-repo-home-link\">webmagic</a></strong>\n" +
            "\n" +
            "          <span class=\"page-context-loader\">\n" +
            "            <img alt=\"Octocat-spinner-32\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "          </span>\n" +
            "\n" +
            "        </h1>\n" +
            "      </div><!-- /.container -->\n" +
            "    </div><!-- /.repohead -->\n" +
            "\n" +
            "    <div class=\"container\">\n" +
            "\n" +
            "      <div class=\"repository-with-sidebar repo-container with-full-navigation\">\n" +
            "\n" +
            "        <div class=\"repository-sidebar\">\n" +
            "            \n" +
            "\n" +
            "<div class=\"repo-nav repo-nav-full js-repository-container-pjax js-octicon-loaders\">\n" +
            "  <div class=\"repo-nav-contents\">\n" +
            "    <ul class=\"repo-menu\">\n" +
            "      <li class=\"tooltipped leftwards\" title=\"Code\">\n" +
            "        <a href=\"/code4craft/webmagic\" aria-label=\"Code\" class=\"js-selected-navigation-item selected\" data-gotokey=\"c\" data-pjax=\"true\" data-selected-links=\"repo_source repo_downloads repo_commits repo_tags repo_branches /code4craft/webmagic\">\n" +
            "          <span class=\"octicon octicon-code\"></span> <span class=\"full-word\">Code</span>\n" +
            "          <img alt=\"Octocat-spinner-32\" class=\"mini-loader\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "</a>      </li>\n" +
            "\n" +
            "        <li class=\"tooltipped leftwards\" title=\"Issues\">\n" +
            "          <a href=\"/code4craft/webmagic/issues\" aria-label=\"Issues\" class=\"js-selected-navigation-item js-disable-pjax\" data-gotokey=\"i\" data-selected-links=\"repo_issues /code4craft/webmagic/issues\">\n" +
            "            <span class=\"octicon octicon-issue-opened\"></span> <span class=\"full-word\">Issues</span>\n" +
            "            <span class='counter'>2</span>\n" +
            "            <img alt=\"Octocat-spinner-32\" class=\"mini-loader\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "</a>        </li>\n" +
            "\n" +
            "      <li class=\"tooltipped leftwards\" title=\"Pull Requests\"><a href=\"/code4craft/webmagic/pulls\" aria-label=\"Pull Requests\" class=\"js-selected-navigation-item js-disable-pjax\" data-gotokey=\"p\" data-selected-links=\"repo_pulls /code4craft/webmagic/pulls\">\n" +
            "            <span class=\"octicon octicon-git-pull-request\"></span> <span class=\"full-word\">Pull Requests</span>\n" +
            "            <span class='counter'>0</span>\n" +
            "            <img alt=\"Octocat-spinner-32\" class=\"mini-loader\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "</a>      </li>\n" +
            "\n" +
            "\n" +
            "        <li class=\"tooltipped leftwards\" title=\"Wiki\">\n" +
            "          <a href=\"/code4craft/webmagic/wiki\" aria-label=\"Wiki\" class=\"js-selected-navigation-item \" data-pjax=\"true\" data-selected-links=\"repo_wiki /code4craft/webmagic/wiki\">\n" +
            "            <span class=\"octicon octicon-book\"></span> <span class=\"full-word\">Wiki</span>\n" +
            "            <img alt=\"Octocat-spinner-32\" class=\"mini-loader\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "</a>        </li>\n" +
            "    </ul>\n" +
            "    <div class=\"repo-menu-separator\"></div>\n" +
            "    <ul class=\"repo-menu\">\n" +
            "\n" +
            "      <li class=\"tooltipped leftwards\" title=\"Pulse\">\n" +
            "        <a href=\"/code4craft/webmagic/pulse\" aria-label=\"Pulse\" class=\"js-selected-navigation-item \" data-pjax=\"true\" data-selected-links=\"pulse /code4craft/webmagic/pulse\">\n" +
            "          <span class=\"octicon octicon-pulse\"></span> <span class=\"full-word\">Pulse</span>\n" +
            "          <img alt=\"Octocat-spinner-32\" class=\"mini-loader\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "</a>      </li>\n" +
            "\n" +
            "      <li class=\"tooltipped leftwards\" title=\"Graphs\">\n" +
            "        <a href=\"/code4craft/webmagic/graphs\" aria-label=\"Graphs\" class=\"js-selected-navigation-item \" data-pjax=\"true\" data-selected-links=\"repo_graphs repo_contributors /code4craft/webmagic/graphs\">\n" +
            "          <span class=\"octicon octicon-graph\"></span> <span class=\"full-word\">Graphs</span>\n" +
            "          <img alt=\"Octocat-spinner-32\" class=\"mini-loader\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "</a>      </li>\n" +
            "\n" +
            "      <li class=\"tooltipped leftwards\" title=\"Network\">\n" +
            "        <a href=\"/code4craft/webmagic/network\" aria-label=\"Network\" class=\"js-selected-navigation-item js-disable-pjax\" data-selected-links=\"repo_network /code4craft/webmagic/network\">\n" +
            "          <span class=\"octicon octicon-git-branch\"></span> <span class=\"full-word\">Network</span>\n" +
            "          <img alt=\"Octocat-spinner-32\" class=\"mini-loader\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "</a>      </li>\n" +
            "    </ul>\n" +
            "\n" +
            "\n" +
            "  </div>\n" +
            "</div>\n" +
            "\n" +
            "            <div class=\"only-with-full-nav\">\n" +
            "              \n" +
            "\n" +
            "  \n" +
            "\n" +
            "<div class=\"clone-url open\"\n" +
            "  data-protocol-type=\"http\"\n" +
            "  data-url=\"/users/set_protocol?protocol_selector=http&amp;protocol_type=clone\">\n" +
            "  <h3><strong>HTTPS</strong> clone URL</h3>\n" +
            "  <div class=\"clone-url-box\">\n" +
            "    <input type=\"text\" class=\"clone js-url-field\"\n" +
            "           value=\"https://github.com/code4craft/webmagic.git\" readonly=\"readonly\">\n" +
            "\n" +
            "    <span class=\"js-zeroclipboard url-box-clippy minibutton zeroclipboard-button\" data-clipboard-text=\"https://github.com/code4craft/webmagic.git\" data-copied-hint=\"copied!\" title=\"copy to clipboard\"><span class=\"octicon octicon-clippy\"></span></span>\n" +
            "  </div>\n" +
            "</div>\n" +
            "\n" +
            "  \n" +
            "\n" +
            "<div class=\"clone-url \"\n" +
            "  data-protocol-type=\"subversion\"\n" +
            "  data-url=\"/users/set_protocol?protocol_selector=subversion&amp;protocol_type=clone\">\n" +
            "  <h3><strong>Subversion</strong> checkout URL</h3>\n" +
            "  <div class=\"clone-url-box\">\n" +
            "    <input type=\"text\" class=\"clone js-url-field\"\n" +
            "           value=\"https://github.com/code4craft/webmagic\" readonly=\"readonly\">\n" +
            "\n" +
            "    <span class=\"js-zeroclipboard url-box-clippy minibutton zeroclipboard-button\" data-clipboard-text=\"https://github.com/code4craft/webmagic\" data-copied-hint=\"copied!\" title=\"copy to clipboard\"><span class=\"octicon octicon-clippy\"></span></span>\n" +
            "  </div>\n" +
            "</div>\n" +
            "\n" +
            "\n" +
            "<p class=\"clone-options\">You can clone with\n" +
            "      <a href=\"#\" class=\"js-clone-selector\" data-protocol=\"http\">HTTPS</a>,\n" +
            "      or <a href=\"#\" class=\"js-clone-selector\" data-protocol=\"subversion\">Subversion</a>.\n" +
            "  <span class=\"octicon help tooltipped upwards\" title=\"Get help on which URL is right for you.\">\n" +
            "    <a href=\"https://help.github.com/articles/which-remote-url-should-i-use\">\n" +
            "    <span class=\"octicon octicon-question\"></span>\n" +
            "    </a>\n" +
            "  </span>\n" +
            "</p>\n" +
            "\n" +
            "  <a href=\"http://mac.github.com\" class=\"minibutton sidebar-button\">\n" +
            "    <span class=\"octicon octicon-device-desktop\"></span>\n" +
            "    Clone in Desktop\n" +
            "  </a>\n" +
            "\n" +
            "\n" +
            "                <a href=\"/code4craft/webmagic/archive/master.zip\"\n" +
            "                   class=\"minibutton sidebar-button\"\n" +
            "                   title=\"Download this repository as a zip file\"\n" +
            "                   rel=\"nofollow\">\n" +
            "                  <span class=\"octicon octicon-cloud-download\"></span>\n" +
            "                  Download ZIP\n" +
            "                </a>\n" +
            "            </div>\n" +
            "        </div><!-- /.repository-sidebar -->\n" +
            "\n" +
            "        <div id=\"js-repo-pjax-container\" class=\"repository-content context-loader-container\" data-pjax-container>\n" +
            "          \n" +
            "<div class=\"js-info-carrier\" data-show-full-navigation=\"yes\"></div>\n" +
            "\n" +
            "<div class=\"repository-meta js-details-container \">\n" +
            "    <div class=\"repository-description js-details-show\">\n" +
            "      <p>A scalable web crawler framework.</p>\n" +
            "    </div>\n" +
            "\n" +
            "\n" +
            "\n" +
            "</div>\n" +
            "\n" +
            "<div class=\"capped-box overall-summary \">\n" +
            "\n" +
            "  <div class=\"stats-switcher-viewport js-stats-switcher-viewport\">\n" +
            "\n" +
            "    <ul class=\"numbers-summary\">\n" +
            "      <li class=\"commits\">\n" +
            "        <a data-pjax href=\"/code4craft/webmagic/commits/master\">\n" +
            "          <span class=\"num\">\n" +
            "            <span class=\"octicon octicon-history\"></span>\n" +
            "            311\n" +
            "          </span>\n" +
            "          commits\n" +
            "        </a>\n" +
            "      </li>\n" +
            "      <li>\n" +
            "        <a data-pjax href=\"/code4craft/webmagic/branches\">\n" +
            "          <span class=\"num\">\n" +
            "            <span class=\"octicon octicon-git-branch\"></span>\n" +
            "            4\n" +
            "          </span>\n" +
            "          branches\n" +
            "        </a>\n" +
            "      </li>\n" +
            "\n" +
            "      <li>\n" +
            "        <a data-pjax href=\"/code4craft/webmagic/releases\">\n" +
            "          <span class=\"num\">\n" +
            "            <span class=\"octicon octicon-tag\"></span>\n" +
            "            5\n" +
            "          </span>\n" +
            "          releases\n" +
            "        </a>\n" +
            "      </li>\n" +
            "\n" +
            "      <li>\n" +
            "        <a href=\"/code4craft/webmagic/contributors\">\n" +
            "          <span class=\"num\">\n" +
            "            <span class=\"octicon octicon-organization\"></span>\n" +
            "            3\n" +
            "          </span>\n" +
            "          contributors\n" +
            "        </a>\n" +
            "      </li>\n" +
            "    </ul>\n" +
            "\n" +
            "      <div class=\"repository-lang-stats\">\n" +
            "        <ol class=\"repository-lang-stats-numbers\">\n" +
            "          <li>\n" +
            "              <a href=\"/code4craft/webmagic/search?l=java\">\n" +
            "                <span class=\"color-block language-color\" style=\"background-color:#b07219;\"></span>\n" +
            "                <span class=\"lang\">Java</span>\n" +
            "                <span class=\"percent\">100%</span>\n" +
            "              </a>\n" +
            "          </li>\n" +
            "        </ol>\n" +
            "      </div>\n" +
            "  </div>\n" +
            "\n" +
            "</div>\n" +
            "\n" +
            "  <a href=\"#\"\n" +
            "     class=\"repository-lang-stats-graph js-toggle-lang-stats tooltipped downwards\"\n" +
            "     title=\"Show language statistics\"\n" +
            "     style=\"background-color:#b07219\">\n" +
            "  <span class=\"language-color\" style=\"width:100%; background-color:#b07219;\" itemprop=\"keywords\">Java</span>\n" +
            "  </a>\n" +
            "\n" +
            "\n" +
            "\n" +
            "\n" +
            "<div class=\"file-navigation in-mid-page\">\n" +
            "    <a href=\"/code4craft/webmagic/compare\" aria-label=\"Compare, review, create a pull request\" class=\"minibutton compact primary tooltipped downwards\" title=\"Compare &amp; review\" data-pjax>\n" +
            "      <span class=\"octicon octicon-git-compare\"></span>\n" +
            "    </a>\n" +
            "\n" +
            "  \n" +
            "\n" +
            "\n" +
            "<div class=\"select-menu js-menu-container js-select-menu\" >\n" +
            "  <span class=\"minibutton select-menu-button js-menu-target\" data-hotkey=\"w\"\n" +
            "    data-master-branch=\"master\"\n" +
            "    data-ref=\"master\"\n" +
            "    role=\"button\" aria-label=\"Switch branches or tags\" tabindex=\"0\">\n" +
            "    <span class=\"octicon octicon-git-branch\"></span>\n" +
            "    <i>branch:</i>\n" +
            "    <span class=\"js-select-button\">master</span>\n" +
            "  </span>\n" +
            "\n" +
            "  <div class=\"select-menu-modal-holder js-menu-content js-navigation-container\" data-pjax>\n" +
            "\n" +
            "    <div class=\"select-menu-modal\">\n" +
            "      <div class=\"select-menu-header\">\n" +
            "        <span class=\"select-menu-title\">Switch branches/tags</span>\n" +
            "        <span class=\"octicon octicon-remove-close js-menu-close\"></span>\n" +
            "      </div> <!-- /.select-menu-header -->\n" +
            "\n" +
            "      <div class=\"select-menu-filters\">\n" +
            "        <div class=\"select-menu-text-filter\">\n" +
            "          <input type=\"text\" aria-label=\"Filter branches/tags\" id=\"context-commitish-filter-field\" class=\"js-filterable-field js-navigation-enable\" placeholder=\"Filter branches/tags\">\n" +
            "        </div>\n" +
            "        <div class=\"select-menu-tabs\">\n" +
            "          <ul>\n" +
            "            <li class=\"select-menu-tab\">\n" +
            "              <a href=\"#\" data-tab-filter=\"branches\" class=\"js-select-menu-tab\">Branches</a>\n" +
            "            </li>\n" +
            "            <li class=\"select-menu-tab\">\n" +
            "              <a href=\"#\" data-tab-filter=\"tags\" class=\"js-select-menu-tab\">Tags</a>\n" +
            "            </li>\n" +
            "          </ul>\n" +
            "        </div><!-- /.select-menu-tabs -->\n" +
            "      </div><!-- /.select-menu-filters -->\n" +
            "\n" +
            "      <div class=\"select-menu-list select-menu-tab-bucket js-select-menu-tab-bucket\" data-tab-filter=\"branches\">\n" +
            "\n" +
            "        <div data-filterable-for=\"context-commitish-filter-field\" data-filterable-type=\"substring\">\n" +
            "\n" +
            "\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/en-webmagic\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"en-webmagic\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"en-webmagic\">en-webmagic</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/gh-pages\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"gh-pages\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"gh-pages\">gh-pages</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "            <div class=\"select-menu-item js-navigation-item selected\">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/master\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"master\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"master\">master</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/xsoup\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"xsoup\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"xsoup\">xsoup</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "        </div>\n" +
            "\n" +
            "          <div class=\"select-menu-no-results\">Nothing to show</div>\n" +
            "      </div> <!-- /.select-menu-list -->\n" +
            "\n" +
            "      <div class=\"select-menu-list select-menu-tab-bucket js-select-menu-tab-bucket\" data-tab-filter=\"tags\">\n" +
            "        <div data-filterable-for=\"context-commitish-filter-field\" data-filterable-type=\"substring\">\n" +
            "\n" +
            "\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/webmagic-parent-0.3.1\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"webmagic-parent-0.3.1\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"webmagic-parent-0.3.1\">webmagic-parent-0.3.1</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/webmagic-parent-0.2.1\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"webmagic-parent-0.2.1\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"webmagic-parent-0.2.1\">webmagic-parent-0.2.1</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/webmagic-0.3.0\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"webmagic-0.3.0\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"webmagic-0.3.0\">webmagic-0.3.0</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/version-0.2.0\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"version-0.2.0\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"version-0.2.0\">version-0.2.0</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "            <div class=\"select-menu-item js-navigation-item \">\n" +
            "              <span class=\"select-menu-item-icon octicon octicon-check\"></span>\n" +
            "              <a href=\"/code4craft/webmagic/tree/version-0.1.0\" class=\"js-navigation-open select-menu-item-text js-select-button-text css-truncate-target\" data-name=\"version-0.1.0\" data-skip-pjax=\"true\" rel=\"nofollow\" title=\"version-0.1.0\">version-0.1.0</a>\n" +
            "            </div> <!-- /.select-menu-item -->\n" +
            "        </div>\n" +
            "\n" +
            "        <div class=\"select-menu-no-results\">Nothing to show</div>\n" +
            "      </div> <!-- /.select-menu-list -->\n" +
            "\n" +
            "    </div> <!-- /.select-menu-modal -->\n" +
            "  </div> <!-- /.select-menu-modal-holder -->\n" +
            "</div> <!-- /.select-menu -->\n" +
            "\n" +
            "\n" +
            "  <div class=\"breadcrumb\"><span class='repo-root js-repo-root'><span itemscope=\"\" itemtype=\"http://data-vocabulary.org/Breadcrumb\"><a href=\"/code4craft/webmagic\" data-branch=\"master\" data-direction=\"back\" data-pjax=\"true\" itemscope=\"url\"><span itemprop=\"title\">webmagic</span></a></span></span><span class=\"separator\"> / </span><form action=\"/login?return_to=%2Fcode4craft%2Fwebmagic\" class=\"js-new-blob-form tooltipped rightwards new-file-link\" method=\"post\" title=\"Sign in to make or propose changes\"><span aria-label=\"Sign in to make or propose changes\" class=\"js-new-blob-submit octicon octicon-file-add\" data-test-id=\"create-new-git-file\" role=\"button\"></span></form></div>\n" +
            "</div>\n" +
            "\n" +
            "\n" +
            "\n" +
            "<a href=\"/code4craft/webmagic/find/master\"\n" +
            "  data-hotkey=\"t\" class=\"js-show-file-finder\" style=\"display:none\" data-pjax>Show File Finder</a>\n" +
            "<div class=\"bubble files-bubble\">\n" +
            "  <table class=\"files\" data-pjax>\n" +
            "    <thead>\n" +
            "\n" +
            "        <div class=\"commit commit-loader commit-tease js-details-container js-deferred-content\" data-url=\"/code4craft/webmagic/tree-commit/master\">\n" +
            "          <p class=\"commit-title blank\">\n" +
            "            Fetching latest commit…\n" +
            "          </p>\n" +
            "          <div class=\"commit-meta\">\n" +
            "            <p class=\"loader-loading\"><img alt=\"Octocat-spinner-32-eaf2f5\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32-EAF2F5.gif\" width=\"16\" /></p>\n" +
            "            <p class=\"loader-error\">Cannot retrieve the latest commit at this time</p>\n" +
            "          </div>\n" +
            "        </div>\n" +
            "    </thead>\n" +
            "\n" +
            "    \n" +
            "<tbody class=\"\"\n" +
            "  data-url=\"/code4craft/webmagic/file-list/master\">\n" +
            "    <tr class=\"alt\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/en_docs\" class=\"js-directory-link\" id=\"025516923597c2d7f987828ad6657c14-6f7a9bdb73f0e5e26cbde50c2fbf780c2a4ad4b2\" title=\"en_docs\">en_docs</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/dcc5d790e4bcbebaa2a1168fd5f9919936bcb831\" class=\"message\" data-pjax=\"true\" title=\"update readme\">update readme</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-08-17T16:16:33-07:00\" title=\"2013-08-17 16:16:33\">August 17, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/webmagic-core\" class=\"js-directory-link\" id=\"39809e13bc65c3873f79570b81852d62-e96da9edd9329cf8448fed332294dd4575549495\" title=\"webmagic-core\">webmagic-core</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/b131878123cb90f6123255bbd21e71bc70a480b7\" class=\"message\" data-pjax=\"true\" title=\"add example\">add example</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-22T22:01:28-07:00\" title=\"2013-09-22 22:01:28\">September 22, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"alt\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/webmagic-extension\" class=\"js-directory-link\" id=\"dc82c79bcb262e1942088502bb426876-6f4453065d5b11429731e2a3e71e10f944da2180\" title=\"webmagic-extension\">webmagic-extension</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/b131878123cb90f6123255bbd21e71bc70a480b7\" class=\"message\" data-pjax=\"true\" title=\"add example\">add example</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-22T22:01:28-07:00\" title=\"2013-09-22 22:01:28\">September 22, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/webmagic-lucene\" class=\"js-directory-link\" id=\"e686efe9e2cd770dcf86d93b9ddb2036-e16df360eb86bf0c21be610105981182a5e2ac05\" title=\"webmagic-lucene\">webmagic-lucene</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/7003426898ec684194a67130914c17c1566ed233\" class=\"message\" data-pjax=\"true\" title=\"update pom\">update pom</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-08-20T06:52:39-07:00\" title=\"2013-08-20 06:52:39\">August 20, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"alt\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/webmagic-samples\" class=\"js-directory-link\" id=\"4284b70d4c5e11003fb292b0d0f7539f-55f538835cd8b15fb4e34c8a0d6491dc9559e610\" title=\"webmagic-samples\">webmagic-samples</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/95ab4edec3daca3353395909a13085079ff8606b\" class=\"message\" data-pjax=\"true\" title=\"some bugfix\">some bugfix</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-22T17:38:54-07:00\" title=\"2013-09-22 17:38:54\">September 22, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/webmagic-saxon\" class=\"js-directory-link\" id=\"5ee0de5b970664e15f6805d957403c63-c498acdbb391d3ae9ee0088ff086312c11aad18d\" title=\"webmagic-saxon\">webmagic-saxon</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/b1cba78bd6930bbbc3d44b4825fcc752932ca02c\" class=\"message\" data-pjax=\"true\" title=\"xsoup test\">xsoup test</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-01T16:30:31-07:00\" title=\"2013-09-01 16:30:31\">September 01, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"alt\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/webmagic-selenium\" class=\"js-directory-link\" id=\"988c197af393f3198711cebacce7fd65-210d6b3ddaf0bc962553f1244495b6960fbd8994\" title=\"webmagic-selenium\">webmagic-selenium</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/7003426898ec684194a67130914c17c1566ed233\" class=\"message\" data-pjax=\"true\" title=\"update pom\">update pom</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-08-20T06:52:39-07:00\" title=\"2013-08-20 06:52:39\">August 20, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-directory\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/tree/master/zh_docs\" class=\"js-directory-link\" id=\"bec3b859688b0bbdb94899b1a5b56441-2cf0c7c178e3e0280b023f54e3ef21e9b7b9e3b3\" title=\"zh_docs\">zh_docs</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/81f75347573f70a39a83afd5d2f7d626b3b305bd\" class=\"message\" data-pjax=\"true\" title=\"update version\">update version</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-12T06:28:42-07:00\" title=\"2013-09-12 06:28:42\">September 12, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"alt\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-text\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/blob/master/.gitignore\" class=\"js-directory-link\" id=\"a084b794bc0759e7a6b77810e01874f2-8e88e25dbf702e915d3d4839cbbca007859874b2\" title=\".gitignore\">.gitignore</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/4d023b3666cc2101e92540004e5630dd2aa01319\" class=\"message\" data-pjax=\"true\" title=\"增加剔除文件\">增加剔除文件</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-04T09:30:52-07:00\" title=\"2013-09-04 09:30:52\">September 04, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-text\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/blob/master/.travis.yml\" class=\"js-directory-link\" id=\"354f30a63fb0907d4ad57269548329e3-c7c99f406eb2b126614aacf99fb9e103ce30ce00\" title=\".travis.yml\">.travis.yml</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/95c8b2a8a44262fc20c4d5eddb9cf7ba18cfb753\" class=\"message\" data-pjax=\"true\" title=\"add jdk\">add jdk</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-06-20T02:54:46-07:00\" title=\"2013-06-20 02:54:46\">June 20, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"alt\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-text\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/blob/master/README.md\" class=\"js-directory-link\" id=\"04c6e90faac2675aa89e2176d2eec7d8-01a868db17802ce7915cc2bcfad10244ef4de064\" title=\"README.md\">README.md</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/a0d64b76357a449386755b9867163c91d04a2426\" class=\"message\" data-pjax=\"true\" title=\"update version\">update version</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-12T06:06:05-07:00\" title=\"2013-09-12 06:06:05\">September 12, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-text\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/blob/master/pom.xml\" class=\"js-directory-link\" id=\"600376dffeb79835ede4a0b285078036-e2685a8ad6dbce1421232fced6e46ed3c8c3efa2\" title=\"pom.xml\">pom.xml</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/fb693a4ac41667ba70f2d7c11c73b364fa569e67\" class=\"message\" data-pjax=\"true\" title=\"[maven-release-plugin] prepare for next development iteration\">[maven-release-plugin] prepare for next development iteration</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-08T07:25:07-07:00\" title=\"2013-09-08 07:25:07\">September 08, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"alt\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-text\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/blob/master/release-note.md\" class=\"js-directory-link\" id=\"d59c2d5d8d04d144da5f1cd251c384ad-001568be91dd7d90d2d26c06c192725af5ddd25e\" title=\"release-note.md\">release-note.md</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/a9fc06a916008e9763dec67d240e84d81e94185d\" class=\"message\" data-pjax=\"true\" title=\"release note\">release note</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-09-03T20:04:36-07:00\" title=\"2013-09-03 20:04:36\">September 03, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "    <tr class=\"\">\n" +
            "      <td class=\"icon\">\n" +
            "        <span class=\"octicon octicon-file-text\"></span>\n" +
            "        <img alt=\"Octocat-spinner-32\" class=\"spinner\" height=\"16\" src=\"https://github.global.ssl.fastly.net/images/spinners/octocat-spinner-32.gif\" width=\"16\" />\n" +
            "      </td>\n" +
            "      <td class=\"content\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/blob/master/webmagic%20manual.md\" class=\"js-directory-link\" id=\"7a8cd261f7c7be5bd05d8f2ce23a818c-dc09b907d8873ba1c34c38b8cea2062af53ef625\" title=\"webmagic manual.md\">webmagic manual.md</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"message\">\n" +
            "        <span class=\"css-truncate css-truncate-target\"><a href=\"/code4craft/webmagic/commit/4fa82aad20b0d208c8c2b17af2644f82b26c1b75\" class=\"message\" data-pjax=\"true\" title=\"readme\">readme</a></span>\n" +
            "      </td>\n" +
            "      <td class=\"age\"><span class=\"css-truncate css-truncate-target\"><time class=\"js-relative-date\" datetime=\"2013-08-20T16:44:39-07:00\" title=\"2013-08-20 16:44:39\">August 20, 2013</time></span></td>\n" +
            "    </tr>\n" +
            "</tbody>\n" +
            "\n" +
            "  </table>\n" +
            "</div>\n" +
            "\n" +
            "  <div id=\"readme\" class=\"clearfix announce instapaper_body md\">\n" +
            "    <span class=\"name\"><span class=\"octicon octicon-book\"></span> README.md</span><article class=\"markdown-body entry-content\" itemprop=\"mainContentOfPage\"><h2>\n" +
            "<a name=\"webmagic\" class=\"anchor\" href=\"#webmagic\"><span class=\"octicon octicon-link\"></span></a>webmagic</h2>\n" +
            "\n" +
            "<p><a href=\"https://github.com/code4craft/webmagic/tree/master/zh_docs\">Readme in Chinese</a></p>\n" +
            "\n" +
            "<p><a href=\"https://travis-ci.org/code4craft/webmagic\"><img src=\"https://travis-ci.org/code4craft/webmagic.png?branch=master\" alt=\"Build Status\" style=\"max-width:100%;\"></a></p>\n" +
            "\n" +
            "<blockquote>\n" +
            "<p>A scalable crawler framework. It covers the whole lifecycle of crawler: downloading, url management, content extraction and persistent. It can simplify the development of a  specific crawler.</p>\n" +
            "</blockquote>\n" +
            "\n" +
            "<h2>\n" +
            "<a name=\"features\" class=\"anchor\" href=\"#features\"><span class=\"octicon octicon-link\"></span></a>Features:</h2>\n" +
            "\n" +
            "<ul>\n" +
            "<li>Simple core with high flexibility.</li>\n" +
            "<li>Simple API for html extracting.</li>\n" +
            "<li>Annotation with POJO to customize a crawler, no configuration.</li>\n" +
            "<li>Multi-thread and Distribution support.</li>\n" +
            "<li>Easy to be integrated.</li>\n" +
            "</ul><h2>\n" +
            "<a name=\"install\" class=\"anchor\" href=\"#install\"><span class=\"octicon octicon-link\"></span></a>Install:</h2>\n" +
            "\n" +
            "<p>Add dependencies to your pom.xml:</p>\n" +
            "\n" +
            "<pre><code>    &lt;dependency&gt;\n" +
            "        &lt;groupId&gt;us.codecraft&lt;/groupId&gt;\n" +
            "        &lt;artifactId&gt;webmagic-core&lt;/artifactId&gt;\n" +
            "        &lt;version&gt;0.3.1&lt;/version&gt;\n" +
            "    &lt;/dependency&gt;\n" +
            "    &lt;dependency&gt;\n" +
            "        &lt;groupId&gt;us.codecraft&lt;/groupId&gt;\n" +
            "        &lt;artifactId&gt;webmagic-extension&lt;/artifactId&gt;\n" +
            "        &lt;version&gt;0.3.1&lt;/version&gt;\n" +
            "    &lt;/dependency&gt;\n" +
            "</code></pre>\n" +
            "\n" +
            "<h2>\n" +
            "<a name=\"get-started\" class=\"anchor\" href=\"#get-started\"><span class=\"octicon octicon-link\"></span></a>Get Started:</h2>\n" +
            "\n" +
            "<h3>\n" +
            "<a name=\"first-crawler\" class=\"anchor\" href=\"#first-crawler\"><span class=\"octicon octicon-link\"></span></a>First crawler:</h3>\n" +
            "\n" +
            "<p>Write a class implements PageProcessor：</p>\n" +
            "\n" +
            "<div class=\"highlight highlight-java\"><pre>    <span class=\"kd\">public</span> <span class=\"kd\">class</span> <span class=\"nc\">OschinaBlogPageProcessor</span> <span class=\"kd\">implements</span> <span class=\"n\">PageProcessor</span> <span class=\"o\">{</span>\n" +
            "\n" +
            "        <span class=\"kd\">private</span> <span class=\"n\">Site</span> <span class=\"n\">site</span> <span class=\"o\">=</span> <span class=\"n\">Site</span><span class=\"o\">.</span><span class=\"na\">me</span><span class=\"o\">().</span><span class=\"na\">setDomain</span><span class=\"o\">(</span><span class=\"s\">\"my.oschina.net\"</span><span class=\"o\">)</span>\n" +
            "           <span class=\"o\">.</span><span class=\"na\">addStartUrl</span><span class=\"o\">(</span><span class=\"s\">\"http://my.oschina.net/flashsword/blog\"</span><span class=\"o\">);</span>\n" +
            "\n" +
            "        <span class=\"nd\">@Override</span>\n" +
            "        <span class=\"kd\">public</span> <span class=\"kt\">void</span> <span class=\"nf\">process</span><span class=\"o\">(</span><span class=\"n\">Page</span> <span class=\"n\">page</span><span class=\"o\">)</span> <span class=\"o\">{</span>\n" +
            "            <span class=\"n\">List</span><span class=\"o\">&lt;</span><span class=\"n\">String</span><span class=\"o\">&gt;</span> <span class=\"n\">links</span> <span class=\"o\">=</span> <span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">getHtml</span><span class=\"o\">().</span><span class=\"na\">links</span><span class=\"o\">().</span><span class=\"na\">regex</span><span class=\"o\">(</span><span class=\"s\">\"http://my\\\\.oschina\\\\.net/flashsword/blog/\\\\d+\"</span><span class=\"o\">).</span><span class=\"na\">all</span><span class=\"o\">();</span>\n" +
            "            <span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">addTargetRequests</span><span class=\"o\">(</span><span class=\"n\">links</span><span class=\"o\">);</span>\n" +
            "            <span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">putField</span><span class=\"o\">(</span><span class=\"s\">\"title\"</span><span class=\"o\">,</span> <span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">getHtml</span><span class=\"o\">().</span><span class=\"na\">xpath</span><span class=\"o\">(</span><span class=\"s\">\"//div[@class='BlogEntity']/div[@class='BlogTitle']/h1\"</span><span class=\"o\">).</span><span class=\"na\">toString</span><span class=\"o\">());</span>\n" +
            "            <span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">putField</span><span class=\"o\">(</span><span class=\"s\">\"content\"</span><span class=\"o\">,</span> <span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">getHtml</span><span class=\"o\">().</span><span class=\"n\">$</span><span class=\"o\">(</span><span class=\"s\">\"div.content\"</span><span class=\"o\">).</span><span class=\"na\">toString</span><span class=\"o\">());</span>\n" +
            "            <span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">putField</span><span class=\"o\">(</span><span class=\"s\">\"tags\"</span><span class=\"o\">,</span><span class=\"n\">page</span><span class=\"o\">.</span><span class=\"na\">getHtml</span><span class=\"o\">().</span><span class=\"na\">xpath</span><span class=\"o\">(</span><span class=\"s\">\"//div[@class='BlogTags']/a/text()\"</span><span class=\"o\">).</span><span class=\"na\">all</span><span class=\"o\">());</span>\n" +
            "        <span class=\"o\">}</span>\n" +
            "\n" +
            "        <span class=\"nd\">@Override</span>\n" +
            "        <span class=\"kd\">public</span> <span class=\"n\">Site</span> <span class=\"nf\">getSite</span><span class=\"o\">()</span> <span class=\"o\">{</span>\n" +
            "            <span class=\"k\">return</span> <span class=\"n\">site</span><span class=\"o\">;</span>\n" +
            "\n" +
            "        <span class=\"o\">}</span>\n" +
            "\n" +
            "        <span class=\"kd\">public</span> <span class=\"kd\">static</span> <span class=\"kt\">void</span> <span class=\"nf\">main</span><span class=\"o\">(</span><span class=\"n\">String</span><span class=\"o\">[]</span> <span class=\"n\">args</span><span class=\"o\">)</span> <span class=\"o\">{</span>\n" +
            "            <span class=\"n\">Spider</span><span class=\"o\">.</span><span class=\"na\">create</span><span class=\"o\">(</span><span class=\"k\">new</span> <span class=\"n\">OschinaBlogPageProcessor</span><span class=\"o\">())</span>\n" +
            "                 <span class=\"o\">.</span><span class=\"na\">pipeline</span><span class=\"o\">(</span><span class=\"k\">new</span> <span class=\"n\">ConsolePipeline</span><span class=\"o\">()).</span><span class=\"na\">run</span><span class=\"o\">();</span>\n" +
            "        <span class=\"o\">}</span>\n" +
            "    <span class=\"o\">}</span>\n" +
            "</pre></div>\n" +
            "\n" +
            "<ul>\n" +
            "<li>\n" +
            "<p><code>page.addTargetRequests(links)</code></p>\n" +
            "\n" +
            "<p>Add urls for crawling.</p>\n" +
            "</li>\n" +
            "</ul><p>You can also use annotation way:</p>\n" +
            "\n" +
            "<div class=\"highlight highlight-java\"><pre>    <span class=\"nd\">@TargetUrl</span><span class=\"o\">(</span><span class=\"s\">\"http://my.oschina.net/flashsword/blog/\\\\d+\"</span><span class=\"o\">)</span>\n" +
            "    <span class=\"kd\">public</span> <span class=\"kd\">class</span> <span class=\"nc\">OschinaBlog</span> <span class=\"o\">{</span>\n" +
            "\n" +
            "        <span class=\"nd\">@ExtractBy</span><span class=\"o\">(</span><span class=\"s\">\"//title\"</span><span class=\"o\">)</span>\n" +
            "        <span class=\"kd\">private</span> <span class=\"n\">String</span> <span class=\"n\">title</span><span class=\"o\">;</span>\n" +
            "\n" +
            "        <span class=\"nd\">@ExtractBy</span><span class=\"o\">(</span><span class=\"n\">value</span> <span class=\"o\">=</span> <span class=\"s\">\"div.BlogContent\"</span><span class=\"o\">,</span><span class=\"n\">type</span> <span class=\"o\">=</span> <span class=\"n\">ExtractBy</span><span class=\"o\">.</span><span class=\"na\">Type</span><span class=\"o\">.</span><span class=\"na\">Css</span><span class=\"o\">)</span>\n" +
            "        <span class=\"kd\">private</span> <span class=\"n\">String</span> <span class=\"n\">content</span><span class=\"o\">;</span>\n" +
            "\n" +
            "        <span class=\"nd\">@ExtractBy</span><span class=\"o\">(</span><span class=\"n\">value</span> <span class=\"o\">=</span> <span class=\"s\">\"//div[@class='BlogTags']/a/text()\"</span><span class=\"o\">,</span> <span class=\"n\">multi</span> <span class=\"o\">=</span> <span class=\"kc\">true</span><span class=\"o\">)</span>\n" +
            "        <span class=\"kd\">private</span> <span class=\"n\">List</span><span class=\"o\">&lt;</span><span class=\"n\">String</span><span class=\"o\">&gt;</span> <span class=\"n\">tags</span><span class=\"o\">;</span>\n" +
            "\n" +
            "        <span class=\"kd\">public</span> <span class=\"kd\">static</span> <span class=\"kt\">void</span> <span class=\"nf\">main</span><span class=\"o\">(</span><span class=\"n\">String</span><span class=\"o\">[]</span> <span class=\"n\">args</span><span class=\"o\">)</span> <span class=\"o\">{</span>\n" +
            "            <span class=\"n\">OOSpider</span><span class=\"o\">.</span><span class=\"na\">create</span><span class=\"o\">(</span>\n" +
            "                <span class=\"n\">Site</span><span class=\"o\">.</span><span class=\"na\">me</span><span class=\"o\">().</span><span class=\"na\">addStartUrl</span><span class=\"o\">(</span><span class=\"s\">\"http://my.oschina.net/flashsword/blog\"</span><span class=\"o\">),</span>\n" +
            "                <span class=\"k\">new</span> <span class=\"nf\">ConsolePageModelPipeline</span><span class=\"o\">(),</span> <span class=\"n\">OschinaBlog</span><span class=\"o\">.</span><span class=\"na\">class</span><span class=\"o\">).</span><span class=\"na\">run</span><span class=\"o\">();</span>\n" +
            "        <span class=\"o\">}</span>\n" +
            "    <span class=\"o\">}</span>\n" +
            "</pre></div>\n" +
            "\n" +
            "<h3>\n" +
            "<a name=\"docs-and-samples\" class=\"anchor\" href=\"#docs-and-samples\"><span class=\"octicon octicon-link\"></span></a>Docs and samples:</h3>\n" +
            "\n" +
            "<p>The architecture of webmagic (refered to <a href=\"http://scrapy.org/\">Scrapy</a>)</p>\n" +
            "\n" +
            "<p><a href=\"https://github-camo.global.ssl.fastly.net/06cb8227231a6adf6d2a57b14b60a25389a25fe9/687474703a2f2f636f64653463726166742e6769746875622e696f2f696d616765732f706f7374732f7765626d616769632e706e67\" target=\"_blank\"><img src=\"https://github-camo.global.ssl.fastly.net/06cb8227231a6adf6d2a57b14b60a25389a25fe9/687474703a2f2f636f64653463726166742e6769746875622e696f2f696d616765732f706f7374732f7765626d616769632e706e67\" alt=\"image\" style=\"max-width:100%;\"></a></p>\n" +
            "\n" +
            "<p>Javadocs: <a href=\"http://code4craft.github.io/webmagic/docs/en/\">http://code4craft.github.io/webmagic/docs/en/</a></p>\n" +
            "\n" +
            "<p>There are some samples in <code>webmagic-samples</code> package.</p>\n" +
            "\n" +
            "<h3>\n" +
            "<a name=\"lisence\" class=\"anchor\" href=\"#lisence\"><span class=\"octicon octicon-link\"></span></a>Lisence:</h3>\n" +
            "\n" +
            "<p>Lisenced under <a href=\"http://opensource.org/licenses/Apache-2.0\">Apache 2.0 lisence</a></p>\n" +
            "\n" +
            "<h3>\n" +
            "<a name=\"thanks\" class=\"anchor\" href=\"#thanks\"><span class=\"octicon octicon-link\"></span></a>Thanks:</h3>\n" +
            "\n" +
            "<p>To write webmagic, I refered to the projects below :</p>\n" +
            "\n" +
            "<ul>\n" +
            "<li>\n" +
            "<p><strong>Scrapy</strong></p>\n" +
            "\n" +
            "<p>A crawler framework in Python.</p>\n" +
            "\n" +
            "<p><a href=\"http://scrapy.org/\">http://scrapy.org/</a></p>\n" +
            "</li>\n" +
            "<li>\n" +
            "<p><strong>Spiderman</strong></p>\n" +
            "\n" +
            "<p>Another crawler framework in Java.</p>\n" +
            "\n" +
            "<p><a href=\"https://gitcafe.com/laiweiwei/Spiderman\">https://gitcafe.com/laiweiwei/Spiderman</a></p>\n" +
            "</li>\n" +
            "</ul></article>\n" +
            "  </div>\n" +
            "\n" +
            "\n" +
            "        </div>\n" +
            "\n" +
            "      </div><!-- /.repo-container -->\n" +
            "      <div class=\"modal-backdrop\"></div>\n" +
            "    </div><!-- /.container -->\n" +
            "  </div><!-- /.site -->\n" +
            "\n" +
            "\n" +
            "    </div><!-- /.wrapper -->\n" +
            "\n" +
            "      <div class=\"container\">\n" +
            "  <div class=\"site-footer\">\n" +
            "    <ul class=\"site-footer-links right\">\n" +
            "      <li><a href=\"https://status.github.com/\">Status</a></li>\n" +
            "      <li><a href=\"http://developer.github.com\">API</a></li>\n" +
            "      <li><a href=\"http://training.github.com\">Training</a></li>\n" +
            "      <li><a href=\"http://shop.github.com\">Shop</a></li>\n" +
            "      <li><a href=\"/blog\">Blog</a></li>\n" +
            "      <li><a href=\"/about\">About</a></li>\n" +
            "\n" +
            "    </ul>\n" +
            "\n" +
            "    <a href=\"/\">\n" +
            "      <span class=\"mega-octicon octicon-mark-github\"></span>\n" +
            "    </a>\n" +
            "\n" +
            "    <ul class=\"site-footer-links\">\n" +
            "      <li>&copy; 2013 <span title=\"0.04752s from github-fe114-cp1-prd.iad.github.net\">GitHub</span>, Inc.</li>\n" +
            "        <li><a href=\"/site/terms\">Terms</a></li>\n" +
            "        <li><a href=\"/site/privacy\">Privacy</a></li>\n" +
            "        <li><a href=\"/security\">Security</a></li>\n" +
            "        <li><a href=\"/contact\">Contact</a></li>\n" +
            "    </ul>\n" +
            "  </div><!-- /.site-footer -->\n" +
            "</div><!-- /.container -->\n" +
            "\n" +
            "\n" +
            "    <div class=\"fullscreen-overlay js-fullscreen-overlay\" id=\"fullscreen_overlay\">\n" +
            "  <div class=\"fullscreen-container js-fullscreen-container\">\n" +
            "    <div class=\"textarea-wrap\">\n" +
            "      <textarea name=\"fullscreen-contents\" id=\"fullscreen-contents\" class=\"js-fullscreen-contents\" placeholder=\"\" data-suggester=\"fullscreen_suggester\"></textarea>\n" +
            "          <div class=\"suggester-container\">\n" +
            "              <div class=\"suggester fullscreen-suggester js-navigation-container\" id=\"fullscreen_suggester\"\n" +
            "                 data-url=\"/code4craft/webmagic/suggestions/commit\">\n" +
            "              </div>\n" +
            "          </div>\n" +
            "    </div>\n" +
            "  </div>\n" +
            "  <div class=\"fullscreen-sidebar\">\n" +
            "    <a href=\"#\" class=\"exit-fullscreen js-exit-fullscreen tooltipped leftwards\" title=\"Exit Zen Mode\">\n" +
            "      <span class=\"mega-octicon octicon-screen-normal\"></span>\n" +
            "    </a>\n" +
            "    <a href=\"#\" class=\"theme-switcher js-theme-switcher tooltipped leftwards\"\n" +
            "      title=\"Switch themes\">\n" +
            "      <span class=\"octicon octicon-color-mode\"></span>\n" +
            "    </a>\n" +
            "  </div>\n" +
            "</div>\n" +
            "\n" +
            "\n" +
            "\n" +
            "    <div id=\"ajax-error-message\" class=\"flash flash-error\">\n" +
            "      <span class=\"octicon octicon-alert\"></span>\n" +
            "      <a href=\"#\" class=\"octicon octicon-remove-close close ajax-error-dismiss\"></a>\n" +
            "      Something went wrong with that request. Please try again.\n" +
            "    </div>\n" +
            "\n" +
            "  </body>\n" +
            "</html>\n" +
            "\n";
    @Override
    public Page download(Request request, Task task) {
        Page page = new Page();
        page.setRawText(html);
        page.setStatusCode(200);
        page.setDownloadSuccess(true);
        page.setRequest(new Request("https://github.com/code4craft/webmagic"));
        page.setUrl(new PlainText("https://github.com/code4craft/webmagic"));
        return page;
    }

    @Override
    public void setThread(int threadNum) {
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/formatter/DateFormatterTest.java
================================================
package us.codecraft.webmagic.formatter;

import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.commons.lang3.time.DateUtils;
import org.junit.Test;
import us.codecraft.webmagic.model.formatter.DateFormatter;

import java.util.Date;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 */
public class DateFormatterTest {

    @Test
    public void testDateFormatter() throws Exception {
        DateFormatter dateFormatter = new DateFormatter();
        String pattern = "yyyy-MM-dd HH:mm";
        Date date = DateUtils.parseDate("2013-09-10 22:11", new String[]{pattern});
        dateFormatter.initParam(new String[]{pattern});
        Date format = dateFormatter.format(DateFormatUtils.format(date, pattern));
        assertThat(format).isEqualTo(date);
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/BaseRepo.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.model.annotation.ExtractBy;

/**
 * @author code4crafter@gmail.com
 */
public class BaseRepo {

    @ExtractBy("//ul[@class='pagehead-actions']/li[1]//a[@class='social-count js-social-count']/text()")
    protected int star;
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/GithubRepo.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.3.2
 */
@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl({"https://github.com/\\w+\\?tab=repositories", "https://github.com/\\w+", "https://github.com/explore/*"})
public class GithubRepo extends BaseRepo{

    @ExtractBy("//ul[@class='pagehead-actions']/li[2]//a[@class='social-count']/text()")
    private int fork;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(100)
                , new ConsolePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/code4craft").thread(10).run();
    }

    public int getStar() {
        return star;
    }

    public int getFork() {
        return fork;
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/GithubRepoApi.java
================================================
package us.codecraft.webmagic.model;

import us.codecraft.webmagic.model.annotation.ExtractBy;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/6/3
 *         Time: 下午9:07
 */
public class GithubRepoApi {

    @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$.name",source = ExtractBy.Source.RawText)
    private String name;

    public String getName() {
        return name;
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/GithubRepoTest.java
================================================
package us.codecraft.webmagic.model;

import org.junit.Test;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.downloader.MockGithubDownloader;
import us.codecraft.webmagic.example.GithubRepo;
import us.codecraft.webmagic.pipeline.PageModelPipeline;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com <br>
 */
public class GithubRepoTest {

    @Test
    public void test() {
        OOSpider.create(Site.me().setSleepTime(0)
                , new PageModelPipeline<GithubRepo>() {
            @Override
            public void process(GithubRepo o, Task task) {
                assertThat(o.getStar()).isEqualTo(86);
                assertThat(o.getFork()).isEqualTo(70);
            }
        }, GithubRepo.class).addUrl("https://github.com/code4craft/webmagic").setDownloader(new MockGithubDownloader()).test("https://github.com/code4craft/webmagic");
    }

}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/ModelPageProcessorTest.java
================================================
package us.codecraft.webmagic.model;

import org.junit.Test;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;
import us.codecraft.webmagic.selector.PlainText;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 */
public class ModelPageProcessorTest {

    private PageMocker pageMocker = new PageMocker();

    @TargetUrl("http://codecraft.us/foo")
    public static class ModelFoo {

        @ExtractBy(value = "//div/@foo", notNull = true)
        private String foo;

    }

    @TargetUrl("http://codecraft.us/bar")
    public static class ModelBar {

        @ExtractBy(value = "//div/@bar", notNull = true)
        private String bar;

    }

    @TargetUrl(value = "http://webmagic.io/foo/\\d+",sourceRegion = "//li[@class='bar']")
    @HelpUrl(value = "http://webmagic.io/bar/\\d+",sourceRegion = "//li[@class='foo']")
    public static class MockModel {

    }

    @Test
    public void testMultiModel_should_not_skip_when_match() throws Exception {
        Page page = new Page();
        page.setRawText("<div foo='foo'></div>");
        page.setRequest(new Request("http://codecraft.us/foo"));
        page.setUrl(PlainText.create("http://codecraft.us/foo"));
        ModelPageProcessor modelPageProcessor = ModelPageProcessor.create(null, ModelFoo.class, ModelBar.class);
        modelPageProcessor.process(page);
        assertThat(page.getResultItems().isSkip()).isFalse();
    }

    @Test
    public void testExtractLinks() throws Exception {
        ModelPageProcessor modelPageProcessor = ModelPageProcessor.create(null, MockModel.class);
        Page page = pageMocker.getMockPage();
        modelPageProcessor.process(page);
        assertThat(page.getTargetRequests()).containsExactly(new Request("http://webmagic.io/bar/3"), new Request("http://webmagic.io/bar/4"), new Request("http://webmagic.io/foo/3"), new Request("http://webmagic.io/foo/4"));
    }

    @Test
    public void testExtractNoLinks() throws Exception {
        ModelPageProcessor modelPageProcessor = ModelPageProcessor.create(null, MockModel.class);
        Page page = pageMocker.getMockPage();
        modelPageProcessor.setExtractLinks(false);
        modelPageProcessor.process(page);
        assertThat(page.getTargetRequests()).isEmpty();
    }


}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/PageMapperTest.java
================================================
package us.codecraft.webmagic.model;

import org.junit.Test;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/6/3
 *         Time: 下午3:23
 */
public class PageMapperTest {

    private PageMocker pageMocker = new PageMocker();

    @Test
    public void test_get() throws Exception {
        PageMapper<GithubRepoApi> pageMapper = new PageMapper<GithubRepoApi>(GithubRepoApi.class);
        GithubRepoApi githubRepo = pageMapper.get(pageMocker.getMockJsonPage());
        assertThat(githubRepo.getName()).isEqualTo("webmagic");
    }

}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/PageMocker.java
================================================
package us.codecraft.webmagic.model;


import java.io.IOException;
import java.nio.charset.Charset;
import org.apache.commons.io.IOUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.selector.PlainText;


/**
 * @author code4crafter@gmail.com
 *         Date: 2017/6/3
 *         Time: 下午9:08
 */
public class PageMocker {

    public Page getMockJsonPage() throws IOException {
        Page page = new Page();
        page.setRawText(IOUtils.toString(PageMocker.class.getClassLoader().getResourceAsStream("json/mock-githubrepo.json"), Charset.defaultCharset()));
        page.setRequest(new Request("https://api.github.com/repos/code4craft/webmagic"));
        page.setUrl(new PlainText("https://api.github.com/repos/code4craft/webmagic"));
        return page;
    }

    public Page getMockPage() throws IOException {
        Page page = new Page();
        page.setRawText(IOUtils.toString(PageMocker.class.getClassLoader().getResourceAsStream("html/mock-webmagic.html"), Charset.defaultCharset()));
        page.setRequest(new Request("http://webmagic.io/list/0"));
        page.setUrl(new PlainText("http://webmagic.io/list/0"));
        return page;
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/model/PageModelExtractorTest.java
================================================
package us.codecraft.webmagic.model;

import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.commons.lang3.time.DateUtils;
import org.junit.Test;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.ExtractByUrl;
import us.codecraft.webmagic.model.annotation.Formatter;
import us.codecraft.webmagic.model.formatter.DateFormatter;

import java.util.Date;
import java.util.List;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/6/3
 *         Time: 下午9:06
 */
public class PageModelExtractorTest {

    private PageMocker pageMocker = new PageMocker();

    public static class ModelDateStr {

        @ExtractBy(value = "//div[@class='date']/text()", notNull = true)
        private String dateStr;

    }

    public static class ModelDate {

        @Formatter(value = "yyyyMMdd", formatter = DateFormatter.class)
        @ExtractBy(value = "//div[@class='date']/text()", notNull = true)
        private Date date;

    }

    public static class ModelInt {

        @ExtractBy(value = "//div[@class='number']/text()", notNull = true)
        private int number;

    }

    public static class ModelStringList {

        @ExtractBy("//li[@class='list']/a/@href")
        private List<String> links;

    }

    public static class ModelIntList {

        @Formatter(subClazz = Integer.class)
        @ExtractBy("//li[@class='numbers']/text()")
        private List<Integer> numbers;

    }

    public static class ModelDateList {

        @Formatter(subClazz = Date.class, value = "yyyyMMdd")
        @ExtractBy("//li[@class='dates']/text()")
        private List<Date> dates;

    }

    public static class ModelCustomList {

        @Formatter(subClazz = Date.class, value = "yyyyMMdd",formatter = DateFormatter.class)
        @ExtractBy("//li[@class='dates']/text()")
        private List<Date> dates;

    }

    public static class ModelJsonStr {

        @ExtractBy(type = ExtractBy.Type.JsonPath, value = "$.name")
        private String name;

    }

    public static class ModelUrl {

        @ExtractByUrl("https://api\\.github\\.com/repos/\\w+/(\\w+)")
        private String name;

    }

    @Test
    public void testXpath() throws Exception {
        ModelDateStr modelDate = (ModelDateStr) PageModelExtractor.create(ModelDateStr.class).process(pageMocker.getMockPage());
        assertThat(modelDate.dateStr).isEqualTo("20170603");
    }

    @Test
    public void testExtractDate() throws Exception {
        ModelDate modelDate = (ModelDate) PageModelExtractor.create(ModelDate.class).process(pageMocker.getMockPage());
        assertThat(DateFormatUtils.format(modelDate.date,"yyyyMMdd")).isEqualTo("20170603");
    }

    @Test
    public void testExtractInt() throws Exception {
        ModelInt modelDate = (ModelInt) PageModelExtractor.create(ModelInt.class).process(pageMocker.getMockPage());
        assertThat(modelDate.number).isEqualTo(12);
    }

    @Test
    public void testExtractList() throws Exception {
        ModelStringList modelDate = (ModelStringList) PageModelExtractor.create(ModelStringList.class).process(pageMocker.getMockPage());
        assertThat(modelDate.links).containsExactly("http://webmagic.io/list/1","http://webmagic.io/list/2","http://webmagic.io/list/3","http://webmagic.io/list/4");
    }

    @Test
    public void testExtractIntList() throws Exception {
        ModelIntList modelDate = (ModelIntList) PageModelExtractor.create(ModelIntList.class).process(pageMocker.getMockPage());
        assertThat(modelDate.numbers).containsExactly(1,2,3,4);
    }

    @Test
    public void testExtractDateList() throws Exception {
        ModelDateList modelDate = (ModelDateList) PageModelExtractor.create(ModelDateList.class).process(pageMocker.getMockPage());
        assertThat(modelDate.dates).containsExactly(DateUtils.parseDate("20170601", "yyyyMMdd"), DateUtils.parseDate("20170602", "yyyyMMdd"), DateUtils.parseDate("20170603", "yyyyMMdd"), DateUtils.parseDate("20170604", "yyyyMMdd"));
    }

    @Test
    public void testExtractCustomList() throws Exception {
        ModelCustomList modelDate = (ModelCustomList) PageModelExtractor.create(ModelCustomList.class).process(pageMocker.getMockPage());
        assertThat(modelDate.dates).containsExactly(DateUtils.parseDate("20170601", "yyyyMMdd"), DateUtils.parseDate("20170602", "yyyyMMdd"), DateUtils.parseDate("20170603", "yyyyMMdd"), DateUtils.parseDate("20170604", "yyyyMMdd"));
    }

    @Test
    public void testExtractJson() throws Exception {
        ModelJsonStr modelDate = (ModelJsonStr) PageModelExtractor.create(ModelJsonStr.class).process(pageMocker.getMockJsonPage());
        assertThat(modelDate.name).isEqualTo("webmagic");
    }

    @Test
    public void testExtractByUrl() throws Exception {
        ModelUrl modelDate = (ModelUrl) PageModelExtractor.create(ModelUrl.class).process(pageMocker.getMockJsonPage());
        assertThat(modelDate.name).isEqualTo("webmagic");
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/monitor/CustomSpiderStatus.java
================================================
package us.codecraft.webmagic.monitor;

import us.codecraft.webmagic.Spider;

/**
 * @author code4crafer@gmail.com
 */
public class CustomSpiderStatus extends SpiderStatus implements CustomSpiderStatusMXBean {

    public CustomSpiderStatus(Spider spider, SpiderMonitor.MonitorSpiderListener monitorSpiderListener) {
        super(spider, monitorSpiderListener);
    }


    @Override
    public String getSchedulerName() {
        return spider.getScheduler().getClass().getName();
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/monitor/CustomSpiderStatusMXBean.java
================================================
package us.codecraft.webmagic.monitor;

/**
 * @author code4crafer@gmail.com
 */
public interface CustomSpiderStatusMXBean extends SpiderStatusMXBean {

    public String getSchedulerName();

}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/monitor/SeedUrlWithPortTest.java
================================================
package us.codecraft.webmagic.monitor;

import org.junit.Test;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import javax.management.JMException;

/**
 * @author jerry_shenchao@163.com
 */
public class SeedUrlWithPortTest {

    @Test
    public void testSeedUrlWithPort() throws JMException {
        Spider spider = Spider.create(new TempProcessor()).addUrl("http://www.hndpf.org:8889/");
        SpiderMonitor.instance().register(spider);
        spider.run();
    }
}

class TempProcessor implements PageProcessor {

    @Override
    public void process(Page page) {

    }

    @Override
    public Site getSite() {
        return Site.me();
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/monitor/SpiderMonitorTest.java
================================================
package us.codecraft.webmagic.monitor;

import org.junit.Test;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.example.GithubRepoPageProcessor;
import us.codecraft.webmagic.processor.example.ZhihuPageProcessor;

/**
 * @author code4crafer@gmail.com
 * @since 0.5.0
 */
public class SpiderMonitorTest {

    @Test
    public void testInherit() throws Exception {
        SpiderMonitor spiderMonitor = new SpiderMonitor(){
            @Override
            protected SpiderStatusMXBean getSpiderStatusMBean(Spider spider, MonitorSpiderListener monitorSpiderListener) {
                return new CustomSpiderStatus(spider, monitorSpiderListener);
            }
        };

        Spider zhihuSpider = Spider.create(new ZhihuPageProcessor())
                .addUrl("http://my.oschina.net/flashsword/blog").thread(2);
        Spider githubSpider = Spider.create(new GithubRepoPageProcessor())
                .addUrl("https://github.com/code4craft");

        spiderMonitor.register(zhihuSpider, githubSpider);

    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/processor/GithubRepoProcessor.java
================================================
package us.codecraft.webmagic.processor;

import junit.framework.Assert;
import org.junit.Test;
import us.codecraft.webmagic.*;
import us.codecraft.webmagic.downloader.MockGithubDownloader;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.pipeline.Pipeline;

/**
 * @author code4crafter@gmail.com
 */
public class GithubRepoProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        page.putField("star",page.getHtml().xpath("//ul[@class='pagehead-actions']/li[2]//a[@class='social-count js-social-count']/text()").toString());
        page.putField("fork",page.getHtml().xpath("//ul[@class='pagehead-actions']/li[3]//a[@class='social-count']/text()").toString());
    }

    @Override
    public Site getSite() {
        return Site.me();
    }

    @Test
    public void test() {
        OOSpider.create(new GithubRepoProcessor()).addPipeline(new Pipeline() {
            @Override
            public void process(ResultItems resultItems, Task task) {
                Assert.assertEquals("78",((String)resultItems.get("star")).trim());
                Assert.assertEquals("65",((String)resultItems.get("fork")).trim());
            }
        }).setDownloader(new MockGithubDownloader()).test("https://github.com/code4craft/webmagic");
    }

}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/scheduler/BloomFilterDuplicateRemoverTest.java
================================================
package us.codecraft.webmagic.scheduler;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;
import us.codecraft.webmagic.scheduler.component.HashSetDuplicateRemover;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafer@gmail.com
 */
public class BloomFilterDuplicateRemoverTest {

    @Test
    public void testRemove() throws Exception {
        BloomFilterDuplicateRemover bloomFilterDuplicateRemover = new BloomFilterDuplicateRemover(10);
        boolean isDuplicate = bloomFilterDuplicateRemover.isDuplicate(new Request("a"), null);
        assertThat(isDuplicate).isFalse();
        isDuplicate = bloomFilterDuplicateRemover.isDuplicate(new Request("a"), null);
        assertThat(isDuplicate).isTrue();
        isDuplicate = bloomFilterDuplicateRemover.isDuplicate(new Request("b"), null);
        assertThat(isDuplicate).isFalse();
        isDuplicate = bloomFilterDuplicateRemover.isDuplicate(new Request("b"), null);
        assertThat(isDuplicate).isTrue();

    }

    @Ignore("long time")
    @Test
    public void testMemory() throws Exception {
        int times = 5000000;
        DuplicateRemover duplicateRemover = new BloomFilterDuplicateRemover(times,0.005);
        long freeMemory = Runtime.getRuntime().freeMemory();
        long time = System.currentTimeMillis();
        for (int i = 0; i < times; i++) {
            duplicateRemover.isDuplicate(new Request(String.valueOf(i)), null);
        }
        System.out.println("Time used by bloomfilter:" + (System.currentTimeMillis() - time));
        System.out.println("Memory used by bloomfilter:" + (freeMemory - Runtime.getRuntime().freeMemory()));

        duplicateRemover = new HashSetDuplicateRemover();
        System.gc();
        freeMemory = Runtime.getRuntime().freeMemory();
        time = System.currentTimeMillis();
        for (int i = 0; i < times; i++) {
            duplicateRemover.isDuplicate(new Request(String.valueOf(i)), null);
        }
        System.out.println("Time used by hashset:" + (System.currentTimeMillis() - time));
        System.out.println("Memory used by hashset:" + (freeMemory - Runtime.getRuntime().freeMemory()));
    }

    @Ignore("long time")
    @Test
    public void testMissHit() throws Exception {
        int times = 5000000;
        DuplicateRemover duplicateRemover = new BloomFilterDuplicateRemover(times, 0.01);
        int right = 0;
        int wrong = 0;
        int missCheck = 0;
        for (int i = 0; i < times; i++) {
            boolean duplicate = duplicateRemover.isDuplicate(new Request(String.valueOf(i)), null);
            if (duplicate) {
                wrong++;
            } else {
                right++;
            }
            duplicate = duplicateRemover.isDuplicate(new Request(String.valueOf(i)), null);
            if (!duplicate) {
                missCheck++;
            }
        }

        System.out.println("Right count: " + right + " Wrong count: " + wrong + " Miss check: " + missCheck);
    }


}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/scheduler/RedisPrioritySchedulerTest.java
================================================
package us.codecraft.webmagic.scheduler;

import org.junit.Assert;
import org.junit.Before;
import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

/**
 * @author sai
 * Created by sai on 16-7-5.
 */
public class RedisPrioritySchedulerTest
{

    private RedisPriorityScheduler scheduler;

    @Before
    public void setUp()
    {
        scheduler = new RedisPriorityScheduler("localhost");
    }

    @Ignore("environment depended")
    @Test
    public void test()
    {
        Task task = new Task() {
            @Override
            public String getUUID() {
                return "TestTask";
            }

            @Override
            public Site getSite() {
                return null;
            }
        };

        scheduler.resetDuplicateCheck(task);

        Request request = new Request("https://www.google.com");
        Request request1= new Request("https://www.facebook.com/");
        Request request2= new Request("https://twitter.com");

        request.setPriority(1).putExtra("name", "google");
        request1.setPriority(0).putExtra("name", "facebook");
        request2.setPriority(-1).putExtra("name", "twitter");

        scheduler.push(request, task);
        scheduler.push(request1, task);
        scheduler.push(request2, task);

        Request GRequest    = scheduler.poll(task);
        Request FBRequest   = scheduler.poll(task);
        Request TRequest    = scheduler.poll(task);

        Assert.assertEquals(GRequest.getUrl(), request.getUrl());
        Assert.assertEquals(GRequest.getExtra("name"), request.getExtra("name"));

        Assert.assertEquals(FBRequest.getUrl(), request1.getUrl());
        Assert.assertEquals(FBRequest.getExtra("name"), request.getExtra("name"));

        Assert.assertEquals(TRequest.getUrl(), request2.getUrl());
        Assert.assertEquals(TRequest.getExtra("name"), request.getExtra("name"));
    }

}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/scheduler/RedisSchedulerTest.java
================================================
package us.codecraft.webmagic.scheduler;

import org.junit.Before;
import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com <br>
 */
public class RedisSchedulerTest {

    private RedisScheduler redisScheduler;

    @Before
    public void setUp() {
        redisScheduler = new RedisScheduler("localhost");
    }

    @Ignore("environment depended")
    @Test
    public void test() {
        Task task = new Task() {
            @Override
            public String getUUID() {
                return "1";
            }

            @Override
            public Site getSite() {
                return null;
            }
        };
        Request request = new Request("http://www.ibm.com/developerworks/cn/java/j-javadev2-22/");
        request.putExtra("1","2");
        redisScheduler.push(request, task);
        Request poll = redisScheduler.poll(task);
        assertThat(poll).isEqualTo(request);

    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/utils/IPUtilsTest.java
================================================
package us.codecraft.webmagic.utils;

import org.junit.Test;

/**
 * @author code4crafer@gmail.com
 */
public class IPUtilsTest {

    @Test
    public void testGetFirstNoLoopbackIPAddresses() throws Exception {
        System.out.println(IPUtils.getFirstNoLoopbackIPAddresses());
    }
}


================================================
FILE: webmagic-extension/src/test/java/us/codecraft/webmagic/utils/RequestUtilsTest.java
================================================
package us.codecraft.webmagic.utils;

import org.junit.Test;
import us.codecraft.webmagic.Request;

import java.util.List;

import static org.assertj.core.api.Assertions.assertThat;

/**
 * @author code4crafter@gmail.com
 *         Date: 2017/6/5
 *         Time: 下午5:08
 */
public class RequestUtilsTest {

    @Test
    public void test_generate_range() throws Exception {
        List<Request> requests = RequestUtils.from("http://angularjs.cn/api/article/latest?p=[1-3]&s=20");
        assertThat(requests).containsExactly(new Request("http://angularjs.cn/api/article/latest?p=1&s=20"), new Request("http://angularjs.cn/api/article/latest?p=2&s=20"), new Request("http://angularjs.cn/api/article/latest?p=3&s=20"));
    }

    @Test
    public void test_generate_range_when_invalid_number() throws Exception {
        List<Request> requests = RequestUtils.from("http://angularjs.cn/api/article/latest?p=[10-3]&s=20");
        assertThat(requests).isEmpty();
    }
}


================================================
FILE: webmagic-extension/src/test/resources/html/mock-github.html
================================================


<!DOCTYPE html>
<html lang="en" class=" is-u2f-enabled">
<head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# object: http://ogp.me/ns/object# article: http://ogp.me/ns/article# profile: http://ogp.me/ns/profile#">
    <meta charset='utf-8'>
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta http-equiv="Content-Language" content="en">
    <meta name="viewport" content="width=1020">


    <title>code4craft/webmagic</title>
    <link rel="search" type="application/opensearchdescription+xml" href="/opensearch.xml" title="GitHub">
    <link rel="fluid-icon" href="https://github.com/fluidicon.png" title="GitHub">
    <link rel="apple-touch-icon" sizes="57x57" href="/apple-touch-icon-114.png">
    <link rel="apple-touch-icon" sizes="114x114" href="/apple-touch-icon-114.png">
    <link rel="apple-touch-icon" sizes="72x72" href="/apple-touch-icon-144.png">
    <link rel="apple-touch-icon" sizes="144x144" href="/apple-touch-icon-144.png">
    <meta property="fb:app_id" content="1401488693436528">

    <meta content="@github" name="twitter:site" /><meta content="summary" name="twitter:card" /><meta content="code4craft/webmagic" name="twitter:title" /><meta content="webmagic - A scalable web crawler framework." name="twitter:description" /><meta content="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=400" name="twitter:image:src" />
    <meta content="GitHub" property="og:site_name" /><meta content="object" property="og:type" /><meta content="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=400" property="og:image" /><meta content="code4craft/webmagic" property="og:title" /><meta content="https://github.com/code4craft/webmagic" property="og:url" /><meta content="webmagic - A scalable web crawler framework." property="og:description" />
    <meta name="browser-stats-url" content="https://api.github.com/_private/browser/stats">
    <meta name="browser-errors-url" content="https://api.github.com/_private/browser/errors">
    <link rel="assets" href="https://assets-cdn.github.com/">
    <link rel="web-socket" href="wss://live.github.com/_sockets/MTM1MTg4NDo3YWI4NmUwOGM3MzhlMjU5MzVhZGNiNmFmOWUxNjExNTpjNWZlMzRmNzk5NjE4NGMxNDQwZDMzY2Q5ZWE3NGRmMmZkZWMwYTg2NTRkOTA2YTU2Mjk5NDYxYTk1ZjljNDJj--22ca52337ffde7621f032b082bfd863eeade6f9c">
    <meta name="pjax-timeout" content="1000">
    <link rel="sudo-modal" href="/sessions/sudo_modal">

    <meta name="msapplication-TileImage" content="/windows-tile.png">
    <meta name="msapplication-TileColor" content="#ffffff">
    <meta name="selected-link" value="repo_source" data-pjax-transient>

    <meta name="google-site-verification" content="KT5gs8h0wvaagLKAVWq8bbeNwnZZK1r1XQysX3xurLU">
    <meta name="google-analytics" content="UA-3769691-2">

    <meta content="collector.githubapp.com" name="octolytics-host" /><meta content="github" name="octolytics-app-id" /><meta content="6AB91C29:10EF:6D4972F:569D042D" name="octolytics-dimension-request_id" /><meta content="1351884" name="octolytics-actor-id" /><meta content="code4craft" name="octolytics-actor-login" /><meta content="b87866a7952857ad32eeb0a33a8d3f9743660184e01113bc601ed02f292f8597" name="octolytics-actor-hash" />
    <meta content="/&lt;user-name&gt;/&lt;repo-name&gt;" data-pjax-transient="true" name="analytics-location" />
    <meta content="Rails, view, files#disambiguate" data-pjax-transient="true" name="analytics-event" />


    <meta class="js-ga-set" name="dimension1" content="Logged In">


    <meta name="hostname" content="github.com">
    <meta name="user-login" content="code4craft">

    <meta name="expected-hostname" content="github.com">

    <link rel="mask-icon" href="https://assets-cdn.github.com/pinned-octocat.svg" color="#4078c0">
    <link rel="icon" type="image/x-icon" href="https://assets-cdn.github.com/favicon.ico">

    <meta content="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" name="form-nonce" />

    <link crossorigin="anonymous" href="https://assets-cdn.github.com/assets/github-1b53a0bcb9add868a6c5ae469ecabb8b236ffa8f2b05360fde027f75eb714f1b.css" media="all" rel="stylesheet" />
    <link crossorigin="anonymous" href="https://assets-cdn.github.com/assets/github2-70af51f1bed4904749e6ef486ad11871c8ce4361ac82bb5f96a090b7f5346580.css" media="all" rel="stylesheet" />


    <meta http-equiv="x-pjax-version" content="4222bfcb881548243f94e18e8a3bcfd0">


    <meta name="description" content="webmagic - A scalable web crawler framework.">
    <meta name="go-import" content="github.com/code4craft/webmagic git https://github.com/code4craft/webmagic.git">

    <meta content="1351884" name="octolytics-dimension-user_id" /><meta content="code4craft" name="octolytics-dimension-user_login" /><meta content="9623064" name="octolytics-dimension-repository_id" /><meta content="code4craft/webmagic" name="octolytics-dimension-repository_nwo" /><meta content="true" name="octolytics-dimension-repository_public" /><meta content="false" name="octolytics-dimension-repository_is_fork" /><meta content="9623064" name="octolytics-dimension-repository_network_root_id" /><meta content="code4craft/webmagic" name="octolytics-dimension-repository_network_root_nwo" />
    <link href="https://github.com/code4craft/webmagic/commits/master.atom" rel="alternate" title="Recent Commits to webmagic:master" type="application/atom+xml">

</head>


<body class="logged_in   env-production macintosh vis-public">
<a href="#start-of-content" tabindex="1" class="accessibility-aid js-skip-to-content">Skip to content</a>


<div class="header header-logged-in true" role="banner">
    <div class="container clearfix">

        <a class="header-logo-invertocat" href="https://github.com/" data-hotkey="g d" aria-label="Homepage" data-ga-click="Header, go to dashboard, icon:logo">
            <span aria-hidden="true" class="mega-octicon octicon-mark-github"></span>
        </a>


        <div class="site-search repo-scope js-site-search" role="search">
            <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/search" class="js-site-search-form" data-global-search-url="/search" data-repo-search-url="/code4craft/webmagic/search" method="get"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /></div>
            <label class="js-chromeless-input-container form-control">
                <div class="scope-badge">This repository</div>
                <input type="text"
                       class="js-site-search-focus js-site-search-field is-clearable chromeless-input"
                       data-hotkey="s"
                       name="q"
                       placeholder="Search"
                       aria-label="Search this repository"
                       data-global-scope-placeholder="Search GitHub"
                       data-repo-scope-placeholder="Search"
                       tabindex="1"
                       autocapitalize="off">
            </label>
        </form>
        </div>

        <ul class="header-nav left" role="navigation">
            <li class="header-nav-item">
                <a href="/pulls" class="js-selected-navigation-item header-nav-link" data-ga-click="Header, click, Nav menu - item:pulls context:user" data-hotkey="g p" data-selected-links="/pulls /pulls/assigned /pulls/mentioned /pulls">
                    Pull requests
                </a>        </li>
            <li class="header-nav-item">
                <a href="/issues" class="js-selected-navigation-item header-nav-link" data-ga-click="Header, click, Nav menu - item:issues context:user" data-hotkey="g i" data-selected-links="/issues /issues/assigned /issues/mentioned /issues">
                    Issues
                </a>        </li>
            <li class="header-nav-item">
                <a class="header-nav-link" href="https://gist.github.com/" data-ga-click="Header, go to gist, text:gist">Gist</a>
            </li>
        </ul>


        <ul class="header-nav user-nav right" id="user-links">
            <li class="header-nav-item">
      <span class="js-socket-channel js-updatable-content"
            data-channel="notification-changed:code4craft"
            data-url="/notifications/header">
      <a href="/notifications" aria-label="You have no unread notifications" class="header-nav-link notification-indicator tooltipped tooltipped-s" data-ga-click="Header, go to notifications, icon:read" data-hotkey="g n">
          <span class="mail-status all-read"></span>
          <span aria-hidden="true" class="octicon octicon-bell"></span>
      </a>  </span>

            </li>

            <li class="header-nav-item dropdown js-menu-container">
                <a class="header-nav-link tooltipped tooltipped-s js-menu-target" href="/new"
                   aria-label="Create new…"
                   data-ga-click="Header, create new, icon:add">
                    <span aria-hidden="true" class="octicon octicon-plus left"></span>
                    <span class="dropdown-caret"></span>
                </a>

                <div class="dropdown-menu-content js-menu-content">
                    <ul class="dropdown-menu dropdown-menu-sw">

                        <a class="dropdown-item" href="/new" data-ga-click="Header, create new repository">
                            New repository
                        </a>


                        <a class="dropdown-item" href="/organizations/new" data-ga-click="Header, create new organization">
                            New organization
                        </a>


                        <div class="dropdown-divider"></div>
                        <div class="dropdown-header">
                            <span title="code4craft/webmagic">This repository</span>
                        </div>
                        <a class="dropdown-item" href="/code4craft/webmagic/issues/new" data-ga-click="Header, create new issue">
                            New issue
                        </a>
                        <a class="dropdown-item" href="/code4craft/webmagic/settings/collaboration" data-ga-click="Header, create new collaborator">
                            New collaborator
                        </a>

                    </ul>
                </div>
            </li>

            <li class="header-nav-item dropdown js-menu-container">
                <a class="header-nav-link name tooltipped tooltipped-sw js-menu-target" href="/code4craft"
                   aria-label="View profile and more"
                   data-ga-click="Header, show menu, icon:avatar">
                    <img alt="@code4craft" class="avatar" height="20" src="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=40" width="20" />
                    <span class="dropdown-caret"></span>
                </a>

                <div class="dropdown-menu-content js-menu-content">
                    <div class="dropdown-menu  dropdown-menu-sw">
                        <div class=" dropdown-header header-nav-current-user css-truncate">
                            Signed in as <strong class="css-truncate-target">code4craft</strong>

                        </div>


                        <div class="dropdown-divider"></div>

                        <a class="dropdown-item" href="/code4craft" data-ga-click="Header, go to profile, text:your profile">
                            Your profile
                        </a>
                        <a class="dropdown-item" href="/stars" data-ga-click="Header, go to starred repos, text:your stars">
                            Your stars
                        </a>
                        <a class="dropdown-item" href="/explore" data-ga-click="Header, go to explore, text:explore">
                            Explore
                        </a>
                        <a class="dropdown-item" href="/integrations" data-ga-click="Header, go to integrations, text:integrations">
                            Integrations
                        </a>
                        <a class="dropdown-item" href="https://help.github.com" data-ga-click="Header, go to help, text:help">
                            Help
                        </a>

                        <div class="dropdown-divider"></div>

                        <a class="dropdown-item" href="/settings/profile" data-ga-click="Header, go to settings, icon:settings">
                            Settings
                        </a>

                        <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/logout" class="logout-form" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="ZINKeCzFexhof31oC9cCA+iEXymQ95S66nGpEO1oOhr5jI03Z1aD4k6dtjVPp11IJlwY9sSGIpgQt/SthVhr5Q==" /></div>
                        <button class="dropdown-item dropdown-signout" data-ga-click="Header, sign out, icon:logout">
                            Sign out
                        </button>
                    </form>
                    </div>
                </div>
            </li>
        </ul>


    </div>
</div>


<div id="start-of-content" class="accessibility-aid"></div>

<div id="js-flash-container">
</div>


<div role="main" class="main-content">
    <div itemscope itemtype="http://schema.org/WebPage">
        <div id="js-repo-pjax-container" class="context-loader-container js-repo-nav-next" data-pjax-container>

            <div class="pagehead repohead instapaper_ignore readability-menu experiment-repo-nav">
                <div class="container repohead-details-container">


                    <ul class="pagehead-actions">

                        <li>
                            <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/notifications/subscribe" class="js-social-container" data-autosubmit="true" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="A8U/nsuWmrNcDVP1LvjcaT2gKFrPqnmC5eOwH18NcsePFGlsinj0uaf9yaNxnk741gXv+8QIVEYn0veSA3qRUQ==" /></div>      <input id="repository_id" name="repository_id" type="hidden" value="9623064" />

                            <div class="select-menu js-menu-container js-select-menu">
                                <a href="/code4craft/webmagic/subscription"
                                   class="btn btn-sm btn-with-count select-menu-button js-menu-target" role="button" tabindex="0" aria-haspopup="true"
                                   data-ga-click="Repository, click Watch settings, action:files#disambiguate">
            <span class="js-select-button">
              <span aria-hidden="true" class="octicon octicon-eye"></span>
              Unwatch
            </span>
                                </a>
                                <a class="social-count js-social-count" href="/code4craft/webmagic/watchers">
                                    367
                                </a>

                                <div class="select-menu-modal-holder">
                                    <div class="select-menu-modal subscription-menu-modal js-menu-content" aria-hidden="true">
                                        <div class="select-menu-header">
                                            <span aria-label="Close" class="octicon octicon-x js-menu-close" role="button"></span>
                                            <span class="select-menu-title">Notifications</span>
                                        </div>

                                        <div class="select-menu-list js-navigation-container" role="menu">

                                            <div class="select-menu-item js-navigation-item " role="menuitem" tabindex="0">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                <div class="select-menu-item-text">
                                                    <input id="do_included" name="do" type="radio" value="included" />
                                                    <span class="select-menu-item-heading">Not watching</span>
                                                    <span class="description">Be notified when participating or @mentioned.</span>
                    <span class="js-select-button-text hidden-select-button-text">
                      <span aria-hidden="true" class="octicon octicon-eye"></span>
                      Watch
                    </span>
                                                </div>
                                            </div>

                                            <div class="select-menu-item js-navigation-item selected" role="menuitem" tabindex="0">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                <div class="select-menu-item-text">
                                                    <input checked="checked" id="do_subscribed" name="do" type="radio" value="subscribed" />
                                                    <span class="select-menu-item-heading">Watching</span>
                                                    <span class="description">Be notified of all conversations.</span>
                    <span class="js-select-button-text hidden-select-button-text">
                      <span aria-hidden="true" class="octicon octicon-eye"></span>
                      Unwatch
                    </span>
                                                </div>
                                            </div>

                                            <div class="select-menu-item js-navigation-item " role="menuitem" tabindex="0">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                <div class="select-menu-item-text">
                                                    <input id="do_ignore" name="do" type="radio" value="ignore" />
                                                    <span class="select-menu-item-heading">Ignoring</span>
                                                    <span class="description">Never be notified.</span>
                    <span class="js-select-button-text hidden-select-button-text">
                      <span aria-hidden="true" class="octicon octicon-mute"></span>
                      Stop ignoring
                    </span>
                                                </div>
                                            </div>

                                        </div>

                                    </div>
                                </div>
                            </div>
                        </form>
                        </li>

                        <li>

                            <div class="js-toggler-container js-social-container starring-container ">

                                <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/unstar" class="js-toggler-form starred js-unstar-button" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="mGh0BvguuVTHUZ1Lnf51zYVJ7dGdABVF+Bavja/Jqy7OjG/oveUKfauEqgIowVAM3UFe636pTW6E8jHFtSR0Aw==" /></div>
                                <button
                                        class="btn btn-sm btn-with-count js-toggler-target"
                                        aria-label="Unstar this repository" title="Unstar code4craft/webmagic"
                                        data-ga-click="Repository, click unstar button, action:files#disambiguate; text:Unstar">
                                    <span aria-hidden="true" class="octicon octicon-star"></span>
                                    Unstar
                                </button>
                                <a class="social-count js-social-count" href="/code4craft/webmagic/stargazers">
                                    1,743
                                </a>
                            </form>
                                <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/star" class="js-toggler-form unstarred js-star-button" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="nQnqpsGUUYVDCSka1tYn2QpcwUBYoqFTCehYIBwHWhcW9+tWTg+gBXa/spd+Hhfe2xNjXBfz7iTXZpHy4+ksEg==" /></div>
                                <button
                                        class="btn btn-sm btn-with-count js-toggler-target"
                                        aria-label="Star this repository" title="Star code4craft/webmagic"
                                        data-ga-click="Repository, click star button, action:files#disambiguate; text:Star">
                                    <span aria-hidden="true" class="octicon octicon-star"></span>
                                    Star
                                </button>
                                <a class="social-count js-social-count" href="/code4craft/webmagic/stargazers">
                                    1,743
                                </a>
                            </form>  </div>

                        </li>

                        <li>
                            <a href="#fork-destination-box" class="btn btn-sm btn-with-count"
                               title="Fork your own copy of code4craft/webmagic to your account"
                               aria-label="Fork your own copy of code4craft/webmagic to your account"
                               rel="facebox"
                               data-ga-click="Repository, show fork modal, action:files#disambiguate; text:Fork">
                                <span aria-hidden="true" class="octicon octicon-repo-forked"></span>
                                Fork
                            </a>

                            <div id="fork-destination-box" style="display: none;">
                                <h2 class="facebox-header" data-facebox-id="facebox-header">Where should we fork this repository?</h2>
                                <include-fragment src=""
                                                  class="js-fork-select-fragment fork-select-fragment"
                                                  data-url="/code4craft/webmagic/fork?fragment=1">
                                    <img alt="Loading" height="64" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-128.gif" width="64" />
                                </include-fragment>
                            </div>

                            <a href="/code4craft/webmagic/network" class="social-count">
                                1,128
                            </a>
                        </li>
                    </ul>

                    <h1 itemscope itemtype="http://data-vocabulary.org/Breadcrumb" class="entry-title public ">
                        <span aria-hidden="true" class="octicon octicon-repo"></span>
                        <span class="author"><a href="/code4craft" class="url fn" itemprop="url" rel="author"><span itemprop="title">code4craft</span></a></span><!--
--><span class="path-divider">/</span><!--
--><strong><a href="/code4craft/webmagic" data-pjax="#js-repo-pjax-container">webmagic</a></strong>

  <span class="page-context-loader">
    <img alt="" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
  </span>

                    </h1>

                </div>
                <div class="container">

                    <nav class="reponav js-repo-nav js-sidenav-container-pjax js-octicon-loaders"
                         role="navigation"
                         data-pjax="#js-repo-pjax-container">

                        <a href="/code4craft/webmagic" aria-label="Code" aria-selected="true" class="js-selected-navigation-item selected reponav-item" data-hotkey="g c" data-selected-links="repo_source repo_downloads repo_commits repo_releases repo_tags repo_branches /code4craft/webmagic">
                            <span aria-hidden="true" class="octicon octicon-code"></span>
                            Code
                        </a>
                        <a href="/code4craft/webmagic/issues" class="js-selected-navigation-item reponav-item" data-hotkey="g i" data-selected-links="repo_issues repo_labels repo_milestones /code4craft/webmagic/issues">
                            <span aria-hidden="true" class="octicon octicon-issue-opened"></span>
                            Issues
                            <span class="counter">67</span>
                        </a>
                        <a href="/code4craft/webmagic/pulls" class="js-selected-navigation-item reponav-item" data-hotkey="g p" data-selected-links="repo_pulls /code4craft/webmagic/pulls">
                            <span aria-hidden="true" class="octicon octicon-git-pull-request"></span>
                            Pull requests
                            <span class="counter">14</span>
                        </a>
                        <a href="/code4craft/webmagic/wiki" class="js-selected-navigation-item reponav-item" data-hotkey="g w" data-selected-links="repo_wiki /code4craft/webmagic/wiki">
                            <span aria-hidden="true" class="octicon octicon-book"></span>
                            Wiki
                        </a>
                        <a href="/code4craft/webmagic/pulse" class="js-selected-navigation-item reponav-item" data-selected-links="pulse /code4craft/webmagic/pulse">
                            <span aria-hidden="true" class="octicon octicon-pulse"></span>
                            Pulse
                        </a>
                        <a href="/code4craft/webmagic/graphs" class="js-selected-navigation-item reponav-item" data-selected-links="repo_graphs repo_contributors /code4craft/webmagic/graphs">
                            <span aria-hidden="true" class="octicon octicon-graph"></span>
                            Graphs
                        </a>
                        <a href="/code4craft/webmagic/settings" class="js-selected-navigation-item reponav-item" data-selected-links="repo_settings repo_branch_settings hooks /code4craft/webmagic/settings">
                            <span aria-hidden="true" class="octicon octicon-gear"></span>
                            Settings
                        </a>
                    </nav>

                </div>
            </div>

            <div class="container new-discussion-timeline experiment-repo-nav">
                <div class="repository-content">


                    <div class="repository-meta js-details-container">
  <span class="repository-meta-content">
        A scalable web crawler framework.
        <a href="http://webmagic.io/" rel="nofollow">http://webmagic.io/</a>
  </span>

                        <span class="edit-link js-details-target">— <a href="#" class="muted-link">Edit</a></span>
                        <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/settings/update_meta" class="edit-repository-meta" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="_method" type="hidden" value="put" /><input name="authenticity_token" type="hidden" value="7xX6fGJkjyARqJhxbtYg5AK+hzEpZLP8qatQsSBLDA39GuvJkVwzO80SeWX37wxYpvr1bIudI8ojlj1p5I1zvw==" /></div>

                        <div class="field">
                            <label for="repo_description">Description</label>
                            <input type="text" id="repo_description" class="input-contrast repo-description-field" name="repo_description" value="A scalable web crawler framework." placeholder="Short description of this repository">
                        </div>

                        <div class="field" >
                            <label for="repo_homepage">Website</label>
                            <input type="url" id="repo_homepage" class="input-contrast repo-website-field" name="repo_homepage" value="http://webmagic.io/" placeholder="Website for this repository (optional)">
                        </div>

                        <button class="btn">Save</button>
                        or <a href="#" class="js-details-target">Cancel</a>
                    </form></div>


                    <div class="overall-summary overall-summary-bottomless">

                        <div class="stats-switcher-viewport js-stats-switcher-viewport">
                            <div class="stats-switcher-wrapper">
                                <ul class="numbers-summary">
                                    <li class="commits">
                                        <a data-pjax href="/code4craft/webmagic/commits/master">
                                            <span aria-hidden="true" class="octicon octicon-history"></span>
            <span class="num text-emphasized">
              698
            </span>
                                            commits
                                        </a>
                                    </li>
                                    <li>
                                        <a data-pjax href="/code4craft/webmagic/branches">
                                            <span aria-hidden="true" class="octicon octicon-git-branch"></span>
          <span class="num text-emphasized">
            6
          </span>
                                            branches
                                        </a>
                                    </li>

                                    <li>
                                        <a data-pjax href="/code4craft/webmagic/releases">
                                            <span aria-hidden="true" class="octicon octicon-tag"></span>
          <span class="num text-emphasized">
            13
          </span>
                                            releases
                                        </a>
                                    </li>

                                    <li>

                                        <a href="/code4craft/webmagic/graphs/contributors">
                                            <span aria-hidden="true" class="octicon octicon-organization"></span>
    <span class="num text-emphasized">
      23
    </span>
                                            contributors
                                        </a>
                                    </li>
                                </ul>

                                <div class="repository-lang-stats">
                                    <ol class="repository-lang-stats-numbers">
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=java">
                                                <span class="color-block language-color" style="background-color:#b07219;"></span>
                                                <span class="lang">Java</span>
                                                <span class="percent">72.2%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=css">
                                                <span class="color-block language-color" style="background-color:#563d7c;"></span>
                                                <span class="lang">CSS</span>
                                                <span class="percent">11.6%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=javascript">
                                                <span class="color-block language-color" style="background-color:#f1e05a;"></span>
                                                <span class="lang">JavaScript</span>
                                                <span class="percent">8.5%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=freemarker">
                                                <span class="color-block language-color" style="background-color:#0050b2;"></span>
                                                <span class="lang">FreeMarker</span>
                                                <span class="percent">7.4%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=html">
                                                <span class="color-block language-color" style="background-color:#e44b23;"></span>
                                                <span class="lang">HTML</span>
                                                <span class="percent">0.2%</span>
                                            </a>
                                        </li>
                                        <li>
                                            <a href="/code4craft/webmagic/search?l=ruby">
                                                <span class="color-block language-color" style="background-color:#701516;"></span>
                                                <span class="lang">Ruby</span>
                                                <span class="percent">0.1%</span>
                                            </a>
                                        </li>
                                    </ol>
                                </div>
                            </div>
                        </div>

                    </div>

                    <div class="repository-lang-stats-graph js-toggle-lang-stats" title="Click for language details">
                        <span class="language-color" aria-label="Java 72.2%" style="width:72.2%; background-color:#b07219;" itemprop="keywords">Java</span>
                        <span class="language-color" aria-label="CSS 11.6%" style="width:11.6%; background-color:#563d7c;" itemprop="keywords">CSS</span>
                        <span class="language-color" aria-label="JavaScript 8.5%" style="width:8.5%; background-color:#f1e05a;" itemprop="keywords">JavaScript</span>
                        <span class="language-color" aria-label="FreeMarker 7.4%" style="width:7.4%; background-color:#0050b2;" itemprop="keywords">FreeMarker</span>
                        <span class="language-color" aria-label="HTML 0.2%" style="width:0.2%; background-color:#e44b23;" itemprop="keywords">HTML</span>
                        <span class="language-color" aria-label="Ruby 0.1%" style="width:0.1%; background-color:#701516;" itemprop="keywords">Ruby</span>
                    </div>

                    <include-fragment src="/code4craft/webmagic/show_partial?partial=tree%2Frecently_touched_branches_list"></include-fragment>

                    <div class="file-navigation in-mid-page file-navigation-new">
                        <div class="right">
                            <div class="btn-group">

                                <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/new/master" class="button_to js-new-blob-form" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="XOKyr9wZjCR+NGJTatrBJTz6EfVIx0qK42atG8cU8mGVCvihIi+04Zb0Y916iB+cmvs9fIDiC+Gg45gG6Y1inw==" /></div>
                                <button class="btn btn-sm tooltipped tooltipped-n js-new-blob-submit" type="submit"
                                        data-disable-with="working…" aria-label="Create a new file here">
                                    New file
                                </button>
                            </form>


                                <a href="/code4craft/webmagic/find/master"
                                   class="btn btn-sm empty-icon right js-show-file-finder"
                                   data-pjax
                                   data-hotkey="t"
                                   data-ga-click="Repository, find file, location:repo overview">
                                    Find file
                                </a>
                            </div>
                            <div class="file-navigation-options" data-multiple>

                                <div class="file-navigation-option">
                                    <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/users/set_protocol" class="js-set-user-protocol-preference" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" data-remote="true" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="Sx794jiPAE0pdEIUNJhp4AUyhkPwdamIAAKBQQGDtNe+0e8whjFgMrGl63/fDAEmggpzui33hAJ0GQ0EEYf/Rw==" /></div>
                                    <input type="hidden" name="protocol_type" value="push">

                                    <div class="select-menu js-menu-container js-select-menu">
                                        <div class="input-group js-select-button js-zeroclipboard-container">
                                            <div class="input-group-button">
                                                <button type="button" class="btn btn-sm select-menu-button js-menu-target" data-ga-click="Repository, clone SSH, location:repo overview">
                                                    SSH
                                                </button>
                                            </div>
                                            <input type="text" class="input-monospace input-mini js-zeroclipboard-target js-url-field" value="git@github.com:code4craft/webmagic.git" readonly>
                                            <div class="input-group-button">
                                                <button aria-label="Copy to clipboard" class="js-zeroclipboard btn btn-sm zeroclipboard-button tooltipped tooltipped-s" data-copied-hint="Copied!" type="button"><span aria-hidden="true" class="octicon octicon-clippy"></span></button>
                                            </div>

                                        </div>

                                        <div class="select-menu-modal-holder">
                                            <div class="select-menu-modal js-menu-content" aria-hidden="true">
                                                <div class="select-menu-header">
                                                    <span aria-label="Close" class="octicon octicon-x js-menu-close" role="button"></span>
                                                    <span class="select-menu-title">Choose a clone URL</span>
                                                </div>

                                                <div class="select-menu-list js-navigation-container" role="menu">
                                                    <div class="select-menu-item js-navigation-item " role="menuitem" tabindex="0">
                                                        <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                        <div class="select-menu-item-text">
                                                            <input type="radio" name="protocol_selector" value="http" >
                          <span class="select-menu-item-heading">
                            HTTPS
                            (recommended)
                          </span>
                            <span class="description">
                              Clone with Git or checkout with SVN using the repository's web address.
                            </span>
                          <span class="js-select-button-text hidden-select-button-text">
                            <div class="input-group-button">
                                <button type="button" class="btn btn-sm select-menu-button js-menu-target" data-ga-click="Repository, clone HTTPS, location:repo overview">
                                    HTTPS
                                </button>
                            </div>
<input type="text" class="input-monospace input-mini js-zeroclipboard-target js-url-field" value="https://github.com/code4craft/webmagic.git" readonly>
<div class="input-group-button">
    <button aria-label="Copy to clipboard" class="js-zeroclipboard btn btn-sm zeroclipboard-button tooltipped tooltipped-s" data-copied-hint="Copied!" type="button"><span aria-hidden="true" class="octicon octicon-clippy"></span></button>
</div>

                          </span>
                                                        </div>
                                                    </div>
                                                    <div class="select-menu-item js-navigation-item selected" role="menuitem" tabindex="0">
                                                        <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
                                                        <div class="select-menu-item-text">
                                                            <input type="radio" name="protocol_selector" value="ssh" checked>
                          <span class="select-menu-item-heading">
                            SSH

                          </span>
                            <span class="description">
                              Clone with an SSH key and passphrase from your GitHub settings.
                            </span>
                          <span class="js-select-button-text hidden-select-button-text">
                            <div class="input-group-button">
                                <button type="button" class="btn btn-sm select-menu-button js-menu-target" data-ga-click="Repository, clone SSH, location:repo overview">
                                    SSH
                                </button>
                            </div>
<input type="text" class="input-monospace input-mini js-zeroclipboard-target js-url-field" value="git@github.com:code4craft/webmagic.git" readonly>
<div class="input-group-button">
    <button aria-label="Copy to clipboard" class="js-zeroclipboard btn btn-sm zeroclipboard-button tooltipped tooltipped-s" data-copied-hint="Copied!" type="button"><span aria-hidden="true" class="octicon octicon-clippy"></span></button>
</div>

                          </span>
                                                        </div>
                                                    </div>
                                                </div>
                                                <div class="select-menu-list" role="menu">
                                                    <a class="select-menu-item select-menu-action" href="https://help.github.com/articles/which-remote-url-should-i-use" target="_blank">
                                                        <span aria-hidden="true" class="octicon octicon-question select-menu-item-icon"></span>
                                                        <div class="select-menu-item-text">
                                                            Learn more about clone URLs
                                                        </div>
                                                    </a>
                                                </div>
                                            </div>
                                        </div>
                                    </div>
                                </form>        </div>

                                <div class="file-navigation-option">
                                    <a href="github-mac://openRepo/https://github.com/code4craft/webmagic" class="btn btn-sm tooltipped tooltipped-s tooltipped-multiline" aria-label="Save code4craft/webmagic to your computer and use it in GitHub Desktop.">
                                        <span aria-hidden="true" class="octicon octicon-desktop-download"></span>
                                    </a>
                                </div>


                                <div class="file-navigation-option">
                                    <a href="/code4craft/webmagic/archive/master.zip"
                                       class="btn btn-sm"
                                       rel="nofollow"
                                       data-ga-click="Repository, download zip, location:repo overview">
                                        Download ZIP
                                    </a>
                                </div>
                            </div>
                        </div>


                        <div class="select-menu js-menu-container js-select-menu left">
                            <button class="btn btn-sm select-menu-button js-menu-target css-truncate" data-hotkey="w"
                                    title="master"
                                    type="button" aria-label="Switch branches or tags" tabindex="0" aria-haspopup="true">
                                <i>Branch:</i>
                                <span class="js-select-button css-truncate-target">master</span>
                            </button>

                            <div class="select-menu-modal-holder js-menu-content js-navigation-container" data-pjax aria-hidden="true">

                                <div class="select-menu-modal">
                                    <div class="select-menu-header">
                                        <span aria-label="Close" class="octicon octicon-x js-menu-close" role="button"></span>
                                        <span class="select-menu-title">Switch branches/tags</span>
                                    </div>

                                    <div class="select-menu-filters">
                                        <div class="select-menu-text-filter">
                                            <input type="text" aria-label="Find or create a branch…" id="context-commitish-filter-field" class="js-filterable-field js-navigation-enable" placeholder="Find or create a branch…">
                                        </div>
                                        <div class="select-menu-tabs">
                                            <ul>
                                                <li class="select-menu-tab">
                                                    <a href="#" data-tab-filter="branches" data-filter-placeholder="Find or create a branch…" class="js-select-menu-tab" role="tab">Branches</a>
                                                </li>
                                                <li class="select-menu-tab">
                                                    <a href="#" data-tab-filter="tags" data-filter-placeholder="Find a tag…" class="js-select-menu-tab" role="tab">Tags</a>
                                                </li>
                                            </ul>
                                        </div>
                                    </div>

                                    <div class="select-menu-list select-menu-tab-bucket js-select-menu-tab-bucket" data-tab-filter="branches" role="menu">

                                        <div data-filterable-for="context-commitish-filter-field" data-filterable-type="substring">


                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/0.4.x"
                                               data-name="0.4.x"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="0.4.x">
                0.4.x
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/0.6.0"
                                               data-name="0.6.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="0.6.0">
                0.6.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/en-webmagic"
                                               data-name="en-webmagic"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="en-webmagic">
                en-webmagic
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/gh-pages"
                                               data-name="gh-pages"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="gh-pages">
                gh-pages
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open selected"
                                               href="/code4craft/webmagic/tree/master"
                                               data-name="master"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="master">
                master
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/stable"
                                               data-name="stable"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="stable">
                stable
              </span>
                                            </a>
                                        </div>

                                        <!-- </textarea> --><!-- '"` --><form accept-charset="UTF-8" action="/code4craft/webmagic/branches" class="js-create-branch select-menu-item select-menu-new-item-form js-navigation-item js-new-item-form" data-form-nonce="3b3b1453e901b97918f8e2a9efa6ed4efb295cf6" method="post"><div style="margin:0;padding:0;display:inline"><input name="utf8" type="hidden" value="&#x2713;" /><input name="authenticity_token" type="hidden" value="TFV2kT/IcGmiqdH0NqRYxcNkepWIxxCkgnxla0/LxJMYaWluy1/I4QYo83JwZFB5WnNJPxF7S+BqjspGMqGmwA==" /></div>
                                        <span aria-hidden="true" class="octicon octicon-git-branch select-menu-item-icon"></span>
                                        <div class="select-menu-item-text">
                                            <span class="select-menu-item-heading">Create branch: <span class="js-new-item-name"></span></span>
                                            <span class="description">from ‘master’</span>
                                        </div>
                                        <input type="hidden" name="name" id="name" class="js-new-item-value">
                                        <input type="hidden" name="branch" id="branch" value="master">
                                        <input type="hidden" name="path" id="path" value="">
                                    </form>
                                    </div>

                                    <div class="select-menu-list select-menu-tab-bucket js-select-menu-tab-bucket" data-tab-filter="tags">
                                        <div data-filterable-for="context-commitish-filter-field" data-filterable-type="substring">


                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmaigc-0.4.3"
                                               data-name="webmaigc-0.4.3"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmaigc-0.4.3">
                webmaigc-0.4.3
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-parent-0.3.1"
                                               data-name="webmagic-parent-0.3.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-parent-0.3.1">
                webmagic-parent-0.3.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-parent-0.2.1"
                                               data-name="webmagic-parent-0.2.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-parent-0.2.1">
                webmagic-parent-0.2.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.4.2"
                                               data-name="webmagic-0.4.2"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.4.2">
                webmagic-0.4.2
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.4.1"
                                               data-name="webmagic-0.4.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.4.1">
                webmagic-0.4.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.4.0"
                                               data-name="webmagic-0.4.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.4.0">
                webmagic-0.4.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.3.2"
                                               data-name="webmagic-0.3.2"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.3.2">
                webmagic-0.3.2
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/webmagic-0.3.0"
                                               data-name="webmagic-0.3.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="webmagic-0.3.0">
                webmagic-0.3.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/version-0.2.0"
                                               data-name="version-0.2.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="version-0.2.0">
                version-0.2.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/version-0.1.0"
                                               data-name="version-0.1.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="version-0.1.0">
                version-0.1.0
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/WebMagic-0.5.2"
                                               data-name="WebMagic-0.5.2"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="WebMagic-0.5.2">
                WebMagic-0.5.2
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/WebMagic-0.5.1"
                                               data-name="WebMagic-0.5.1"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="WebMagic-0.5.1">
                WebMagic-0.5.1
              </span>
                                            </a>
                                            <a class="select-menu-item js-navigation-item js-navigation-open "
                                               href="/code4craft/webmagic/tree/WebMagic-0.5.0"
                                               data-name="WebMagic-0.5.0"
                                               data-skip-pjax="true"
                                               rel="nofollow">
                                                <span aria-hidden="true" class="octicon octicon-check select-menu-item-icon"></span>
              <span class="select-menu-item-text css-truncate-target" title="WebMagic-0.5.0">
                WebMagic-0.5.0
              </span>
                                            </a>
                                        </div>

                                        <div class="select-menu-no-results">Nothing to show</div>
                                    </div>

                                </div>
                            </div>
                        </div>


                        <a href="/code4craft/webmagic/pull/new/master" class="btn btn-sm btn-primary" data-pjax data-ga-click="Repository, new pull request, location:repo overview">
                            New pull request
                        </a>

                        <div class="breadcrumb">

                        </div>
                    </div>


                    <div class="commit-tease js-details-container">
    <span class="right">
      Latest commit
      <a class="commit-tease-sha" href="/code4craft/webmagic/commit/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" data-pjax>
          800f66c
      </a>
      <time datetime="2016-01-18T15:20:08Z" is="relative-time">Jan 18, 2016</time>
    </span>


    <span class="commit-author-section">
      <img alt="@code4craft" class="avatar" height="20" src="https://avatars2.githubusercontent.com/u/1351884?v=3&amp;s=40" width="20" />
      <a href="/code4craft" class="user-mention" rel="author">code4craft</a>
    </span>

                        <a href="/code4craft/webmagic/commit/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" class="message" data-pjax="true" title="Revert &quot;remove some unkown config&quot;

This reverts commit 0e245c989605c94b8daa21be8da9ac7002c10568.">Revert "remove some unkown config"</a>
          <span class="hidden-text-expander inline">
            <a href="#" class="js-details-target">…</a>
          </span>
                        </span>

                        <div class="commit-desc"><pre class="text-small">This reverts commit <a href="https://github.com/code4craft/webmagic/commit/0e245c989605c94b8daa21be8da9ac7002c10568" class="commit-link"><tt>0e245c9</tt></a>.</pre></div>
                    </div>


                    <div class="file-wrap ">

                        <a href="/code4craft/webmagic/tree/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" class="hidden js-permalink-shortcut" data-hotkey="y">Permalink</a>

                        <table class="files js-navigation-container js-active-navigation-container" data-pjax>


                            <tbody>
                            <tr class="warning include-fragment-error">
                                <td class="icon"><span aria-hidden="true" class="octicon octicon-alert"></span></td>
                                <td class="content" colspan="3">Failed to load latest commit information.</td>
                            </tr>

                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/assets" class="js-directory-link js-navigation-open" id="32bb636196f91ed59d7a49190e26b42c-3bc5c153572a8e40990cf593b34139cba724f15c" title="assets">assets</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/644e8d1f72c08c83348e5c31a42f0f0dfa32f07d" class="message" data-pjax="true" title="同步官方源码">同步官方源码</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-04-12T14:32:22Z" is="time-ago">Apr 12, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/en_docs" class="js-directory-link js-navigation-open" id="025516923597c2d7f987828ad6657c14-d80a6b0dee9c88e6b198bc58b3cb0704b3ce07c4" title="en_docs">en_docs</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/dbebcbe44f07acb8871a0e3f786dd3d10d938a1c" class="message" data-pjax="true" title="docs">docs</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-02T22:14:31Z" is="time-ago">May 3, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-avalon" class="js-directory-link js-navigation-open" id="079d784782a58fecda2d64e6fadff4ca-c2dff4951c408dd117233ed6a57daa4b7cda0473" title="webmagic-avalon">webmagic-avalon</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/7668731f08a3118390e7651002d56b2223d4e656" class="message" data-pjax="true" title="update version to snapshot">update version to snapshot</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-04T23:03:55Z" is="time-ago">May 5, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-core" class="js-directory-link js-navigation-open" id="39809e13bc65c3873f79570b81852d62-a2cf4af3f59391cccb922597dd0c4819a3426667" title="webmagic-core">webmagic-core</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/90e14b31b0c229d5664092ea01f739f264e419a8" class="message" data-pjax="true" title="修正FileCacheQueueScheduler导致程序不能正常结束和未关闭流

FileCacheQueueScheduler中开启了一个线程周期运行来保存数据但在爬虫结束后没有关闭导致程序无法结束，以及没有关闭io流。

解决方法：
让FileCacheQueueScheduler实现Closable接口，在close方法中关闭线程以及流。
在Spider的close方法中添加对scheduler的关闭操作。">修正FileCacheQueueScheduler导致程序不能正常结束和未关闭流</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2015-11-12T15:10:20Z" is="time-ago">Nov 12, 2015</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-extension" class="js-directory-link js-navigation-open" id="dc82c79bcb262e1942088502bb426876-35467ae616c037bd947e6752a20167d5fb74d3b5" title="webmagic-extension">webmagic-extension</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/cfde3b7657d208a80625b61b430bef11889ecc0e" class="message" data-pjax="true" title="Merge pull request #237 from SpenceZhou/master

Update RedisScheduler.java">Merge pull request</a> <a href="https://github.com/code4craft/webmagic/pull/237" class="issue-link js-issue-link" data-url="https://github.com/code4craft/webmagic/issues/237" data-id="119897705" data-error-text="Failed to load issue title" data-permission-text="Issue title is private">#237</a> <a href="/code4craft/webmagic/commit/cfde3b7657d208a80625b61b430bef11889ecc0e" class="message" data-pjax="true" title="Merge pull request #237 from SpenceZhou/master

Update RedisScheduler.java">from SpenceZhou/master</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2015-12-02T14:17:00Z" is="time-ago">Dec 2, 2015</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-samples" class="js-directory-link js-navigation-open" id="4284b70d4c5e11003fb292b0d0f7539f-264e0e2eafe7960dcd72844100faa1460fad5cfb" title="webmagic-samples">webmagic-samples</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/84b046e4c962841b725cb1be6165f40c549e2ef8" class="message" data-pjax="true" title="Merge pull request #227 from hsqlu/master

update deprecated method">Merge pull request</a> <a href="https://github.com/code4craft/webmagic/pull/227" class="issue-link js-issue-link" data-url="https://github.com/code4craft/webmagic/issues/227" data-id="107109677" data-error-text="Failed to load issue title" data-permission-text="Issue title is private">#227</a> <a href="/code4craft/webmagic/commit/84b046e4c962841b725cb1be6165f40c549e2ef8" class="message" data-pjax="true" title="Merge pull request #227 from hsqlu/master

update deprecated method">from hsqlu/master</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2016-01-16T11:36:52Z" is="time-ago">Jan 16, 2016</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-saxon" class="js-directory-link js-navigation-open" id="5ee0de5b970664e15f6805d957403c63-8311a46ae76f5669f4be3da0e2a01cce327caf97" title="webmagic-saxon">webmagic-saxon</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5f8c3fd5c518099b7028369fc35df4c01065f42e" class="message" data-pjax="true" title="update version">update version</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T09:33:30Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-scripts" class="js-directory-link js-navigation-open" id="8ecc7fcb462c06097aa24a7048097d3d-0422570614304398e2739f4d5e13c12ee403add9" title="webmagic-scripts">webmagic-scripts</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5f8c3fd5c518099b7028369fc35df4c01065f42e" class="message" data-pjax="true" title="update version">update version</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T09:33:30Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/webmagic-selenium" class="js-directory-link js-navigation-open" id="988c197af393f3198711cebacce7fd65-455315f3cbd4108203da09a88afd566d65d161e1" title="webmagic-selenium">webmagic-selenium</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5d365f7bf46f854d2e05dc31a066cd6c37994fab" class="message" data-pjax="true" title="update and validate pom.xml

Update selenium and GhostDriver (PhantomJSDriver) to latest version.">update and validate pom.xml</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2015-07-11T14:43:49Z" is="time-ago">Jul 11, 2015</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-directory"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/tree/master/zh_docs" class="js-directory-link js-navigation-open" id="bec3b859688b0bbdb94899b1a5b56441-e305b1e0799520204fb6aca537fa5a922240329a" title="zh_docs">zh_docs</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/2a15bc028962e650463db331794f2b515a77880a" class="message" data-pjax="true" title="contributor">contributor</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T14:27:16Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/.gitignore" class="js-directory-link js-navigation-open" id="a084b794bc0759e7a6b77810e01874f2-0175dbaadc0ab38c5b79ca4a0944fb63b4f8973c" title=".gitignore">.gitignore</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/07ea04223f419d3eb4f3e68c2b69391c93283454" class="message" data-pjax="true" title="change_gitignore">change_gitignore</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-19T07:56:22Z" is="time-ago">May 19, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/.travis.yml" class="js-directory-link js-navigation-open" id="354f30a63fb0907d4ad57269548329e3-a9f233f37f99ae2dcd5aa2cfefe18738158dd470" title=".travis.yml">.travis.yml</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/73ae7a1d52253bd097283b62a7152f22ffadb60d" class="message" data-pjax="true" title="remove ci for jdk6">remove ci for jdk6</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2016-01-18T15:19:39Z" is="time-ago">Jan 18, 2016</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/README.md" class="js-directory-link js-navigation-open" id="04c6e90faac2675aa89e2176d2eec7d8-98fea5a59788254b208d7f2752baf2d77a029dca" title="README.md">README.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5e8ca02ec670e18f52361296072929fc0a93efc3" class="message" data-pjax="true" title="contributor">contributor</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-06-04T14:26:56Z" is="time-ago">Jun 4, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/pom.xml" class="js-directory-link js-navigation-open" id="600376dffeb79835ede4a0b285078036-e7290bc95daf3ae60b8ace743d5c822e99223be5" title="pom.xml">pom.xml</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/800f66c4cc7e1e4b3e485af5236e3c9b8d54f028" class="message" data-pjax="true" title="Revert &quot;remove some unkown config&quot;

This reverts commit 0e245c989605c94b8daa21be8da9ac7002c10568.">Revert "remove some unkown config"</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2016-01-18T15:20:08Z" is="time-ago">Jan 18, 2016</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/release-note.md" class="js-directory-link js-navigation-open" id="d59c2d5d8d04d144da5f1cd251c384ad-f44704efd075006a4fc3935fb6607b158f3815b4" title="release-note.md">release-note.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="https://github.com/code4craft/webmagic/issues/34" class="issue-link js-issue-link" data-url="https://github.com/code4craft/webmagic/issues/34" data-id="22319882" data-error-text="Failed to load issue title" data-permission-text="Issue title is private">#34</a> <a href="/code4craft/webmagic/commit/b838c4e4331326e38e7c30c56d39be9d71fc930a" class="message" data-pjax="true" title="#34 Close reader in FileCacheQueueScheduler">Close reader in FileCacheQueueScheduler</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2013-11-08T06:59:09Z" is="time-ago">Nov 8, 2013</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/user-manual.md" class="js-directory-link js-navigation-open" id="a5d0f6c7ea51007118aea16b56f50a6a-17f65291cbb26141ec6f27422918d8da7f6b8755" title="user-manual.md">user-manual.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/5f6f48931497d80463dace8a97e66e9a7b10d79e" class="message" data-pjax="true" title="deperate in user manual">deperate in user manual</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2014-05-02T22:29:37Z" is="time-ago">May 3, 2014</time></span>
                                </td>
                            </tr>
                            <tr class="js-navigation-item">
                                <td class="icon">
                                    <span aria-hidden="true" class="octicon octicon-file-text"></span>
                                    <img alt="" class="spinner" height="16" src="https://assets-cdn.github.com/images/spinners/octocat-spinner-32.gif" width="16" />
                                </td>
                                <td class="content">
                                    <span class="css-truncate css-truncate-target"><a href="/code4craft/webmagic/blob/master/webmagic-avalon.md" class="js-directory-link js-navigation-open" id="5fbef994bb80a792d34444969fa7f80c-bcf39ea065c240dd3bbbbb758ada151d2f1e025c" title="webmagic-avalon.md">webmagic-avalon.md</a></span>
                                </td>
                                <td class="message">
            <span class="css-truncate css-truncate-target">
                  <a href="/code4craft/webmagic/commit/7c43b5146e6eb8c309c3a6cdfd58bda70ab932ec" class="message" data-pjax="true" title="scripts readme">scripts readme</a>
            </span>
                                </td>
                                <td class="age">
                                    <span class="css-truncate css-truncate-target"><time datetime="2013-11-28T04:04:05Z" is="time-ago">Nov 28, 2013</time></span>
                                </td>
                            </tr>
                            </tbody>
                        </table>

                    </div>


                    <div id="readme" class="boxed-group clearfix announce instapaper_body md">
                        <h3>
                            <span aria-hidden="true" class="octicon octicon-book"></span>
                            README.md
                        </h3>

                        <article class="markdown-body entry-content" itemprop="mainContentOfPage"><p><a href="https://camo.githubusercontent.com/77fe3da40f9b2c5839df0267890a2457a64003e0/68747470733a2f2f7261772e6769746875622e636f6d2f636f64653463726166742f7765626d616769632f6d61737465722f6173736574732f6c6f676f2e6a7067" target="_blank"><img src="https://camo.githubusercontent.com/77fe3da40f9b2c5839df0267890a2457a64003e0/68747470733a2f2f7261772e6769746875622e636f6d2f636f64653463726166742f7765626d616769632f6d61737465722f6173736574732f6c6f676f2e6a7067" alt="logo" data-canonical-src="https://raw.github.com/code4craft/webmagic/master/assets/logo.jpg" style="max-width:100%;"></a></p>

                            <p><a href="https://github.com/code4craft/webmagic/tree/master/zh_docs">Readme in Chinese</a></p>

                            <p><a href="https://github.com/code4craft/webmagic/blob/master/user-manual.md">User Manual (Chinese)</a></p>

                            <p><a href="https://travis-ci.org/code4craft/webmagic"><img src="https://camo.githubusercontent.com/28f799aaf9175c6e3b3c131896651cf1775b2bc8/68747470733a2f2f7472617669732d63692e6f72672f636f64653463726166742f7765626d616769632e706e673f6272616e63683d6d6173746572" alt="Build Status" data-canonical-src="https://travis-ci.org/code4craft/webmagic.png?branch=master" style="max-width:100%;"></a></p>

                            <blockquote>
                                <p>A scalable crawler framework. It covers the whole lifecycle of crawler: downloading, url management, content extraction and persistent. It can simplify the development of a  specific crawler.</p>
                            </blockquote>

                            <h2><a id="user-content-features" class="anchor" href="#features" aria-hidden="true"><span class="octicon octicon-link"></span></a>Features:</h2>

                            <ul>
                                <li>Simple core with high flexibility.</li>
                                <li>Simple API for html extracting.</li>
                                <li>Annotation with POJO to customize a crawler, no configuration.</li>
                                <li>Multi-thread and Distribution support.</li>
                                <li>Easy to be integrated.</li>
                            </ul>

                            <h2><a id="user-content-install" class="anchor" href="#install" aria-hidden="true"><span class="octicon octicon-link"></span></a>Install:</h2>

                            <p>Add dependencies to your pom.xml:</p>

                            <div class="highlight highlight-text-xml"><pre>&lt;<span class="pl-ent">dependency</span>&gt;
    &lt;<span class="pl-ent">groupId</span>&gt;us.codecraft&lt;/<span class="pl-ent">groupId</span>&gt;
    &lt;<span class="pl-ent">artifactId</span>&gt;webmagic-core&lt;/<span class="pl-ent">artifactId</span>&gt;
    &lt;<span class="pl-ent">version</span>&gt;0.5.2&lt;/<span class="pl-ent">version</span>&gt;
&lt;/<span class="pl-ent">dependency</span>&gt;
&lt;<span class="pl-ent">dependency</span>&gt;
    &lt;<span class="pl-ent">groupId</span>&gt;us.codecraft&lt;/<span class="pl-ent">groupId</span>&gt;
    &lt;<span class="pl-ent">artifactId</span>&gt;webmagic-extension&lt;/<span class="pl-ent">artifactId</span>&gt;
    &lt;<span class="pl-ent">version</span>&gt;0.5.2&lt;/<span class="pl-ent">version</span>&gt;
&lt;/<span class="pl-ent">dependency</span>&gt;</pre></div>

                            <p>WebMagic use slf4j with slf4j-log4j12 implementation. If you customized your slf4j implementation, please exclude slf4j-log4j12.</p>

                            <div class="highlight highlight-text-xml"><pre>&lt;<span class="pl-ent">exclusions</span>&gt;
    &lt;<span class="pl-ent">exclusion</span>&gt;
        &lt;<span class="pl-ent">groupId</span>&gt;org.slf4j&lt;/<span class="pl-ent">groupId</span>&gt;
        &lt;<span class="pl-ent">artifactId</span>&gt;slf4j-log4j12&lt;/<span class="pl-ent">artifactId</span>&gt;
    &lt;/<span class="pl-ent">exclusion</span>&gt;
&lt;/<span class="pl-ent">exclusions</span>&gt;</pre></div>

                            <h2><a id="user-content-get-started" class="anchor" href="#get-started" aria-hidden="true"><span class="octicon octicon-link"></span></a>Get Started:</h2>

                            <h3><a id="user-content-first-crawler" class="anchor" href="#first-crawler" aria-hidden="true"><span class="octicon octicon-link"></span></a>First crawler:</h3>

                            <p>Write a class implements PageProcessor. For example, I wrote a crawler of github repository infomation.</p>

                            <div class="highlight highlight-source-java"><pre><span class="pl-k">public</span> <span class="pl-k">class</span> <span class="pl-en">GithubRepoPageProcessor</span> <span class="pl-k">implements</span> <span class="pl-e">PageProcessor</span> {

    <span class="pl-k">private</span> <span class="pl-smi">Site</span> site <span class="pl-k">=</span> <span class="pl-smi">Site</span><span class="pl-k">.</span>me()<span class="pl-k">.</span>setRetryTimes(<span class="pl-c1">3</span>)<span class="pl-k">.</span>setSleepTime(<span class="pl-c1">1000</span>);

    <span class="pl-k">@Override</span>
    <span class="pl-k">public</span> <span class="pl-k">void</span> <span class="pl-en">process</span>(<span class="pl-smi">Page</span> <span class="pl-v">page</span>) {
        page<span class="pl-k">.</span>addTargetRequests(page<span class="pl-k">.</span>getHtml()<span class="pl-k">.</span>links()<span class="pl-k">.</span>regex(<span class="pl-s"><span class="pl-pds">"</span>(https://github<span class="pl-cce">\\</span>.com/<span class="pl-cce">\\</span>w+/<span class="pl-cce">\\</span>w+)<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>all());
        page<span class="pl-k">.</span>putField(<span class="pl-s"><span class="pl-pds">"</span>author<span class="pl-pds">"</span></span>, page<span class="pl-k">.</span>getUrl()<span class="pl-k">.</span>regex(<span class="pl-s"><span class="pl-pds">"</span>https://github<span class="pl-cce">\\</span>.com/(<span class="pl-cce">\\</span>w+)/.*<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>toString());
        page<span class="pl-k">.</span>putField(<span class="pl-s"><span class="pl-pds">"</span>name<span class="pl-pds">"</span></span>, page<span class="pl-k">.</span>getHtml()<span class="pl-k">.</span>xpath(<span class="pl-s"><span class="pl-pds">"</span>//h1[@class='entry-title public']/strong/a/text()<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>toString());
        <span class="pl-k">if</span> (page<span class="pl-k">.</span>getResultItems()<span class="pl-k">.</span>get(<span class="pl-s"><span class="pl-pds">"</span>name<span class="pl-pds">"</span></span>)<span class="pl-k">==</span><span class="pl-c1">null</span>){
            <span class="pl-c">//skip this page</span>
            page<span class="pl-k">.</span>setSkip(<span class="pl-c1">true</span>);
        }
        page<span class="pl-k">.</span>putField(<span class="pl-s"><span class="pl-pds">"</span>readme<span class="pl-pds">"</span></span>, page<span class="pl-k">.</span>getHtml()<span class="pl-k">.</span>xpath(<span class="pl-s"><span class="pl-pds">"</span>//div[@id='readme']/tidyText()<span class="pl-pds">"</span></span>));
    }

    <span class="pl-k">@Override</span>
    <span class="pl-k">public</span> <span class="pl-smi">Site</span> <span class="pl-en">getSite</span>() {
        <span class="pl-k">return</span> site;
    }

    <span class="pl-k">public</span> <span class="pl-k">static</span> <span class="pl-k">void</span> <span class="pl-en">main</span>(<span class="pl-k">String</span>[] <span class="pl-v">args</span>) {
        <span class="pl-smi">Spider</span><span class="pl-k">.</span>create(<span class="pl-k">new</span> <span class="pl-smi">GithubRepoPageProcessor</span>())<span class="pl-k">.</span>addUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/code4craft<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>thread(<span class="pl-c1">5</span>)<span class="pl-k">.</span>run();
    }
}</pre></div>

                            <ul>
                                <li><p><code>page.addTargetRequests(links)</code></p>

                                    <p>Add urls for crawling.</p></li>
                            </ul>

                            <p>You can also use annotation way:</p>

                            <div class="highlight highlight-source-java"><pre>@TargetUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/<span class="pl-cce">\\</span>w+/<span class="pl-cce">\\</span>w+<span class="pl-pds">"</span></span>)
@HelpUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/<span class="pl-cce">\\</span>w+<span class="pl-pds">"</span></span>)
<span class="pl-k">public</span> <span class="pl-k">class</span> <span class="pl-en">GithubRepo</span> {

    <span class="pl-k">@ExtractBy</span>(<span class="pl-c1">value</span> <span class="pl-k">=</span> <span class="pl-s"><span class="pl-pds">"</span>//h1[@class='entry-title public']/strong/a/text()<span class="pl-pds">"</span></span>, <span class="pl-c1">notNull</span> <span class="pl-k">=</span> <span class="pl-c1">true</span>)
    <span class="pl-k">private</span> <span class="pl-smi">String</span> name;

    <span class="pl-k">@ExtractByUrl</span>(<span class="pl-s"><span class="pl-pds">"</span>https://github<span class="pl-cce">\\</span>.com/(<span class="pl-cce">\\</span>w+)/.*<span class="pl-pds">"</span></span>)
    <span class="pl-k">private</span> <span class="pl-smi">String</span> author;

    <span class="pl-k">@ExtractBy</span>(<span class="pl-s"><span class="pl-pds">"</span>//div[@id='readme']/tidyText()<span class="pl-pds">"</span></span>)
    <span class="pl-k">private</span> <span class="pl-smi">String</span> readme;

    <span class="pl-k">public</span> <span class="pl-k">static</span> <span class="pl-k">void</span> <span class="pl-en">main</span>(<span class="pl-k">String</span>[] <span class="pl-v">args</span>) {
        <span class="pl-smi">OOSpider</span><span class="pl-k">.</span>create(<span class="pl-smi">Site</span><span class="pl-k">.</span>me()<span class="pl-k">.</span>setSleepTime(<span class="pl-c1">1000</span>)
                , <span class="pl-k">new</span> <span class="pl-smi">ConsolePageModelPipeline</span>(), <span class="pl-smi">GithubRepo</span><span class="pl-k">.</span>class)
                .addUrl(<span class="pl-s"><span class="pl-pds">"</span>https://github.com/code4craft<span class="pl-pds">"</span></span>)<span class="pl-k">.</span>thread(<span class="pl-c1">5</span>)<span class="pl-k">.</span>run();
    }
}</pre></div>

                            <h3><a id="user-content-docs-and-samples" class="anchor" href="#docs-and-samples" aria-hidden="true"><span class="octicon octicon-link"></span></a>Docs and samples:</h3>

                            <p>Documents: <a href="http://webmagic.io/docs/">http://webmagic.io/docs/</a></p>

                            <p>The architecture of webmagic (refered to <a href="http://scrapy.org/">Scrapy</a>)</p>

                            <p><a href="https://camo.githubusercontent.com/06cb8227231a6adf6d2a57b14b60a25389a25fe9/687474703a2f2f636f64653463726166742e6769746875622e696f2f696d616765732f706f7374732f7765626d616769632e706e67" target="_blank"><img src="https://camo.githubusercontent.com/06cb8227231a6adf6d2a57b14b60a25389a25fe9/687474703a2f2f636f64653463726166742e6769746875622e696f2f696d616765732f706f7374732f7765626d616769632e706e67" alt="image" data-canonical-src="http://code4craft.github.io/images/posts/webmagic.png" style="max-width:100%;"></a></p>

                            <p>Javadocs: <a href="http://code4craft.github.io/webmagic/docs/en/">http://code4craft.github.io/webmagic/docs/en/</a></p>

                            <p>There are some samples in <code>webmagic-samples</code> package.</p>

                            <h3><a id="user-content-lisence" class="anchor" href="#lisence" aria-hidden="true"><span class="octicon octicon-link"></span></a>Lisence:</h3>

                            <p>Lisenced under <a href="http://opensource.org/licenses/Apache-2.0">Apache 2.0 lisence</a></p>

                            <h3><a id="user-content-contributors" class="anchor" href="#contributors" aria-hidden="true"><span class="octicon octicon-link"></span></a>Contributors:</h3>

                            <p>Thanks these people for commiting source code, reporting bugs or suggesting for new feature:</p>

                            <ul>
                                <li><a href="https://github.com/ccliangbo">ccliangbo</a></li>
                                <li><a href="https://github.com/yuany">yuany</a></li>
                                <li><a href="https://github.com/yxssfxwzy">yxssfxwzy</a></li>
                                <li><a href="https://github.com/linkerlin">linkerlin</a></li>
                                <li><a href="https://github.com/d0ngw">d0ngw</a></li>
                                <li><a href="https://github.com/xuchaoo">xuchaoo</a></li>
                                <li><a href="https://github.com/supermicah">supermicah</a></li>
                                <li><a href="https://github.com/SimpleExpress">SimpleExpress</a></li>
                                <li><a href="https://github.com/aruanruan">aruanruan</a></li>
                                <li><a href="https://github.com/l1z2g9">l1z2g9</a></li>
                                <li><a href="https://github.com/zhegexiaohuozi">zhegexiaohuozi</a></li>
                                <li><a href="https://github.com/ywooer">ywooer</a></li>
                                <li><a href="https://github.com/yyw258520">yyw258520</a></li>
                                <li><a href="https://github.com/perfecking">perfecking</a></li>
                                <li><a href="http://my.oschina.net/lidongyang">lidongyang</a></li>
                                <li><a href="https://github.com/seveniu">seveniu</a></li>
                                <li><a href="https://github.com/sebastian1118">sebastian1118</a></li>
                                <li><a href="https://github.com/codev777">codev777</a></li>
                                <li><a href="https://github.com/fengwuze">fengwuze</a></li>
                            </ul>

                            <h3><a id="user-content-thanks" class="anchor" href="#thanks" aria-hidden="true"><span class="octicon octicon-link"></span></a>Thanks:</h3>

                            <p>To write webmagic, I refered to the projects below :</p>

                            <ul>
                                <li><p><strong>Scrapy</strong></p>

                                    <p>A crawler framework in Python.</p>

                                    <p><a href="http://scrapy.org/">http://scrapy.org/</a></p></li>
                                <li><p><strong>Spiderman</strong></p>

                                    <p>Another crawler framework in Java.</p>

                                    <p><a href="https://gitcafe.com/laiweiwei/Spiderman">https://gitcafe.com/laiweiwei/Spiderman</a></p></li>
                            </ul>

                            <h3><a id="user-content-mail-list" class="anchor" href="#mail-list" aria-hidden="true"><span class="octicon octicon-link"></span></a>Mail-list:</h3>

                            <p><a href="https://groups.google.com/forum/#!forum/webmagic-java">https://groups.google.com/forum/#!forum/webmagic-java</a></p>

                            <p><a href="http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988">http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988</a></p>

                            <p>QQ Group: 373225642</p>

                            <p><a href="https://bitdeli.com/free" title="Bitdeli Badge"><img src="https://camo.githubusercontent.com/ac3c3cde05f612ce1a1c9a8be3bf2893ffa6d64d/68747470733a2f2f64327765637a68766c38323376302e636c6f756466726f6e742e6e65742f636f64653463726166742f7765626d616769632f7472656e642e706e67" alt="Bitdeli Badge" data-canonical-src="https://d2weczhvl823v0.cloudfront.net/code4craft/webmagic/trend.png" style="max-width:100%;"></a></p>
                        </article>
                    </div>


                </div>
                <div class="modal-backdrop"></div>
            </div>

        </div>
    </div>

</div>

<div class="container">
    <div class="site-footer" role="contentinfo">
        <ul class="site-footer-links right">
            <li><a href="https://status.github.com/" data-ga-click="Footer, go to status, text:status">Status</a></li>
            <li><a href="https://developer.github.com" data-ga-click="Footer, go to api, text:api">API</a></li>
            <li><a href="https://training.github.com" data-ga-click="Footer, go to training, text:training">Training</a></li>
            <li><a href="https://shop.github.com" data-ga-click="Footer, go to shop, text:shop">Shop</a></li>
            <li><a href="https://github.com/blog" data-ga-click="Footer, go to blog, text:blog">Blog</a></li>
            <li><a href="https://github.com/about" data-ga-click="Footer, go to about, text:about">About</a></li>
            <li><a href="https://github.com/pricing" data-ga-click="Footer, go to pricing, text:pricing">Pricing</a></li>

        </ul>

        <a href="https://github.com" aria-label="Homepage">
            <span aria-hidden="true" class="mega-octicon octicon-mark-github" title="GitHub "></span>
        </a>
        <ul class="site-footer-links">
            <li>&copy; 2016 <span title="0.16501s from github-fe119-cp1-prd.iad.github.net">GitHub</span>, Inc.</li>
            <li><a href="https://github.com/site/terms" data-ga-click="Footer, go to terms, text:terms">Terms</a></li>
            <li><a href="https://github.com/site/privacy" data-ga-click="Footer, go to privacy, text:privacy">Privacy</a></li>
            <li><a href="https://github.com/security" data-ga-click="Footer, go to security, text:security">Security</a></li>
            <li><a href="https://github.com/contact" data-ga-click="Footer, go to contact, text:contact">Contact</a></li>
            <li><a href="https://help.github.com" data-ga-click="Footer, go to help, text:help">Help</a></li>
        </ul>
    </div>
</div>


<div id="ajax-error-message" class="flash flash-error">
    <span aria-hidden="true" class="octicon octicon-alert"></span>
    <button type="button" class="flash-close js-flash-close js-ajax-error-dismiss" aria-label="Dismiss error">
        <span aria-hidden="true" class="octicon octicon-x"></span>
    </button>
    Something went wrong with that request. Please try again.
</div>


<script crossorigin="anonymous" src="https://assets-cdn.github.com/assets/frameworks-2895475c714f13790b63e636b5389a6918a260259c5b22a15acf5ef26bd6ef09.js"></script>
<script async="async" crossorigin="anonymous" src="https://assets-cdn.github.com/assets/github-c0404608a3bcd1310776df0ab26e107bfd70ff0382408f43ede1a81e730e39cd.js"></script>


<div class="js-stale-session-flash stale-session-flash flash flash-warn flash-banner hidden">
    <span aria-hidden="true" class="octicon octicon-alert"></span>
    <span class="signed-in-tab-flash">You signed in with another tab or window. <a href="">Reload</a> to refresh your session.</span>
    <span class="signed-out-tab-flash">You signed out in another tab or window. <a href="">Reload</a> to refresh your session.</span>
</div>
<div class="facebox" id="facebox" style="display:none;">
    <div class="facebox-popup">
        <div class="facebox-content" role="dialog" aria-labelledby="facebox-header" aria-describedby="facebox-description">
        </div>
        <button type="button" class="facebox-close js-facebox-close" aria-label="Close modal">
            <span aria-hidden="true" class="octicon octicon-x"></span>
        </button>
    </div>
</div>

</body>
</html>


================================================
FILE: webmagic-extension/src/test/resources/html/mock-webmagic.html
================================================
<!DOCTYPE html>
<html>
<head lang="zh">
    <meta charset="UTF-8">
    <title></title>
</head>
<body>
<div class="date">20170603</div>
<div class="number">12</div>
<ul>
    <li class="list"><a href="http://webmagic.io/list/1"></a></li>
    <li class="list"><a href="http://webmagic.io/list/2"></a></li>
    <li class="list"><a href="http://webmagic.io/list/3"></a></li>
    <li class="list"><a href="http://webmagic.io/list/4"></a></li>
</ul>
<ul>
    <li class="post"><a href="http://webmagic.io/post/1"></a></li>
    <li class="post"><a href="http://webmagic.io/post/2"></a></li>
    <li class="post"><a href="http://webmagic.io/post/3"></a></li>
    <li class="post"><a href="http://webmagic.io/post/4"></a></li>
</ul>
<ul>
    <li class="foo"><a href="http://webmagic.io/foo/1"></a></li>
    <li class="foo"><a href="http://webmagic.io/foo/2"></a></li>
    <li class="foo"><a href="http://webmagic.io/bar/3"></a></li>
    <li class="foo"><a href="http://webmagic.io/bar/4"></a></li>
</ul>
<ul>
    <li class="bar"><a href="http://webmagic.io/bar/1"></a></li>
    <li class="bar"><a href="http://webmagic.io/bar/2"></a></li>
    <li class="bar"><a href="http://webmagic.io/foo/3"></a></li>
    <li class="bar"><a href="http://webmagic.io/foo/4"></a></li>
</ul>

<ul>
    <li class="numbers">1</li>
    <li class="numbers">2</li>
    <li class="numbers">3</li>
    <li class="numbers">4</li>
</ul>
<ul>
    <li class="dates">20170601</li>
    <li class="dates">20170602</li>
    <li class="dates">20170603</li>
    <li class="dates">20170604</li>
</ul>
</body>
</html>

================================================
FILE: webmagic-extension/src/test/resources/json/mock-githubrepo.json
================================================
{
  "id": 9623064,
  "name": "webmagic",
  "full_name": "code4craft/webmagic",
  "owner": {
    "login": "code4craft",
    "id": 1351884,
    "avatar_url": "https://avatars0.githubusercontent.com/u/1351884?v=3",
    "gravatar_id": "",
    "url": "https://api.github.com/users/code4craft",
    "html_url": "https://github.com/code4craft",
    "followers_url": "https://api.github.com/users/code4craft/followers",
    "following_url": "https://api.github.com/users/code4craft/following{/other_user}",
    "gists_url": "https://api.github.com/users/code4craft/gists{/gist_id}",
    "starred_url": "https://api.github.com/users/code4craft/starred{/owner}{/repo}",
    "subscriptions_url": "https://api.github.com/users/code4craft/subscriptions",
    "organizations_url": "https://api.github.com/users/code4craft/orgs",
    "repos_url": "https://api.github.com/users/code4craft/repos",
    "events_url": "https://api.github.com/users/code4craft/events{/privacy}",
    "received_events_url": "https://api.github.com/users/code4craft/received_events",
    "type": "User",
    "site_admin": false
  },
  "private": false,
  "html_url": "https://github.com/code4craft/webmagic",
  "description": "A scalable web crawler framework for Java.",
  "fork": false,
  "url": "https://api.github.com/repos/code4craft/webmagic",
  "forks_url": "https://api.github.com/repos/code4craft/webmagic/forks",
  "keys_url": "https://api.github.com/repos/code4craft/webmagic/keys{/key_id}",
  "collaborators_url": "https://api.github.com/repos/code4craft/webmagic/collaborators{/collaborator}",
  "teams_url": "https://api.github.com/repos/code4craft/webmagic/teams",
  "hooks_url": "https://api.github.com/repos/code4craft/webmagic/hooks",
  "issue_events_url": "https://api.github.com/repos/code4craft/webmagic/issues/events{/number}",
  "events_url": "https://api.github.com/repos/code4craft/webmagic/events",
  "assignees_url": "https://api.github.com/repos/code4craft/webmagic/assignees{/user}",
  "branches_url": "https://api.github.com/repos/code4craft/webmagic/branches{/branch}",
  "tags_url": "https://api.github.com/repos/code4craft/webmagic/tags",
  "blobs_url": "https://api.github.com/repos/code4craft/webmagic/git/blobs{/sha}",
  "git_tags_url": "https://api.github.com/repos/code4craft/webmagic/git/tags{/sha}",
  "git_refs_url": "https://api.github.com/repos/code4craft/webmagic/git/refs{/sha}",
  "trees_url": "https://api.github.com/repos/code4craft/webmagic/git/trees{/sha}",
  "statuses_url": "https://api.github.com/repos/code4craft/webmagic/statuses/{sha}",
  "languages_url": "https://api.github.com/repos/code4craft/webmagic/languages",
  "stargazers_url": "https://api.github.com/repos/code4craft/webmagic/stargazers",
  "contributors_url": "https://api.github.com/repos/code4craft/webmagic/contributors",
  "subscribers_url": "https://api.github.com/repos/code4craft/webmagic/subscribers",
  "subscription_url": "https://api.github.com/repos/code4craft/webmagic/subscription",
  "commits_url": "https://api.github.com/repos/code4craft/webmagic/commits{/sha}",
  "git_commits_url": "https://api.github.com/repos/code4craft/webmagic/git/commits{/sha}",
  "comments_url": "https://api.github.com/repos/code4craft/webmagic/comments{/number}",
  "issue_comment_url": "https://api.github.com/repos/code4craft/webmagic/issues/comments{/number}",
  "contents_url": "https://api.github.com/repos/code4craft/webmagic/contents/{+path}",
  "compare_url": "https://api.github.com/repos/code4craft/webmagic/compare/{base}...{head}",
  "merges_url": "https://api.github.com/repos/code4craft/webmagic/merges",
  "archive_url": "https://api.github.com/repos/code4craft/webmagic/{archive_format}{/ref}",
  "downloads_url": "https://api.github.com/repos/code4craft/webmagic/downloads",
  "issues_url": "https://api.github.com/repos/code4craft/webmagic/issues{/number}",
  "pulls_url": "https://api.github.com/repos/code4craft/webmagic/pulls{/number}",
  "milestones_url": "https://api.github.com/repos/code4craft/webmagic/milestones{/number}",
  "notifications_url": "https://api.github.com/repos/code4craft/webmagic/notifications{?since,all,participating}",
  "labels_url": "https://api.github.com/repos/code4craft/webmagic/labels{/name}",
  "releases_url": "https://api.github.com/repos/code4craft/webmagic/releases{/id}",
  "deployments_url": "https://api.github.com/repos/code4craft/webmagic/deployments",
  "created_at": "2013-04-23T12:57:36Z",
  "updated_at": "2017-06-03T03:58:13Z",
  "pushed_at": "2017-06-03T07:10:15Z",
  "git_url": "git://github.com/code4craft/webmagic.git",
  "ssh_url": "git@github.com:code4craft/webmagic.git",
  "clone_url": "https://github.com/code4craft/webmagic.git",
  "svn_url": "https://github.com/code4craft/webmagic",
  "homepage": "http://webmagic.io/",
  "size": 16982,
  "stargazers_count": 4566,
  "watchers_count": 4566,
  "language": "Java",
  "has_issues": true,
  "has_projects": true,
  "has_downloads": true,
  "has_wiki": true,
  "has_pages": true,
  "forks_count": 2432,
  "mirror_url": null,
  "open_issues_count": 96,
  "forks": 2432,
  "open_issues": 96,
  "watchers": 4566,
  "default_branch": "master",
  "network_count": 2432,
  "subscribers_count": 618
}


================================================
FILE: webmagic-extension/src/test/resources/log4j2-test.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<Configuration>
    <Appenders>
        <Console name="stdout" target="SYSTEM_OUT">
            <PatternLayout pattern="%d{yy-MM-dd HH:mm:ss,SSS} %-5p %c(%F:%L) ## %m%n" />
        </Console>
    </Appenders>
    <Loggers>
        <Logger name="org.apache" level="warn" additivity="false">
            <AppenderRef ref="stdout" />
        </Logger>
        <Root level="info">
            <AppenderRef ref="stdout" />
        </Root>
    </Loggers>
</Configuration>


================================================
FILE: webmagic-samples/README.md
================================================
webmagic-samples
-------
webmagic的一些示例。包括抓取常见 博客、信息类网站等。

================================================
FILE: webmagic-samples/pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic</artifactId>
        <version>1.0.4-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>webmagic-samples</artifactId>

    <dependencies>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>org.mapdb</groupId>
            <artifactId>mapdb</artifactId>
            <version>3.1.0</version>
        </dependency>
        <dependency>
            <groupId>com.fasterxml.jackson.core</groupId>
            <artifactId>jackson-core</artifactId>
            <version>2.15.2</version>
        </dependency>
        <dependency>
            <groupId>com.fasterxml.jackson.core</groupId>
            <artifactId>jackson-annotations</artifactId>
            <version>2.15.2</version>
        </dependency>
        <dependency>
            <groupId>com.fasterxml.jackson.core</groupId>
            <artifactId>jackson-databind</artifactId>
            <version>2.16.0</version>
        </dependency>
    </dependencies>

</project>


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/main/QuickStarter.java
================================================
package us.codecraft.webmagic.main;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.samples.IteyeBlog;
import us.codecraft.webmagic.model.samples.News163;
import us.codecraft.webmagic.model.samples.OschinaBlog;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.MultiPagePipeline;

import java.util.LinkedHashMap;
import java.util.Map;
import java.util.Scanner;

/**
 * @author code4crafter@gmail.com <br>
 */
public class QuickStarter {

    private static Map<String, Class> clazzMap;

    private static Map<String, String> urlMap;

    private static void init(){
        clazzMap = new LinkedHashMap<String, Class>();
        clazzMap.put("1", OschinaBlog.class);
        clazzMap.put("2", IteyeBlog.class);
        clazzMap.put("3", News163.class);
        urlMap = new LinkedHashMap<String, String>();
        urlMap.put("1", "http://my.oschina.net/flashsword/blog");
        urlMap.put("2", "http://flashsword20.iteye.com/");
        urlMap.put("3", "http://news.163.com/");
    }

    public static void main(String[] args) {
        init();
        String key = null;
        key = readKey(key);
        System.out.println("The demo started and will last 20 seconds...");
        //Start spider
        OOSpider.create(Site.me(), clazzMap.get(key)).addUrl(urlMap.get(key)).addPipeline(new MultiPagePipeline()).addPipeline(new ConsolePipeline()).runAsync();

        try {
            Thread.sleep(20000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        System.out.println("The demo stopped!");
        System.out.println("To more usage, try to customize your own Spider!");
        System.exit(0);
    }

    private static String readKey(String key) {
        Scanner stdin = new Scanner(System.in);
        System.out.println("Choose a Spider demo:");
        for (Map.Entry<String, Class> classEntry : clazzMap.entrySet()) {
            System.out.println(classEntry.getKey()+"\t" + classEntry.getValue() + "\t" + urlMap.get(classEntry.getKey()));
        }
        while (key == null) {
            key = stdin.nextLine();
            if (clazzMap.get(key) == null) {
                System.out.println("Invalid choice!");
                key = null;
            }
        }
        return key;
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/BaiduNews.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;

/**
 * @author code4crafter@gmail.com
 */
public class BaiduNews {

    @ExtractBy("//h3[@class='c-title']/a/text()")
    private String name;

    @ExtractBy("//div[@class='c-summary']/text()")
    private String description;

    @Override
    public String toString() {
        return "BaiduNews{" +
                "name='" + name + '\'' +
                ", description='" + description + '\'' +
                '}';
    }

    public static void main(String[] args) {
        OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(0), BaiduNews.class);
        //single download
        BaiduNews baike = ooSpider.<BaiduNews>get("http://news.baidu.com/ns?tn=news&cl=2&rn=20&ct=1&fr=bks0000&ie=utf-8&word=httpclient");
        System.out.println(baike);

        ooSpider.close();
    }

    public String getName() {
        return name;
    }

    public String getDescription() {
        return description;
    }
}

================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/Blog.java
================================================
package us.codecraft.webmagic.model.samples;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-8-2 <br>
 * Time: 上午8:10 <br>
 */
public interface Blog {

    public String getTitle();

    public String getContent();
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/DianpingFtlDataScanner.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.AfterExtractor;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.TargetUrl;

import java.util.List;

/**
 * @author yihua.huang@dianping.com <br>
 *         Date: 13-8-13 <br>
 *         Time: 上午10:13 <br>
 */
@TargetUrl("http://*.alpha.dp/*")
public class DianpingFtlDataScanner implements AfterExtractor {

	@ExtractBy(value = "(DP\\.data\\(\\{.*\\}\\));", type = ExtractBy.Type.Regex, notNull = true, multi = true)
	private List<String> data;

	public static void main(String[] args) {
		OOSpider.create(Site.me().setSleepTime(0), DianpingFtlDataScanner.class)
				.thread(5).run();
	}

	@Override
	public void afterProcess(Page page) {
		if (data.size() > 1) {
			System.err.println(page.getUrl());
		}
		if (data.size() > 0 && data.get(0).length() > 100) {
			System.err.println(page.getUrl());
		}
	}
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/GithubRepo.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.HasKey;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.ExtractByUrl;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;
import us.codecraft.webmagic.pipeline.JsonFilePageModelPipeline;
import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl({"https://github.com/\\w+\\?tab=repositories","https://github.com/\\w+","https://github.com/explore/*"})
public class GithubRepo implements HasKey {

    @ExtractBy(value = "//h1[@class='entry-title public']/strong/a/text()", notNull = true)
    private String name;

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']")
    private String readme;

    @ExtractBy(value = "//div[@class='repository-lang-stats']//li//span[@class='lang']",multi = true)
    private List<String> language;

    @ExtractBy("//a[@class='social-count js-social-count']/text()")
    private String star;

    @ExtractBy("//a[@class='social-count js-social-count']/text()")
    private String fork;

    @ExtractByUrl
    private String url;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(0).setRetryTimes(3),
                new JsonFilePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/explore")
                .setScheduler(new FileCacheQueueScheduler("/data/webmagic/cache/")).thread(15).run();
    }

    @Override
    public String key() {
        return author+"_"+name;
    }

    public String getName() {
        return name;
    }

    public String getReadme() {
        return readme;
    }

    public String getAuthor() {
        return author;
    }

    public List<String> getLanguage() {
        return language;
    }

    public String getUrl() {
        return url;
    }

    public String getStar() {
        return star;
    }

    public String getFork() {
        return fork;
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/IteyeBlog.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.TargetUrl;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-8-2 <br>
 * Time: 上午7:52 <br>
 */
@TargetUrl("http://*.iteye.com/blog/*")
public class IteyeBlog implements Blog{

    @ExtractBy("//title")
    private String title;

    @ExtractBy(value = "div#blog_content",type = ExtractBy.Type.Css)
    private String content;

    @Override
    public String toString() {
        return "IteyeBlog{" +
                "title='" + title + '\'' +
                ", content='" + content + '\'' +
                '}';
    }

    public static void main(String[] args) {
        OOSpider.create(Site.me(), IteyeBlog.class).addUrl("http://flashsword20.iteye.com/blog").run();
    }

    public String getTitle() {
        return title;
    }

    public String getContent() {
        return content;
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/JokejiModel.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.ConsolePageModelPipeline;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;
import us.codecraft.webmagic.scheduler.RedisScheduler;

/**
 * @author code4crafter@gmail.com
 */
@TargetUrl("http://www.jokeji.cn/jokehtml/jy/\\d+.htm")
@HelpUrl("http://www.jokeji.cn/list\\w+.htm")
public class JokejiModel {

    @ExtractBy("//title/regex('<title>([^_]+)',1)")
    private String title;

    @ExtractBy("//div[@class=mob_txt]/tidyText()")
    private String content;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setDomain("www.jokeji.cn").setCharset("gbk").setSleepTime(100).setTimeOut(3000)
                .setUserAgent("Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)")
                , new ConsolePageModelPipeline(), JokejiModel.class).addUrl("http://www.jokeji.cn/").thread(2)
                .scheduler(new RedisScheduler("127.0.0.1"))
                .run();
    }

}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/Kr36NewsModel.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.monitor.SpiderMonitor;
import us.codecraft.webmagic.pipeline.PageModelPipeline;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.ExtractByUrl;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;

import javax.management.JMException;
import java.io.IOException;

/**
 * @author code4crafter@gmail.com <br>
 */
@TargetUrl("http://www.36kr.com/p/\\d+.html")
@HelpUrl("http://www.36kr.com/#/page/\\d+")
public class Kr36NewsModel {

    @ExtractBy("//h1[@class='entry-title sep10']")
    private String title;

    @ExtractBy("//div[@class='mainContent sep-10']/tidyText()")
    private String content;

    @ExtractByUrl
    private String url;

    public static void main(String[] args) throws IOException, JMException {
        //Just for benchmark
        Spider thread = OOSpider.create(Site.me().setSleepTime(0), new PageModelPipeline() {
            @Override
            public void process(Object o, Task task) {

            }
        }, Kr36NewsModel.class).thread(20).addUrl("http://www.36kr.com/");
        thread.start();
        SpiderMonitor spiderMonitor = SpiderMonitor.instance();
        spiderMonitor.register(thread);
    }

    public String getTitle() {
        return title;
    }

    public String getContent() {
        return content;
    }

    public String getUrl() {
        return url;
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/News163.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.MultiPageModel;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.ExtractByUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.MultiPagePipeline;
import us.codecraft.webmagic.scheduler.RedisScheduler;

import java.util.Collection;
import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
@TargetUrl("http://news.163.com/\\d+/\\d+/\\d+/\\w+*.html")
public class News163 implements MultiPageModel {

    @ExtractByUrl("http://news\\.163\\.com/\\d+/\\d+/\\d+/([^_]*).*\\.html")
    private String pageKey;

    @ExtractByUrl(value = "http://news\\.163\\.com/\\d+/\\d+/\\d+/\\w+_(\\d+)\\.html", notNull = false)
    private String page;

    @ExtractBy(value = "//div[@class=\"ep-pages\"]//a/regex('http://news\\.163\\.com/\\d+/\\d+/\\d+/\\w+_(\\d+)\\.html',1)"
            , multi = true, notNull = false)
    private List<String> otherPage;

    @ExtractBy("//h1[@id=\"h1title\"]/text()")
    private String title;

    @ExtractBy("//div[@id=\"epContentLeft\"]")
    private String content;

    @Override
    public String getPageKey() {
        return pageKey;
    }

    @Override
    public Collection<String> getOtherPages() {
        return otherPage;
    }

    @Override
    public String getPage() {
        if (page == null) {
            return "1";
        }
        return page;
    }

    @Override
    public MultiPageModel combine(MultiPageModel multiPageModel) {
        News163 news163 = new News163();
        news163.title = this.title;
        News163 pagedModel1 = (News163) multiPageModel;
        news163.content = this.content + pagedModel1.content;
        return news163;
    }

    @Override
    public String toString() {
        return "News163{" +
                "content='" + content + '\'' +
                ", title='" + title + '\'' +
                ", otherPage=" + otherPage +
                '}';
    }

    public static void main(String[] args) {
        OOSpider.create(Site.me(), News163.class).addUrl("http://news.163.com/13/0802/05/958I1E330001124J_2.html")
                .scheduler(new RedisScheduler("localhost")).addPipeline(new MultiPagePipeline()).addPipeline(new ConsolePipeline()).run();
    }

}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/OschinaAnswer.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.*;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;

/**
 * @author code4crafter@gmail.com <br>
 */
@TargetUrl("http://www.oschina.net/question/\\d+_\\d+*")
@HelpUrl("http://www.oschina.net/question/*")
@ExtractBy(value = "//ul[@class='list']/li[@class='Answer']", multi = true)
public class OschinaAnswer implements AfterExtractor{

    @ExtractBy("//img/@title")
    private String user;

    @ExtractBy("//div[@class='detail']")
    private String content;

    public static void main(String[] args) {
        OOSpider.create(Site.me(), OschinaAnswer.class).addUrl("http://www.oschina.net/question/567527_120597").run();
    }

    @Override
    public void afterProcess(Page page) {

    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/OschinaBlog.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.pipeline.PageModelPipeline;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.TargetUrl;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
public class OschinaBlog{

    @ExtractBy("//title")
    private String title;

    @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)
    private String content;

    @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
    private List<String> tags;

    public static void main(String[] args) {
        OOSpider.create(Site.me()
                .setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36")
                .setSleepTime(0)
                .setRetryTimes(3)
                ,new PageModelPipeline() {
            @Override
            public void process(Object o, Task task) {

            }
        }, OschinaBlog.class).thread(10).addUrl("http://my.oschina.net/flashsword/blog").run();
    }

    public String getTitle() {
        return title;
    }

    public String getContent() {
        return content;
    }

    public List<String> getTags() {
        return tags;
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/model/samples/QQMeishi.java
================================================
package us.codecraft.webmagic.model.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.ConsolePageModelPipeline;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.TargetUrl;

/**
 * @author code4crafter@gmail.com
 */
@TargetUrl("http://meishi.qq.com/beijing/c/all[\\-p2]*")
@ExtractBy(value = "//ul[@id=\"promos_list2\"]/li",multi = true)
public class QQMeishi {

    @ExtractBy("//div[@class=info]/a[@class=title]/h4/text()")
    private String shopName;

    @ExtractBy("//div[@class=info]/a[@class=title]/text()")
    private String promo;

    public static void main(String[] args) {
        OOSpider.create(Site.me(), new ConsolePageModelPipeline(), QQMeishi.class).addUrl("http://meishi.qq.com/beijing/c/all").thread(4).run();
    }

}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/recover/DuplicateStorageRemover.java
================================================
package us.codecraft.webmagic.recover;

import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import org.mapdb.DB;
import org.mapdb.DBMaker;
import org.mapdb.IndexTreeList;
import org.mapdb.Serializer;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;

import java.util.concurrent.atomic.AtomicInteger;

/**
 * @author ：linweisen
 */
public class DuplicateStorageRemover implements DuplicateRemover {

    private DB db;

    private static String DATABASE_NAME = "duplicate";

    private IndexTreeList<String> urlDuplicateQueue;

    private BloomFilter<CharSequence> bloomFilter;

    private AtomicInteger counter;

    public DuplicateStorageRemover(String path) {

        String duplicatStoragePath = path;

        DB db = DBMaker.fileDB(duplicatStoragePath)
                .fileMmapEnableIfSupported()
                .fileMmapPreclearDisable()
                .cleanerHackEnable()
                .closeOnJvmShutdown()
                .transactionEnable()
                .concurrencyScale(128)
                .make();
        this.db = db;

        this.urlDuplicateQueue = db.indexTreeList(DATABASE_NAME, Serializer.STRING).createOrOpen();

        counter = new AtomicInteger(this.urlDuplicateQueue.size());
        this.bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), 200000, 1E-7);
        for (String url : this.urlDuplicateQueue){
            bloomFilter.put(url);
        }

    }

    @Override
    public boolean isDuplicate(Request request, Task task) {
        String url = request.getUrl();
        boolean isDuplicate = bloomFilter.mightContain(url);
        if (!isDuplicate) {
            bloomFilter.put(url);
            urlDuplicateQueue.add(url);
            this.db.commit();
            counter.incrementAndGet();
        }
        return isDuplicate;
    }

    @Override
    public void resetDuplicateCheck(Task task) {
        this.bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), 200000, 1E-7);
        this.urlDuplicateQueue.clear();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return counter.get();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/recover/MmapQueueScheduler.java
================================================
package us.codecraft.webmagic.recover;

import com.fasterxml.jackson.databind.ObjectMapper;
import org.apache.commons.lang3.StringUtils;
import org.mapdb.DB;
import org.mapdb.DBMaker;
import org.mapdb.IndexTreeList;
import org.mapdb.Serializer;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;

import java.io.IOException;

/**
 * @author ：linweisen
 */
public class MmapQueueScheduler extends DuplicateRemovedScheduler {

    private DB db;

    private static String DATABASE_NAME = "queue";

    private IndexTreeList<String> queue;

    private static ObjectMapper mapper;

    public MmapQueueScheduler(DuplicateRemover duplicateRemover, String path) {
        super.setDuplicateRemover(duplicateRemover);

        String queuePath = path;

        DB db = DBMaker.fileDB(queuePath)
                .fileMmapEnableIfSupported()
                .fileMmapPreclearDisable()
                .cleanerHackEnable()
                .closeOnJvmShutdown()
                .transactionEnable()
                .concurrencyScale(128)
                .make();
        this.db = db;
        this.mapper = new ObjectMapper();
        this.queue = db.indexTreeList(MmapQueueScheduler.DATABASE_NAME, Serializer.STRING).createOrOpen();
    }

    @Override
    public Request poll(Task task) {
        if (this.queue.size() > 0){
            String s = queue.remove(0);
            return fromJson(s, Request.class);
        }else{
            return null;
        }

    }

    @Override
    public void pushWhenNoDuplicate(Request request, Task task) {
        queue.add(toJson(request));
        this.db.commit();
    }

    public String toJson(Object object) {
        try {
            return mapper.writeValueAsString(object);
        } catch (IOException e) {
            logger.warn("write to json string error:" + object, e);
            return null;
        }
    }

    public <T> T fromJson(String jsonString, Class<T> clazz) {
        if (StringUtils.isEmpty(jsonString)) {
            return null;
        }
        try {
            return mapper.readValue(jsonString, clazz);
        } catch (IOException e) {
            logger.warn("parse json string error:" + jsonString, e);
            return null;
        }
    }

}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/recover/RecoverSample.java
================================================
package us.codecraft.webmagic.recover;


import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.samples.SinaBlogProcessor;
import us.codecraft.webmagic.scheduler.component.DuplicateRemover;

/**
 * @author code4crafter@gmail.com <br>
 */
public class RecoverSample {

    public static void main(String[] args) {
        String storage = "queue";
        String duplicate = "duplicate";
        Spider spider = new Spider(new SinaBlogProcessor());
        DuplicateRemover remover = new DuplicateStorageRemover(duplicate);
        spider.setScheduler(new MmapQueueScheduler(remover, storage));
        spider.addUrl("http://blog.sina.com.cn/s/articlelist_1487828712_0_1.html")
                .run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/AlexanderMcqueenGoodsProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.PriorityScheduler;

/**
 * @author code4crafer@gmail.com
 */
public class AlexanderMcqueenGoodsProcessor implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(0);


    public static final String URL_LIST = "http://www\\.alexandermcqueen\\.cn/.*";

    public static final String URL_POST = "http://www\\.alexandermcqueen\\.cn/cn/\\w+/.*\\.html";

    @Override
    public void process(Page page) {
        if (page.getUrl().regex(URL_POST).match()) {
            page.putField("goodsName", page.getHtml().xpath("//div[@id='description']/h1/tidyText()"));
            if (page.getResultItems().get("goodsName") == null) {
                page.setSkip(true);
            }
            page.putField("currency", page.getHtml().xpath("//div[@id='description']//div[@class='itemBoxPrice']/span//span[@class='currency']/tidyText()"));
            page.putField("goodsPrice", page.getHtml().xpath("//div[@id='description']//div[@class='itemBoxPrice']/span//span[@class='priceValue']/tidyText()"));
            page.putField("description", page.getHtml()
                    .xpath("//div[@id='tabbedDescription']//div[@class='tabbedDescription']//ul[@id='tabs']//li[@id='tab_description']/div[@id='description_pane']/tidyText()"));
            page.putField("material", page.getHtml()
                    .xpath("//div[@id='tabbedDescription']" +
                            "//div[@class='tabbedDescription']" +
                            "//ul[@id='tabs']" +
                            "//li[@id='tab_description']" +
                            "//div[@class='productProperty']" +
                            "//div[@class='productPropertyRow']/span[2]/tidyText()"));
            page.putField("goodsCode", page.getHtml()
                    .xpath("//div[@id='tabbedDescription']" +
                            "//div[@class='tabbedDescription']" +
                            "//ul[@id='tabs']" +
                            "//li[@id='tab_description']" +
                            "//div[@class='productProperty']" +
                            "//div[@class='productPropertyRow']//span[@id='modelFabricColorContainer']/tidyText()"));
            page.putField("goodsSize", page.getHtml()
                    .xpath("//div[@id='sizesContainer']//div[@id='sizes']//ul[@class='SizeW']"));
            page.putField("goodsColors", page.getHtml()
                    .xpath("//div[@id='colors']/ul/html()"));
        } else {
            page.addTargetRequests(page.getHtml().links().regex(URL_POST).all(), 1000);
            page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all(), 1);
        }
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new AlexanderMcqueenGoodsProcessor()).setScheduler(new PriorityScheduler())
                .addUrl("http://www.alexandermcqueen.cn/sitemap.asp?tskay=E2F1A848").thread(5).run();
    }
}

================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/AmanzonPageProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.List;

/**
 * @author code4crafer@gmail.com
 */
public class AmanzonPageProcessor implements PageProcessor{
    public void process(Page page) {

        Html html = page.getHtml();
        List<String> questionList =  html.xpath("//table[@class='tgCustomerCommunityCenterColumn']//div[@class='content']//table[@class='dataGrid']//tr").all();

        if(questionList != null && questionList.size() > 1)
        {
            //i=0是列名称，所以i从1开始
            for( int i = 1 ; i < questionList.size(); i++)
            {
                System.out.println(questionList.get(i));
                Html tempHtml =  Html.create("<table>"+questionList.get(i)+"</table>");
                String comment = tempHtml.xpath("//td[@class='title']//a/text()").toString();
                System.out.println(comment);
                String answerNum =  tempHtml.xpath("//td[@class='num']/text()").toString();
                System.out.println(answerNum);
                String createTime = tempHtml.xpath("//td[3]/text()").toString();
                System.out.println(createTime);

				/* Document doc = Jsoup.parse(questionList.get(i));
				 Html hmt  = Html.create(questionList.get(i)) ;
			     String str = hmt.links().toString();
				  String   content =   doc.getElementsByTag("a").text();
				  String ss = doc.text();*/

            }
        }

    }

    @Override
    public Site getSite() {
        return Site.me();
    }

    public static void main(String[] args) {
        Spider.create(new AmanzonPageProcessor()).test("http://www.amazon.de/forum/Fx27CUFD8S7LJ5D");
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/AngularJSProcessor.java
================================================
package us.codecraft.webmagic.samples;


import java.util.List;
import org.apache.commons.collections4.CollectionUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.JsonPathSelector;

/**
 * @author code4crafter@gmail.com
 * @since 0.5.0
 */
public class AngularJSProcessor implements PageProcessor {

    private Site site = Site.me();

    private static final String ARITICALE_URL = "http://angularjs\\.cn/api/article/\\w+";

    private static final String LIST_URL = "http://angularjs\\.cn/api/article/latest.*";

    @Override
    public void process(Page page) {
        if (page.getUrl().regex(LIST_URL).match()) {
            List<String> ids = new JsonPathSelector("$.data[*]._id").selectList(page.getRawText());
            if (CollectionUtils.isNotEmpty(ids)) {
                for (String id : ids) {
                    page.addTargetRequest("http://angularjs.cn/api/article/" + id);
                }
            }
        } else {
            page.putField("title", new JsonPathSelector("$.data.title").select(page.getRawText()));
            page.putField("content", new JsonPathSelector("$.data.content").select(page.getRawText()));
        }

    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new AngularJSProcessor()).addUrl("http://angularjs.cn/api/article/latest?p=1&s=20").run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/DiandianBlogProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
public class DiandianBlogProcessor implements PageProcessor {

    private Site site;

    @Override
    public void process(Page page) {
        //a()表示提取链接，links()表示提取所有链接
        //getHtml()返回Html对象，支持链式调用
        //r()表示用正则表达式提取一条内容，regex()表示提取多条内容
        //toString()表示取单条结果，all()表示取多条
        List<String> requests = page.getHtml().links().regex("(.*/post/.*)").all();
        //使用page.addTargetRequests()方法将待抓取的链接加入队列
        page.addTargetRequests(requests);
        //page.putField(key,value)将抽取的内容加入结果Map
        //x()和xs()使用xpath进行抽取
        page.putField("title", page.getHtml().xpath("//title").regex("(.*?)\\|").toString());
        //smartContent()使用readability技术直接抽取正文，对于规整的文本有比较好的抽取正确率
        page.putField("content", page.getHtml().smartContent());
        page.putField("date", page.getUrl().regex("post/(\\d+-\\d+-\\d+)/"));
        page.putField("id", page.getUrl().regex("post/\\d+-\\d+-\\d+/(\\d+)"));
    }

    @Override
    public Site getSite() {
        //site定义抽取配置，以及开始url等
        if (site == null) {
            site = Site.me().setDomain("progressdaily.diandian.com").
                    setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
        }
        return site;
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/DiaoyuwengProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.PlainText;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-4-21
 * Time: 下午8:08
 */
public class DiaoyuwengProcessor implements PageProcessor {

    private Site site;

    @Override
    public void process(Page page) {
        List<String> requests = page.getHtml().links().regex("(http://www\\.diaoyuweng\\.com/home\\.php\\?mod=space&uid=88304&do=thread&view=me&type=thread&order=dateline&from=space&page=\\d+)").all();
        page.addTargetRequests(requests);
        requests = page.getHtml().links().regex("(http://www\\.diaoyuweng\\.com/thread-\\d+-1-1.html)").all();
        page.addTargetRequests(requests);
        if (page.getUrl().toString().contains("thread")){
            page.putField("title", page.getHtml().xpath("//a[@id='thread_subject']"));
            page.putField("content", page.getHtml().xpath("//div[@class='pcb']//tbody/tidyText()"));
            page.putField("date",page.getHtml().regex("发表于 (\\d{4}-\\d+-\\d+ \\d+:\\d+:\\d+)"));
            page.putField("id",new PlainText("1000"+page.getUrl().regex("http://www\\.diaoyuweng\\.com/thread-(\\d+)-1-1.html").toString()));
        }
    }

    @Override
    public Site getSite() {
        if (site==null){
            site= Site.me().setDomain("www.diaoyuweng.com").
                    setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31").setCharset("GBK").setSleepTime(500);
        }
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new DiaoyuwengProcessor()).addUrl("http://www.diaoyuweng.com/home.php?mod=space&uid=88304&do=thread&view=me&type=thread&from=space").run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/F58PageProcesser.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.RedisScheduler;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-4-21
 * Time: 下午1:48
 */
public class F58PageProcesser implements PageProcessor {

    @Override
    public void process(Page page) {
        List<String> strings = page.getHtml().links().regex(".*/yewu/.*").all();
        page.addTargetRequests(strings);
        page.putField("title",page.getHtml().regex("<title>(.*)</title>"));
        page.putField("body",page.getHtml().xpath("//dd"));
    }

    @Override
    public Site getSite() {
        return Site.me().setDomain("sh.58.com").setCycleRetryTimes(2);  //To change body of implemented methods use File | Settings | File Templates.
    }

    public static void main(String[] args) {
        Spider.create(new F58PageProcesser()).setScheduler(new RedisScheduler("localhost")).addUrl("http://sh1.51a8.com/").run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/GithubRepo.java
================================================
package us.codecraft.webmagic.samples;

/**
 * @author code4crafer@gmail.com
 */
public class GithubRepo {

    private String name;

    private String author;

    private String readme;

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public String getAuthor() {
        return author;
    }

    public void setAuthor(String author) {
        this.author = author;
    }

    public String getReadme() {
        return readme;
    }

    public void setReadme(String readme) {
        this.readme = readme;
    }
}

================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/GithubRepoPageProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author code4crafter@gmail.com <br>
 * @since 0.5.1
 */
public class GithubRepoPageProcessor implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(0);

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+/\\w+)").all());
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+)").all());
        GithubRepo githubRepo = new GithubRepo();
        githubRepo.setAuthor(page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());
        githubRepo.setName(page.getHtml().xpath("//h1[contains(@class, 'entry-title') and contains(@class, 'public')]/strong/a/text()").toString());
        githubRepo.setReadme(page.getHtml().xpath("//div[@id='readme']/tidyText()").toString());
        if (githubRepo.getName() == null) {
            //skip this page
            page.setSkip(true);
        } else {
            page.putField("repo", githubRepo);
        }
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(5).run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/HuxiuProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
public class HuxiuProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        List<String> requests = page.getHtml().links().regex(".*article.*").all();
        page.addTargetRequests(requests);
        page.putField("title",page.getHtml().xpath("//div[@class='clearfix neirong']//h1/text()"));
        page.putField("content",page.getHtml().xpath("//div[@id='neirong_box']/tidyText()"));
    }

    @Override
    public Site getSite() {
        return Site.me().setDomain("www.huxiu.com");
    }

    public static void main(String[] args) {
        Spider.create(new HuxiuProcessor()).addUrl("http://www.huxiu.com/").run();
    }

}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/InfoQMiniBookProcessor.java
================================================
package us.codecraft.webmagic.samples;

import org.apache.commons.collections4.CollectionUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
public class InfoQMiniBookProcessor implements PageProcessor {

    private Site site;

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("http://www\\.infoq\\.com/cn/minibooks/.*").all());
        List<String> all = page.getHtml().links().regex(".*\\.pdf").all();
        if (CollectionUtils.isNotEmpty(all)) {
            page.putField("pdf", all);
        } else {
            page.getResultItems().setSkip(true);
        }
    }

    @Override
    public Site getSite() {
        if (site == null) {
            site = Site.me().setDomain("www.infoq.com").addCookie("RegisteredUserCookie", "sDDDc8dIAgZSq67uJSXhtpQaHEi1XDOH").
                    setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
        }
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new InfoQMiniBookProcessor())
                .thread(5)
                .addUrl("http://www.infoq.com/cn/minibooks")
                .run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/IteyeBlogProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author code4crafter@gmail.com <br>
 */
public class IteyeBlogProcessor implements PageProcessor {

    private Site site;

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex(".*yanghaoli\\.iteye\\.com/blog/\\d+").all());
        page.putField("title",page.getHtml().xpath("//title").toString());
        page.putField("content",page.getHtml().smartContent().toString());
    }

    @Override
    public Site getSite() {
        if (site == null) {
            site = Site.me().setDomain("yanghaoli.iteye.com");
        }
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new IteyeBlogProcessor()).thread(5).addUrl("http://yanghaoli.iteye.com/").run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/KaichibaProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-5-20
 * Time: 下午5:31
 */
public class KaichibaProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        //http://progressdaily.diandian.com/post/2013-01-24/40046867275
        int i = Integer.valueOf(page.getUrl().regex("shop/(\\d+)").toString()) + 1;
        page.addTargetRequest("http://kaichiba.com/shop/" + i);
        page.putField("title",page.getHtml().xpath("//Title"));
        page.putField("items", page.getHtml().xpath("//li[@class=\"foodTitle\"]").replace("^\\s+", "").replace("\\s+$", "").replace("<span>.*?</span>", ""));
    }

    @Override
    public Site getSite() {
        return Site.me().setDomain("kaichiba.com").setCharset("utf-8").
                setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
    }

    public static void main(String[] args) {
        Spider.create(new KaichibaProcessor()).addUrl("http://kaichiba.com/shop/41725781").run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/MamacnPageProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.samples.pipeline.OneFilePipeline;
import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;
import us.codecraft.webmagic.selector.Selectable;

import java.io.FileNotFoundException;
import java.io.UnsupportedEncodingException;
import java.util.List;

/**
 * @author code4crafer@gmail.com
 */
public class MamacnPageProcessor implements PageProcessor {

    private Site site = Site.me().setDomain("www.mama.cn").setSleepTime(100);

    @Override
    public void process(Page page) {
        List<Selectable> nodes = page.getHtml().xpath("//ul[@id=ma-thumb-list]/li").nodes();
        StringBuilder accum = new StringBuilder();
        for (Selectable node : nodes) {
            accum.append("img:").append(node.xpath("//a/@href").get()).append("\n");
            accum.append("title:").append(node.xpath("//img/@alt").get()).append("\n");
        }
        page.putField("",accum.toString());
        if (accum.length() == 0) {
            page.setSkip(true);
        }
        page.addTargetRequests(page.getHtml().links().regex("http://www\\.mama\\.cn/photo/.*\\.html").all());
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) throws FileNotFoundException, UnsupportedEncodingException {
        Spider.create(new MamacnPageProcessor())
                .setScheduler(new FileCacheQueueScheduler("/data/webmagic/mamacn"))
                .addUrl("http://www.mama.cn/photo/t1-p1.html")
                .addPipeline(new OneFilePipeline("/data/webmagic/mamacn/data"))
                .thread(5)
                .run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/MeicanProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-5-20
 * Time: 下午5:31
 */
public class MeicanProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        //http://progressdaily.diandian.com/post/2013-01-24/40046867275
        List<String> requests = page.getHtml().xpath("//a[@class=\"area_link flat_btn\"]/@href").all();
        if (requests.size() > 2) {
            requests = requests.subList(0, 2);
        }
        page.addTargetRequests(requests);
        page.addTargetRequests(page.getHtml().links().regex("(.*/restaurant/[^#]+)").all());
        page.putField("items", page.getHtml().xpath("//ul[@class=\"dishes menu_dishes\"]/li/span[@class=\"name\"]/text()"));
        page.putField("prices", page.getHtml().xpath("//ul[@class=\"dishes menu_dishes\"]/li/span[@class=\"price_outer\"]/span[@class=\"price\"]/text()"));
    }

    @Override
    public Site getSite() {
        return Site.me().setDomain("meican.com").setCharset("utf-8").
                setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
    }

    public static void main(String[] args) {
        Spider.create(new MeicanProcessor()).addUrl("http://www.meican.com/shanghai/districts").run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/NjuBBSProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-4-21
 * Time: 下午8:08
 */
public class NjuBBSProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        List<String> requests = page.getHtml().regex("<a[^<>]*href=(bbstcon\\?board=Pictures&file=[^>]*)").all();
        page.addTargetRequests(requests);
        page.putField("title",page.getHtml().xpath("//div[@id='content']//h2/a"));
        page.putField("content",page.getHtml().smartContent());
    }

    @Override
    public Site getSite() {
        return Site.me().setDomain("bbs.nju.edu.cn");
    }

    public static void main(String[] args) {
        Spider.create(new NjuBBSProcessor()).addUrl("http://bbs.nju.edu.cn/board?board=Pictures").run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/PhantomJSPageProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.downloader.PhantomJSDownloader;
import us.codecraft.webmagic.pipeline.CollectorPipeline;
import us.codecraft.webmagic.pipeline.ResultItemsCollectorPipeline;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * Created by dolphineor on 2014-11-21.
 * <p>
 * 以淘宝为例, 搜索冬装的相关结果
 */
public class PhantomJSPageProcessor implements PageProcessor {

    private Site site = Site.me()
            .setDomain("s.taobao.com")
            .setCharset("GBK")
            .addHeader("Referer", "http://www.taobao.com/")
            .setRetryTimes(3).setSleepTime(1000);

    @Override
    public void process(Page page) {
        if (page.getRawText() != null)
            page.putField("html", page.getRawText());
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) throws Exception {
        PhantomJSDownloader phantomDownloader = new PhantomJSDownloader();

        CollectorPipeline<ResultItems> collectorPipeline = new ResultItemsCollectorPipeline();

        Spider.create(new PhantomJSPageProcessor())
                .addUrl("http://s.taobao.com/search?q=%B6%AC%D7%B0&sort=sale-desc") //%B6%AC%D7%B0为冬装的GBK编码
                .setDownloader(phantomDownloader)
                .addPipeline(collectorPipeline)
                .thread((Runtime.getRuntime().availableProcessors() - 1) << 1)
                .run();

        List<ResultItems> resultItemsList = collectorPipeline.getCollected();
        System.out.println(resultItemsList.get(0).get("html").toString());
    }

}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/QzoneBlogProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
public class QzoneBlogProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        //http://progressdaily.diandian.com/post/2013-01-24/40046867275

        //http://b1.cnc.qzone.qq.com/cgi-bin/blognew/get_abs?hostUin=233017404&uin=233017404&blogType=0&statYear=2013&source=0&statYear=2013&g_tk=291639571&g_tk=291639571&reqInfo=7&pos=0&num=15&source=0&rand=0.46480297949165106
        // &cateName=&cateHex=&statYear=2013&reqInfo=7&pos=0&num=15&sortType=0&source=0&rand=0.46480297949165106&g_tk=291639571&verbose=1&ref=qzone
        List<String> requests = page.getHtml().regex("<a[^<>]*href=[\"']{1}(http://17dujingdian\\.com/post/[^#]*?)[\"']{1}").all();
        page.addTargetRequests(requests);
        page.putField("title",page.getHtml().xpath("//div[@id='content']//h2/a"));
        page.putField("content",page.getHtml().smartContent());
    }

    @Override
    public Site getSite() {
        return Site.me().setDomain("www.diandian.com").
                setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/SinaBlogProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author code4crafter@gmail.com <br>
 */
public class SinaBlogProcessor implements PageProcessor {

    public static final String URL_LIST = "http://blog\\.sina\\.com\\.cn/s/articlelist_1487828712_0_\\d+\\.html";

    public static final String URL_POST = "http://blog\\.sina\\.com\\.cn/s/blog_\\w+\\.html";

    private Site site = Site
            .me()
            .setDomain("blog.sina.com.cn")
            .setSleepTime(3000)
            .setUserAgent(
                    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

    @Override
    public void process(Page page) {
        //列表页
        if (page.getUrl().regex(URL_LIST).match()) {
            page.addTargetRequests(page.getHtml().xpath("//div[@class=\"articleList\"]").links().regex(URL_POST).all());
            page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all());
            //文章页
        } else {
            page.putField("title", page.getHtml().xpath("//div[@class='articalTitle']/h2"));
            page.putField("content", page.getHtml().xpath("//div[@id='articlebody']//div[@class='articalContent']"));
            page.putField("date",
                    page.getHtml().xpath("//div[@id='articlebody']//span[@class='time SG_txtc']").regex("\\((.*)\\)"));
        }
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new SinaBlogProcessor()).addUrl("http://blog.sina.com.cn/s/articlelist_1487828712_0_1.html")
                .run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/TianyaPageProcesser.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.processor.PageProcessor;

import java.util.List;

/**
 * @author code4crafter@gmail.com <br>
 */
public class TianyaPageProcesser implements PageProcessor {

    @Override
    public void process(Page page) {
        List<String> strings = page.getHtml().regex("<a[^<>]*href=[\"']{1}(/post-free.*?\\.shtml)[\"']{1}").all();
        page.addTargetRequests(strings);
        page.putField("title", page.getHtml().xpath("//div[@id='post_head']//span[@class='s_title']//b"));
        page.putField("body",page.getHtml().smartContent());
    }

    @Override
    public Site getSite() {
        return Site.me().setDomain("http://bbs.tianya.cn/");  //To change body of implemented methods use File | Settings | File Templates.
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/ZhihuPageProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.List;

/**
 * @author 410775541@qq.com <br>
 * @since 0.5.1
 */
public class ZhihuPageProcessor implements PageProcessor {

    private Site site = Site.me().setCycleRetryTimes(5).setRetryTimes(5).setSleepTime(500).setTimeOut(3 * 60 * 1000)
            .setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0")
            .addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
            .addHeader("Accept-Language", "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3")
            .setCharset("UTF-8");

    private static final int voteNum = 1000;


    @Override
    public void process(Page page) {
        List<String> relativeUrl = page.getHtml().xpath("//li[@class='item clearfix']/div/a/@href").all();
        page.addTargetRequests(relativeUrl);
        relativeUrl = page.getHtml().xpath("//div[@id='zh-question-related-questions']//a[@class='question_link']/@href").all();
        page.addTargetRequests(relativeUrl);
        List<String> answers =  page.getHtml().xpath("//div[@id='zh-question-answer-wrap']/div").all();
        boolean exist = false;
        for(String answer:answers){
            String vote = new Html(answer).xpath("//div[@class='zm-votebar']//span[@class='count']/text()").toString();
            if(Integer.valueOf(vote) >= voteNum){
                page.putField("vote",vote);
                page.putField("content",new Html(answer).xpath("//div[@class='zm-editable-content']"));
                page.putField("userid", new Html(answer).xpath("//a[@class='author-link']/@href"));
                exist = true;
            }
        }
        if(!exist){
            page.setSkip(true);
        }
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new ZhihuPageProcessor()).
                addUrl("http://www.zhihu.com/search?type=question&q=java").
                addPipeline(new FilePipeline("D:\\webmagic\\")).
                thread(5).
                run();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/formatter/StringTemplateFormatter.java
================================================
package us.codecraft.webmagic.samples.formatter;

import us.codecraft.webmagic.model.formatter.ObjectFormatter;

/**
 * @author yihua.huang@dianping.com
 */
public class StringTemplateFormatter implements ObjectFormatter<String> {

    private String template;

    @Override
    public String format(String raw) throws Exception {
        return String.format(template, raw);
    }

    @Override
    public Class<String> clazz() {
        return String.class;
    }

    @Override
    public void initParam(String[] extra) {
        template = extra[0];
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/pipeline/OneFilePipeline.java
================================================
package us.codecraft.webmagic.samples.pipeline;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.utils.FilePersistentBase;

import java.io.*;
import java.util.Map;

/**
 * @author code4crafer@gmail.com
 */
public class OneFilePipeline extends FilePersistentBase implements Pipeline {

    private Logger logger = LoggerFactory.getLogger(getClass());

    private PrintWriter printWriter;

    public OneFilePipeline() throws FileNotFoundException, UnsupportedEncodingException {
        this("/data/webmagic/");
    }

    public OneFilePipeline(String path) throws FileNotFoundException, UnsupportedEncodingException {
        setPath(path);
        printWriter = new PrintWriter(new OutputStreamWriter(new FileOutputStream(getFile(path)), "UTF-8"));
    }

    @Override
    public synchronized void process(ResultItems resultItems, Task task) {
        printWriter.println("url:\t" + resultItems.getRequest().getUrl());
        for (Map.Entry<String, Object> entry : resultItems.getAll().entrySet()) {
            if (entry.getValue() instanceof Iterable) {
                Iterable value = (Iterable) entry.getValue();
                printWriter.println(entry.getKey() + ":");
                for (Object o : value) {
                    printWriter.println(o);
                }
            } else {
                printWriter.println(entry.getKey() + ":\t" + entry.getValue());
            }
        }
        printWriter.flush();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/pipeline/ReplacePipeline.java
================================================
package us.codecraft.webmagic.samples.pipeline;

/**
 * @author code4crafer@gmail.com
 */
public class ReplacePipeline {
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/scheduler/DelayQueueScheduler.java
================================================
package us.codecraft.webmagic.samples.scheduler;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.PriorityScheduler;

import java.util.HashSet;
import java.util.Set;
import java.util.concurrent.DelayQueue;
import java.util.concurrent.Delayed;
import java.util.concurrent.TimeUnit;

/**
 * @author code4crafter@gmail.com
 */
public class DelayQueueScheduler extends PriorityScheduler {

    private DelayQueue<RequestWrapper> queue = new DelayQueue<RequestWrapper>();

    private Set<String> urls = new HashSet<String>();

    private long time;

    private TimeUnit timeUnit;

    private class RequestWrapper implements Delayed {

        private long startTime = System.currentTimeMillis();

        private Request request;

        private RequestWrapper(Request request) {
            this.request = request;
        }

        private long getStartTime() {
            return startTime;
        }

        private Request getRequest() {
            return request;
        }

        @Override
        public long getDelay(TimeUnit unit) {
            long convert = unit.convert(TimeUnit.MILLISECONDS.convert(time, timeUnit) - System.currentTimeMillis() + startTime, TimeUnit.MILLISECONDS);
            return convert;
        }

        @Override
        public int compareTo(Delayed o) {
            return new Long(getDelay(TimeUnit.MILLISECONDS)).compareTo(o.getDelay(TimeUnit.MILLISECONDS));
        }
    }

    public DelayQueueScheduler(long time, TimeUnit timeUnit) {
        this.time = time;
        this.timeUnit = timeUnit;
    }

    @Override
    public synchronized void push(Request request, Task task) {
        if (urls.add(request.getUrl())) {
            queue.add(new RequestWrapper(request));
        }

    }

    @Override
    public synchronized Request poll(Task task) {
        RequestWrapper take = null;
        while (take == null) {
            try {
                take = queue.take();
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
        queue.add(new RequestWrapper(take.getRequest()));
        return take.getRequest();
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/scheduler/LevelLimitScheduler.java
================================================
package us.codecraft.webmagic.samples.scheduler;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.PriorityScheduler;

/**
 * @author code4crafter@gmail.com
 */
public class LevelLimitScheduler extends PriorityScheduler {

    private int levelLimit = 3;

    public LevelLimitScheduler(int levelLimit) {
        this.levelLimit = levelLimit;
    }

    @Override
    public synchronized void push(Request request, Task task) {
        if (((Integer) request.getExtra("_level")) <= levelLimit) {
            super.push(request, task);
        }
    }
}


================================================
FILE: webmagic-samples/src/main/java/us/codecraft/webmagic/samples/scheduler/ZipCodePageProcessor.java
================================================
package us.codecraft.webmagic.samples.scheduler;

import org.apache.commons.lang3.StringUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.PriorityScheduler;

import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import static us.codecraft.webmagic.selector.Selectors.xpath;

/**
 * @author code4crafter@gmail.com
 */
public class ZipCodePageProcessor implements PageProcessor {

    private Site site = Site.me().setCharset("gb2312")
            .setSleepTime(100);

    @Override
    public void process(Page page) {
        if (page.getUrl().toString().equals("http://www.ip138.com/post/")) {
            processCountry(page);
        } else if (page.getUrl().regex("http://www\\.ip138\\.com/\\d{6}[/]?$").toString() != null) {
            processDistrict(page);
        } else {
            processProvince(page);
        }

    }

    private void processCountry(Page page) {
        List<String> provinces = page.getHtml().xpath("//*[@id=\"newAlexa\"]/table/tbody/tr/td").all();
        for (String province : provinces) {
            String link = xpath("//@href").select(province);
            String title = xpath("/text()").select(province);
            Request request = new Request(link).setPriority(0).putExtra("province", title);
            page.addTargetRequest(request);
        }
    }

    private void processProvince(Page page) {
        //这里仅靠xpath没法精准定位，所以使用正则作为筛选，不符合正则的会被过滤掉
        List<String> districts = page.getHtml().xpath("//body/table/tbody/tr[@bgcolor=\"#ffffff\"]").all();
        Pattern pattern = Pattern.compile("<td>([^<>]+)</td>.*?href=\"(.*?)\"",Pattern.DOTALL);
        for (String district : districts) {
            Matcher matcher = pattern.matcher(district);
            while (matcher.find()) {
                String title = matcher.group(1);
                String link = matcher.group(2);
                Request request = new Request(link).setPriority(1).putExtra("province", page.getRequest().getExtra("province")).putExtra("district", title);
                page.addTargetRequest(request);
            }
        }
    }

    private void processDistrict(Page page) {
        String province = page.getRequest().getExtra("province").toString();
        String district = page.getRequest().getExtra("district").toString();
        String zipCode = page.getHtml().regex("<h2>邮编：(\\d+)</h2>").toString();
        page.putField("result", StringUtils.join(new String[]{province, district,
                zipCode}, "\t"));
        List<String> links = page.getHtml().links().regex("http://www\\.ip138\\.com/\\d{6}[/]?$").all();
        for (String link : links) {
            page.addTargetRequest(new Request(link).setPriority(2).putExtra("province", province).putExtra("district", district));
        }

    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider spider = Spider.create(new ZipCodePageProcessor()).scheduler(new PriorityScheduler()).addUrl("http://www.ip138.com/post/");

        spider.run();
    }
}


================================================
FILE: webmagic-samples/src/main/resources/crawl.js
================================================
var system = require('system');
var url = system.args[1];

var page = require('webpage').create();
page.settings.loadImages = false;
page.settings.resourceTimeout = 5000;

page.open(url, function (status) {
    if (status != 'success') {
        console.log("HTTP request failed!");
    } else {
        console.log(page.content);
    }

    page.close();
    phantom.exit();
});

================================================
FILE: webmagic-samples/src/main/resources/log4j2.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<Configuration>
    <Appenders>
        <Console name="stdout" target="SYSTEM_OUT">
            <PatternLayout pattern="%d{yy-MM-dd HH:mm:ss,SSS} %-5p %c(%F:%L) ## %m%n" />
        </Console>
    </Appenders>
    <Loggers>
        <Logger name="org.springframework" level="warn" additivity="false">
            <AppenderRef ref="stdout" />
        </Logger>
        <Logger name="net.sf.ehcache" level="warn" additivity="false">
            <AppenderRef ref="stdout" />
        </Logger>
        <Root level="info">
            <AppenderRef ref="stdout" />
        </Root>
    </Loggers>
</Configuration>


================================================
FILE: webmagic-samples/src/test/java/us/codecraft/webmagic/SpiderTest.java
================================================
package us.codecraft.webmagic;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.SimplePageProcessor;
import us.codecraft.webmagic.samples.HuxiuProcessor;
import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-4-20
 * Time: 下午7:46
 */
public class SpiderTest {


    @Ignore
    @Test
    public void testSpider() throws InterruptedException {
        Spider me = Spider.create(new HuxiuProcessor()).addPipeline(new FilePipeline());
        me.run();
    }

    @Ignore
    @Test
    public void testGlobalSpider(){
//        PageProcessor pageProcessor = new MeicanProcessor();
//        Spider.me().pipeline(new FilePipeline()).scheduler(new FileCacheQueueScheduler(pageProcessor.getSite(),"/data/temp/webmagic/cache/")).
//                processor(pageProcessor).run();
        SimplePageProcessor pageProcessor2 = new SimplePageProcessor( "http://www.diaoyuweng.com/thread-*-1-1.html");
        System.out.println(pageProcessor2.getSite().getCharset());
        pageProcessor2.getSite().setSleepTime(500);
        Spider.create(pageProcessor2).addUrl("http://www.diaoyuweng.com/home.php?mod=space&uid=88304&do=thread&view=me&type=thread&from=space").addPipeline(new FilePipeline()).scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).
                run();


    }

    @Ignore
    @Test
    public void test(){
        System.out.println(System.getProperty("java.io.tmpdir"));
    }


    @Ignore
    @Test
    public void languageSchema() {


        /**
         *
         * _hrefs = regex("<a[^<>]*href=[\"']{1}(/yewu/.*?)[\"']{1}")
         * title = r(""<title>(.*)</title>"")
         * body = x("//dd[@class='w133']")
         *
         * site.domain = "sh.58.com"
         * site.ua=""
         * site.cookie="aa:bb"
         *
         */

        /**
         *
         *
         * if (page == r('') && refer(1) == 1) {
         *
         *      type = _refer(1)
         *      content = _text.t().c()
         *      title = x("asd@asd").r("",1)
         *      body[r(_currentUrl).g(1)] = body[r(_currentUrl).g(1)] + (x("").r("",1,2).c())
         *
         *      body=body[r(_currentUrl).g(1)]
         *      tags[%] = (tags[%] + xpath('')) . r('')
         *
         *      _targetUrls.add('' + x('').r(''))
         *      _sourceUrls.add()
         *      _header.put("","");
         *      _cookie.add("asdsadasdsa");
         *
         *
         * }
         *
         * _cookie.add(_cookie[''])
         *
         * if (page == r('') && refer(1) == 1)
         *  (
         *      _targetUrl = '' + x('') & r('')
         *      _sourceUrl = ''
         *  )
         *
         */

        /**
         * <condition></>
         * <selector>
         *     <fields>
         *
         *     <type>
         *         <selector></selector>
         *         <selector></selector>
         *     </type>
         *         </>
         *     </>
         */

        /**
         *
         * if (model.url('') && model.refer(1) == 1)
         *  (
         *
         *      model.set(type, model.refer(1))
         *      content = t(_html) > c()
         *      title = x(_html, 'asd@asd') > r('',1)
         *      body[r(_currentUrl).g(1)] = body[r(_currentUrl).g(1)] + (x('') > r('',1,2) > c()) | x('')
         *      tags[%] = tags + xpath('') > r('')
         *      model.setTargetUrl();
         *
         *      _targetUrl = '' + x('') & r('')
         *      _sourceUrl = ''
         * )
         *
         * _cookie.add(_cookie[''])
         *
         * if (page == r('') && refer(1) == 1)
         *  (
         *      _targetUrl = '' + x('') & r('')
         *      _sourceUrl = ''
         *  )
         *
         */
    }
}


================================================
FILE: webmagic-samples/src/test/java/us/codecraft/webmagic/model/ProcessorBenchmark.java
================================================
package us.codecraft.webmagic.model;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.samples.OschinaBlog;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.selector.PlainText;

/**
 * @author code4crafter@gmail.com
 */
public class ProcessorBenchmark {

    @Ignore
    @Test
    public void test() {
        ModelPageProcessor modelPageProcessor = ModelPageProcessor.create(Site.me(), OschinaBlog.class);
        Page page = new Page();
        page.setRequest(new Request("http://my.oschina.net/flashsword/blog"));
        page.setUrl(new PlainText("http://my.oschina.net/flashsword/blog"));
        page.setHtml(new Html(html));
        long time = System.currentTimeMillis();
        for (int i = 0; i < 1000; i++) {
            modelPageProcessor.process(page);
        }
        System.out.println(System.currentTimeMillis() - time);
        time = System.currentTimeMillis();
        for (int i = 0; i < 1000; i++) {
            modelPageProcessor.process(page);
        }
        System.out.println(System.currentTimeMillis() - time);
    }

    private String html = "\n" +
            "<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\n" +
            "<html lang='zh-CN' xml:lang='zh-CN' xmlns='http://www.w3.org/1999/xhtml'>\n" +
            "<head>\n" +
            "  <meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\"/>\n" +
            "  <meta http-equiv=\"Content-Language\" content=\"zh-CN\"/>\n" +
            "  <meta name=\"robots\" content=\"index, follow\" />\n" +
            "  <link rel=\"shortcut icon\" type=\"image/x-icon\" href=\"/img/favicon.ico\" />\n" +
            "  <title>Jsoup代码解读之八-防御XSS攻击 -  黄亿华的个人页面 - 开源中国社区</title>\n" +
            "    <meta name=\"Keywords\" content=\"Jsoup,XSS,OO\"/>\n" +
            "      <meta name=\"Description\" content=\"Jsoup代码解读之八-防御XSS攻击：![hacker][1] ## 防御XSS攻击的一般原理 cleaner是Jsoup的重要功能之一，我们常用它来进行富文本输入中的...\"/>\n" +
            "    <link rel=\"stylesheet/less\" href=\"http://my.oschina.net/flashsword/styles.less?ver=20130608&date=20130524070359\" type=\"text/css\" media=\"screen\" />\n" +
            "  <link rel=\"stylesheet\" href=\"/js/2012/poshytip/tip-yellowsimple/tip-yellowsimple.css\" type=\"text/css\" />\n" +
            "  <link rel=\"stylesheet\" type=\"text/css\" href=\"/js/2011/fancybox/jquery.fancybox-1.3.4.css\" media=\"screen\" />\n" +
            "  <script type=\"text/javascript\" src=\"/js/2012/jquery-1.7.1.min.js\"></script>\n" +
            "  <script type=\"text/javascript\" src=\"/js/2012/jquery.form.js\"></script>\n" +
            "  <script type=\"text/javascript\" src=\"/js/2011/fancybox/jquery.fancybox-1.3.4.pack.js\"></script>\n" +
            "  <script type=\"text/javascript\" src=\"/js/2012/poshytip/jquery.poshytip.min.js\"></script>\n" +
            "  <script type=\"text/javascript\" src=\"/js/2011/oschina.js?ver=20121007\"></script>\n" +
            "  <script type=\"text/javascript\" src=\"/js/2012/less-1.3.0.min.js\"></script>\n" +
            "  <script type=\"text/javascript\" src=\"/js/scrolltopcontrol.js\"></script>\n" +
            "  <script type='text/javascript' src='/js/jquery/jquery.atwho.js'></script>\n" +
            "  <link rel=\"stylesheet\" type=\"text/css\" href=\"/js/jquery/jquery.atwho.css\" />\n" +
            "  <link rel=\"alternate\" type=\"application/rss+xml\" title=\"黄亿华最新博客\" href=\"http://my.oschina.net/flashsword/rss\" />\n" +
            "  <link rel=\"EditURI\" type=\"application/rsd+xml\" title=\"RSD\" href=\"http://my.oschina.net/action/xmlrpc/rsd?space=190591\" />\n" +
            "  <link rel=\"wlwmanifest\" type=\"application/wlwmanifest+xml\" href=\"http://my.oschina.net/action/xmlrpc/wlwmanifest?space=190591\" /> \n" +
            "  <style type=\"text/css\">\n" +
            "    body,table,input,textarea,select {font-family:Verdana,sans-serif,宋体;}\t\n" +
            "  </style>\n" +
            "  <script type=\"text/javascript\">\n" +
            "  \tscrolltotop.offset(100,165);\n" +
            "\tscrolltotop.init();\n" +
            "  </script>\n" +
            "</head>\n" +
            "<body>\n" +
            "<div id=\"OSC_Screen\">\n" +
            "\t<div id='OSC_Banner'>\n" +
            "\t\t<div id=\"OSC_Logo\">\n" +
            "        \t<a href=\"http://www.oschina.net/\" title=\"开源中国社区首页\">开源中国社区</a>\n" +
            "        </div>\n" +
            "        <div id='OSC_Slogon'>开源项目发现、使用和交流平台</div>\n" +
            "\t\t        <div id=\"OSC_Channels\">\n" +
            "        \t<ul>\n" +
            "        \t<li><a href=\"http://www.oschina.net/project\" class='software'>项目</a></li>\n" +
            "        \t<li><a href=\"http://www.oschina.net/question\" class='question'>讨论</a></li>\n" +
            "        \t<li><a href=\"http://www.oschina.net/code/list\" class='code'>代码</a></li>\n" +
            "        \t<li><a href=\"http://www.oschina.net/news\" class='news'>资讯</a></li>\n" +
            "        \t<li><a href=\"http://www.oschina.net/translate\" class='translate'>翻译</a></li>\n" +
            "        \t<li><a href=\"http://www.oschina.net/blog\" class='blog'>博客</a></li>\n" +
            "        \t<li><a href=\"http://www.oschina.net/android\" class='android'>Android</a></li>\n" +
            "        \t<li><a href=\"http://www.oschina.net/job\" class='job'>招聘</a></li>\n" +
            "        \t</ul>\n" +
            "        </div>\n" +
            "        <div class='clear'></div>\n" +
            "\t</div>\n" +
            "\t<div id=\"OSC_Topbar\">\n" +
            "\t\t<div id=\"VisitorInfo\">\n" +
            "\t\t当前访客身份：\n" +
            "\t\t\t\t黄亿华 [ <a href=\"/action/user/logout?session=6db40e6e2d1061998068&goto_page=http%3A%2F%2Fmy.oschina.net%2Fflashsword\">退出</a> ]\n" +
            "\t\t\t\t<span id=\"OSC_Notification\">\t\t\t\n" +
            "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<a href=\"http://my.oschina.net/flashsword/admin/inbox\" class=\"msgbox\" title=\"进入我的留言箱\">你有<em>0</em>新留言</a>\t\t\t\n" +
            "\t\t\t\t\t\t\t\t\t\t\t</span>\n" +
            "\t\t</div>\n" +
            "\t\t<div id=\"SearchBar\">\n" +
            "    \t\t<form action=\"http://www.oschina.net/search\">\n" +
            "\t\t\t\t<input type='hidden' name='user' value='190591'/>\n" +
            "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"ipt f_l\">\n" +
            "    \t\t\t<input type='text' id='txt_q' name='q' class='SERACH' value='在 26755 款开源软件中搜索' onblur=\"(this.value=='')?this.value='在 26755 款开源软件中搜索':this.value\" onfocus=\"if(this.value=='在 26755 款开源软件中搜索'){this.value='';};this.select();\"/>\n" +
            "\t\t\t\t</span>\n" +
            "\t\t\t\t                <div class=\"search-by selectbox\">\n" +
            "    \t\t\t\t<span class=\"hide\">\n" +
            "    \t\t\t\t<select name='scope'>\t\t\t\t\t\n" +
            "                        <option value='project' selected>软件</option>\n" +
            "                        <option value='code'>代码</option>\n" +
            "                        <option value='bbs'>讨论区</option>\n" +
            "                        <option value='news'>新闻</option>\n" +
            "                        <option value='blog'>博客</option>\n" +
            "    \t\t\t\t</select>\n" +
            "    \t\t\t\t</span>\n" +
            "                  <div class=\"search_on\" id=\"search-item\"><span class=\"text\">软件</span></div>\n" +
            "                  <ul class=\"search_list\">\n" +
            "                     <li class=\"search-item\"><a href=\"#1\">软件</a></li>\n" +
            "                     <li><a href=\"#2\">代码</a></li>\n" +
            "                     <li><a href=\"#3\">讨论区</a></li>\n" +
            "                     <li><a href=\"#4\">新闻</a></li>\n" +
            "                     <li><a href=\"#5\">博客</a></li>\n" +
            "                  </ul>\n" +
            "                </div>\n" +
            "\t\t\t\t<input type='submit' value='搜索' class='bnt f_r'/>\t\t\t\n" +
            "    \t\t</form>\n" +
            "\t\t</div>\n" +
            "\t\t<div class='clear'></div>\n" +
            "\t</div>\n" +
            "\t<div id=\"OSC_Content\">\t\n" +
            "\n" +
            "<div id='SpaceLeft'>\n" +
            "<div class='Owner'>\n" +
            "\t\t<a href='http://my.oschina.net/flashsword/admin/user-settings?tab=3' title='切换空间风格' class='ThemeSetting'>切换风格</a>    <a href=\"http://my.oschina.net/flashsword\" class='Img'><img src=\"http://static.oschina.net/uploads/user/95/190591_100.jpg?t=1347254905000\" align=\"absmiddle\" alt=\"黄亿华\" title=\"黄亿华\" class=\"LargePortrait\"/></a>\n" +
            "    <span class='U'>\n" +
            "        <a href=\"http://my.oschina.net/flashsword\" class='Name' title='男'>黄亿华</a>\n" +
            "\t\t<span class='opts'>\n" +
            "\t\t\t<img src=\"/img/2012/men.png\" align='absmiddle' title='男'/>\n" +
            "        \t\t\t<a href=\"http://my.oschina.net/flashsword/admin/profile\">修改资料</a>\n" +
            "\t\t\t<a href=\"http://my.oschina.net/flashsword/admin/portrait\">更换头像</a>\n" +
            "        \t\t</span>\n" +
            "    </span>\n" +
            "    <div class='clear'></div>\n" +
            "    <div class='stat'>\n" +
            "    \t<a href=\"http://my.oschina.net/flashsword/fellow\">关注(43)</a>\n" +
            "    \t<a href=\"http://my.oschina.net/flashsword/fans\">粉丝(98)</a>\n" +
            "    \t<a href=\"http://www.oschina.net/question/3307_20931\" title=\"查看OSCHINA积分规则\">积分(173)</a>\n" +
            "    </div>\n" +
            "</div><style>\n" +
            "#MyResume textarea {width:170px;height:60px;font-size:9pt;}\n" +
            "</style>\n" +
            "<div class='Resume' id='MyResume'>\n" +
            "码农一枚<br>实用主义者<br>抵制重复造轮子，却造了不少轮子<br>http://codecraft.us</div>\n" +
            "<script type=\"text/javascript\" src=\"/js/2012/jquery.editinplace.js\"></script>\n" +
            "<script type=\"text/javascript\">\n" +
            "$(\"#MyResume\").editInPlace({\n" +
            "    url: \"/action/profile/update_user_signature?user_code=tzm9Wg2YoU8SkJaTIjHQkahStiXQNyymUGXFOQgN\",\n" +
            "\tbg_over: \"none\",\n" +
            "\tbg_out: \"none\",\n" +
            "    field_type: \"textarea\",\n" +
            "\tvalue_required: \"true\",\n" +
            "\terror: function(){\n" +
            "\t\talert(\"修改个人简介失败\");\n" +
            "\t}\n" +
            "});\n" +
            "</script>\n" +
            "\n" +
            "<div class='Opts clearfix'>\n" +
            "\t<a href=\"http://my.oschina.net/flashsword/admin/new-blog\" class='a1 blog'><i>.</i><span>发表博文</span></a>\n" +
            "\t<a href=\"http://my.oschina.net/flashsword/admin\" class='a2 admin'><i>.</i><span>空间管理</span></a>\n" +
            "</div><div class=\"Mod\" id=\"BlogCatalogs\">\n" +
            "  <strong><a href=\"http://my.oschina.net/flashsword/admin/blog-catalogs\" class=\"more\">管理&raquo;</a> 博客分类</strong>\n" +
            "  <ul>\n" +
            "\t\t\t<li class='draft'><a href=\"http://my.oschina.net/flashsword/admin/drafts\">草稿箱</a><span>(4)</span></li>\n" +
            "\t    \t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=371362\">webmagic</a><span>(16)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=380473\">分布式消息系统</a><span>(5)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=285504\">探耽求究</a><span>(5)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=368513\">BlackHoleJ</a><span>(21)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=368514\">Intellij</a><span>(4)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=112331\">工作日志</a><span>(7)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=112332\">日常记录</a><span>(4)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=261044\">codecraft</a><span>(1)</span></li>\n" +
            "\t\t<li><a href=\"http://my.oschina.net/flashsword/blog?catalog=279271\">开发日记</a><span>(3)</span></li>\n" +
            "\t  </ul>\n" +
            "</div><div class=\"Mod\" id=\"HotBlogs\">\n" +
            "  <strong>阅读排行</strong>\n" +
            "  <ol>\n" +
            "\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/145796\">1. webmagic的设计机制及原理-如何开发一个Java爬虫</a></li>\n" +
            "\t\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/143028\">2. monkeysocks开发日志--TCP协议分析及架构规划</a></li>\n" +
            "\t\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/156638\">3. 【整理】国内一些大公司的开源项目</a></li>\n" +
            "\t\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/110276\">4. BlackHole开发日志--防止DNS污染</a></li>\n" +
            "\t\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/158200\">5. Jsoup代码解读之八-防御XSS攻击</a></li>\n" +
            "\t\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/123505\">6. IntelliJ IDEA使用心得</a></li>\n" +
            "\t\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/80037\">7. 关于HTTP keep-alive的实验</a></li>\n" +
            "\t\t\t\t<li><a href=\"http://my.oschina.net/flashsword/blog/152263\">8. 分布式消息系统研究报告之Kafka</a></li>\n" +
            "\t\t  </ol>\n" +
            "</div>\n" +
            "<div class=\"Mod\" id=\"BlogReplies\">\n" +
            "  <strong><a href=\"http://my.oschina.net/flashsword/admin/blog-comments\" class=\"more\">管理&raquo;</a> 最新评论</strong>  \n" +
            "      <ul>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/flashsword\">@黄亿华</a>：引用来自“lidongyang”的评论 引用来自“黄亿华...\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275640366&type=18&user=190591\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/lidongyang\">@lidongyang</a>：引用来自“黄亿华”的评论 引用来自“lidongyan...\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275640301&type=18&user=723383\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/flashsword\">@黄亿华</a>：引用来自“lidongyang”的评论 引用来自“黄亿华...\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275638563&type=18&user=190591\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/lidongyang\">@lidongyang</a>：引用来自“黄亿华”的评论 引用来自“lidongyan...\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275638070&type=18&user=723383\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/flashsword\">@黄亿华</a>：引用来自“searchjack”的评论 不是好的就会被认...\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275617319&type=18&user=190591\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/searchjack\">@searchjack</a>：不是好的就会被认可， 干自己的， 到时候， 单干\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275617235&type=18&user=234880\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/searchjack\">@searchjack</a>：极好的工具，\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275616963&type=18&user=234880\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/flashsword\">@黄亿华</a>：引用来自“静风流云”的评论 貌似，OSC也是类似处...\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275599170&type=18&user=190591\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/rox\">@静风流云</a>：貌似，OSC也是类似处理的。\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275599137&type=18&user=180\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t\t<li>\n" +
            "\t\t<a href=\"http://my.oschina.net/flashsword\">@黄亿华</a>：引用来自“仪山湖”的评论 最近要写个爬虫，看了...\n" +
            "\t\t<a href=\"/action/tweet/go?obj=275570030&type=18&user=190591\">查看&raquo;</a>\n" +
            "\t</li>\n" +
            "\t  </ul>\n" +
            "  </div>\n" +
            "<div class='Mod' id='Stat'>\n" +
            "<strong>访客统计</strong>\n" +
            "<ul>\n" +
            "\t<li><label>今日访问：</label>6 (<a href=\"http://my.oschina.net/flashsword/visitors\">查看最新访客&raquo;</a>)</li>\n" +
            "    <li><label>昨日访问：</label>284</li>\n" +
            "    <li><label>本周访问：</label>817</li>\n" +
            "    <li><label>本月访问：</label>1888</li>\n" +
            "    <li><label>所有访问：</label>16453</li>\n" +
            "</ul>\n" +
            "</div></div>\n" +
            "\n" +
            "<div class='SpaceList'>\n" +
            "\t<div class='TopBar'>\n" +
            "    \t<div class='NavPath'>\t\t\n" +
            "    \t\t<a href='http://my.oschina.net/flashsword'>空间</a> &raquo; <a href='http://my.oschina.net/flashsword/blog'>博客</a>\t\t\t\n" +
            "\t\t\t&raquo; <a href=\"http://my.oschina.net/flashsword/blog?catalog=371362\">webmagic</a>\n" +
            "\t\t\t&raquo; 博客正文\n" +
            "    \t</div>\n" +
            "\t</div>\n" +
            "\t\n" +
            "    \t<div class='BlogEntity'>\t\t\n" +
            "      <div class='BlogTitle'>\n" +
            "        <h1><img src='/img/space/b1.gif' align='absmiddle'/> Jsoup代码解读之八-防御XSS攻击</h1>\n" +
            "        <div class='BlogStat'>\n" +
            "    \t\t    \t\t    \t\t<span class='admin'>\n" +
            "    \t\t\t<a href=\"http://my.oschina.net/flashsword/admin/edit-blog?blog=158200\">编辑</a>&nbsp;|&nbsp;<a href=\"javascript:delete_blog(158200)\">删除</a>\n" +
            "    \t\t</span>\n" +
            "\t\t\t    \t\t    \t\t发表于3天前(2013-08-31 08:24) , \n" +
            "    \t\t已有<strong>1628</strong>次阅读 ，共<strong><a href=\"#comments\">3</a></strong>个评论\n" +
            "    \t\t\t\t\t，共 <strong>79</strong> 人收藏此文    \t</div> \n" +
            "      </div>\n" +
            "\t  \t            <div class=\"BlogAnchor\">\n" +
            "            <p>目录：[ <strong><a href=\"#\" id=\"AnchorContentToggle\" title=\"收起\">-</a></strong> ]</p>\n" +
            "            <div class=\"AnchorContent\" id=\"AnchorContent\"><li class='osc_h2'><a href='#OSC_h2_1'>防御XSS攻击的一般原理</a></li><li class='osc_h2'><a href='#OSC_h2_2'>Cleaner与Whitelist</a></li><li class='osc_h2'><a href='#OSC_h2_3'>结束语</a></li></div>\n" +
            "    \t  </div>\n" +
            "          <script>\n" +
            "\t\t  \t$(function(){\n" +
            "\t\t\t\t$(\"#AnchorContentToggle\").click(function(){\n" +
            "\t\t\t\t\tvar text = $(this).html();\n" +
            "\t\t\t\t\tif(text==\"-\"){\n" +
            "\t\t\t\t\t\t$(this).html(\"+\");\n" +
            "\t\t\t\t\t\t$(this).attr({\"title\":\"展开\"});\n" +
            "\t\t\t\t\t}else{\n" +
            "\t\t\t\t\t\t$(this).html(\"-\");\n" +
            "\t\t\t\t\t\t$(this).attr({\"title\":\"收起\"});\n" +
            "\t\t\t\t\t}\n" +
            "\t\t\t\t\t$(\"#AnchorContent\").toggle();\n" +
            "\t\t\t\t});\n" +
            "\t\t\t});\n" +
            "\t\t  </script>\n" +
            "\t  \t  <div class='BlogContent'><p><img src=\"http://static.oschina.net/uploads/space/2013/0831/071752_RBZc_190591.png\" /></p> \n" +
            "<span id=\"OSC_h2_1\"></span>\n" +
            "<h2>防御XSS攻击的一般原理</h2> \n" +
            "<p>cleaner是Jsoup的重要功能之一，我们常用它来进行富文本输入中的XSS防御。</p> \n" +
            "<p>我们知道，XSS攻击的一般方式是，通过在页面输入中嵌入一段恶意脚本，对输出时的DOM结构进行修改，从而达到执行这段脚本的目的。对于纯文本输入，过滤/转义HTML特殊字符<code>&lt;</code>,<code>&gt;</code>,<code>&quot;</code>,<code>'</code>是行之有效的办法，但是如果本身用户输入的就是一段HTML文本(例如博客文章)，这种方式就不太有效了。这个时候，就是Jsoup大显身手的时候了。</p> \n" +
            "<p>在前面，我们已经知道了，Jsoup里怎么将HTML变成一棵DOM树，怎么对DOM树进行遍历，怎么对DOM文档进行输出，那么其实cleaner的实现方式，也能猜出大概了。使用Jsoup进行XSS防御，大致分为三个步骤:</p> \n" +
            "<ol> \n" +
            " <li><p>将HTML解析为DOM树</p> <p>这一步可以过滤掉一些企图搞破坏的非闭合标签、非正常语法等。例如一些输入，会尝试用<code>&lt;/textarea&gt;</code>闭合当前Tag，然后写入攻击脚本。而根据前面对Jsoup的parser的分析，这种时候，这些非闭合标签会被当做错误并丢弃。</p></li> \n" +
            " <li><p>过滤高风险标签/属性/属性值</p> <p>高风险标签是指<code>&lt;script&gt;</code>以及类似标签，对属性/属性值进行过滤是因为某些属性值里也可以写入javascript脚本，例如<code>onclick='alert(&quot;xss!&quot;)'</code>。</p></li> \n" +
            " <li><p>重新将DOM树输出为HTML文本</p> <p>DOM树的输出，在前面(Jsoup代码解读之三)已经提到过了。</p></li> \n" +
            "</ol> \n" +
            "<span id=\"OSC_h2_2\"></span>\n" +
            "<h2>Cleaner与Whitelist</h2> \n" +
            "<p>对于上述的两个步骤，1、3都已经分别在parser和输出中完成，现在只剩下步骤 2：过滤高风险标签等。</p> \n" +
            "<p>Jsoup给出的答案是白名单。下面是<code>Whitelist</code>的部分代码。</p> \n" +
            "<pre class=\"brush: java\">public class Whitelist {\n" +
            "    private Set&lt;TagName&gt; tagNames; // tags allowed, lower case. e.g. [p, br, span]\n" +
            "    private Map&lt;TagName, Set&lt;AttributeKey&gt;&gt; attributes; // tag -&gt; attribute[]. allowed attributes [href] for a tag.\n" +
            "    private Map&lt;TagName, Map&lt;AttributeKey, AttributeValue&gt;&gt; enforcedAttributes; // always set these attribute values\n" +
            "    private Map&lt;TagName, Map&lt;AttributeKey, Set&lt;Protocol&gt;&gt;&gt; protocols; // allowed URL protocols for attributes\n" +
            "    private boolean preserveRelativeLinks; // option to preserve relative links\n" +
            "}</pre> \n" +
            "<p>这里定义了标签名/属性名/属性值的白名单。</p> \n" +
            "<p>而<code>Cleaner</code>是过滤的执行者。不出所料，Cleaner内部定义了<code>CleaningVisitor</code>来进行标签的过滤。CleaningVisitor的过滤过程并不改变原始DOM树的值，而是将符合条件的属性，加入到<code>Element destination</code>里去。</p> \n" +
            "<pre class=\"brush: java\">private final class CleaningVisitor implements NodeVisitor {\n" +
            "    private int numDiscarded = 0;\n" +
            "    private final Element root;\n" +
            "    private Element destination; // current element to append nodes to\n" +
            "\n" +
            "    private CleaningVisitor(Element root, Element destination) {\n" +
            "        this.root = root;\n" +
            "        this.destination = destination;\n" +
            "    }\n" +
            "\n" +
            "    public void head(Node source, int depth) {\n" +
            "        if (source instanceof Element) {\n" +
            "            Element sourceEl = (Element) source;\n" +
            "\n" +
            "            if (whitelist.isSafeTag(sourceEl.tagName())) { // safe, clone and copy safe attrs\n" +
            "                ElementMeta meta = createSafeElement(sourceEl);\n" +
            "                Element destChild = meta.el;\n" +
            "                destination.appendChild(destChild);\n" +
            "\n" +
            "                numDiscarded += meta.numAttribsDiscarded;\n" +
            "                destination = destChild;\n" +
            "            } else if (source != root) { // not a safe tag, so don't add. don't count root against discarded.\n" +
            "                numDiscarded++;\n" +
            "            }\n" +
            "        } else if (source instanceof TextNode) {\n" +
            "            TextNode sourceText = (TextNode) source;\n" +
            "            TextNode destText = new TextNode(sourceText.getWholeText(), source.baseUri());\n" +
            "            destination.appendChild(destText);\n" +
            "        } else { // else, we don't care about comments, xml proc instructions, etc\n" +
            "            numDiscarded++;\n" +
            "        }\n" +
            "    }\n" +
            "\n" +
            "    public void tail(Node source, int depth) {\n" +
            "        if (source instanceof Element &amp;&amp; whitelist.isSafeTag(source.nodeName())) {\n" +
            "            destination = destination.parent(); // would have descended, so pop destination stack\n" +
            "        }\n" +
            "    }\n" +
            "}</pre> \n" +
            "<span id=\"OSC_h2_3\"></span>\n" +
            "<h2>结束语</h2> \n" +
            "<p>至此，Jsoup的全部模块都已经写完了。Jsoup源码并不多，只有14000多行，但是实现非常精巧，在读代码的过程中，除了相关知识，还验证几个很重要的思想：</p> \n" +
            "<ul> \n" +
            " <li><p>最好的代码抽象，是对现实概念的映射。</p> <p>这句话在看《代码大全》的时候印象很深刻。在Jsoup里，只要有相关知识，每个类的作用都能第一时间明白其作用。</p></li> \n" +
            " <li><p>不要过度抽象</p> <p>在Jsoup里，只用到了两个接口，一个是<code>NodeVisitor</code>，一个是<code>Connection</code>，其他都是用抽象类或者直接用实现类代替。记得有次面试的时候被问到我们开发中每逢一个功能，都要先定义一个接口的做法是否必要？现在的答案是没有必要，过度的抽象反而会降低代码质量。</p> <p>另外，Jsoup的代码内聚性都很高，每个类的功能基本都定义在类的内部，这是一个典型的充血模型。同时有大量的facade使用，而避免了Factory、Configure等类的出现，个人感觉这点是非常好的。</p></li> \n" +
            "</ul> \n" +
            "<p>最后继续贴上Jsoup解读系列的github地址：<a href=\"https://github.com/code4craft/jsoup-learning/\" rel=\"nofollow\">https://github.com/code4craft/jsoup-learning/</a></p></div>\n" +
            "      \t  \t  \n" +
            "      \t\n" +
            "\t        <div class='BlogTags'>\n" +
            "    \t<strong>关键字：</strong>\n" +
            "    \t    \t<a href=\"http://www.oschina.net/search?scope=blog&q=Jsoup\" class=\"tag\">Jsoup</a>\n" +
            "    \t    \t<a href=\"http://www.oschina.net/search?scope=blog&q=XSS\" class=\"tag\">XSS</a>\n" +
            "    \t    \t<a href=\"http://www.oschina.net/search?scope=blog&q=OO\" class=\"tag\">OO</a>\n" +
            "    \t    \t      </div>\n" +
            "\t  \t  \n" +
            "      <div class='BlogCopyright'>\t\t\n" +
            "\t  \t\t声明：OSCHINA 博客文章版权属于作者，受法律保护。未经作者同意不得转载。\n" +
            "\t  \t  </div>\n" +
            "\n" +
            "      <div class='BlogLinks'>\n" +
            "    \t<ul>\n" +
            "                <li class='prev'><a href=\"http://my.oschina.net/flashsword/blog/158171\" title=\"上一篇：Jsoup代码解读之七-实现一个CSS Selector\">&laquo; Jsoup代码解读之七-实现一个CSS Selector</a></li>            \t</ul>\n" +
            "\t\t      </div>\n" +
            "\t</div>\n" +
            "\n" +
            "\t<style type='text/css'>\n" +
            "\t#BlogShare strong{float:left;padding-top:10px;font-size:11pt;color:#444;}\n" +
            "\t#BlogShare a.share_sina{float:left;width:32px;height:32px;background:url('/img/icon01.gif') center no-repeat;}\n" +
            "\t#BlogShare a.share_qq{float:left;width:32px;height:32px;margin-left: 10px;background:url('/img/icon02.gif') center no-repeat;}\n" +
            "\t</style>\n" +
            "\t<div class='BlogShare'>\n" +
            "\t\n" +
            "\t<span id='BlogShare'>\n" +
            "\t\t<strong>分享到： </strong>\n" +
            "\t\t<a class=\"share_sina\" title=\"分享到新浪微博\" href=\"javascript:void((function(s,d,e,r,l,p,t,z,c){var%20f='http://v.t.sina.com.cn/share/share.php?appkey=858381728',u=z||d.location,p=['&url=',e(u),'&title=',e(t||d.title),'&source=',e(r),'&sourceUrl=',e(l),'&content=',c||'gb2312','&pic=',e(p||'')].join('');function%20a(){if(!window.open([f,p].join(''),'mb',['toolbar=0,status=0,resizable=1,width=440,height=430,left=',(s.width-440)/2,',top=',(s.height-430)/2].join('')))u.href=[f,p].join('');};if(/Firefox/.test(navigator.userAgent))setTimeout(a,0);else%20a();})(screen,document,encodeURIComponent,'','','','Jsoup代码解读之八-防御XSS攻击: 防御XSS攻击的一般原理 cleaner是Jsoup的重要功能之一，我们常用它来进行富文本输入中的XSS防御。 我们知道，XSS攻击的一般方式是，通过在页面输入中嵌入一段恶意脚本，...','','utf-8'));\"></a>\n" +
            "\t\t<a class=\"share_qq\" title=\"分享到腾讯微博\" href=\"javascript:(function(){window.open('http://v.t.qq.com/share/share.php?url='+encodeURIComponent(document.location)+'&amp;appkey=96f54f97c4de46e393c4835a266207f4&amp;site=&amp;title='+encodeURIComponent(document.title)+encodeURIComponent(': 防御XSS攻击的一般原理 cleaner是Jsoup的重要功能之一，我们常用它来进行富文本输入中的XSS防御。 我们知道，XSS攻击的一般方式是，通过在页面输入中嵌入一段恶意脚本，...'),'', 'width=450, height=400, top=0, left=0, toolbar=no, menubar=no, scrollbars=no, location=yes, resizable=no, status=no');}())\"></a></span>\n" +
            "\t<span id='BlogVote'>\n" +
            "    <a href=\"javascript:vote(158200)\">顶</a><span>已有 <em id='vote_count'>0</em>人顶</span>\n" +
            "\t</span>\n" +
            "\t</div>\n" +
            "\t\t\n" +
            "</div>\n" +
            "<div class='SpaceList' style='margin-top:20px;'>\n" +
            "<div class='BlogComments'>\n" +
            "    <h2><a name=\"comments\"></a>共有 3 条网友评论</h2>\n" +
            "\t\t\t<ul id=\"BlogComments\">\n" +
            "\t\t\t\t\t\t<li id='cmt_158200_180_275599137'>\n" +
            "\t<table class='ostable'><tr>\n" +
            "\t<td class='portrait'>\n" +
            "\t\t<a href=\"http://my.oschina.net/rox\" target=\"_blank\"><img src=\"http://static.oschina.net/uploads/user/0/180_50.jpg?t=1367919013000\" align=\"absmiddle\" alt=\"静风流云\" title=\"静风流云\" class=\"SmallPortrait\" user=\"180\"/></a>\t\t\t\n" +
            "\t</td>\n" +
            "\t<td class='body'>\n" +
            "\t\t<div class='title'>\n" +
            "\t\t\t1楼：<a href=\"http://my.oschina.net/rox\" target=\"_blank\" name=\"rpl_275599137\">静风流云</a> 发表于 2013-09-01 08:34    \t\t\t\n" +
            "        \t        \t  <a href=\"javascript:delete_c(158200,180,275599137)\">删除</a>\n" +
            "\t\t\t\t\t\t\t\t\t  <a href=\"javascript:ReplyInline(158200,180,275599137)\">回复此评论</a>\n" +
            "\t\t\t\t\t</div>\n" +
            "\t\t<div class='post'\">貌似，OSC也是类似处理的。</div>\n" +
            "\t\t<div id='inline_reply_of_158200_180_275599137' class='inline_reply'></div>\n" +
            "    </td>\n" +
            "\t</tr></table>\n" +
            "</li>\t\t\t\t\t<li id='cmt_158200_190591_275599170'>\n" +
            "\t<table class='ostable'><tr>\n" +
            "\t<td class='portrait'>\n" +
            "\t\t<a href=\"http://my.oschina.net/flashsword\" target=\"_blank\"><img src=\"http://static.oschina.net/uploads/user/95/190591_50.jpg?t=1347254905000\" align=\"absmiddle\" alt=\"黄亿华\" title=\"黄亿华\" class=\"SmallPortrait\" user=\"190591\"/></a>\t\t\t\n" +
            "\t</td>\n" +
            "\t<td class='body'>\n" +
            "\t\t<div class='title'>\n" +
            "\t\t\t2楼：<a href=\"http://my.oschina.net/flashsword\" target=\"_blank\" name=\"rpl_275599170\">黄亿华</a> 发表于 2013-09-01 08:37    \t\t\t\n" +
            "        \t        \t  <a href=\"javascript:delete_c(158200,190591,275599170)\">删除</a>\n" +
            "\t\t\t\t\t\t\t\t</div>\n" +
            "\t\t<div class='post'\"><div class=ref><h4>引用来自“静风流云”的评论</h4><p>貌似，OSC也是类似处理的。</p></div>OSC就是使用Jsoup做解析的，见这里：<a href='http://www.oschina.net/p/jsoup' rel='nofollow' target='_blank'>http://www.oschina.net/p/jsoup</a></div>\n" +
            "\t\t<div id='inline_reply_of_158200_190591_275599170' class='inline_reply'></div>\n" +
            "    </td>\n" +
            "\t</tr></table>\n" +
            "</li>\t\t\t\t\t<li id='cmt_158200_234880_275616963'>\n" +
            "\t<table class='ostable'><tr>\n" +
            "\t<td class='portrait'>\n" +
            "\t\t<a href=\"http://my.oschina.net/searchjack\" target=\"_blank\"><img src=\"http://static.oschina.net/uploads/user/117/234880_50.jpg?t=1362718646000\" align=\"absmiddle\" alt=\"searchjack\" title=\"searchjack\" class=\"SmallPortrait\" user=\"234880\"/></a>\t\t\t\n" +
            "\t</td>\n" +
            "\t<td class='body'>\n" +
            "\t\t<div class='title'>\n" +
            "\t\t\t3楼：<a href=\"http://my.oschina.net/searchjack\" target=\"_blank\" name=\"rpl_275616963\">searchjack</a> 发表于 2013-09-02 09:20    \t\t\t\n" +
            "        \t        \t  <a href=\"javascript:delete_c(158200,234880,275616963)\">删除</a>\n" +
            "\t\t\t\t\t\t\t\t\t  <a href=\"javascript:ReplyInline(158200,234880,275616963)\">回复此评论</a>\n" +
            "\t\t\t\t\t</div>\n" +
            "\t\t<div class='post'\">极好的工具，</div>\n" +
            "\t\t<div id='inline_reply_of_158200_234880_275616963' class='inline_reply'></div>\n" +
            "    </td>\n" +
            "\t</tr></table>\n" +
            "</li>\t\t\t\t</ul>\n" +
            "</div>\n" +
            "\t</div>\n" +
            "\n" +
            "<div id='inline_reply_editor' style='display:none;'>\n" +
            "<div class=\"BlogCommentForm\">\n" +
            "\t<form id=\"form_inline_comment\" action=\"/action/blog/add_comment?blog=158200\" method=\"POST\">\n" +
            "\t  <input type='hidden' id='inline_reply_id' name='reply_id' value=''/>          \n" +
            "      <textarea name=\"content\" style=\"width:550px;height:60px;\" onkeydown=\"if((event.metaKey || event.ctrlKey)&&event.keyCode==13){$('#form_inline_comment').submit();}\"></textarea><br>\n" +
            "\t  <input type=\"submit\" value=\"回复\" id=\"btn_comment\" class=\"SUBMIT\"/> \n" +
            "\t  <input type=\"button\" value=\"关闭\" class=\"SUBMIT\" id='btn_close_inline_reply'/> 文明上网，理性发言\n" +
            "    </form>\n" +
            "</div>\n" +
            "</div>\n" +
            "<div class='SpaceList' style='margin-top:20px;'>\n" +
            "  <a name=\"comments\" id=\"postform\"></a>\n" +
            "    <div class=\"BlogCommentForm\">\n" +
            "    <form id=\"form_comment\" action=\"/action/blog/add_comment?blog=158200\" method=\"POST\">          \n" +
            "      <textarea id='ta_post_content' name=\"content\" style=\"width:550px;height:100px;\" onkeydown=\"if((event.metaKey || event.ctrlKey)&&event.keyCode==13){$('#form_comment').submit();}\"></textarea><br>\n" +
            "\t  <input type=\"submit\" value=\"发表评论\" id=\"btn_comment\" class=\"SUBMIT\" /> \n" +
            "\t  <img id=\"submiting\" style=\"display:none\" src=\"/img/loading.gif\" align=\"absmiddle\"/>\n" +
            "\t  <span id='cmt_tip'>文明上网，理性发言</span>\n" +
            "    </form>\n" +
            "\t<a href=\"#\" class=\"more\">回到页首</a>&nbsp;|&nbsp;<a href=\"#comments\" class=\"more\">回到评论列表</a>\n" +
            "  </div>\n" +
            "  </div>\n" +
            "\t\n" +
            "<div id=\"RelativeBlogs\">\n" +
            "\t<strong><a id='btn_close'>关闭</a>相关文章阅读</strong>\n" +
            "\t<ul>\n" +
            "\t\t\t<li>\n" +
            "\t\t<span class='date'>2012/04/04</span>\n" +
            "\t\t<a href=\"http://my.oschina.net/soitravel/blog/52366\" title=\"oo原则\">oo原则</a>\n" +
            "\t</li>\n" +
            "\t\t\t\t<li>\n" +
            "\t\t<span class='date'>2012/09/03</span>\n" +
            "\t\t<a href=\"http://my.oschina.net/wangfree/blog/76273\" title=\"XSS跨站脚本攻击\">XSS跨站脚本攻击</a>\n" +
            "\t</li>\n" +
            "\t\t\t\t<li>\n" +
            "\t\t<span class='date'>2012/10/10</span>\n" +
            "\t\t<a href=\"http://my.oschina.net/samshuai/blog/82382\" title=\"《蟋蟀的xss淫荡教程之如何劫持OSC用户账号》\">《蟋蟀的xss淫荡教程之如何劫持OSC...</a>\n" +
            "\t</li>\n" +
            "\t\t\t\t<li>\n" +
            "\t\t<span class='date'>2013/06/08</span>\n" +
            "\t\t<a href=\"http://my.oschina.net/tdoly/blog/136632\" title=\"[Security]XSS一直是个棘手的问题\">[Security]XSS一直是个棘手的问题...</a>\n" +
            "\t</li>\n" +
            "\t\t\t\t<li>\n" +
            "\t\t<span class='date'>2013/01/05</span>\n" +
            "\t\t<a href=\"http://my.oschina.net/sharephper/blog/100107\" title=\"xss攻击\">xss攻击</a>\n" +
            "\t</li>\n" +
            "\t\t\t</ul>\n" +
            "</div>\n" +
            "<script type=\"text/javascript\" src=\"/action/visit/blog?id=158200\" defer=\"defer\"></script>\n" +
            "<script type=\"text/javascript\" src=\"/js/syntax-highlighter-2.1.382/scripts/brush.js\"></script>\n" +
            "<link type=\"text/css\" rel=\"stylesheet\" href=\"/js/syntax-highlighter-2.1.382/styles/shCore.css\"/>\n" +
            "<link type=\"text/css\" rel=\"stylesheet\" href=\"/js/syntax-highlighter-2.1.382/styles/shThemeDefault.css\"/>\n" +
            "<script type='text/javascript'><!--\n" +
            "$(document).ready(function(){\n" +
            "\tSyntaxHighlighter.config.clipboardSwf = '/js/syntax-highlighter-2.1.382/scripts/clipboard.swf';\n" +
            "\tSyntaxHighlighter.all();\n" +
            "});\n" +
            "//-->\n" +
            "</script>\n" +
            "<!--[if lt IE 7]>\n" +
            "<script type=\"text/javascript\" src=\"/js/minmax.js\"></script>\n" +
            "<![endif]-->\n" +
            "<script type='text/javascript'>\n" +
            "<!--\n" +
            "var posting = false;\n" +
            "var upprev_closed = false;\n" +
            "var upprev_hidden = true;\n" +
            "\n" +
            "$(document).ready(function(){\n" +
            "    $('.BlogContent img').css('cursor','pointer');\n" +
            "    jQuery.each($('.BlogContent img'),function(idx,v){\n" +
            "    \t$(v).wrap(\"<a href='\"+$(this).attr('src')+\"' target='_blank'></a>\");\n" +
            "    });\n" +
            "\t$('#form_comment').ajaxForm({\n" +
            "\t\tdataType: 'json',\n" +
            "\t\tbforeSubmit: function(){\n" +
            "\t\t\tposting = true;\n" +
            "\t\t},\n" +
            "\t\tsuccess: function(json) {\n" +
            "        \tif(json.msg){\n" +
            "\t\t\t\t///alert(json.msg);\n" +
            "\t\t\t\t$('#cmt_tip').html(\"<span style='color:#C00;'>\"+json.msg+\"</span>\");\n" +
            "\t\t\t\t$('#ta_post_content').focus();\t\t\t\t\n" +
            "\t\t\t}else{\n" +
            "\t\t\t\tvar url = \"http://my.oschina.net/flashsword/blog_post?_cmt_blog=\"+json.blog+\"&_cmt_user=\"+json.user+\"&_cmt_id=\"+json.id;\t\t\t\t\n" +
            "        \t\tjQuery.get(url, function(data){\n" +
            "    \t\t\t\t$('.BlogComments .NoData').hide();\n" +
            "        \t\t\t$('ul#BlogComments').append(data);\n" +
            "        \t\t\t$('#form_comment').resetForm();\n" +
            "        \t\t}); \n" +
            "\t\t\t}\n" +
            "\t\t}\n" +
            "\t});\n" +
            "\n" +
            "    var at_datas = [];\n" +
            "    $('img.SmallPortrait').each(function(){\n" +
            "        var name = $(this).attr('alt');\n" +
            "        if(jQuery.inArray(name, at_datas) < 0 && name != '黄亿华')\n" +
            "            at_datas.push(name);\n" +
            "    });\n" +
            "    $(\"#form_comment textarea\").atWho(\"@\", {data: at_datas});\n" +
            "\n" +
            "\t$(\"#submiting\").ajaxStart(function(){\n" +
            "\t   if(posting){\n" +
            "    \t   $('#btn_submit').attr(\"disabled\",\"disabled\");\n" +
            "           $(this).show();\n" +
            "\t   }\n" +
            "    });\n" +
            "\t$(\"#submiting\").ajaxComplete(function(event,request, settings){\n" +
            "\t   if(posting){\n" +
            "           $(this).hide();\n" +
            "    \t   $('#btn_submit').attr(\"disabled\",\"\");\n" +
            "\t   }\n" +
            "\t   posting = false;\n" +
            "    }); \n" +
            "\t\n" +
            "    $(window).scroll(function() {\n" +
            "        var lastScreen;\n" +
            "        if ($(\"#postform\").length > 0)\n" +
            "            lastScreen = getScrollY() + $(window).height() < $(\"#postform\").offset().top * 1 ? false : true;\n" +
            "        else\n" +
            "            lastScreen = getScrollY() + $(window).height() < $(document).height() * 1 ? false : true;\n" +
            "        if (lastScreen && !upprev_closed) {\n" +
            "            $(\"#RelativeBlogs\").stop().animate({right:\"0px\"});\n" +
            "            upprev_hidden = false;\n" +
            "        }\n" +
            "        else if (upprev_closed && getScrollY() == 0) {\n" +
            "            upprev_closed = false;\n" +
            "        }\n" +
            "        else if (!upprev_hidden) {\n" +
            "            upprev_hidden = true;\n" +
            "            $(\"#RelativeBlogs\").stop().animate({right:\"-400px\"});\n" +
            "        }\n" +
            "    });\n" +
            "    $(\"#RelativeBlogs #btn_close\").click(function() {\n" +
            "        $(\"#RelativeBlogs\").stop().animate({right:\"-400px\"});\n" +
            "        upprev_closed = true;\n" +
            "        upprev_hidden = true;\n" +
            "    });\n" +
            "});\n" +
            "function delete_c(nid,uid,cid){\n" +
            "  if(confirm(\"您确认要删除此篇评论？\")){\n" +
            "    var args = \"cmt=\"+cid+\"#\"+uid+\"#\"+nid;\n" +
            "    ajax_post(\"/action/blog/delete_blog_comments?space=190591\",args,function(){$(\"#cmt_\"+nid+\"_\"+uid+\"_\"+cid).fadeOut();});\n" +
            "  }\n" +
            "}\n" +
            "function ReplyInline(blog,user,reply){\n" +
            "\t$('.inline_reply').empty();\n" +
            "\tvar div_id = '#inline_reply_of_'+blog+'_'+user+'_'+reply;\n" +
            "\t$('#inline_reply_id').val(user+'_'+reply);\n" +
            "\t$(div_id).html($('#inline_reply_editor').html());\n" +
            "\t$('#txt_focus').focus();\n" +
            "\t$('#btn_close_inline_reply').click(function(){\n" +
            "\t\t$(div_id).empty();\n" +
            "\t});\n" +
            "\t$('#form_inline_comment').ajaxForm({\n" +
            "\t\tdataType: 'json',\n" +
            "    \tsuccess: function(json) {\n" +
            "        \tif(json.msg){\n" +
            "        \t\talert(json.msg);\n" +
            "        \t}\n" +
            "        \telse if(json.id){\n" +
            "    \t\t\tlocation.reload();\n" +
            "        \t}\n" +
            "    \t}\n" +
            "\t});\n" +
            "}\n" +
            "function edit_catalogs(qid){\n" +
            "\tpopup(\"/set-catalogs?parent=1&type=3&id=\"+qid);\n" +
            "}\n" +
            "function vote(blogid){\n" +
            "\t\tajax_post(\"/action/blog/vote\",\"id=\"+blogid+\"&user=190591\",function(result){\n" +
            "\t\tvar json = eval('('+result+')');\n" +
            "\t\tif(json.vote)\n" +
            "\t\t\t$('#vote_count').html(json.vote);\n" +
            "\t\telse if(json.error == 1)\n" +
            "\t\t\talert(json.msg);\n" +
            "\t\telse\n" +
            "\t\t\talert(json.msg);\n" +
            "\t});\n" +
            "\t}\n" +
            "function toggle_recomm(blogid){\n" +
            "\tajax_post(\"/action/blog/toggle_recomm\",\"id=\"+blogid,function(html){\n" +
            "\t\tif(html == '-1')\n" +
            "\t\t\talert(\"文章不存在\");\n" +
            "\t\telse if(html == 0){\n" +
            "\t\t\t$('#lnk_recomm_'+blogid).removeClass('recommend');\n" +
            "\t\t\t$('#lnk_recomm_'+blogid).text(\"未推荐\");\n" +
            "\t\t}\n" +
            "\t\telse if(html == 1){\n" +
            "\t\t\t$('#lnk_recomm_'+blogid).addClass('recommend');\n" +
            "\t\t\t$('#lnk_recomm_'+blogid).text(\"已推荐\");\n" +
            "\t\t}\n" +
            "\t});\n" +
            "}\n" +
            "//-->\n" +
            "</script></div>\n" +
            "\t<div class='clear'></div>\n" +
            "\t<div id=\"OSC_Footer\"><style>\n" +
            ".oscapp {text-align:left; width:220px;}\n" +
            ".oscapp span {float:left;width:140px;}\n" +
            ".oscapp a {float:left;text-indent:-9999em;width:16px;margin-left:8px;}\n" +
            ".oscapp a.android {background:url('/img/android.gif') no-repeat left center;}\n" +
            ".oscapp a.iphone {background:url('/img/iphone.gif') no-repeat left center;}\n" +
            ".oscapp a.wp7 {background:url('/img/wp7.gif') no-repeat left center;}\n" +
            "</style>\n" +
            "<table width='100%'><tr>\n" +
            "<td align='left'>&copy; 开源中国(OsChina.NET) | <a href=\"http://www.oschina.net/home/about\">关于我们</a> | <a href=\"mailto:oschina.net@gmail.com\">广告联系</a> | <a href=\"http://weibo.com/oschina2010\" target=\"_blank\">@新浪微博</a> | <a href=\"http://m.oschina.net/\">开源中国手机版</a> | <a href='http://www.miitbeian.gov.cn/' target='_blank' style='color:#737573;text-decoration:none;'>粤ICP备12009483号-3</a></td>\n" +
            "<td class='oscapp'>\n" +
            "\t<span>开源中国手机客户端：</span>\n" +
            "\t<a href=\"http://www.oschina.net/app\" class='android' title='Android客户端'>Android</a>\n" +
            "\t<a href=\"http://www.oschina.net/app\" class='iphone' title='iPhone 客户端'>iPhone</a>\n" +
            "\t<a href=\"http://www.oschina.net/app\" class='wp7' title='Windows Phone 客户端'>WP7</a>\n" +
            "</td>\n" +
            "</tr>\n" +
            "</table>\n" +
            "<script type='text/javascript'>\n" +
            "<!--\n" +
            "if (top.location != self.location)top.location=self.location;\n" +
            "//-->\n" +
            "</script></div>\n" +
            "</div>\n" +
            "</body>\n" +
            "\n" +
            "<script type=\"text/javascript\" src=\"/action/visit/space?id=190591\"></script>\n" +
            "<script type='text/javascript'>\n" +
            "<!--\n" +
            "$(document).ready(function() {\n" +
            "\n" +
            "\tSelectStyle(\"#search-item\",\".search_list\");\n" +
            "\t$('.Tweet .photo img').live(\"click\",function(){\n" +
            "\t\tvar T=$(this);\n" +
            "\t\tvar t=this;\n" +
            "\t\tvar bigImg = T.attr('bi');\n" +
            "\t\tvar smallImg = T.attr('si');\n" +
            "\t\tvar src = T.attr('src');\n" +
            "\t\tvar newsrc = (bigImg == src)?smallImg:bigImg;\n" +
            "\t\tvar imgId = T.attr('id');\n" +
            "\t\tif(newsrc == bigImg){\n" +
            "    \t\tvar loading=$('<img alt=\"loading\" src=\"/img/loading.gif\"/>');\n" +
            "\t\t\tvar top = T.position().top+T.height()/2-8;\n" +
            "\t\t\tvar left = T.position().left+T.width()/2-8;\n" +
            "\t\t\tloading.css({\n" +
            "\t\t\t\t'position':'absolute',\n" +
            "\t\t\t\t'z-index':999,\n" +
            "\t\t\t\t'top':top,\n" +
            "\t\t\t\t'left':left\n" +
            "\t\t\t});\n" +
            "    \t\tT.before(loading);\n" +
            "\t\t\tvar tImg=new Image();\n" +
            "\t\t\ttImg.src=newsrc;\n" +
            "\t\t\ttImg.onload=function(){afterImgLoad(T,loading,imgId,newsrc,bigImg);};\n" +
            "\t\t}\n" +
            "\t\telse{\n" +
            "\t\t\tT.attr(\"src\",newsrc);\n" +
            "\t\t\t$('#img_menu_'+imgId).remove();\n" +
            "\t\t}\n" +
            "\t\treturn false;\n" +
            "\t});\n" +
            "\t\n" +
            "\t$(\".tweet_thumb_wrapper\").mouseenter(function(){\n" +
            "\t\t$(this).find(\".tweet_play_video\").css(\"opacity\",1);\n" +
            "\t}).mouseleave(function(){\n" +
            "\t\t$(this).find(\".tweet_play_video\").css(\"opacity\",0.7);\n" +
            "\t});\n" +
            "\n" +
            "    $(\"#TForm textarea\").atWho(\"@\", function(query, callback){\n" +
            "        jQuery.ajax({\n" +
            "            type:'POST',\n" +
            "            url:\"/action/tweet/at_suggest\",\n" +
            "            data:{'q':query},\n" +
            "            dataType:'json',\n" +
            "            success:function(json){\n" +
            "                callback(json);\n" +
            "            }\n" +
            "        });\n" +
            "    });\n" +
            "\t\n" +
            "\ttoggle_tweet_video = function(id){\n" +
            "\t\t$(\"#tweet_video_thumb_\"+id).toggle();\n" +
            "\t\tvar video = $(\"#tweet_video_\"+id).toggle();\n" +
            "\t\tvideo.siblings(\".tweet_video_operation,.tweet_thumb_wrapper\").toggle();\n" +
            "\t};\n" +
            "\t\n" +
            "\tfunction afterImgLoad(T,loading,imgId,url,bigImg){\n" +
            "\t\tvar lnks = \"<div id='img_menu_\"+imgId+\"' class='ImgMenu'>\";\n" +
            "\t\tlnks += \"<a href='#' onclick='$(\\\"#\"+imgId+\"\\\").click();return false;'>收起</a>\";\n" +
            "\t\tlnks += \"<a href='\"+bigImg+\"' target='_blank'>查看原图</a></div>\";\t\t\t\n" +
            "\t\tloading.remove();\n" +
            "\t\tT.attr(\"src\",url);\n" +
            "\t\tT.before(lnks);\n" +
            "\t}\n" +
            "});\n" +
            "\n" +
            "function set_fellow_memo(fid,fname){\n" +
            "\tpopup(\"/action/ajax/set_fellow_memo\",\"friend=\"+fid+\"&name=\"+fname);\n" +
            "}\n" +
            "\n" +
            "function deleteMsgs(uid, fid, fname){\n" +
            "\tif(!confirm(\"你确认要清除与‘\"+fname+\"’的所有留言信息吗？\"))\n" +
            "\t\treturn ;\n" +
            "\tvar args = \"user=\"+uid+\"&friend=\"+fid;\n" +
            "\tajax_post(\"/action/msg/delete_user\",args,function(html){\n" +
            "\t\tif(html.length > 0)\n" +
            "\t\t\talert(html);\n" +
            "\t\telse{\n" +
            "\t\t\t$('#Msg_'+fid).fadeOut();\n" +
            "\t\t}\n" +
            "\t});\n" +
            "}\n" +
            "\n" +
            "function follow_user(uid, uname){\n" +
            "\tjust_follow(uid, uname,'190591'); //oschina.js\n" +
            "}\n" +
            "\n" +
            "function unfollow_user(uid, uname){\n" +
            "\tif(confirm(\"确定不再关注\" + uname + \"了吗？\"))\n" +
            "\tjust_unfollow(uid,'190591',function(){\n" +
            "\t\talert('已取消对 ' + uname + ' 的关注');\n" +
            "\t});\n" +
            "}\n" +
            "\n" +
            "function tweet_reply(logid){\n" +
            "\tvar r = $('#LogReply_'+logid);\n" +
            "\tif(!r.is(\":hidden\")){\n" +
            "\t\tclose_tweet_reply(logid);\n" +
            "\t\treturn ;\n" +
            "\t}\n" +
            "\tr.html(\"<div class='TweetRplsWrapper'><span class='loading'>正在加载评论，请稍候...</span></div>\")\n" +
            "\tr.show();\n" +
            "\tr.load(\"http://my.oschina.net/flashsword/tweet-rpls?log=\"+logid,function(){\n" +
            "\t\t$('#edt_tweet_post_'+logid).focus();\n" +
            "        var at_datas = [];\n" +
            "        $(this).find(\"img.SmallPortrait\").each(function(){\n" +
            "            var name = $(this).attr('alt');\n" +
            "            if(jQuery.inArray(name, at_datas) < 0 && name != '黄亿华')\n" +
            "                at_datas.push(name);\n" +
            "        });\n" +
            "        $(this).find(\"input.TXT_TweetRpl_Text\").atWho(\"@\", {data: at_datas});\n" +
            "        $('#TweetReplyForm_'+logid).ajaxForm({\n" +
            "        \tdataType: 'json',\n" +
            "\t\t\tbeforeSubmit: function(arr, form, options){\n" +
            "\t\t\t\t$('#BTN_TweetReply_'+logid).attr('disabled','disabled');\n" +
            "\t\t\t},\n" +
            "            success: function(json) {\n" +
            "            \tif(json.msg){\n" +
            "        \t\t\talert(json.msg);\n" +
            "            \t}else if(json.log){\n" +
            "\t\t\t\t\t$('#log_reply_count_'+logid).text(json.reply_count);\n" +
            "        \t\t\t//插入新评论\t\t\t\t\t\n" +
            "\t\t\t\t\tajax_get(\"/action/ajax/get_tweet_reply?id=\" + json.log,true,function(html){\n" +
            "\t\t\t\t\t\t$('#LogReply_'+logid+' ul').prepend(html);\n" +
            "\t\t\t\t\t});\n" +
            "\t\t\t\t\t$('#edt_tweet_post_'+logid).val('');\n" +
            "            \t}\n" +
            "\t\t\t\t$('#BTN_TweetReply_'+logid).removeAttr('disabled');\n" +
            "            }\n" +
            "        });\n" +
            "\t});\n" +
            "}\n" +
            "function close_tweet_reply(logid){\n" +
            "\t$('#LogReply_'+logid).empty();\n" +
            "\t$('#LogReply_'+logid).hide();\n" +
            "\t$('#Logs .userlogs li').removeClass('hover');\n" +
            "}\n" +
            "function reply_rtweet(logid, rid, toname){\n" +
            "\tvar edtPost = $('#edt_tweet_post_' + logid);\n" +
            "\tvar old_v = edtPost.val();\n" +
            "\tif(old_v.length > 0)\n" +
            "\t\tedtPost.val(old_v + ',@'+toname+' ');\n" +
            "\telse\n" +
            "\t\tedtPost.val('回复 @'+toname+' : ');\n" +
            "\tedtPost.focus();\n" +
            "\tedtPost.caretPos(edtPost.val().length); }\n" +
            "function delete_tweet(logid){\n" +
            "\tif(confirm(\"确认要删除这条信息吗？\"))\n" +
            "\tajax_post(\"/action/tweet/delete?log=\"+logid+\"&user=190591\",\"\",function(html){\n" +
            "\t\tif(html.length==0){\n" +
            "\t\t\tvar elem = $('#LI_'+logid);\n" +
            "\t\t\tif(elem.length > 0)\n" +
            "\t\t\t\t$('#LI_'+logid).fadeOut();\n" +
            "\t\t\telse\n" +
            "\t\t\t\tlocation.reload();\n" +
            "\t\t}\n" +
            "\t});\n" +
            "}\n" +
            "function delete_tweet_reply(logid){\n" +
            "\tif(confirm(\"确认要删除这条评论吗？\"))\n" +
            "\tajax_post(\"/action/tweet/delete_reply?id=\"+logid+\"&user=190591\",\"\",function(html){\n" +
            "\t\tif(html.length==0)\n" +
            "\t\t\t$('#TweetReply_'+logid).fadeOut();\n" +
            "\t});\n" +
            "}\n" +
            "\n" +
            "function delete_blog(blog_id){\n" +
            "    if(!confirm(\"文章删除后无法恢复，请确认是否删除此篇文章？\")) return;\n" +
            "    ajax_post(\"/action/blog/delete?id=\"+blog_id+\"&user=190591&user_code=tzm9Wg2YoU8SkJaTIjHQkahStiXQNyymUGXFOQgN\",\"\",function(html){\n" +
            "    \tlocation.href=\"http://my.oschina.net/flashsword/blog\";\n" +
            "    });\n" +
            "}\n" +
            "\n" +
            "function SelectStyle(on,option){\n" +
            "\tvar currentSort = $(on).attr('id');\n" +
            "\tvar currentText = $(option+\" li.\"+currentSort+\" a\").html();\n" +
            "\t$(on + \" .text\").html(currentText);\n" +
            "\t$(on + \" .text\").hover(function(){\n" +
            "\t\t$(this).addClass(\"hover\")\n" +
            "\t},function(){\n" +
            "\t\t$(this).removeClass(\"hover\")\n" +
            "\t});\n" +
            "\t$(option+\" li a\").each(function(index){\n" +
            "\t\t$(this).click(function(){\n" +
            "\t\t\tthishtml = $(this).html();\n" +
            "\t\t\t$(on + \" .text\").removeClass(\"on\").html(thishtml);\t\t\n" +
            "\t\t\t$(\".selectbox select \").find(\"option\").removeAttr('selected').eq(index).attr(\"selected\",\"selected\");\t\n" +
            "\t\t\t$(option).hide()\n" +
            "\t\t\treturn false;\n" +
            "\t\t});\n" +
            "\t\t\n" +
            "\t});\t\t\n" +
            "\t\n" +
            "\t$(\".selectbox\").click(function(){\t\t\n" +
            "\t\t$(option).toggle();\n" +
            "\t\t$(on + \" .text\").toggleClass(\"on\");\t\t\n" +
            "\t\treturn false;\n" +
            "\t});\n" +
            "\t$(document).click(function(){\n" +
            "\t\t$(option).hide();\t\n" +
            "\t\t$(on + \" .text\").removeClass(\"on\");\n" +
            "\t});\n" +
            "\t$(document).trigger('click');\n" +
            "\n" +
            "}\n" +
            "\n" +
            "//-->\n" +
            "</script>\n" +
            "</html>\n" +
            "\n" +
            "<!-- Generated by OsChina.NET (init:0[ms],page:83[ms],ip:58.241.37.50) -->";
}


================================================
FILE: webmagic-samples/src/test/java/us/codecraft/webmagic/processor/SinablogProcessorTest.java
================================================
package us.codecraft.webmagic.processor;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.pipeline.JsonFilePipeline;
import us.codecraft.webmagic.samples.SinaBlogProcessor;
import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;

import java.io.IOException;

/**
 * @author code4crafter@gmail.com <br>
 *         Date: 13-6-9
 *         Time: 上午8:02
 */
public class SinablogProcessorTest {

    @Ignore
    @Test
    public void test() throws IOException {
        SinaBlogProcessor sinaBlogProcessor = new SinaBlogProcessor();
        //pipeline是抓取结束后的处理
        //默认放到/data/webmagic/ftl/[domain]目录下
        JsonFilePipeline pipeline = new JsonFilePipeline("/data/webmagic/");
        //Spider.me()是简化写法，其实就是new一个啦
        //Spider.pipeline()设定一个pipeline，支持链式调用
        //ConsolePipeline输出结果到控制台
        //FileCacheQueueSchedular保存url，支持断点续传，临时文件输出到/data/temp/webmagic/cache目录
        //Spider.run()执行
        Spider.create(sinaBlogProcessor).pipeline(new FilePipeline()).pipeline(pipeline).scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).
                run();
    }
}


================================================
FILE: webmagic-samples/src/test/java/us/codecraft/webmagic/samples/scheduler/DelayQueueSchedulerTest.java
================================================
package us.codecraft.webmagic.samples.scheduler;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.Request;

import java.util.concurrent.TimeUnit;

/**
 * @author code4crafter@gmail.com
 */
public class DelayQueueSchedulerTest {

    @Ignore("infinite")
    @Test
    public void test() {
        DelayQueueScheduler delayQueueScheduler = new DelayQueueScheduler(1, TimeUnit.SECONDS);
        delayQueueScheduler.push(new Request("1"), null);
        while (true){
            Request poll = delayQueueScheduler.poll(null);
            System.out.println(System.currentTimeMillis()+"\t"+poll);
        }
    }
}


================================================
FILE: webmagic-saxon/README.md
================================================
webmagic-extension
-------
webmagic的扩展模块，依赖Saxon进行xpath2.0解析支持。Saxon依赖包太大，不作为默认模块引入。

================================================
FILE: webmagic-saxon/pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic</artifactId>
        <version>1.0.4-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>webmagic-saxon</artifactId>

    <properties>
        <maven.deploy.skip>true</maven.deploy.skip>
    </properties>

    <dependencies>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>net.sourceforge.htmlcleaner</groupId>
            <artifactId>htmlcleaner</artifactId>
        </dependency>
        <dependency>
            <groupId>net.sf.saxon</groupId>
            <artifactId>Saxon-HE</artifactId>
        </dependency>
    </dependencies>

</project>


================================================
FILE: webmagic-saxon/src/main/java/us/codecraft/webmagic/selector/JaxpSelectorUtils.java
================================================
package us.codecraft.webmagic.selector;

import org.w3c.dom.Node;
import org.w3c.dom.NodeList;

import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerException;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import java.io.StringWriter;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

/**
 * @author hooy
 */
public final class JaxpSelectorUtils {

    private JaxpSelectorUtils() {
        throw new RuntimeException("The util class cannot be instanced");
    }

    public static List<Node> NodeListToArrayList(NodeList nodes) {
        List<Node> list = new ArrayList<>(nodes.getLength());
        for (int i = 0; i < nodes.getLength(); i++) {
            list.add(nodes.item(i));
        }
        return list;
    }

    public static String nodeToString(Node node) throws TransformerException {
        List<Node> before = Collections.singletonList(node);
        List<String> after = nodesToStrings(before);
        if (after.size() > 0) {
            return after.get(0);
        } else {
            return null;
        }
    }

    public static List<String> nodesToStrings(List<Node> nodes) throws TransformerException {
        List<String> results = new ArrayList<>(nodes.size());
        Transformer transformer = TransformerFactory.newInstance().newTransformer();
        StreamResult xmlOutput = new StreamResult();
        transformer.setOutputProperty(OutputKeys.OMIT_XML_DECLARATION, "yes");
        for (Node node : nodes) {
            if (node.getNodeType() == Node.ATTRIBUTE_NODE || node.getNodeType() == Node.TEXT_NODE) {
                results.add(node.getTextContent());
            } else {
                xmlOutput.setWriter(new StringWriter());
                transformer.transform(new DOMSource(node), xmlOutput);
                results.add(xmlOutput.getWriter().toString());
            }
        }
        return results;
    }

}


================================================
FILE: webmagic-saxon/src/main/java/us/codecraft/webmagic/selector/NodeSelector.java
================================================
package us.codecraft.webmagic.selector;

import org.w3c.dom.Node;

import java.util.List;

/**
 * Selector(extractor) for html node.<br>
 *
 * @author hooy <br>
 * @since 0.8.0
 */
public interface NodeSelector {

    /**
     * Extract single result in text.<br>
     * If there are more than one result, only the first will be chosen.
     *
     * @param node node
     * @return result
     */
    String select(Node node);

    /**
     * Extract all results in text.<br>
     *
     * @param node node
     * @return results
     */
    List<String> selectList(Node node);

}


================================================
FILE: webmagic-saxon/src/main/java/us/codecraft/webmagic/selector/Xpath2Selector.java
================================================
package us.codecraft.webmagic.selector;

import java.util.*;
import java.util.concurrent.ConcurrentHashMap;

import javax.xml.namespace.NamespaceContext;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathExpression;
import javax.xml.xpath.XPathExpressionException;

import org.htmlcleaner.CleanerProperties;
import org.htmlcleaner.DomSerializer;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;

import net.sf.saxon.lib.NamespaceConstant;
import net.sf.saxon.xpath.XPathEvaluator;
import us.codecraft.webmagic.utils.BaseSelectorUtils;

import static us.codecraft.webmagic.selector.JaxpSelectorUtils.*;

/**
 * 支持xpath2.0的选择器。包装了HtmlCleaner和Saxon HE。<br>
 *
 * @author code4crafter@gmail.com, hooy <br>
 * Date: 13-4-21
 * Time: 上午9:39
 */
public class Xpath2Selector implements Selector, NodeSelector {

    private final String xpathStr;

    private XPathExpression xPathExpression;

    private final Logger logger = LoggerFactory.getLogger(getClass());

    public Xpath2Selector(String xpathStr) {
        this.xpathStr = xpathStr;
        try {
            init();
        } catch (XPathExpressionException e) {
            throw new IllegalArgumentException("XPath error!", e);
        }
    }

    public static Xpath2Selector newInstance(String xpathStr) {
        return new Xpath2Selector(xpathStr);
    }

    enum XPath2NamespaceContext implements NamespaceContext {

        INSTANCE;

        private final Map<String, String> prefix2NamespaceMap = new ConcurrentHashMap<>();

        private final Map<String, List<String>> namespace2PrefixMap = new ConcurrentHashMap<>();

        private void put(String prefix, String namespaceURI) {
            prefix2NamespaceMap.put(prefix, namespaceURI);
            List<String> prefixes = namespace2PrefixMap.computeIfAbsent(namespaceURI, k -> new ArrayList<>());
            prefixes.add(prefix);
        }

        XPath2NamespaceContext() {
            put("fn", NamespaceConstant.FN);
            put("xslt", NamespaceConstant.XSLT);
            put("xhtml", NamespaceConstant.XHTML);
        }

        @Override
        public String getNamespaceURI(String prefix) {
            return prefix2NamespaceMap.get(prefix);
        }

        @Override
        public String getPrefix(String namespaceURI) {
            List<String> prefixes = namespace2PrefixMap.get(namespaceURI);
            if (prefixes == null || prefixes.size() < 1) {
                return null;
            }
            return prefixes.get(0);
        }

        @Override
        public Iterator getPrefixes(String namespaceURI) {
            List<String> prefixes = namespace2PrefixMap.get(namespaceURI);
            if (prefixes == null || prefixes.size() < 1) {
                return null;
            }
            return prefixes.iterator();
        }
    }

    private void init() throws XPathExpressionException {
        XPathEvaluator xPathEvaluator = new XPathEvaluator();
        xPathEvaluator.setNamespaceContext(XPath2NamespaceContext.INSTANCE);
        xPathExpression = xPathEvaluator.compile(xpathStr);
    }

    @Override
    public String select(String text) {
        try {
            Document doc = parse(text);
            return select(doc);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    @Override
    public String select(Node node) {
        try {
            return (String) xPathExpression.evaluate(node, XPathConstants.STRING);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    @Override
    public List<String> selectList(String text) {
        try {
            Document doc = parse(text);
            return selectList(doc);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    @Override
    public List<String> selectList(Node node) {
        try {
            NodeList result = (NodeList) xPathExpression.evaluate(node, XPathConstants.NODESET);
            List<Node> nodes = NodeListToArrayList(result);
            return nodesToStrings(nodes);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    public Node selectNode(String text) {
        try {
            Document doc = parse(text);
            return selectNode(doc);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    public Node selectNode(Node node) {
        try {
            return (Node) xPathExpression.evaluate(node, XPathConstants.NODE);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    public List<Node> selectNodes(String text) {
        try {
            Document doc = parse(text);
            return selectNodes(doc);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    public List<Node> selectNodes(Node node) {
        try {
            NodeList result = (NodeList) xPathExpression.evaluate(node, XPathConstants.NODESET);
            return NodeListToArrayList(result);
        } catch (Exception e) {
            logger.error("select text error! " + xpathStr, e);
        }
        return null;
    }

    protected static Document parse(String text) throws ParserConfigurationException {
        // HtmlCleaner could not parse <tr></tr> or <td></td> tag directly
        text = BaseSelectorUtils.preParse(text);
        HtmlCleaner htmlCleaner = new HtmlCleaner();
        TagNode tagNode = htmlCleaner.clean(text);
        return new DomSerializer(new CleanerProperties()).createDOM(tagNode);
    }

}


================================================
FILE: webmagic-saxon/src/test/java/us/codecraft/webmagic/selector/XpathSelectorTest.java
================================================
package us.codecraft.webmagic.selector;

import java.util.List;

import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Assert;
import org.junit.Ignore;
import org.junit.Test;

import org.w3c.dom.Node;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.xsoup.XPathEvaluator;
import us.codecraft.xsoup.Xsoup;

import javax.xml.transform.TransformerException;

/**
 * @author code4crafter@gmail.com <br> Date: 13-4-21 Time: 上午10:06
 */
public class XpathSelectorTest {

    private String html = "\n"
            + "<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\n"
            + "<html lang='zh-CN' xml:lang='zh-CN' xmlns='http://www.w3.org/1999/xhtml'>\n"
            + "<head>\n"
            + "  <meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\"/>\n"
            + "  <link rel=\"shortcut icon\" type=\"image/x-icon\" href=\"/img/favicon.ico\" />\n"
            + "  <title>再次吐槽easyui - 开源中国 OSChina.NET</title>\n"
            + "      <link rel=\"stylesheet\" href=\"/css/style2013.css?ver=20130411\" type=\"text/css\" media=\"screen\" />\n"
            + "  <link rel=\"stylesheet\" href=\"/css/channel.css?date=20130324_2\" type=\"text/css\" media=\"screen\" />\n"
            + "  <link rel=\"stylesheet\" type=\"text/css\" href=\"/js/2011/fancybox/jquery.fancybox-1.3.4.css\" media=\"screen\" />\n"
            + "  <link rel=\"alternate\" type=\"application/rss+xml\" title=\"最新代码分享列表\" href=\"http://www.oschina.net/code/rss\" />\n"
            + "  <link rel=\"alternate\" type=\"application/rss+xml\" title=\"开源中国 - 源码列表\" href=\"http://www.oschina.net/code/source_rss\" />\n"
            + "  <link rel=\"alternate\" type=\"application/rss+xml\" title=\"最新问题列表\" href=\"http://www.oschina.net/question/rss\" />\n"
            + "  <script type=\"text/javascript\" src=\"/js/2012/jquery-1.7.1.min.js\"></script>\n"
            + "  <script type=\"text/javascript\" src=\"/js/2012/jquery.form.js\"></script>\n"
            + "  <script type=\"text/javascript\" src=\"/js/2011/fancybox/jquery.fancybox-fixed.js?20130327\"></script>\n"
            + "      <link rel=\"stylesheet\" href=\"/js/poshytip/tip-yellowsimple/tip-yellowsimple.css\" type=\"text/css\" />\n"
            + "  <script type=\"text/javascript\" src=\"/js/poshytip/jquery.poshytip.min.js\"></script>\n"
            + "    <script type=\"text/javascript\">\n"
            + "  \tg_msg = {\n"
            + "};\n"
            + "\n"
            + "g_user = {\n"
            + "\tid:190591,\n"
            + "\tname:'黄亿华',\n"
            + "\tlogin:true,\n"
            + "\tbportrait:'<img src=\"http://static.oschina.net/uploads/user/95/190591_50.jpg?t=1347254905000\" align=\"absmiddle\" alt=\"黄亿华\" title=\"黄亿华\" class=\"SmallPortrait\" user=\"190591\"/>'\n"
            + "};  </script>\n"
            + "    <script type=\"text/javascript\" src=\"/js/2011/oschina.js?ver=20121007\"></script>\n"
            + "  <script type=\"text/javascript\" src=\"/js/utils.js\"></script>\n"
            + "  <script type=\"text/javascript\" src=\"/js/channel.js\"></script>\n"
            + "      <style type=\"text/css\">\n"
            + "    body,table,input,textarea,select {font-family:Verdana,sans-serif,宋体;}  \n"
            + "  </style>\n"
            + "  </head>\n"
            + "<body>\n"
            + "<div id='OSC_NavTop'>\n"
            + "\t<div class=\"wp998\">\n"
            + "        <div id=\"OSC_Channels\">\n"
            + "        \t<ul>\n"
            + "        \t<li class=\"item\"><a href=\"http://www.oschina.net/\" class='home'>首页</a></li>        \t<li class=\"item\"><a href=\"http://www.oschina.net/project\" class='project'>开源软件</a></li>\n"
            + "        \t<li class=\"item control_select\">\n"
            + "\t\t\t\t<a href=\"http://www.oschina.net/question\" class='question hl'>讨论区</a>\t\t\t\t\n"
            + "\t\t\t\t<ul class=\"cs_content\">\t\t\t\t\t\n"
            + "                \t<li><a href=\"http://www.oschina.net/question?catalog=1\"> 技术问答 &raquo; </a></li>\n"
            + "                \t<li><a href=\"http://www.oschina.net/question?catalog=2\"> 技术分享 &raquo; </a></li>\n"
            + "                \t<li><a href=\"http://www.oschina.net/question?catalog=3\"> IT大杂烩 &raquo; </a></li>\n"
            + "                \t<li><a href=\"http://www.oschina.net/question?catalog=100\"> 职业生涯 &raquo; </a></li>\n"
            + "                \t<li><a href=\"http://www.oschina.net/question?catalog=4\"> 站务/建议 &raquo; </a></li>\n"
            + "                \t<li><a href=\"http://www.oschina.net/alipay\"> 支付宝专区 &raquo; </a></li>\n"
            + "\t\t\t\t</ul>\n"
            + "\t\t\t</li>\n"
            + "        \t<li class=\"item\"><a href=\"http://www.oschina.net/code/list\" class='code'>代码分享</a></li>\n"
            + "        \t        \t<li class=\"item\"><a href=\"http://www.oschina.net/blog\" class='blog'>博客</a></li>\n"
            + "        \t<li class=\"item\"><a href=\"http://www.oschina.net/translate\" class='tran'>翻译</a></li>\n"
            + "            <li class=\"item\"><a href=\"http://www.oschina.net/news\" class='news'>资讯</a></li>\n"
            + "        \t<li class=\"item control_select\">\n"
            + "\t\t\t\t<a href=\"http://www.oschina.net/android\" class='mobile'>移动开发</a>\n"
            + "\t\t\t\t<ul class=\"cs_content cs_mobile\">\n"
            + "                \t<li class=\"android_\"><a href=\"http://www.oschina.net/android\">Android开发专区</a></li>\n"
            + "                \t<li class=\"ios_\"><a href=\"http://www.oschina.net/ios/home\">iOS开发专区</a></li>\n"
            + "                \t<li class=\"ios_\"><a href=\"http://www.oschina.net/ios/codingList\">iOS代码库</a></li>\n"
            + "                \t<li class=\"wp7_\"><a href=\"http://www.oschina.net/wp7\">WP7开发专区</a></li>\n"
            + "\t\t\t\t</ul>\n"
            + "\t\t\t</li>\n"
            + "        \t<li class=\"item t_job\"><a href=\"http://www.oschina.net/job\" class='job'>招聘</a></li>\n"
            + "        \t</ul>\n"
            + "        </div>\n"
            + "\t\t<div id=\"OSC_Userbar\">\n"
            + "                \t\t    \t\t<em>黄亿华</em>,您好 \n"
            + "\t\t\t<span class=\"control_select\">\n"
            + "\t\t\t\t<a href=\"http://my.oschina.net/flashsword\" id=\"MySpace\" title=\"我的空间\">我的空间</a>\n"
            + "\t\t\t\t<ul class=\"cs_content cs_myspace\">\n"
            + "                \t<li class='msg_'><a href='http://www.oschina.net/home/go?page=admin%2Finbox'>站内留言</a></li>\n"
            + "                \t<li class='discuss_'><a href='http://my.oschina.net/flashsword/?ft=bbs&scope=2&showme=1'>我的讨论记录</a></li>\n"
            + "                \t<li class='code_'><a href='http://www.oschina.net/code/list_by_user?id=190591'>我分享的代码</a></li>\n"
            + "                \t<li class='blog_'><a href='http://www.oschina.net/home/go?page=blog'>我的博客</a></li>\n"
            + "                \t<li class='friends_'><a href='http://www.oschina.net/home/go?page=fellow'>我关注的人</a></li>\n"
            + "                \t<li class='favorites_'><a href='http://www.oschina.net/home/go?page=favorites'>我的收藏夹</a></li>\n"
            + "                \t<li class='profile_'><a href='http://www.oschina.net/home/go?page=admin%2Fprofile'>个人资料修改</a></li>\n"
            + "                \t<li class='portrait_'><a href='http://www.oschina.net/home/go?page=admin%2Fportrait'>更改我的头像</a></li>\n"
            + "\t\t\t\t</ul>\n"
            + "\t\t\t</span>&nbsp;|&nbsp;\n"
            + "\t\t\t<a href=\"http://www.oschina.net/home/go?page=admin%2Fnew-project\">添加软件</a>&nbsp;|&nbsp;<a href=\"http://www.oschina.net/home/go?page=admin%2Fnew-release\">投递新闻</a>&nbsp;|&nbsp;<a href=\"/action/user/logout?session=6db40e6e2d1061998068&goto_page=http%3A%2F%2Fwww.oschina.net%2Fquestion%2F818848_107307\">退出</a>\n"
            + "    \t\t\t\t</div>\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t</div>\n"
            + "</div>\n"
            + "<div id='OSC_Banner'><div class=\"wp998\"><a href='http://www.oschina.net/' class='Logo' title='OSChina 开源中国'>开源中国</a>\n"
            + "<h1><a href='/question'>讨论区</a></h1>\n"
            + "<dl>\n"
            + "\t<dt>当前位置：</dt>\n"
            + "\t<dd>\n"
            + "\t\t\t\t\t        \t\t<a href=\"/question\">讨论区</a>&nbsp;&raquo;\n"
            + "        \t\t<a href=\"/question?catalog=1\">技术问答</a>\t\t\t\t\t\t\t\t&raquo;&nbsp;<a href=\"/p/jquery+easyui\">EasyUI</a>\n"
            + "\t\t\t\t\t\t\t\t\t\t</dd>\n"
            + "</dl>\n"
            + "<form action='http://www.oschina.net/search' class='search'>\n"
            + "\t<input type='hidden' name='scope' value='bbs'/>\n"
            + "\t<input id='channel_q' type='text' name='q' value='' placeholder='资讯、软件、分享、代码、博客' class='TXT'/>\n"
            + "    <button type='submit' class='BTN'>搜 索</button>\n"
            + "</form>\n"
            + "<div class='clear'></div></div></div>\n"
            + "<div id=\"OSC_Screen\">\n"
            + "\t<div id=\"OSC_Content\" class='CenterDiv'>\n"
            + "<script type=\"text/javascript\" src=\"/js/scrolltopcontrol.js\"></script>\n"
            + "<script type=\"text/javascript\">\n"
            + "  \tscrolltotop.offset(100,120);\n"
            + "  \tscrolltotop.init();\n"
            + "\t$(function(){\n"
            + "\t\t$('a.ShowUserOutline img.SmallPortrait').poshytip({\n"
            + "\t\t\tclassName: 'tip-yellowsimple',\n"
            + "\t\t\talignTo: 'target',\n"
            + "\t\t\talignX: 'right',\n"
            + "\t\t\talignY: 'inner-top',\n"
            + "\t\t\toffsetX: 5,\n"
            + "\t\t\toffsetY: 0,\n"
            + "\t\t\tfade: false,\n"
            + "\t\t\tslide: false,\n"
            + "\t\t\tcontent: function(updateCallback) {\n"
            + "\t\t\t\tajax_get(\"/action/ajax/get_user_outline?id=\"+$(this).attr('user'),false,function(html){\n"
            + "\t\t\t\t\tupdateCallback(html);\n"
            + "\t\t\t\t});\n"
            + "\t\t\t\treturn \"<div style='height:100px;'>Loading...</div>\";\n"
            + "\t\t\t}\n"
            + "\t\t});\n"
            + "\t});\n"
            + "\tfunction add_to_favorite(pid,concern_it){\n"
            + "\t\t\tif(concern_it){\n"
            + "\t\t\t$(\"#p_attention_count\").load(\"/action/favorite/add?mailnotify=true&type=2&id=\"+pid, {user: '190591'});\n"
            + "\t\t\t$('#attention_it').html('<a href=\"javascript:add_to_favorite('+pid+',false)\">取消</a>');\t\n"
            + "\t\t}\n"
            + "\t\telse{\n"
            + "\t\t\t$(\"#p_attention_count\").load(\"/action/favorite/cancel?type=2&id=\"+pid, {user: '190591'});\n"
            + "\t\t\t$('#attention_it').html('<a href=\"javascript:add_to_favorite('+pid+',true)\">收藏</a>');\n"
            + "\t\t}\n"
            + "\t\t}\n"
            + "</script>\n"
            + "\n"
            + "\n"
            + "\n"
            + "<div class='Question'>\n"
            + "\t\n"
            + "\t<div class='Body'>\n"
            + "\t<div class='Title'>\n"
            + "\t\t<div class='Asker'><a href=\"http://my.oschina.net/u/818848\" class=\"ShowUserOutline\" target=\"_blank\"><img src=\"http://static.oschina.net/uploads/user/409/818848_50.jpg?t=1357353541000\" align=\"absmiddle\" alt=\"午后冬日\" title=\"午后冬日\" class=\"SmallPortrait\" user=\"818848\"/></a></div>\n"
            + "\t\t<div class='QTitle'>\n"
            + "\t\t\t<h1><a href=\"http://www.oschina.net/question/818848_107307\" hidefocus=\"true\" name='top'>再次吐槽easyui</a></h1>\n"
            + "\t\t\t<div class='stat'>\n"
            + "\t\t\t\t<a href=\"http://my.oschina.net/u/818848\" target=\"_blank\">午后冬日</a>\n"
            + "\t\t\t\t发表于 2013-4-21 02:28 13小时前,\n"
            + "\t\t\t\t<a href='#answers' class='answer_count'>3</a>回/289阅,\n"
            + "\t\t\t\t最后回答: 4小时前\t\t\t\t\t\t\t\t\t\t\t</div>\n"
            + "\t\t</div>\n"
            + "\t\t\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t</div>\n"
            + "\t\t    \t    \t\t\t\t\t\n"
            + "\t\t<p style='color:#A00;font-weight:bold;margin:10px 0 0 3px;'>Java、PHP、Ruby、iOS、Python 等 JetBrains 开发工具低至 99  元（3折），<a href='http://www.oschina.net/shop/jetbrains' target='_blank'>详情&raquo;</a></p>\n"
            + "\t\t<div class='Content'>\n"
            + "\t\t\t\t\t\t<div class='detail'>刚用到easyui treegrid组件，发现这货第一次加载时候并没有传默认参数，展开某一列时候才传递id:xx的参数。这样和后台总是疙里疙瘩，像没事就拌嘴的两口子，查网上都遇到相同问题，最好解决方案就是通过 \n"
            + "<span style=\"font-family:Arial, Helvetica, 'Nimbus Sans L', sans-serif;font-size:14px;line-height:normal;background-color:#FFFFFF;\">onBeforeExpand事件来扩展，自行解决。看到官方例子中简洁的代码，感觉easyui耍流氓了，真搞不懂为何要这样实现</span><div class='clear'></div></div>\n"
            + "\t\t\t\t\t\t<div class='Tags'>\n"
            + "\t\t\t\t<strong>标签：</strong>\t\t\t\t\n"
            + "\t\t\t\t\t\t\t\t\t\t\t\t<a href='http://www.oschina.net/question/tag/jquery+easyui' class='tag project' title='jQuery的UI组件 EasyUI'>EasyUI</a> \t\t\t\t\t\t\t\t\t\t\t</div>\n"
            + "\t\t\t\t\t\t<div class='SameQuestions'>\n"
            + "\t\t\t<span id='RQuestionAction'>\n"
            + "\t\t\t\t\t\t\t\t\t<a href=\"javascript:ask_too(107307,true)\" class='rndbutton'><span>我想问同样的问题</span></a>\n"
            + "\t\t\t\t\t\t</span>\n"
            + "\t\t\t共<em id='c_asker_count'>0</em>个人想要问同样的问题\n"
            + "\t\t\t\t\t\t<a href=\"javascript:make_question_more_detail(107307)\">补充话题说明&raquo;</a>\n"
            + "\t\t\t</div>\n"
            + "\t\t\t\t\t\t<div class='EditLogs'>\n"
            + "\t<ul></ul>\n"
            + "</div>\t\t</div>\n"
            + "\t\t<style type='text/css'>\n"
            + "\t\t#favor_form{width:200px;}\n"
            + "        #favor_form p {color:#666;}\n"
            + "        #favor_form form{height:60px;width:200px;}\n"
            + "        #favor_form form ._favor_input{display:block;margin:2px 0;width:199px;}\n"
            + "        #favor_form form ._favor_button{float:left;padding:2px 5px;}\n"
            + "        .favor_ok {text-align:center;font-size:10.5pt;width:199px;height:60px;margin-top:10px;}\n"
            + "        #TagsSwitcher{cursor:pointer;float:right;margin-top:10px;}\n"
            + "        #MyTags{display:none;width:199px;}\n"
            + "        #MyTags a.tag {float:left; background-color: #E0EAF1;border-bottom: 1px solid #3E6D8E;border-right: 1px solid #7F9FB6;color: #3E6D8E;font-size: 8pt;line-height: 16px;margin: 2px 2px 2px 0;padding: 2px 4px;text-decoration: none;white-space: nowrap;}\n"
            + "\t\t.osc_promotion{ position: relative; display: inline-block; padding: 10px; margin: 10px 0; border: 1px solid #ccc;}\n"
            + "        .osc_promotion .c{ position: absolute; right: -1px; top: -1px;}\n"
            + "\t\t.ask_toolbar {float:right;list-style: none; font-size: 12px; color: #333; height: 28px;_padding-top: 5px; overflow: hidden;margin:20px 0 10px 0;}\n"
            + "        .ask_toolbar div{ float: left; margin-left: 5px; background: url(\"/img/ask-icon.gif\") no-repeat; padding: 6px 0 6px 15px; padding-left: 15px; height: 16px;}\n"
            + "        .ask_toolbar a{ height: 16px; color: #333; text-decoration: none; display:inline-block; zoom:1; vertical-align: middle; }\n"
            + "        .ask_share{width: 89px;vertical-align: bottom; line-height: 15px; _line-height: 14px;}\n"
            + "        .ask_share a{background: url(\"/img/ask-icon.gif\"); width: 16px; }\n"
            + "        a.ask_share_sina{ background: url(\"/img/ask-icon.gif\") 0 -40px no-repeat; margin-left: 5px;  }\n"
            + "        a.ask_share_tencent{background-position: 0 -70px; margin-left: 5px; }\n"
            + "        .ask_toolbar em{ height: 28px; line-height:28px; width: 14px; display: inline-block; float: left; background: url(\"/img/ask-icon.gif\") top right;}\n"
            + "        .ask_collect a,.ask_report a, .ask_vote a, .ask_collected a{padding-left: 20px; line-height: 15px; }\n"
            + "        .ask_collect a{ background: url(\"/img/ask-icon.gif\") 0 -131px no-repeat; }\n"
            + "        .ask_collected a{ background: url(\"/img/ask-icon.gif\") 0 -100px no-repeat; }\n"
            + "        div.ask_collect_count{ background: url(\"/img/ask-icon.gif\") 0 -309px no-repeat; font-weight: bold; font-size: 14px; margin-left: 0; height: 16px;line-height: 16px;}\n"
            + "        .ask_report a{ background: url(\"/img/ask-icon.gif\") 0 -160px no-repeat;}\n"
            + "        em.ask_collect_count_r{background-position: 59px -309px;}\n"
            + "        .ask_vote a{background: url(\"/img/ask-icon.gif\");}\n"
            + "        \t\ta.ask_vote_up{background-position: 3px -190px;}\n"
            + "        a.ask_vote_down{background-position: 0 -280px;}\n"
            + "        a.ask_vote_uped {background-position: 3px -190px;}\n"
            + "        \t\ta.ask_vote_downed {background-position: 0 -280px;}\n"
            + "        .ask_vote span{ display: inline-block; margin: 0 10px; font-weight: bold; font-size: 14px; vertical-align: middle; margin-bottom: 2px; line-height: 16px;}\n"
            + "\t\tspan.vote-down-count{margin:0 3px;}\n"
            + "\t\tspan.vote-up-count{margin:0 3px;}\n"
            + "\t\t</style>\n"
            + "\t\t<div class='clear'></div>\n"
            + "        \n"
            + "\t\t\t\t<div class=\"ask_toolbar\">\n"
            + "\t\t\t<div class=\"ask_share\"><b>分享到</b> <a class=\"ask_share_sina\" title=\"分享到新浪微博\"  href=\"javascript:void((function(s,d,e,r,l,p,t,z,c){var%20f='http://v.t.sina.com.cn/share/share.php?appkey=858381728',u=z||d.location,p=['&url=',e(u),'&title=',e(t||d.title),'&source=',e(r),'&sourceUrl=',e(l),'&content=',c||'gb2312','&pic=',e(p||'')].join('');function%20a(){if(!window.open([f,p].join(''),'mb',['toolbar=0,status=0,resizable=1,width=440,height=430,left=',(s.width-440)/2,',top=',(s.height-430)/2].join('')))u.href=[f,p].join('');};if(/Firefox/.test(navigator.userAgent))setTimeout(a,0);else%20a();})(screen,document,encodeURIComponent,'','','','再次吐槽easyui: 刚用到easyui treegrid组件，发现这货第一次加载时候并没有传默认参数，展开某一列时候才传递id:xx的参数。这样和后台总是疙里疙瘩，像没事就拌嘴的两口子，查网上都遇到...','','utf-8'));\"></a><a class=\"ask_share_tencent\" title=\"分享到腾讯微博\"  href=\"javascript:(function(){window.open('http://v.t.qq.com/share/share.php?url='+encodeURIComponent(document.location)+'&amp;appkey=96f54f97c4de46e393c4835a266207f4&amp;site=&amp;title='+encodeURIComponent(document.title)+encodeURIComponent(': 刚用到easyui treegrid组件，发现这货第一次加载时候并没有传默认参数，展开某一列时候才传递id:xx的参数。这样和后台总是疙里疙瘩，像没事就拌嘴的两口子，查网上都遇到...'),'', 'width=450, height=400, top=0, left=0, toolbar=no, menubar=no, scrollbars=no, location=yes, resizable=no, status=no');}())\"></a></div><em></em>\n"
            + "\t\t\t<div class=\"ask_collect\"><a title=\"收藏此话题\" id=\"favor_trigger\" href=\"javascript:;\">收藏</a></div><em></em>\n"
            + "\t\t\t<div class=\"ask_collect_count\" id=\"p_favor_count\">1</div><em class=\"ask_collect_count_r\"></em>\n"
            + "\t\t\t<div class=\"ask_report\"><a href=\"javascript:report('http://www.oschina.net/question/818848_107307',107307,2)\">举报</a></div><em></em>\n"
            + "\t\t\t<div class='ask_vote' id='Vote'>\n"
            + "\t\t\t\t\t\t\t\t        \t\t\t<a id=\"vote_down\" class=\"ask_vote_down\" href=\"javascript:;\" title=\"踩：这问题不知道在说什么，或者没什么用\">踩</a>\n"
            + "\t\t\t\t\t\t\t\t<span class='vote-down-count'>0</span>\n"
            + "\t\t\t\t|\n"
            + "\t\t\t\t\t\t\t\t        \t\t\t<a id=\"vote_up\" class=\"ask_vote_up\" href=\"javascript:;\" title=\"顶：这问题很有用或者很清晰明了\">顶</a>\n"
            + "\t\t\t\t\t\t\t\t<span class='vote-up-count'>0</span>\n"
            + "\t\t\t</div>\n"
            + "\t\t\t<em></em>\n"
            + "\t\t</div>\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t\t\t\t\t\t        <div class='QuestionReplies'>\n"
            + "\t\t\t\n"
            + "        \t<h2>\t\t\t\n"
            + "\t\t\t\t<span class='sort'>\n"
            + "\t\t\t\t\t<a href=\"http://www.oschina.net/question/818848_107307#answers\" class='current'>按评价排序</a>&nbsp;|\n"
            + "\t\t\t\t\t<a href=\"?sort=time#answers\">显示最新答案</a>&nbsp;|&nbsp;<a href=\"#top\" style='padding-left:0;'>回页面顶部</a>\n"
            + "\t\t\t\t</span>\n"
            + "\t\t\t\t<a name='answers'></a>共有<em class='answer_count'>3</em>个答案 <a href=\"#answerform\" class='answer'>我要回答&raquo;</a>\n"
            + "\t\t\t</h2>\n"
            + "\t\t\t        \t<ul class='list'><li class='Answer' id='answer_467005'>\n"
            + "\t<div class='user'><a href=\"http://my.oschina.net/u/224858\" class=\"ShowUserOutline\" name=\"AnchorAnswer467005\" target=\"_blank\"><img src=\"http://static.oschina.net/uploads/user/112/224858_50.jpg\" align=\"absmiddle\" alt=\"布谷鸟\" title=\"布谷鸟\" class=\"SmallPortrait\" user=\"224858\"/></a></div>\n"
            + "\t<div class='body'>\n"
            + "\t\t<div class='time'><a href=\"http://my.oschina.net/u/224858\" target=\"_blank\">布谷鸟</a> 回答于 2013-04-21 09:28 </div>\t\t\n"
            + "    \t<div class='opts'>\n"
            + "\t\t\t    \t\t    \t\t<a href=\"javascript:report('http://www.oschina.net/question/818848_107307#AnchorAnswer467005',467005,17)\">举报</a>\n"
            + "    \t</div>\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t\t<div class='detail'>对话框、日期控件和选项卡效果还不错，树状菜单没得zTree好用，建议楼主不要全部效果都依赖于此框架，有些easyui实现不好的地方可以换其它的插件实现嘛，反正我现在再也不用诸如ext和easyui之类的东西了，感觉好肥</div>\n"
            + "\t</div>\n"
            + "\t<div class='clear'></div>\n"
            + "\t<div class='replies' id='PostReplies_467005'><strong>--- 共有 1 条评论 --- </strong>\n"
            + "<ul>\n"
            + "\t\t<li id='PostReply_467044'>\n"
            + "\t\t<a href=\"http://my.oschina.net/u/818848\" class='p' name='AnchorAnswer467044'><img src=\"http://static.oschina.net/uploads/user/409/818848_50.jpg?t=1357353541000\" align=\"absmiddle\" alt=\"午后冬日\" title=\"午后冬日\" class=\"SmallPortrait\" user=\"818848\"/></a>\n"
            + "\t\t<span class='b'>\n"
            + "\t\t<span class='c'>前端水平实在有限，自己搞的总是感觉不伦不类，只能用这些框架，再集成其它插件，切换主题时风格又不一致。</span>\n"
            + "\t\t<span class='t'>(4小时前 by 午后冬日)</span>\n"
            + "\t\t<span class='opts'><a href=\"javascript:reply_to_post(467005,818848)\">回复</a></span>\n"
            + "\t\t</span>\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t</li>\n"
            + "\t</ul>\n"
            + "<div class='PagerLinks'>\n"
            + "</div>\n"
            + "</div>\n"
            + "\t<div class='votes'>\t\t\t\t\t\t<a id='a_post_voteup_467005' href=\"javascript:vote_answer(467005,true,true)\" title=\"这是一个好答案，能解决问题\">有帮助</a><em id='post_voteup_467005'>(1)</em>&nbsp;|\n"
            + "\t\t<a id='a_post_votedown_467005' href=\"javascript:vote_answer(467005,false,true)\" title=\"这答案无法解决问题，或者模糊不清\">没帮助</a><em id='post_votedown_467005'>(0)</em>&nbsp;|\n"
            + "\t\t<a href=\"javascript:reply_to_post(467005, 0)\">评论</a><em>(1)</em>&nbsp;|\n"
            + "    \t<a href=\"/question/answer?question=107307&amp;answer=467005\">引用此答案</a>\t</div>\n"
            + "</li><li class='Answer' id='answer_467039'>\n"
            + "\t<div class='user'><a href=\"http://my.oschina.net/rox\" class=\"ShowUserOutline\" name=\"AnchorAnswer467039\" target=\"_blank\"><img src=\"http://static.oschina.net/uploads/user/0/180_50.jpg\" align=\"absmiddle\" alt=\"静风流云\" title=\"静风流云\" class=\"SmallPortrait\" user=\"180\"/></a></div>\n"
            + "\t<div class='body'>\n"
            + "\t\t<div class='time'><a href=\"http://my.oschina.net/rox\" target=\"_blank\">静风流云</a> 回答于 2013-04-21 11:08 </div>\t\t\n"
            + "    \t<div class='opts'>\n"
            + "\t\t\t    \t\t    \t\t<a href=\"javascript:report('http://www.oschina.net/question/818848_107307#AnchorAnswer467039',467039,17)\">举报</a>\n"
            + "    \t</div>\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t\t<div class='detail'><p> 没办法，原来项目也是因为客户特殊的需求，对layout选型的时候，犹豫了好久，最终放弃了。<br /> 幸亏来了一个厉害的前端，解决问题，够用就好。 </p></div>\n"
            + "\t</div>\n"
            + "\t<div class='clear'></div>\n"
            + "\t<div class='replies' id='PostReplies_467039'><strong>--- 共有 1 条评论 --- </strong>\n"
            + "<ul>\n"
            + "\t\t<li id='PostReply_467046'>\n"
            + "\t\t<a href=\"http://my.oschina.net/u/818848\" class='p' name='AnchorAnswer467046'><img src=\"http://static.oschina.net/uploads/user/409/818848_50.jpg?t=1357353541000\" align=\"absmiddle\" alt=\"午后冬日\" title=\"午后冬日\" class=\"SmallPortrait\" user=\"818848\"/></a>\n"
            + "\t\t<span class='b'>\n"
            + "\t\t<span class='c'>我也是犹豫了好久，看过很多前端框架，总是不太满意。个人开发前台后台数据库全部要自己搞定，郁闷ing</span>\n"
            + "\t\t<span class='t'>(4小时前 by 午后冬日)</span>\n"
            + "\t\t<span class='opts'><a href=\"javascript:reply_to_post(467039,818848)\">回复</a></span>\n"
            + "\t\t</span>\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t</li>\n"
            + "\t</ul>\n"
            + "<div class='PagerLinks'>\n"
            + "</div>\n"
            + "</div>\n"
            + "\t<div class='votes'>\t\t\t\t\t\t<a id='a_post_voteup_467039' href=\"javascript:vote_answer(467039,true,true)\" title=\"这是一个好答案，能解决问题\">有帮助</a><em id='post_voteup_467039'>(0)</em>&nbsp;|\n"
            + "\t\t<a id='a_post_votedown_467039' href=\"javascript:vote_answer(467039,false,true)\" title=\"这答案无法解决问题，或者模糊不清\">没帮助</a><em id='post_votedown_467039'>(0)</em>&nbsp;|\n"
            + "\t\t<a href=\"javascript:reply_to_post(467039, 0)\">评论</a><em>(1)</em>&nbsp;|\n"
            + "    \t<a href=\"/question/answer?question=107307&amp;answer=467039\">引用此答案</a>\t</div>\n"
            + "</li><li class='Answer' id='answer_467051'>\n"
            + "\t<div class='user'><a href=\"http://my.oschina.net/u/224858\" class=\"ShowUserOutline\" name=\"AnchorAnswer467051\" target=\"_blank\"><img src=\"http://static.oschina.net/uploads/user/112/224858_50.jpg\" align=\"absmiddle\" alt=\"布谷鸟\" title=\"布谷鸟\" class=\"SmallPortrait\" user=\"224858\"/></a></div>\n"
            + "\t<div class='body'>\n"
            + "\t\t<div class='time'><a href=\"http://my.oschina.net/u/224858\" target=\"_blank\">布谷鸟</a> 回答于 2013-04-21 11:29 </div>\t\t\n"
            + "    \t<div class='opts'>\n"
            + "\t\t\t    \t\t    \t\t<a href=\"javascript:report('http://www.oschina.net/question/818848_107307#AnchorAnswer467051',467051,17)\">举报</a>\n"
            + "    \t</div>\n"
            + "\t\t<div class='clear'></div>\n"
            + "\t\t<div class='detail'><div class=\"ref\"><h4>引用来自“布谷鸟”的答案</h4><div class=ref_body>对话框、日期控件和选项卡效果还不错，树状菜单没得zTree好用，建议楼主不要全部效果都依赖于此框架，有些easyui实现不好的地方可以换其它的插件实现嘛，反正我现在再也不用诸如ext和easyui之类的东西了，感觉好肥</div></div><div class=a_body>前后端你一个人搞啊？那确实很麻烦。面面俱到的话，工作量很大。但是如果需要实现的功能不是很多，而时间也不紧迫的话，事情干起来也还不错。如非必须，建议逐步弃用这些前端框架，在一些比较能够提升体验的地方选用一些适当的插件即可，如此也不再需要担心风格的问题，你看osc后台截图，界面那叫一个丑，用得方便顺手就够了</div></div>\n"
            + "\t</div>\n"
            + "\t<div class='clear'></div>\n"
            + "\t<div class='replies' id='PostReplies_467051'></div>\n"
            + "\t<div class='votes'>\t\t\t\t\t\t<a id='a_post_voteup_467051' href=\"javascript:vote_answer(467051,true,true)\" title=\"这是一个好答案，能解决问题\">有帮助</a><em id='post_voteup_467051'>(0)</em>&nbsp;|\n"
            + "\t\t<a id='a_post_votedown_467051' href=\"javascript:vote_answer(467051,false,true)\" title=\"这答案无法解决问题，或者模糊不清\">没帮助</a><em id='post_votedown_467051'>(0)</em>&nbsp;|\n"
            + "\t\t<a href=\"javascript:reply_to_post(467051, 0)\">评论</a><em>(0)</em>&nbsp;|\n"
            + "    \t<a href=\"/question/answer?question=107307&amp;answer=467051\">引用此答案</a>\t</div>\n"
            + "</li></ul>\n"
            + "\t\t\t\t        </div> \n"
            + "\t\t<div class='AnswerForm'>\n"
            + "\t\t\t<div class='user'><a href=\"http://my.oschina.net/flashsword\" name=\"answerform\"><img src=\"http://static.oschina.net/uploads/user/95/190591_50.jpg?t=1347254905000\" align=\"absmiddle\" alt=\"黄亿华\" title=\"黄亿华\" class=\"SmallPortrait\" user=\"190591\"/></a></div>\n"
            + "\t\t\t<form id='form_answer' action=\"/action/question/answer?question=107307\" method=\"post\">\n"
            + "\t\t\t\t<input type='hidden' name='user' value='190591'/>\n"
            + "\t\t\t\t<textarea id='txt_answner' name='body' style='width:560px;height:160px;'></textarea>\n"
            + "\t\t\t\t<input type='submit' value=' 我要回答 ' id=\"FormSubmitButton\" class='rndbutton'/>\n"
            + "\t\t\t\t<span id='form_msg' style='display:none;'></span>\n"
            + "\t\t\t\t<br><br>\n"
            + "\t\t\t\t<a href=\"#answers\">回答案顶部</a>&nbsp;|&nbsp;<a href=\"#top\">回页面顶部</a>\n"
            + "\t\t\t</form>\n"
            + "\t\t\t<div class='clear'></div>\n"
            + "\t\t\t<script>\t\t\t\n"
            + "            $('#form_answer').ajaxForm({\n"
            + "            \tdataType: 'json',\n"
            + "        \t\tbeforeSerialize: function($form, options) { \n"
            + "        \t\t\teditor.sync();           \n"
            + "                },\n"
            + "        \t\tbeforeSubmit: function(){\n"
            + "        \t\t\t$('#FormSubmitButton').attr('disabled','disabled');\n"
            + "        \t\t\t$('#form_msg').html(\"<span class='ajax_processing'>正在提交答案，请稍候...</span>\");\t\n"
            + "        \t\t\t$('#form_msg').show();\t\n"
            + "        \t\t},\n"
            + "                success: function(json) {\n"
            + "        \t\t\t$('#FormSubmitButton').removeAttr('disabled');\n"
            + "            \t\tif(json.msg){\n"
            + "        \t\t\t\t$('#form_msg').html(\"<span class='error_msg'>\"+json.msg+\"</span>\");\n"
            + "        \t\t\t\t$('#form_msg').show();\n"
            + "        \t\t\t}\n"
            + "            \t\telse if(json.id){\n"
            + "            \t\t\tajax_get(\"/question/show_answer?_answer_id=\"+json.id, true, function(data){\n"
            + "        \t\t\t\t\t            \t\t\t\t$('.QuestionReplies ul.list').append(data);\n"
            + "        \t\t\t\t\t        \t\t\t\t\teditor.html('');\n"
            + "        \t\t\t\t\t$('.answer_count').html(json.answer_count);\n"
            + "            \t\t\t}); \t\t\t\t\n"
            + "        \t\t\t\t$('#form_msg').hide();\n"
            + "            \t\t}\n"
            + "                }\n"
            + "            });\n"
            + "\t\t\t</script>\n"
            + "\t\t</div>\n"
            + "\t</div>\t\n"
            + "\t<script type=\"text/javascript\" src=\"/js/syntax-highlighter-2.1.382/scripts/brush.js\"></script>\n"
            + "<link type=\"text/css\" rel=\"stylesheet\" href=\"/js/syntax-highlighter-2.1.382/styles/shCore.css\"/>\n"
            + "<link type=\"text/css\" rel=\"stylesheet\" href=\"/js/syntax-highlighter-2.1.382/styles/shThemeDefault.css\"/>\n"
            + "<script type='text/javascript'><!--\n"
            + "$(document).ready(function(){\n"
            + "\tSyntaxHighlighter.config.clipboardSwf = '/js/syntax-highlighter-2.1.382/scripts/clipboard.swf';\n"
            + "\tSyntaxHighlighter.all();\n"
            + "});\n"
            + "//-->\n"
            + "</script>\n"
            + "\t<div class='QuestionRelations'>\n"
            + "\t <div style='text-align:center;margin-bottom:10px;'>\n"
            + "    \t<a href=\"http://www.oschina.net/action/visit/ad?id=1033\" target=\"_blank\" title=\"JPush——极光推送\"><img src=\"http://static.oschina.net/uploads/space/2013/0319/103739_17pH_179699.jpg\"/></a>\n"
            + "\t</div>\n"
            + "\t\t<div id='QuestionWizard'>\n"
            + "\t\t\t有什么技术问题吗？\n"
            + "\t\t\t<a href='/question/ask' class='rndbutton'><span>我要提问</span></a>\n"
            + "\t\t\t<div class='clear'></div>\n"
            + "\t\t</div>\n"
            + "\t\t\n"
            + "\t\t\t\t\t\t<div id='OtherQuestionsOfUser' class='Qlist'>\n"
            + "\t\t\t<strong><a href=\"http://my.oschina.net/u/818848/?ft=bbs&scope=2&showme=1\" class=\"more\">全部(29)...</a><em>午后冬日</em>的其他问题</strong>\n"
            + "\t\t\t<ul>\n"
            + "\t\t\t\t\t\t\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/818848_106829\" title=\"是jsf还是ajax框架，这是个问题\">是jsf还是ajax框架，这是个问题</a><span class='date'>(4回/194阅,4天前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/818848_106805\" title=\"关于ireport的问题\">关于ireport的问题</a><span class='date'>(0回/4阅,4天前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/818848_106539\" title=\"关于JasperReports的问题\">关于JasperReports的问题</a><span class='date'>(2回/47阅,6天前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/818848_105917\" title=\"IDEA代码编辑窗口能不能上下分屏\">IDEA代码编辑窗口能不能上下分屏</a><span class='date'>(2回/53阅,10天前)</span></li>\t\t\t\t\t\t</ul>\n"
            + "\t\t</div>\n"
            + "\t\t\t\t<div style='text-align:center;margin-top:20px;'>\n"
            + "\t\t<script type=\"text/javascript\" src=\"/js/ad/question.js\"></script>\n"
            + "\t\t</div>\n"
            + "\t\t\n"
            + "\t\t<div id='Similarity' class='Qlist'>\n"
            + "\t\t\t<strong>类似的话题</strong>\n"
            + "\t\t\t<ul>\n"
            + "        \t\t\t\t<li><a href=\"http://www.oschina.net/question/267632_49688\" title=\"jQuery easyUI 分页(Pagination)用法\">jQuery easyUI 分页(Pagination)用法</a><span class='date'>(2回/1228阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/138848_49846\" title=\"谨慎使用EasyUI\">谨慎使用EasyUI</a><span class='date'>(1回/1361阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/205548_31992\" title=\"easyui datagird 初始化加载俩次\">easyui datagird 初始化加载俩次</a><span class='date'>(6回/690阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/84535_32061\" title=\"打算使用easyui,求源码,求建议~\">打算使用easyui,求源码,求建议~</a><span class='date'>(17回/4105阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/201422_32682\" title=\"jquery easyui form 有没好的设计\">jquery easyui form 有没好的设计</a><span class='date'>(2回/812阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/183509_32885\" title=\"jeasyui 中combobox的onselect事件怎么做下拉框的级联\">jeasyui 中combobox的onselect事件怎么做下拉框的级联</a><span class='date'>(1回/741阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/161511_36411\" title=\"easyui  treegrid行编辑 效率慢怎么解决?\">easyui  treegrid行编辑 效率慢怎么解决?</a><span class='date'>(1回/671阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/166022_24392\" title=\"ComboGrid怎么动态绑定ds呢？\">ComboGrid怎么动态绑定ds呢？</a><span class='date'>(2回/427阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/146658_24974\" title=\"easyui中怎么显示一个list的数据？\">easyui中怎么显示一个list的数据？</a><span class='date'>(1回/594阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/97507_26165\" title=\"jquery easyui 組件無法顯示\">jquery easyui 組件無法顯示</a><span class='date'>(2回/671阅,1年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/46586_16818\" title=\"关于jQuery EasyUI Form的问题\">关于jQuery EasyUI Form的问题</a><span class='date'>(2回/1103阅,2年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/59256_17359\" title=\"jquery easyUI \">jquery easyUI </a><span class='date'>(1回/557阅,2年前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/188775_77569\" title=\"easyui中有没有点击datagrid的一个单元格 ，就使这个单元格变成可编辑的办法呢 \">easyui中有没有点击datagrid的一个单元格 ，就使这个单元格变成可编辑的办法呢 </a><span class='date'>(1回/890阅,5个月前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/256315_79207\" title=\"jQuery easyui：点击tree控件后无法获取node属性\">jQuery easyui：点击tree控件后无法获取node属性</a><span class='date'>(3回/533阅,5个月前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/580112_79227\" title=\"EasyUI 中tab标签的选项卡 置于左边是怎么实现的\">EasyUI 中tab标签的选项卡 置于左边是怎么实现的</a><span class='date'>(5回/426阅,5个月前)</span></li>\t\t\t\t\t\t<li><a href=\"http://www.oschina.net/question/868642_79423\" title=\"easyui无法跳转到 指定action   各位帮忙看看哪里有问题么？\">easyui无法跳转到 指定action   各位帮忙看看哪里有问题么？</a><span class='date'>(2回/162阅,5个月前)</span></li>\t\t\t\t\t\t</ul>\n"
            + "\t\t</div>\n"
            + "\t</div>\n"
            + "\t<div class='clear'></div>   \n"
            + "</div>\n"
            + "<script type='text/javascript' src='/js/ke/kindeditor-min.js?v=4.1.4' charset='utf-8'></script>\n"
            + "<script type='text/javascript'>\n"
            + "<!--\n"
            + "var editor;\n"
            + "KindEditor.ready(function(K) {\n"
            + "    editor = K.create('#txt_answner', {\n"
            + "\t\tthemeType : 'oschina',\n"
            + "\t\tresizeType : 1,\n"
            + "\t\turlType: 'domain',\n"
            + "\t\tshadowMode : false,\n"
            + "\t\tallowPreviewEmoticons : false,\n"
            + "\t\tallowImageUpload : true,\n"
            + "\t\tallowFlashUpload : false,\n"
            + "\t\tcssPath : '/css/ke-oschina.css',\n"
            + "\t\tuploadJson : '/action/blog/upload_img',\n"
            + "\t\tafterCreate : function(){\n"
            + "\t\t\t/*\n"
            + "\t\t\tK.ctrl(this.edit.iframe.get(0).contentWindow.document, 13, function() {\n"
            + "\t\t\t\t$(\"#txt_answner\").parent().submit();\n"
            + "\t\t\t});\n"
            + "\t\t\t*/\n"
            + "\t\t\t$(this.edit.iframe.get(0).contentWindow.document).keydown(function(e) {\n"
            + "\t\t\t\tif ((e.ctrlKey || e.metaKey) && e.which == 13 && !e.shiftKey && !e.altKey){\n"
            + "\t\t\t\t\t$(\"#txt_answner\").parent().submit();\n"
            + "\t\t\t\t}\n"
            + "\t\t\t});\n"
            + "\t\t},\n"
            + "\t\tafterChange : function() {\n"
            + "\t\t\tthis.sync();\n"
            + "\t\t},\n"
            + "\t\titems : ['bold', 'italic', 'underline', 'strikethrough', 'removeformat','|','insertorderedlist', 'insertunorderedlist', \n"
            + "\t\t\t\t 'forecolor', 'hilitecolor', 'fontname', 'fontsize',  '|', 'link', 'unlink', 'emoticons', \n"
            + "\t\t\t\t 'shcode', 'image', 'flash', 'quote', '|', 'source','about'],\n"
            + "\t\thtmlTags:\n"
            + "\t\t{\n"
            + "\t\t\tscript : ['src'],\n"
            + "            font : ['color', 'size', 'face', '.background-color'],\n"
            + "            span : [\n"
            + "                    '.color', '.background-color', '.font-size', '.font-family', '.background',\n"
            + "                    '.font-weight', '.font-style', '.text-decoration', '.vertical-align', '.line-height'\n"
            + "            ],\n"
            + "            div : [\n"
            + "                    'class', 'align', '.border', '.margin', '.padding', '.text-align', '.color',\n"
            + "                    '.background-color', '.font-size', '.font-family', '.font-weight', '.background',\n"
            + "                    '.font-style', '.text-decoration', '.vertical-align', '.margin-left'\n"
            + "            ],\n"
            + "            table: [\n"
            + "                    'border', 'cellspacing', 'cellpadding', 'width', 'height', 'align', 'bordercolor',\n"
            + "                    '.padding', '.margin', '.border', 'bgcolor', '.text-align', '.color', '.background-color',\n"
            + "                    '.font-size', '.font-family', '.font-weight', '.font-style', '.text-decoration', '.background',\n"
            + "                    '.width', '.height', '.border-collapse'\n"
            + "            ],\n"
            + "            'td,th': [\n"
            + "                    'align', 'valign', 'width', 'height', 'colspan', 'rowspan', 'bgcolor',\n"
            + "                    '.text-align', '.color', '.background-color', '.font-size', '.font-family', '.font-weight',\n"
            + "                    '.font-style', '.text-decoration', '.vertical-align', '.background', '.border'\n"
            + "            ],\n"
            + "            a : ['href', 'target', 'name'],\n"
            + "            embed : ['src', 'width', 'height', 'type', 'loop', 'autostart', 'quality', '.width', '.height', 'align', 'allowscriptaccess'],\n"
            + "            img : ['src', 'width', 'height', 'border', 'alt', 'title', 'align', '.width', '.height', '.border'],\n"
            + "            'p,ol,ul,li,blockquote,h1,h2,h3,h4,h5,h6' : [\n"
            + "                    'align', '.text-align', '.color', '.background-color', '.font-size', '.font-family', '.background',\n"
            + "                    '.font-weight', '.font-style', '.text-decoration', '.vertical-align', '.text-indent', '.margin-left'\n"
            + "            ],\n"
            + "            pre : ['class'],\n"
            + "            hr : ['class', '.page-break-after'],\n"
            + "            'br,tbody,tr,strong,b,sub,sup,em,i,u,strike,s,del' : []\n"
            + "\t\t}\n"
            + "    });\n"
            + "});\n"
            + "//-->\n"
            + "</script>\n"
            + "<!--[if lt IE 7]>\n"
            + "<script type=\"text/javascript\" src=\"/js/minmax.js\"></script>\n"
            + "<![endif]-->\n"
            + "<script type=\"text/javascript\" src=\"/action/visit/question?id=107307\"></script>\n"
            + "<script type='text/javascript'>\n"
            + "<!--\n"
            + "$(document).ready(function() {\n"
            + "\t$('.Answer .replies li').hover(\n"
            + "\t\tfunction(){$(this).addClass('hover');},\n"
            + "\t\tfunction(){$(this).removeClass('hover');}\n"
            + "\t);\t\n"
            + "\t\n"
            + "    $('.detail img').css('cursor','pointer');\n"
            + "    jQuery.each($('.detail img'),function(idx,v){\n"
            + "    \t$(v).wrap(\"<a href='\"+$(this).attr('src')+\"' target='_blank'></a>\");\n"
            + "    });\n"
            + "\t\n"
            + "\t$('#c').bind('mouseover mouseout',function(){\n"
            + "\t\t$('#c_on').toggle();\n"
            + "\t\t$('#c_off').toggle();\n"
            + "\t});\n"
            + "\t\n"
            + "\t$('#favor_trigger').click(function(){\n"
            + "\t\t\tadd_to_favor(107307,2);\n"
            + "\t\t});\n"
            + "});\n"
            + "function ask_too(qid, ask){\n"
            + "\tajax_post(\"/action/question/ask_too?id=\"+qid+\"&ask=\"+ask,\"\",function(html){\n"
            + "\t\tjson = eval('('+html+')');\n"
            + "\t\tif(json.asker_count >= 0){\n"
            + "\t\t\t$('#c_asker_count').html(json.asker_count);\n"
            + "\t\t\tif(json.ask_mode)\n"
            + "\t\t\t\t$('#RQuestionAction').html(\"<span class='rect'>已问同一问题 | <a href='javascript:ask_too(107307,false)'>取消？</a></span>\");\n"
            + "\t\t\telse\n"
            + "\t\t\t\t$('#RQuestionAction').html(\"<a href='javascript:ask_too(107307,true)' class='rndbutton'><span>我想问同样的问题</span></a>\");\t\t\t\n"
            + "\t\t}\n"
            + "\t\telse{\n"
            + "\t\t\t$('#RQuestionAction').poshytip({\n"
            + "\t\t\t\tclassName: 'tip-yellowsimple',\n"
            + "\t\t\t\tcontent: json.msg,\n"
            + "\t\t\t\tshowOn: 'none',\n"
            + "\t\t\t\talignTo: 'target',\n"
            + "\t\t\t\talignX: 'center',\n"
            + "\t\t\t\talignY: 'top',\n"
            + "\t\t\t\toffsetY: 6\n"
            + "\t\t\t});\n"
            + "\t\t\t$('#RQuestionAction').poshytip('show');\n"
            + "\t\t\tvar t = setTimeout(function(){\n"
            + "\t\t\t\tclearTimeout(t);\n"
            + "\t\t\t\t$('#RQuestionAction').poshytip('destroy');\n"
            + "\t\t\t},4000);\n"
            + "\t\t}\n"
            + "\t});\n"
            + "}\n"
            + "function delete_q(qid){\n"
            + "\tif(!confirm(\"您确认要删除此问题吗，删除的数据不可恢复？\"))\n"
            + "\t\treturn ;\n"
            + "\t\tajax_post(\"/action/question/delete?id=\"+qid+\"&hash=-500641190\",\"\",function(html){\n"
            + "\t\tif(html.length>0)\n"
            + "\t\t\talert(html);\n"
            + "\t\telse{\n"
            + "\t\t\tlocation.href = \"/question\";\n"
            + "\t\t}\n"
            + "\t});\n"
            + "}\n"
            + "function edit_answer(aid){\n"
            + "\tlocation.href=\"/question/edit_answer?id=\"+aid;\n"
            + "}\n"
            + "function delete_answer(aid,hash){\n"
            + "\tif(!confirm(\"您确认要删除此答案吗，删除的数据不可恢复？\"))\n"
            + "\t\treturn ;\n"
            + "\tajax_post(\"/action/question/delete_answer?id=\"+aid+\"&hash=\"+hash,\"\",function(html){\n"
            + "\t\tif(html.length>0)\n"
            + "\t\t\talert(html);\n"
            + "\t\telse{\n"
            + "\t\t\t$('#answer_'+aid).fadeOut();\n"
            + "\t\t}\n"
            + "\t});\n"
            + "}\n"
            + "function delete_post_reply(aid,hash){\n"
            + "\tif(!confirm(\"您确认要删除此评论吗，删除的数据不可恢复？\"))\n"
            + "\t\treturn ;\n"
            + "\tajax_post(\"/action/question/delete_answer?id=\"+aid+\"&hash=\"+hash,\"\",function(html){\n"
            + "\t\tif(html.length>0)\n"
            + "\t\t\talert(html);\n"
            + "\t\telse{\n"
            + "\t\t\t$('#PostReply_'+aid).fadeOut();\n"
            + "\t\t}\n"
            + "\t});\n"
            + "}\n"
            + "function delete_q_rpl(qid, rid){\n"
            + "\tif(!confirm(\"删除补充说明会被扣威望值，是否继续？\"))\n"
            + "\t\treturn ;\n"
            + "\tajax_post(\"/action/question/delete_detail?id=\"+rid,\"\",function(html){\n"
            + "\t\tif(html.length>0)\n"
            + "\t\t\talert(html);\n"
            + "\t\telse\n"
            + "\t\t\t$(\"#q_reply_\"+rid).fadeOut();\n"
            + "\t});\n"
            + "}\n"
            + "function close_tip(tid){$('#'+tid).poshytip('destroy');}\n"
            + "//答案投票\n"
            + "function vote_answer(qid, vote_up, need_confirm){\n"
            + "\tif(need_confirm && !vote_up){\n"
            + "\t\tif(!$('#a_post_votedown_' + qid).hasClass('bold')){\n"
            + "\t\t\tvar vote_down_confirm_msg = \"<p>此操作将会扣掉你1个积分，是否继续？</p><p style='margin-top:10px;'><a href='javascript:vote_answer(\"+qid+\",false,false)' class='rbtn' style='margin:0 10px 0 50px;'><span>确定</span></a><a href=\\\"javascript:close_tip('a_post_votedown_\" + qid +\"')\\\" class='rbtn'><span>取消</span></a></p>\";\t\t\t\n"
            + "\t\t\t$('#a_post_votedown_' + qid).poshytip({\n"
            + "\t\t\t\tclassName: 'tip-yellowsimple',\n"
            + "\t\t\t\tcontent: vote_down_confirm_msg,\n"
            + "\t\t\t\tshowOn: 'none',\n"
            + "\t\t\t\tslide: false,\n"
            + "\t\t\t\tfade: false,\n"
            + "\t\t\t\talignTo: 'target',\n"
            + "\t\t\t\talignX: 'center',\n"
            + "\t\t\t\toffsetY: 8\n"
            + "\t\t\t});\n"
            + "\t\t\t$('#a_post_votedown_' + qid).poshytip('show');\n"
            + "\t\t\treturn;\n"
            + "\t\t}\n"
            + "\t}\n"
            + "\tif(!need_confirm){\n"
            + "\t\t$('#a_post_votedown_' + qid).poshytip('destroy');\n"
            + "\t}\n"
            + "\tajax_post(\"/action/question/vote_answer?id=\"+qid+\"&vote=\"+vote_up+\"&user=190591\",\"\",function(data){\n"
            + "\t\tjson = eval('('+data+')');\n"
            + "\t\tif(json.msg){\n"
            + "\t\t\tvar aid = vote_up?\"a_post_voteup_\":\"a_post_votedown_\";\n"
            + "\t\t\taid += qid;\n"
            + "\t\t\t$('#'+aid).poshytip({\n"
            + "\t\t\t\tclassName: 'tip-yellowsimple',\n"
            + "\t\t\t\tcontent: json.msg,\n"
            + "\t\t\t\tshowOn: 'none',\n"
            + "\t\t\t\talignTo: 'target',\n"
            + "\t\t\t\talignX: 'center',\n"
            + "\t\t\t\talignY: 'top',\n"
            + "\t\t\t\toffsetY: 6\n"
            + "\t\t\t});\n"
            + "\t\t\t$('#'+aid).poshytip('show');\n"
            + "\t\t\tvar t = setTimeout(function(){\n"
            + "\t\t\t\tclearTimeout(t);\n"
            + "\t\t\t\t$('#'+aid).poshytip('destroy');\n"
            + "\t\t\t},2000);\n"
            + "\t\t\t//jQuery.fancybox(\"<div class='error_box'>\"+json.msg+\"</div>\");\n"
            + "\t\t}\n"
            + "\t\telse{\n"
            + "\t\t\tif(vote_up){\n"
            + "\t\t\t\t$('#post_voteup_'+qid).html('('+json.vote+')');\n"
            + "\t\t\t\t$('#a_post_voteup_'+qid).toggleClass('bold');\n"
            + "\t\t\t}\n"
            + "\t\t\telse{\n"
            + "\t\t\t\t$('#post_votedown_'+qid).html('('+json.vote+')');\n"
            + "\t\t\t\t$('#a_post_votedown_'+qid).toggleClass('bold');\n"
            + "\t\t\t}\n"
            + "\t\t}\n"
            + "\t});\n"
            + "}\n"
            + "//问题投票 \n"
            + "$('#vote_up').click(function(){\n"
            + "\tif(this.clickTimeout){\n"
            + "        // 双击\n"
            + "        clearTimeout(this.clickTimeout);\n"
            + "        this.clickTimeout = null;\n"
            + "\t\talert(\"不用那么费劲啦，点击一下就够了:)\");\n"
            + "    }\n"
            + "    else{\n"
            + "        // 单击\n"
            + "        var elem = this;\n"
            + "        this.clickTimeout = setTimeout(function(){\n"
            + "            // 执行点击动作\n"
            + "            elem.clickTimeout = null;\n"
            + "\t\t\tvote_question(107307,true, true);\n"
            + "        }, 250);\n"
            + "    }\n"
            + "    //阻止链接onclick时的默认行为\n"
            + "    return false;\n"
            + "});\n"
            + "$('#vote_down').click(function(){\n"
            + "\tvote_question(107307,false, true);\n"
            + "\t/*\n"
            + "\tif(this.clickTimeout){\n"
            + "        // 双击\n"
            + "        clearTimeout(this.clickTimeout);\n"
            + "        this.clickTimeout = null;\n"
            + "\t\talert(\"不用那么费劲啦，点击一下就够了:)\");\n"
            + "    }\n"
            + "    else{\n"
            + "        // 单击\n"
            + "        var elem = this;\n"
            + "        this.clickTimeout = setTimeout(function(){\n"
            + "            // 执行点击动作\n"
            + "            elem.clickTimeout = null;\n"
            + "\t\t\tvote_question(107307,false, true);\n"
            + "        }, 250);\n"
            + "    }\n"
            + "    //阻止链接onclick时的默认行为\n"
            + "\t*/\n"
            + "    return false;\n"
            + "});\n"
            + "function vote_question(qid, vote_up, need_confirm){\n"
            + "\tif(need_confirm && !vote_up){\n"
            + "\t\tif($('#Vote #vote_down').hasClass('ask_vote_down')){\n"
            + "\t\t\tvar vote_down_confirm_msg = \"<p>踩问题将会扣掉你1个积分，是否继续？</p><p style='margin-top:10px;'><a href='javascript:vote_question(107307,false,false)' class='rbtn' style='margin-right:10px;'><span>确定</span></a><a href=\\\"javascript:close_tip('vote_down')\\\" class='rbtn'><span>取消</span></a></p>\";\n"
            + "\t\t\t$('#Vote #vote_down').poshytip({\n"
            + "\t\t\t\tclassName: 'tip-yellowsimple',\n"
            + "\t\t\t\tcontent: vote_down_confirm_msg,\n"
            + "\t\t\t\tslide: false,\n"
            + "\t\t\t\tfade: false,\n"
            + "\t\t\t\tshowOn: 'none',\n"
            + "\t\t\t\talignTo: 'target',\n"
            + "\t\t\t\talignX: 'inner-right',\n"
            + "\t\t\t\talignY: 'bottom',\n"
            + "\t\t\t\toffsetX: -30,\n"
            + "\t\t\t\toffsetY: 15\n"
            + "\t\t\t});\n"
            + "\t\t\t$('#Vote #vote_down').poshytip('show');\n"
            + "\t\t\treturn;\n"
            + "\t\t}\n"
            + "\t}\n"
            + "\tif(!need_confirm){\n"
            + "\t\t$('#Vote #vote_down').poshytip('destroy');\n"
            + "\t}\n"
            + "\tajax_post(\"/action/question/vote?user=190591&id=\"+qid+\"&vote=\"+vote_up,\"\",function(data){\n"
            + "\t\tjson = eval('('+data+')');\n"
            + "\t\tif(json.msg){\n"
            + "\t\t\tvar aid = vote_up?\"vote_up\":\"vote_down\";\n"
            + "\t\t\t$('#'+aid).poshytip({\n"
            + "\t\t\t\tclassName: 'tip-yellowsimple',\n"
            + "\t\t\t\tcontent: json.msg,\n"
            + "\t\t\t\tshowOn: 'none',\n"
            + "\t\t\t\talignTo: 'target',\n"
            + "\t\t\t\talignX: 'inner-right',\n"
            + "\t\t\t\talignY: 'bottom',\n"
            + "\t\t\t\toffsetX: 5,\n"
            + "\t\t\t\toffsetX: -35\n"
            + "\t\t\t});\n"
            + "\t\t\t$('#'+aid).poshytip('show');\n"
            + "\t\t\tvar t = setTimeout(function(){\n"
            + "\t\t\t\tclearTimeout(t);\n"
            + "\t\t\t\t$('#'+aid).poshytip('destroy');\n"
            + "\t\t\t},2000);\n"
            + "\t\t}\n"
            + "\t\telse{\n"
            + "\t\t\t\t\t\tif(vote_up){\n"
            + "\t\t\t\t$('#Vote .vote-up-count').html(json.vote_up);\n"
            + "\t\t\t\t$('#Vote #vote_up').toggleClass('ask_vote_up');\n"
            + "\t\t\t\t$('#Vote #vote_up').toggleClass('ask_vote_uped');\n"
            + "\t\t\t}\n"
            + "\t\t\telse{\n"
            + "\t\t\t\t$('#Vote .vote-down-count').html(json.vote_down);\n"
            + "\t\t\t\t$('#Vote #vote_down').toggleClass('ask_vote_down');\n"
            + "\t\t\t\t$('#Vote #vote_down').toggleClass('ask_vote_downed');\n"
            + "\t\t\t}\n"
            + "\t\t}\n"
            + "\t});\n"
            + "}\n"
            + "//评论答案\n"
            + "function reply_to_post(postid,uid){\n"
            + "\tpopup(\"/action/ajax/reply_to_post?id=\" + postid + \"&refer=\"+uid);\n"
            + "\t}\n"
            + "\n"
            + "function show_rp_next(postid,current,total){\n"
            + "\tif(current < total){\n"
            + "\t\tvar next_page = current + 1;\n"
            + "    \tvar url = \"/question/post_replies?answer=\"+postid+\"&rp=\"+next_page;\n"
            + "    \tajax_post(url,\"\",function(html){\n"
            + "    \t\t$('#PostReplies_'+postid).html(html);\n"
            + "\t\t\t\taddRepliesHoverEvent();\n"
            + "\t\t\t});\n"
            + "\t}\n"
            + "}\n"
            + "\n"
            + "function addRepliesHoverEvent(){\n"
            + "\t$(\"li [id ^= 'PostReply']\").hover(function(){\n"
            + "\t\t$(this).addClass(\"hover\");\n"
            + "\t},function(){\n"
            + "\t\t$(this).removeClass(\"hover\");\n"
            + "\t});\n"
            + "}\n"
            + "\n"
            + "function show_rp_prev(postid,current,total){\n"
            + "\tif(current > 1){\n"
            + "\t\tvar next_page = current - 1;\n"
            + "    \tvar url = \"/question/post_replies?answer=\"+postid+\"&rp=\"+next_page;\n"
            + "    \tajax_post(url,\"\",function(html){\n"
            + "    \t\t$('#PostReplies_'+postid).html(html);\n"
            + "\t\t\taddRepliesHoverEvent();\n"
            + "    \t});\n"
            + "\t}\n"
            + "}\n"
            + "function mark_as_top(qid, as_top) {\n"
            + "\tvar args = \"id=\"+qid+\"&top=\"+as_top;\n"
            + "\tajax_post(\"/action/question/mark_as_top\",args,function(html){\n"
            + "\t\talert(html);\n"
            + "\t});\n"
            + "}\n"
            + "function mark_as_best(postid, is_best){\n"
            + "\tvar args = \"id=\"+postid+\"&best=\"+(is_best?1:0);\n"
            + "\tajax_post(\"/action/question/mark_as_best\",args,function(html){\n"
            + "    \tif(html.length>0){\n"
            + "    \t\t$('#best_answer_'+postid).poshytip({\n"
            + "    \t\t\tclassName: 'tip-yellowsimple',\n"
            + "    \t\t\tcontent: html,\n"
            + "    \t\t\tshowOn: 'none',\n"
            + "    \t\t\talignTo: 'target',\n"
            + "    \t\t\talignX: 'center',\n"
            + "    \t\t\talignY: 'top',\n"
            + "    \t\t\toffsetY: 6\n"
            + "    \t\t});\n"
            + "    \t\t$('#best_answer_'+postid).poshytip('show');\n"
            + "    \t\tvar t = setTimeout(function(){\n"
            + "    \t\t\tclearTimeout(t);\n"
            + "    \t\t\t$('#best_answer_'+postid).poshytip('destroy');\n"
            + "    \t\t},2000);\n"
            + "    \t}\n"
            + "    \telse{\n"
            + "\t\t\tif(is_best)\n"
            + "\t\t\t\t$('#answer_'+postid).addClass('Best');\n"
            + "\t\t\telse\n"
            + "\t\t\t\t$('#answer_'+postid).removeClass('Best');\n"
            + "    \t}\n"
            + "\t});\n"
            + "}\n"
            + "function edit_tags(qid){\n"
            + "\tpopup(\"/question/edit_tags?question=\"+qid);\n"
            + "}\n"
            + "function edit_catalogs(qid){\n"
            + "\tpopup(\"/admin/catalog/set-catalogs?parent=1&type=2&id=\"+qid);\n"
            + "}\n"
            + "function event_apply(event_id){\t\n"
            + "\tpopup(\"/action/ajax/event_apply\",\"id=\"+event_id);\n"
            + "}\n"
            + "function cancel_apply(event_id){\n"
            + "\tif(confirm(\"您确认要取消参加此次活动吗？\")){\n"
            + "\t\tajax_post(\"/action/event/cancel\",\"event=\"+event_id,function(html){\n"
            + "\t\t\tif(html.length>0)\n"
            + "\t\t\t\talert(html);\n"
            + "\t\t\telse\n"
            + "\t\t\t\talert('已取消参加此次活动，感谢您的支持:)');\n"
            + "\t\t});\n"
            + "\t}\n"
            + "}\n"
            + "\n"
            + "var favor_ok = \"<p class='favor_ok'>已成功添加到收藏夹<br><br> <a href='http://my.oschina.net/flashsword/favorites?type=$DAISY_OBJ_TYPE'>我的收藏夹</a> | <a href='javascript:close_favor()'>关闭</a></p>\";\n"
            + "function delete_favor(obi_id, obj_type){\n"
            + "\tif(!confirm('确定取消收藏？')) return;\n"
            + "\t$.post(\"/action/favorite/cancel?type=\"+obj_type+\"&id=\"+obi_id+\"&user=190591\",function(html){\n"
            + "\t\t$('#favor_trigger').parent('div').removeClass('ask_collected').addClass('ask_collect');\n"
            + "\t\t$('#favor_trigger').attr('title','添加到收藏');\n"
            + "    \t$('#p_favor_count').html(html);\n"
            + "\t\t$('#favor_trigger').unbind('click');\n"
            + "\t\t$('#favor_trigger').click(function(){add_to_favor(107307,2);});\n"
            + "\t});\n"
            + "}\n"
            + "function add_to_favor(obj_id, obj_type){\n"
            + "    var dlg_favor = \"<div id='favor_form'><p>多个标签使用逗号(,)隔开，最多三个</p><form action='/action/favorite/add?user=190591' height='60px' width='200px' method='POST'>\";\n"
            + "\tdlg_favor += \"<input type='hidden' name='id' value='\"+obj_id+\"'/>\";\n"
            + "\tdlg_favor += \"<input type='hidden' name='type' value='\"+obj_type+\"'/>\";\n"
            + "\tdlg_favor += \"<input type='text' name='tags' size='25' class='_favor_input' id='_favor_tags'/>\";\n"
            + "\tdlg_favor += \"<input type='submit' value='收藏' class='_favor_button'/><input type='button' value='取消' onclick='close_favor();' class='_favor_button'/><a id='TagsSwitcher' state='off'>选取标签↓</a></form>\";\n"
            + "\tdlg_favor += \"<div id='MyTags' ></div></div>\";\n"
            + "    $('#favor_trigger').poshytip('destroy');\n"
            + "    $('#favor_trigger').poshytip({\n"
            + "    \tclassName: 'tip-yellowsimple',\n"
            + "    \tcontent: dlg_favor,\n"
            + "    \tshowOn: 'none',\n"
            + "    \talignTo: 'target',\t\n"
            + "\t\talignX: 'inner-right',\n"
            + "\t\talignY: 'bottom',\n"
            + "\t\toffsetX: -20,\n"
            + "\t\toffsetY: 15\n"
            + "    });\n"
            + "    $('#favor_trigger').poshytip('show');\n"
            + "\t$('#_favor_tags').focus();\n"
            + "\t$('#favor_form form').ajaxForm({\n"
            + "\t\tsuccess: function(html) {\n"
            + "\t\t\t$('#favor_trigger').parent('div').removeClass('ask_collect').addClass('ask_collected');\n"
            + "\t\t\t$('#favor_trigger').attr('title','取消收藏');\n"
            + "\t\t\t$('#p_favor_count').html(html);\n"
            + "\t\t\t$('#favor_trigger').unbind('click');\n"
            + "\t\t\t$('#favor_trigger').click(function(){delete_favor(107307,2);});\n"
            + "\t\t\t$('#favor_form').html(favor_ok);\n"
            + "\t\t\tsetTimeout(\"close_favor()\",3000);\n"
            + "\t\t}\n"
            + "\t});\n"
            + "\t$(\"#TagsSwitcher\").one(\"click\",function(){\n"
            + "\t\t//加载标签数据\n"
            + "\t\t$(\"#MyTags\").load('/action/ajax/get_my_tags');\n"
            + "       \t$(\"#MyTags\").toggle();\n"
            + "\t\t$(this).html(\"收起标签↑\");\n"
            + "        $(this).attr(\"state\",'on');\n"
            + "        $(this).click(function(){\n"
            + "        \t$(\"#MyTags\").toggle();\n"
            + "        \tvar state = $(this).attr(\"state\");\n"
            + "        \tif(state=='off'){\n"
            + "        \t\t$(this).html(\"收起标签↑\");\n"
            + "        \t\t$(this).attr(\"state\",'on');\n"
            + "        \t}else{\n"
            + "        \t\t$(this).html(\"选取标签↓\");\n"
            + "        \t\t$(this).attr(\"state\",'off');\n"
            + "        \t}\n"
            + "        });\n"
            + "\t});\n"
            + "\n"
            + "}\n"
            + "function close_favor(elem_id){\n"
            + "    $('#favor_trigger').poshytip('destroy');\n"
            + "}\n"
            + "function setTag(tv){\n"
            + "\tvar t = $(\"._favor_input\");\n"
            + "\tvar value = t.val();\n"
            + "\tif(value!=\"\")\n"
            + "\t\tt.val(value+\",\"+tv);\n"
            + "\telse\n"
            + "\t\tt.val(tv)\n"
            + "}\n"
            + "//-->\n"
            + "</script><div class='clear'></div></div>\n"
            + "\t<div id=\"OSC_Footer\" class='CenterDiv'><style>\n"
            + ".oscapp {text-align:left; width:220px;}\n"
            + ".oscapp span {float:left;width:140px;}\n"
            + ".oscapp a {float:left;text-indent:-9999em;width:16px;margin-left:8px;}\n"
            + ".oscapp a.android {background:url('/img/android.gif') no-repeat left center;}\n"
            + ".oscapp a.iphone {background:url('/img/iphone.gif') no-repeat left center;}\n"
            + ".oscapp a.wp7 {background:url('/img/wp7.gif') no-repeat left center;}\n"
            + "</style>\n"
            + "<table width='100%'><tr>\n"
            + "<td align='left'>&copy; 开源中国(OsChina.NET) | <a href=\"http://www.oschina.net/home/about\">关于我们</a> | <a href=\"mailto:oschina.net@gmail.com\">广告联系</a> | <a href=\"http://weibo.com/oschina2010\" target=\"_blank\">@新浪微博</a> | <a href=\"http://m.oschina.net/\">开源中国手机版</a> | <a href='http://www.miitbeian.gov.cn/' target='_blank' style='color:#737573;text-decoration:none;'>粤ICP备12009483号-3</a></td>\n"
            + "<td class='oscapp'>\n" + "\t<span>开源中国手机客户端：</span>\n"
            + "\t<a href=\"http://www.oschina.net/app\" class='android' title='Android客户端'>Android</a>\n"
            + "\t<a href=\"http://www.oschina.net/app\" class='iphone' title='iPhone 客户端'>iPhone</a>\n"
            + "\t<a href=\"http://www.oschina.net/app\" class='wp7' title='Windows Phone 客户端'>WP7</a>\n" + "</td>\n"
            + "</tr>\n" + "</table>\n" + "<script type='text/javascript'>\n" + "<!--\n"
            + "if (top.location != self.location)top.location=self.location;\n" + "//-->\n" + "</script></div>\n"
            + "</div>\n" + "</body>\n" + "</html>\n"
            + "<!-- Generated by OsChina.NET (init:1[ms],page:43[ms],ip:60.55.11.77) -->";

    @Test
    public void test() {
        String text = "\n"
                + "<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\n"
                + "<html xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"zh-CN\" dir=\"ltr\">\n"
                + "  <head>\n"
                + "    <meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\"/>\n"
                + "    <title>jsoup 解析页面商品信息 -  - ITeye技术网站</title>\n"
                + "    <meta name=\"description\" content=\"今天用了jsoup 解析页面商品信息，感觉比用xpath获取信息准确多了     下面就记录一下：  一、首先去 http://jsoup.org/download 下载jsoup的jar包。     二、下面记录下相关代码：              Document doc = Jsoup.connect(url).get();    //将htm转换成Document类型数据结构        ...\" />\n"
                + "    <meta name=\"keywords\" content=\" jsoup 解析页面商品信息\" />\n"
                + "    <link rel=\"shortcut icon\" href=\"/images/favicon.ico\" type=\"image/x-icon\" />\n"
                + "    <link rel=\"search\" type=\"application/opensearchdescription+xml\" href=\"/open_search.xml\" title=\"ITeye\" />\n"
                + "    <link href=\"/rss\" rel=\"alternate\" title=\"\" type=\"application/rss+xml\" />\n"
                + "    <link href=\"http://www.iteye.com/stylesheets/blog.css?1365750118\" media=\"screen\" rel=\"stylesheet\" type=\"text/css\" />\n"
                + "<link href=\"http://www.iteye.com/stylesheets/themes/blog/blue.css?1326191326\" media=\"screen\" rel=\"stylesheet\" type=\"text/css\" />\n"
                + "    <script src=\"http://www.iteye.com/javascripts/application.js?1358214518\" type=\"text/javascript\"></script>\n"
                + "    <script type=\"text/javascript\">\n"
                + "\n"
                + "  var _gaq = _gaq || [];\n"
                + "  _gaq.push(['_setAccount', 'UA-535605-1']);\n"
                + "  _gaq.push(['_setDomainName', 'iteye.com']);\n"
                + "  _gaq.push(['_trackPageview']);\n"
                + "\n"
                + "  (function() {\n"
                + "    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;\n"
                + "    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';\n"
                + "    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);\n"
                + "  })();\n"
                + "\n"
                + "</script>\n"
                + "\n"
                + "\n"
                + "      <link href=\"http://www.iteye.com/javascripts/syntaxhighlighter/SyntaxHighlighter.css?1348819953\" media=\"screen\" rel=\"stylesheet\" type=\"text/css\" />\n"
                + "  <script src=\"http://www.iteye.com/javascripts/syntaxhighlighter/shCoreCommon.js?1325907333\" type=\"text/javascript\"></script>\n"
                + "<script src=\"http://www.iteye.com/javascripts/hotkey.js?1324994303\" type=\"text/javascript\"></script>\n"
                + "  <script src=\"http://www.iteye.com/javascripts/code_favorites.js?1358214518\" type=\"text/javascript\"></script>\n"
                + "<script src=\"http://www.iteye.com/javascripts/weiboshare.js?1324994303\" type=\"text/javascript\"></script>\n"
                + "  <link href=\"http://www.iteye.com/javascripts/editor/css/ui.css?1324994303\" media=\"screen\" rel=\"stylesheet\" type=\"text/css\" />\n"
                + "  <script src=\"http://www.iteye.com/javascripts/editor/compress.js?1358129160\" type=\"text/javascript\"></script>\n"
                + "  </head>\n"
                + "  <body>\n"
                + "    <div id=\"header\">\n"
                + "      <div id=\"blog_site_nav\">\n"
                + "  <a href=\"http://www.iteye.com/\" class=\"homepage\">首页</a>\n"
                + "  <a href=\"http://www.iteye.com/news\">资讯</a>\n"
                + "  <a href=\"http://www.iteye.com/magazines\">精华</a>\n"
                + "  <a href=\"http://www.iteye.com/forums\">论坛</a>\n"
                + "  <a href=\"http://www.iteye.com/ask\">问答</a>\n"
                + "  <a href=\"http://www.iteye.com/blogs\">博客</a>\n"
                + "  <a href=\"http://www.iteye.com/blogs/subjects\">专栏</a>\n"
                + "  <a href=\"http://www.iteye.com/groups\">群组</a>\n"
                + "  <a href=\"#\" onclick=\"return false;\" id=\"msna\"><u>更多</u> <small>▼</small></a>\n"
                + "  <div class=\"quick_menu\" style=\"display:none;\">\n"
                + "    <a target=\"_blank\" href=\"http://job.iteye.com/iteye\">招聘</a>\n"
                + "    <a href=\"http://www.iteye.com/search\">搜索</a>\n"
                + "  </div>\n"
                + "</div>\n"
                + "\n"
                + "      <div id=\"user_nav\">\n"
                + "  \n"
                + "        <a href=\"http://flashsword20.iteye.com\" title=\"查看我的博客首页\" class=\"welcome\">欢迎flashsword20</a>\n"
                + "    <a id=\"notifications_count\" href=\"http://my.iteye.com/notifications\">0</a>\n"
                + "    \n"
                + "      <a href=\"http://my.iteye.com/messages\" title=\"你有新的站内短信\"><img alt=\"Newpm\" src=\"http://www.iteye.com/images/newpm.gif?1324994303\" />收件箱(3)</a>\n"
                + "    \n"
                + "    <a href=\"http://my.iteye.com\" title=\"我的应用首页\">我的应用</a>\n"
                + "    <div class=\"quick_menu\" style=\"display:none;\">\n"
                + "      <a href=\"http://my.iteye.com/feed\" title=\"我关注的好友动态消息\">我的关注</a>\n"
                + "      <a href=\"http://my.iteye.com/mygroup\" title=\"我加入的群组最新话题\">我的群组</a>\n"
                + "      <a href=\"http://my.iteye.com/myresume\" title=\"我的个人简历\">我的简历</a>\n"
                + "      <a href=\"http://my.iteye.com/admin/album\" title=\"我的个人简历\">我的相册</a>\n"
                + "      <a href=\"http://my.iteye.com/admin/link\" title=\"我收藏的网络资源链接\">我的收藏</a>\n"
                + "      <a href=\"http://my.iteye.com/admin/code\" title=\"我收藏的代码\">我的代码</a>\n"
                + "      <a href=\"http://my.iteye.com/admin/weibo\" title=\"用微博发表简短的话题\">我的微博</a>\n"
                + "    </div>\n"
                + "    <a href=\"http://flashsword20.iteye.com/admin\" title=\"管理我的博客\">我的博客</a>\n"
                + "    <a href=\"http://my.iteye.com/profile\" title=\"修改我的个人设置\">设置</a>\n"
                + "    <a href=\"/logout\" class=\"nobg\" onclick=\"var f = document.createElement('form'); f.style.display = 'none'; this.parentNode.appendChild(f); f.method = 'POST'; f.action = this.href;var m = document.createElement('input'); m.setAttribute('type', 'hidden'); m.setAttribute('name', '_method'); m.setAttribute('value', 'put'); f.appendChild(m);var s = document.createElement('input'); s.setAttribute('type', 'hidden'); s.setAttribute('name', 'authenticity_token'); s.setAttribute('value', 'TDmn/IsWi1Aj4CXKfdMKZZzALz6jbRU/Biw0/QHnsVw='); f.appendChild(s);f.submit();return false;\">退出</a>\n"
                + "  </div>\n"
                + "\n"
                + "    </div>\n"
                + "\n"
                + "    <div id=\"page\">\n"
                + "      <div id=\"branding\" class=\"clearfix\">\n"
                + "        <div id=\"blog_name\">\n"
                + "          <h1><a href=\"/\">masong1987</a></h1>\n"
                + "        </div>\n"
                + "        <div id='fd'></div>\n"
                + "        <div id=\"blog_navbar\">\n"
                + "          <ul>\n"
                + "            <li class='blog_navbar_for'><a href=\"http://masong1987.iteye.com\"><strong>博客</strong></a></li>\n"
                + "            <li ><a href=\"/weibo\">微博</a></li>\n"
                + "            <li ><a href=\"/album\">相册</a></li>\n"
                + "            <li ><a href=\"/link\">收藏</a></li>\n"
                + "            <li ><a href=\"/blog/guest_book\">留言</a></li>\n"
                + "            <li ><a href=\"/blog/profile\">关于我</a></li>\n"
                + "          </ul>\n"
                + "    \n"
                + "          <div class=\"search\">\n"
                + "            <form action=\"/blog/search\" method=\"get\">\n"
                + "              <input class=\"search_text\" id=\"query\" name=\"query\" style=\"margin-left: 10px;width: 110px;\" type=\"text\" value=\"\" />\n"
                + "              <input class=\"submit_search\" type=\"submit\" value=\"\" />\n"
                + "            </form>\n"
                + "          </div> \n"
                + "          <div id=\"fd\"></div>         \n"
                + "        </div>\n"
                + "      </div>\n"
                + "      \n"
                + "      <div id=\"content\" class=\"clearfix\">\n"
                + "        <div id=\"main\">\n"
                + "          \n"
                + "\n"
                + "\n"
                + "\n"
                + "          \n"
                + "\n"
                + "\n"
                + "<div class=\"blog_main\">\n"
                + "  <div class=\"blog_title\">\n"
                + "    <h3>\n"
                + "      <a href=\"/blog/1191016\">jsoup 解析页面商品信息</a>\n"
                + "      <em class=\"actions\">      </em>\n"
                + "    </h3>\n"
                + "    <ul class='blog_categories'><strong>博客分类：</strong> <li><a href=\"/category/182324\">爬虫</a></li> </ul>\n"
                + "        <div class='news_tag'>&nbsp;</div>\n"
                + "  </div>\n"
                + "\n"
                + "  <div id=\"blog_content\" class=\"blog_content\">\n"
                + "    <p>今天用了jsoup 解析页面商品信息，感觉比用xpath获取信息准确多了</p>\n"
                + "<p> </p>\n"
                + "<p>下面就记录一下：</p>\n"
                + "<p>一、首先去 <a href=\"http://jsoup.org/download\">http://jsoup.org/download</a> 下载jsoup的jar包。</p>\n"
                + "<p> </p>\n"
                + "<p>二、下面记录下相关代码：</p>\n"
                + "<p> </p>\n"
                + "<p> </p>\n"
                + "<p>      Document doc = Jsoup.connect(url).get();    //将htm转换成Document类型数据结构</p>\n"
                + "<p> <br>      doc.select(\"div:has(div) div#spec-n1:has(img) img\").first().attr(\"src\"));    //查找div下含有div的标签</p>\n"
                + "<p>      </p>\n"
                + "<p>      并且 div的id='spec-n1'，此div第一个img标签，img里属性是src的值。</p>\n"
                + "<p> </p>\n"
                + "<p>      doc.select(\"div:has(div) div.crumb:has(a) a:eq(4)\").text();    //查找class='crumb'的div下第4个a标签</p>\n"
                + "<p>      下的值。</p>\n"
                + "<p> </p>\n"
                + "<p>      doc.select(\"div:has(div) div#name:has(h1)\").text();     //查找id='name'的div下的h1标签的值。</p>\n"
                + "<p> </p>\n"
                + "<p>      doc.select(\"tbody:has(tr) td.tdTitle:contains(品牌) + td\").text();     //查找class='tdTitle'的td标签里</p>\n"
                + "<p> </p>\n"
                + "<p>      含有‘品牌’td的下一个td标签中内容。</p>\n"
                + "<p> </p>\n"
                + "<p>      doc.select(\"script[type=text/javascript]:not([src~=[a-zA-Z0-9./\\\\s]+)\");     //查找含有此&lt;script </p>\n"
                + "<p> </p>\n"
                + "<p>      type=\"text/javascript\"&gt;……&lt;/script&gt;内容，不含有script标签中有src属性的script，如：</p>\n"
                + "<p> </p>\n"
                + "<p>      &lt;script src=\"url\" type=\"text/javascript\"&gt;&lt;/script&gt;。</p>\n"
                + "  </div>\n"
                + "\n"
                + "  \n"
                + "\n"
                + "\n"
                + "  <IFRAME SRC=\"/iframe_ggbd/794\" SCROLLING=no WIDTH=468 HEIGHT=60 FRAMEBORDER=0></IFRAME>\n"
                + "  \n"
                + "  <div id=\"bottoms\" class=\"clearfix\">\n"
                + "    \n"
                + "    <div id=\"share_weibo\">分享到：\n"
                + "      <a data-type='sina' href=\"javascript:;\" title=\"分享到新浪微博\"><img src=\"/images/sina.jpg\"></a>\n"
                + "      <a data-type='qq' href=\"javascript:;\" title=\"分享到腾讯微博\"><img src=\"/images/tec.jpg\"></a>\n"
                + "    </div>\n"
                + "  </div>\n"
                + "\n"
                + "  <div class=\"blog_nav\">\n"
                + "    <div class=\"pre_next\">\n"
                + "      <a href=\"/blog/1310327\" class=\"next\" title=\"ibatis中书写SQL语句时使用in遇到的问题\">ibatis中书写SQL语句时使用in遇到的问题</a>\n"
                + "      |\n"
                + "      <a href=\"/blog/1189699\" class=\"pre\" title=\"尚未备份数据库 &quot;***&quot; 的日志尾部。如果该日志包含您不希望丢失的工作，请使用 BACKUP LOG WITH NORECOVERY 备份该日志。请使用 RE\">尚未备份数据库 &quot;***&quot; 的日志尾部。如果该 ...</a>\n"
                + "    </div>\n"
                + "  </div>\n"
                + "  <div class=\"blog_bottom\">\n"
                + "    <ul>\n"
                + "      <li>2011-10-12 18:52</li>\n"
                + "      <li>浏览 692</li>\n"
                + "      <li><a href=\"#comments\">评论(0)</a></li>\n"
                + "      \n"
                + "      \n"
                + "        <li><a href='/admin/link?user_favorite%5Btitle%5D=jsoup+%E8%A7%A3%E6%9E%90%E9%A1%B5%E9%9D%A2%E5%95%86%E5%93%81%E4%BF%A1%E6%81%AF&amp;user_favorite%5Burl%5D=http%3A%2F%2Fmasong1987.iteye.com%2Fblog%2F1191016' target='_blank' class='favorite' onclick=\"$$('.favorite_form_spinner')[0].show();new Ajax.Request('/admin/link/new_xhr?user_favorite%5Btitle%5D=jsoup+%E8%A7%A3%E6%9E%90%E9%A1%B5%E9%9D%A2%E5%95%86%E5%93%81%E4%BF%A1%E6%81%AF&amp;user_favorite%5Burl%5D=http%3A%2F%2Fmasong1987.iteye.com%2Fblog%2F1191016', {method: 'get', onSuccess: function(response){$(document.getElementsByTagName('body')[0]).insert({bottom:response.responseText});$$('.favorite_form_spinner')[0].hide();}});return false;\">收藏</a><img alt=\"Spinner\" class=\"favorite_form_spinner\" src=\"http://www.iteye.com/images/spinner.gif?1324994303\" style=\"vertical-align:bottom;margin-left:7px;display:none;\" /></li>\n"
                + "      \n"
                + "      <li>分类:<a href=\"http://www.iteye.com/blogs/category/opensource\">开源软件</a></li>      \n"
                + "      <li class='last'><a href=\"http://www.iteye.com/wiki/blog/1191016\" target=\"_blank\" class=\"more\">相关推荐</a></li>\n"
                + "    </ul>\n"
                + "  </div>\n"
                + "\n"
                + "  <div class=\"blog_comment\">\n"
                + "    <h5>评论</h5>\n"
                + "    <a id=\"comments\" name=\"comments\"></a>\n"
                + "    \n"
                + "    \n"
                + "    \n"
                + "  </div>\n"
                + "\n"
                + "  <div class=\"blog_comment\">\n"
                + "    <h5>发表评论</h5>\n"
                + "            <form action=\"/blog/1191016\" id=\"comment_form\" method=\"post\" onsubmit=\"return false;\"><div style=\"margin:0;padding:0;display:inline\"><input name=\"authenticity_token\" type=\"hidden\" value=\"TDmn/IsWi1Aj4CXKfdMKZZzALz6jbRU/Biw0/QHnsVw=\" /></div>          \n"
                + "\n"
                + "\n"
                + "  <input type=\"hidden\" id=\"editor_bbcode_flag\"/>\n"
                + "\n"
                + "\n"
                + "\n"
                + "<div id=\"editor_main\"><textarea class=\"validate-richeditor bad-words min-length-5\" cols=\"40\" id=\"editor_body\" name=\"comment[body]\" rows=\"20\" style=\"width: 500px; height: 350px;\"></textarea></div>\n"
                + "\n"
                + "\n"
                + "<script type=\"text/javascript\">\n"
                + "  var editor = new Control.TextArea.Editor(\"editor_body\", \"bbcode\", false);\n"
                + "</script>\n"
                + "\n"
                + "          <p style=\"text-align:right;margin-right:30px;\">(快捷键 Alt+S / Ctrl+Enter) <input class=\"submit\" id=\"quick_reply_button\" name=\"commit\" type=\"submit\" value=\"提交\" /></p>\n"
                + "       </form>\n"
                + "        <script type=\"text/javascript\">\n"
                + "          new HotKey(\"s\",function() {$('quick_reply_button').click();},{altKey: true, ctrlKey: false});\n"
                + "          new HotKey(new Number(13),function() {$('quick_reply_button').click();},{altKey: false, ctrlKey: true});\n"
                + "\n"
                + "          new Validation(\"comment_form\", {immediate: false, onFormValidate: function(result, form){\n"
                + "            if(result) {\n"
                + "              new Ajax.Request('/blog/create_comment/1191016', {\n"
                + "                onFailure:function(response){\n"
                + "                  $('comments').insert({after:response.responseText})\n"
                + "                  form.spinner.hide();\n"
                + "                  Element.scrollTo($('comments'));\n"
                + "                },\n"
                + "                onSuccess:function(response){\n"
                + "                  Element.scrollTo($('comments'));\n"
                + "                  var new_comment = new Element('div', {}).update(response.responseText).firstChild;\n"
                + "                  var comment_id = new_comment.readAttribute('id');\n"
                + "\n"
                + "                  $('comments').insert({after:response.responseText});\n"
                + "                  $('editor_body').value = \"\";\n"
                + "\n"
                + "                  var css_rules = '#' + comment_id + ' pre';\n"
                + "                  highlightNewAddContent(css_rules);\n"
                + "                  processComment();\n"
                + "                  code_favorites_init(css_rules);\n"
                + "                  \n"
                + "                  form.spinner.hide();\n"
                + "                }, parameters:Form.serialize(form)\n"
                + "              });\n"
                + "            }\n"
                + "        }});\n"
                + "        </script>\n"
                + "        </div>\n"
                + "</div>\n"
                + "\n"
                + "\n"
                + "<script type=\"text/javascript\">\n"
                + "  dp.SyntaxHighlighter.HighlightAll('code', true, true);\n"
                + "\n"
                + "  $$('#main .blog_content pre[name=code]').each(function(pre, index){ // blog content\n"
                + "    var post_id = 1191016;\n"
                + "    var location = window.location;\n"
                + "    source_url = location.protocol + \"//\" + location.host + location.pathname + location.search;\n"
                + "    pre.writeAttribute('codeable_id', post_id);\n"
                + "    pre.writeAttribute('codeable_type', \"OschinaBlog\");\n"
                + "    pre.writeAttribute('source_url', source_url);\n"
                + "    pre.writeAttribute('pre_index', index);\n"
                + "    pre.writeAttribute('title', 'jsoup 解析页面商品信息');\n"
                + "  });\n"
                + "\n"
                + "  fix_image_size($$('div.blog_content img'), 700);\n"
                + "\n"
                + "  function processComment() {\n"
                + "    $$('#main .blog_comment > div').each(function(comment){// comment\n"
                + "      var post_id = comment.id.substr(2);\n"
                + "      $$(\"#\"+comment.id+\" pre[name=code]\").each(function(pre, index){\n"
                + "        var location = window.location;\n"
                + "        source_url = location.protocol + \"//\" + location.host + location.pathname + location.search;\n"
                + "        source_url += \"#\" + comment.id;\n"
                + "        pre.writeAttribute('codeable_id', post_id);\n"
                + "        pre.writeAttribute('codeable_type', \"BlogComment\");\n"
                + "        pre.writeAttribute('source_url', source_url);\n"
                + "        pre.writeAttribute('pre_index', index);\n"
                + "        pre.writeAttribute('title', 'jsoup 解析页面商品信息');\n"
                + "      });\n"
                + "    });\n"
                + "  }\n"
                + "\n"
                + "  function quote_comment(id) {\n"
                + "    new Ajax.Request('/editor/quote', {\n"
                + "      parameters: {'id':id, 'type':'BlogComment'},\n"
                + "      onSuccess:function(response){editor.bbcode_editor.textarea.insertAfterSelection(response.responseText);\n"
                + "        Element.scrollTo(editor.bbcode_editor.textarea.element);}\n"
                + "    });\n"
                + "  }\n"
                + "\n"
                + "  code_favorites_init();\n"
                + "  processComment();\n"
                + "  new WeiboShare({share_buttons: $('share_weibo'), img_scope: $('blog_content')});\n"
                + "</script>\n"
                + "\n"
                + "\n"
                + "\n"
                + "\n"
                + "        </div>\n"
                + "\n"
                + "        <div id=\"local\">\n"
                + "          <div class=\"local_top\"></div>\n"
                + "          <div id=\"blog_owner\">\n"
                + "  <div id=\"blog_owner_logo\"><a href='http://masong1987.iteye.com'><img alt=\"masong1987的博客\" class=\"logo\" src=\"http://www.iteye.com/images/user-logo.gif?1324994303\" title=\"masong1987的博客: \" /></a></div>\n"
                + "  <div id=\"blog_owner_name\">masong1987</div>\n"
                + "</div>\n"
                + "\n"
                + "          <div id=\"blog_actions\">\n"
                + "            <ul>\n"
                + "              <li>浏览: 5401 次</li>\n"
                + "              <li>性别: <img alt=\"Icon_minigender_1\" src=\"http://www.iteye.com/images/icon_minigender_1.gif?1324994303\" title=\"男\" /></li>\n"
                + "              <li>来自: 北京</li>\n"
                + "              <li><img src='/images/status/offline.gif'/></li>\n"
                + "              \n"
                + "                <li>\n"
                + "                  <a href=\"http://my.iteye.com/messages/new?message%5Breceiver_name%5D=masong1987\" class=\"message\" title=\"发送站内短信\">发短消息</a>\n"
                + "                  \n"
                + "                    <a href=\"http://my.iteye.com/feed?subscription%5Bsubscribed_user_name%5D=masong1987\" class=\"subscription\" onclick=\"var f = document.createElement('form'); f.style.display = 'none'; this.parentNode.appendChild(f); f.method = 'POST'; f.action = this.href;var s = document.createElement('input'); s.setAttribute('type', 'hidden'); s.setAttribute('name', 'authenticity_token'); s.setAttribute('value', 'TDmn/IsWi1Aj4CXKfdMKZZzALz6jbRU/Biw0/QHnsVw='); f.appendChild(s);f.submit();return false;\">关注</a>\n"
                + "                  \n"
                + "                </li>\n"
                + "              \n"
                + "            </ul>\n"
                + "          </div>\n"
                + "          <div id=\"user_visits\" class=\"clearfix\">\n"
                + "            <h5>最近访客 <span style='font-weight:normal;font-size:12px;padding-left:30px;'><a href=\"/blog/user_visits\">更多访客&gt;&gt;</a></span></h5>\n"
                + "            \n"
                + "              <div class=\"user_visit\">\n"
                + "                <div class=\"logo\"><a href='http://flashsword20.iteye.com' target='_blank'><img alt=\"flashsword20的博客\" class=\"logo\" src=\"http://www.iteye.com/images/user-logo-thumb.gif?1324994303\" title=\"flashsword20的博客: \" /></a></div>\n"
                + "                <div class=\"left\"><a href='http://flashsword20.iteye.com' target='_blank' title='flashsword20'>flashsword20</a></div>\n"
                + "              </div>\n"
                + "            \n"
                + "              <div class=\"user_visit\">\n"
                + "                <div class=\"logo\"><a href='http://dylinshi126.iteye.com' target='_blank'><img alt=\"dylinshi126的博客\" class=\"logo\" src=\"http://www.iteye.com/images/user-logo-thumb.gif?1324994303\" title=\"dylinshi126的博客: \" /></a></div>\n"
                + "                <div class=\"left\"><a href='http://dylinshi126.iteye.com' target='_blank' title='dylinshi126'>dylinshi126</a></div>\n"
                + "              </div>\n"
                + "            \n"
                + "              <div class=\"user_visit\">\n"
                + "                <div class=\"logo\"><a href='http://machoo.iteye.com' target='_blank'><img alt=\"machoo的博客\" class=\"logo\" src=\"http://www.iteye.com/upload/logo/user/590501/f3e5a6de-fa04-3ca9-92bd-378230b128c8-thumb.jpg?1321544632\" title=\"machoo的博客: 虚拟机终结者\" /></a></div>\n"
                + "                <div class=\"left\"><a href='http://machoo.iteye.com' target='_blank' title='machoo'>machoo</a></div>\n"
                + "              </div>\n"
                + "            \n"
                + "              <div class=\"user_visit\">\n"
                + "                <div class=\"logo\"><a href='http://arson.iteye.com' target='_blank'><img alt=\"arson的博客\" class=\"logo\" src=\"http://www.iteye.com/upload/logo/user/511499/91eafa67-ebbb-32d2-a1c4-fc1c169b5c66-thumb.jpg?1310020715\" title=\"arson的博客: \" /></a></div>\n"
                + "                <div class=\"left\"><a href='http://arson.iteye.com' target='_blank' title='arson'>arson</a></div>\n"
                + "              </div>\n"
                + "            \n"
                + "          </div>\n"
                + "\n"
                + "          \n"
                + "\n"
                + "                      <div id=\"blog_menu\">\n"
                + "              <h5>文章分类</h5>\n"
                + "              <ul>\n"
                + "                <li><a href=\"/\">全部博客 (10)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/180178\">java (1)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/178810\">JavaScript (2)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/181978\">SQLServer (1)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/214133\">MySQL (1)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/182324\">爬虫 (1)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/195652\">ibatis (2)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/195881\">Spring (1)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/216639\">tomcat (0)</a></li>\n"
                + "                \n"
                + "                  <li><a href=\"/category/217595\">数据结构 (1)</a></li>\n"
                + "                \n"
                + "              </ul>\n"
                + "            </div>\n"
                + "            <div id='month_blogs'>\n"
                + "              <h5>社区版块</h5>\n"
                + "              <ul>\n"
                + "                <li><a href=\"/blog/news\">我的资讯</a> (0)</li>\n"
                + "                <li>\n"
                + "                  <a href=\"/blog/post\">我的论坛</a> (0)\n"
                + "                </li>\n"
                + "                <li><a href=\"/blog/answered_problems\">我的问答</a> (0)</li>\n"
                + "              </ul>\n"
                + "            </div>\n"
                + "            <div id=\"month_blogs\">\n"
                + "              <h5>存档分类</h5>\n"
                + "              <ul>\n"
                + "                \n"
                + "                  <li><a href=\"/blog/monthblog/2012-04\">2012-04</a> (2)</li>\n"
                + "                \n"
                + "                  <li><a href=\"/blog/monthblog/2012-03\">2012-03</a> (1)</li>\n"
                + "                \n"
                + "                  <li><a href=\"/blog/monthblog/2012-02\">2012-02</a> (1)</li>\n"
                + "                \n"
                + "                <li><a href=\"/blog/monthblog_more\">更多存档...</a></li>\n"
                + "              </ul>\n"
                + "            </div>\n"
                + "            \n"
                + "            \n"
                + "\n"
                + "            <div id=\"guest_books\">\n"
                + "              <h5>最新评论</h5>\n"
                + "              <ul>\n"
                + "                \n"
                + "                <li>\n"
                + "                  <a href='http://marrymyy.iteye.com' target='_blank' title='marrymyy'>marrymyy</a>： \n"
                + "                  太好了，刚遇到这个问题，有用<br />\n"
                + "                  <a href=\"/blog/1189699#bc2305339\">尚未备份数据库 &quot;***&quot; 的日志尾部。如果该日志包含您不希望丢失的工作，请使用 BACKUP LOG WITH NORECOVERY 备份该日志。请使用 RE</a>\n"
                + "                </li>\n"
                + "                \n"
                + "              </ul>\n"
                + "            </div>\n"
                + "\n"
                + "            <div class=\"local_bottom\"></div>\n"
                + "          \n"
                + "        </div>\n"
                + "      </div>\n"
                + "\n"
                + "      <div id=\"footer\" class=\"clearfix\">\n"
                + "        <div id=\"copyright\">\n"
                + "          <hr/>\n"
                + "          声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。若作者同意转载，必须以超链接形式标明文章原始出处和作者。<br />\n"
                + "          &copy; 2003-2012 ITeye.com.   All rights reserved.  [ 京ICP证110151号  京公网安备110105010620 ]\n"
                + "        </div>\n"
                + "      </div>\n"
                + "    </div>\n"
                + "    <script type=\"text/javascript\">\n"
                + "  document.write(\"<img src='http://stat.iteye.com/?url=\"+ encodeURIComponent(document.location.href) + \"&referrer=\" + encodeURIComponent(document.referrer) + \"&user_id=635408' width='0' height='0' />\");\n"
                + "</script>\n" + "\n" + "    \n" + "    \n" + "  </body>\n" + "</html>\n";
        String text2 = "<div>aaa</div>";
        XpathSelector xpathSelector = new XpathSelector(
                "//div[@id='main']/div[@class='blog_main']/div[@class='blog_title']/h3/a/text()");
        String select = xpathSelector.select(text);
        Assert.assertEquals("jsoup 解析页面商品信息", select);
    }

    @Test
    public void testOschina() {
        Html html1 = new Html(html);
        Assert.assertEquals("再次吐槽easyui", html1.xpath("//*[@class='QTitle']/h1/a/text()").toString());
        Assert.assertNotNull(html1.$("a[href]").xpath("//@href").all());
        Selectors.xpath("/abc/").select("");
    }

    @Test
    public void testXPath2() {
        String text = "<h1>眉山：扎实推进农业农村工作 促农持续增收<br>\n" +
                "<span>2013-07-31 23:29:45&nbsp;&nbsp;&nbsp;来源：<a href=\"http://www.mshw.net\" target=\"_blank\" style=\"color:#AAA\">眉山网</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;责任编辑：张斯炜</span></h1>";
        Xpath2Selector xpathSelector = new Xpath2Selector("//h1/text()");
        Assert.assertEquals("眉山：扎实推进农业农村工作 促农持续增收", xpathSelector.select(text));
    }

    @Test
    public void testXpath2Selector() {
        Xpath2Selector xpath2Selector = new Xpath2Selector("//xhtml:a/@href");
        String select = xpath2Selector.select(html);
        Assert.assertEquals("http://www.oschina.net/", select);

        List<String> selectList = xpath2Selector.selectList(html);
        Assert.assertEquals(113, selectList.size());
        Assert.assertEquals("http://www.oschina.net/", selectList.get(0));
    }

    @Ignore("take long time")
    @Test
    public void performanceTest() {
        Xpath2Selector xpath2Selector = new Xpath2Selector("//a");
        long time = System.currentTimeMillis();
        for (int i = 0; i < 1000; i++) {
            xpath2Selector.selectList(html);
        }
        System.out.println(System.currentTimeMillis() - time);

        XpathSelector xpathSelector = new XpathSelector("//a");
        time = System.currentTimeMillis();
        for (int i = 0; i < 1000; i++) {
            xpathSelector.selectList(html);
        }
        System.out.println(System.currentTimeMillis() - time);

        time = System.currentTimeMillis();
        for (int i = 0; i < 1000; i++) {
            xpath2Selector.selectList(html);
        }
        System.out.println(System.currentTimeMillis() - time);

        CssSelector cssSelector = new CssSelector("a");
        time = System.currentTimeMillis();
        for (int i = 0; i < 1000; i++) {
            cssSelector.selectList(html);
        }
        System.out.println("css " + (System.currentTimeMillis() - time));
    }

    @Ignore("take long time")
    @Test
    public void parserPerformanceTest() throws XPatherException {
        System.out.println(html.length());

        HtmlCleaner htmlCleaner = new HtmlCleaner();
        TagNode tagNode = htmlCleaner.clean(html);
        Document document = Jsoup.parse(html);

        long time = System.currentTimeMillis();
        for (int i = 0; i < 2000; i++) {
            htmlCleaner.clean(html);
        }
        System.out.println(System.currentTimeMillis() - time);

        time = System.currentTimeMillis();
        for (int i = 0; i < 2000; i++) {
            tagNode.evaluateXPath("//a");
        }
        System.out.println(System.currentTimeMillis() - time);

        System.out.println("=============");

        time = System.currentTimeMillis();
        for (int i = 0; i < 2000; i++) {
            Jsoup.parse(html);
        }
        System.out.println(System.currentTimeMillis() - time);

        time = System.currentTimeMillis();
        for (int i = 0; i < 2000; i++) {
            document.select("a");
        }
        System.out.println(System.currentTimeMillis() - time);

        System.out.println("=============");

        time = System.currentTimeMillis();
        for (int i = 0; i < 2000; i++) {
            htmlCleaner.clean(html);
        }
        System.out.println(System.currentTimeMillis() - time);

        time = System.currentTimeMillis();
        for (int i = 0; i < 2000; i++) {
            tagNode.evaluateXPath("//a");
        }
        System.out.println(System.currentTimeMillis() - time);

        System.out.println("=============");

        XPathEvaluator compile = Xsoup.compile("//a");
        time = System.currentTimeMillis();
        for (int i = 0; i < 2000; i++) {
            compile.evaluate(document);
        }
        System.out.println(System.currentTimeMillis() - time);

    }

    /**
     * New api test
     *
     * @author hooy
     * @since 8.0
     */
    private String rank = "<div class=\"container\"><div class=\"container-bd\"><div class=\"c-left\"><div class=\"periods\"><a class=\"active\" href=\"http://www.ruoxia.com/top/dianji/day\">日</a> <a href=\"http://www.ruoxia.com/top/dianji/week\">周</a> <a href=\"http://www.ruoxia.com/top/dianji/month\">月</a></div><h1 class=\"page-title\"><i class=\"icon icon-rank\"></i> <span class=\"rankTitle\">点击榜</span></h1><div data-collect-id=\"2550\" class=\"mod mod-clean pattern-update-list update-list\"><div class=\"bd\"><table><thead><tr><th width=\"30\">排名</th><th width=\"50\">分类</th><th>书名/最新章节</th><th width=\"60\">作者</th><th width=\"80\">推荐</th><th width=\"100\">更新时间</th></tr></thead><tbody><tr><td class=\"index\">1.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=54\" class=\"tag\" targe=\"_blank\">现实</a></td><td><div class=\"range\"><a data-collect-index=\"1\" target=\"_blank\" href=\"http://www.ruoxia.com/book/83981\" targe=\"_blank\" class=\"name\">校园妖孽高手</a> <a href=\"http://www.ruoxia.com/book/83981/2154682\" class=\"chapter\">第三十章 求你收我为徒</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/17562559\" targe=\"_blank\" class=\"author\">白色风帆</a></div></td><td><div>0</div></td><td><span class=\"time\">11-24 22:32</span></td></tr><tr class=\"even\"><td class=\"index\">2.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"2\" target=\"_blank\" href=\"http://www.ruoxia.com/book/43462\" targe=\"_blank\" class=\"name\">凤谋图</a> <a href=\"http://www.ruoxia.com/book/43462/1141799\" class=\"chapter\">写给最亲爱的你们（完结感言+新书推荐）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4482112\" targe=\"_blank\" class=\"author\">斑陆离</a></div></td><td><div>1047</div></td><td><span class=\"time\">03-04 14:44</span></td></tr><tr><td class=\"index\">3.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=54\" class=\"tag\" targe=\"_blank\">现实</a></td><td><div class=\"range\"><a data-collect-index=\"3\" target=\"_blank\" href=\"http://www.ruoxia.com/book/90878\" targe=\"_blank\" class=\"name\">女神的全职高手</a> <a href=\"http://www.ruoxia.com/book/90878/2491923\" class=\"chapter\">第五十一章 大结局。</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/18515896\" targe=\"_blank\" class=\"author\">白玉书生</a></div></td><td><div>0</div></td><td><span class=\"time\">07-20 09:06</span></td></tr><tr class=\"even\"><td class=\"index\">4.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"4\" target=\"_blank\" href=\"http://www.ruoxia.com/book/80166\" targe=\"_blank\" class=\"name\">闪婚夺爱：总裁老公太霸道</a> <a href=\"http://www.ruoxia.com/book/80166/2167580\" class=\"chapter\">第140章 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5152286\" targe=\"_blank\" class=\"author\">丛慕然</a></div></td><td><div>0</div></td><td><span class=\"time\">12-03 09:12</span></td></tr><tr><td class=\"index\">5.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=54\" class=\"tag\" targe=\"_blank\">现实</a></td><td><div class=\"range\"><a data-collect-index=\"5\" target=\"_blank\" href=\"http://www.ruoxia.com/book/84765\" targe=\"_blank\" class=\"name\">最强神眼</a> <a href=\"http://www.ruoxia.com/book/84765/2261859\" class=\"chapter\">第72章 没羞没臊（大结局）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3822610\" targe=\"_blank\" class=\"author\">枫长弦</a></div></td><td><div>0</div></td><td><span class=\"time\">02-01 21:12</span></td></tr><tr class=\"even\"><td class=\"index\">6.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"6\" target=\"_blank\" href=\"http://www.ruoxia.com/book/41149\" targe=\"_blank\" class=\"name\">胎楼</a> <a href=\"http://www.ruoxia.com/book/41149/1135302\" class=\"chapter\">写在最后的私话</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5095127\" targe=\"_blank\" class=\"author\">丫丫雅雅</a></div></td><td><div>3455</div></td><td><span class=\"time\">02-28 12:31</span></td></tr><tr><td class=\"index\">7.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"7\" target=\"_blank\" href=\"http://www.ruoxia.com/book/40863\" targe=\"_blank\" class=\"name\">我的未婚夫白狐大人</a> <a href=\"http://www.ruoxia.com/book/40863/1180864\" class=\"chapter\">【免费公告】新书《道士房东，快开门》已经发布了</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5058618\" targe=\"_blank\" class=\"author\">佚之狐</a></div></td><td><div>20614</div></td><td><span class=\"time\">03-31 12:37</span></td></tr><tr class=\"even\"><td class=\"index\">8.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=50\" class=\"tag\" targe=\"_blank\">复仇</a></td><td><div class=\"range\"><a data-collect-index=\"8\" target=\"_blank\" href=\"http://www.ruoxia.com/book/30816\" targe=\"_blank\" class=\"name\">艳骨</a> <a href=\"http://www.ruoxia.com/book/30816/769427\" class=\"chapter\">番外（司浔）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1729575\" targe=\"_blank\" class=\"author\">e小调</a></div></td><td><div>55</div></td><td><span class=\"time\">06-03 11:43</span></td></tr><tr><td class=\"index\">9.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"9\" target=\"_blank\" href=\"http://www.ruoxia.com/book/82131\" targe=\"_blank\" class=\"name\">王爷，别动粗</a> <a href=\"http://www.ruoxia.com/book/82131/2097402\" class=\"chapter\">第041章 看来这个女人是在乎他的</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/15972439\" targe=\"_blank\" class=\"author\">春亦盎然</a></div></td><td><div>0</div></td><td><span class=\"time\">10-27 18:50</span></td></tr><tr class=\"even\"><td class=\"index\">10.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=19\" class=\"tag\" targe=\"_blank\">宫斗</a></td><td><div class=\"range\"><a data-collect-index=\"10\" target=\"_blank\" href=\"http://www.ruoxia.com/book/52279\" targe=\"_blank\" class=\"name\">深宫胭脂乱</a> <a href=\"http://www.ruoxia.com/book/52279/1567850\" class=\"chapter\">【263】为夫来的，可还算及时 HE版，感谢小伙伴们大半年来的不离不弃！</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1664188\" targe=\"_blank\" class=\"author\">糖小贩</a></div></td><td><div>320</div></td><td><span class=\"time\">10-31 13:58</span></td></tr><tr><td class=\"index\">11.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=19\" class=\"tag\" targe=\"_blank\">宫斗</a></td><td><div class=\"range\"><a data-collect-index=\"11\" target=\"_blank\" href=\"http://www.ruoxia.com/book/45621\" targe=\"_blank\" class=\"name\">深宫安容传</a> <a href=\"http://www.ruoxia.com/book/45621/1361138\" class=\"chapter\">番外4 韶华不负，生生世世 （有红包哟）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5146663\" targe=\"_blank\" class=\"author\">鱼墨</a></div></td><td><div>6268</div></td><td><span class=\"time\">07-12 20:23</span></td></tr><tr class=\"even\"><td class=\"index\">12.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=54\" class=\"tag\" targe=\"_blank\">现实</a></td><td><div class=\"range\"><a data-collect-index=\"12\" target=\"_blank\" href=\"http://www.ruoxia.com/book/69000\" targe=\"_blank\" class=\"name\">我们的爱，未完待续</a> <a href=\"http://www.ruoxia.com/book/69000/1680336\" class=\"chapter\">第175章 番外：人生没有太晚的开始</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5152286\" targe=\"_blank\" class=\"author\">丛慕然</a></div></td><td><div>0</div></td><td><span class=\"time\">01-18 23:00</span></td></tr><tr><td class=\"index\">13.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"13\" target=\"_blank\" href=\"http://www.ruoxia.com/book/65082\" targe=\"_blank\" class=\"name\">我在时光深处忘记你</a> <a href=\"http://www.ruoxia.com/book/65082/1631623\" class=\"chapter\">新书已开</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5222423\" targe=\"_blank\" class=\"author\">柯三岁</a></div></td><td><div>0</div></td><td><span class=\"time\">12-14 20:50</span></td></tr><tr class=\"even\"><td class=\"index\">14.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=22\" class=\"tag\" targe=\"_blank\">修真</a></td><td><div class=\"range\"><a data-collect-index=\"14\" target=\"_blank\" href=\"http://www.ruoxia.com/book/85911\" targe=\"_blank\" class=\"name\">女神总裁的妖孽兵王</a> <a href=\"http://www.ruoxia.com/book/85911/2265301\" class=\"chapter\">第52章 好吃的？</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5507678\" targe=\"_blank\" class=\"author\">包仙人</a></div></td><td><div>0</div></td><td><span class=\"time\">02-03 23:40</span></td></tr><tr><td class=\"index\">15.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"15\" target=\"_blank\" href=\"http://www.ruoxia.com/book/83315\" targe=\"_blank\" class=\"name\">攻心为上：薄情总裁求放过</a> <a href=\"http://www.ruoxia.com/book/83315/2126598\" class=\"chapter\">第21章：别让我讨厌你</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/17393569\" targe=\"_blank\" class=\"author\">七月晚笙</a></div></td><td><div>0</div></td><td><span class=\"time\">11-06 23:38</span></td></tr><tr class=\"even\"><td class=\"index\">16.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"16\" target=\"_blank\" href=\"http://www.ruoxia.com/book/39361\" targe=\"_blank\" class=\"name\">妙手萌妃</a> <a href=\"http://www.ruoxia.com/book/39361/1021373\" class=\"chapter\">九十六</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4048268\" targe=\"_blank\" class=\"author\">糖酱不甩</a></div></td><td><div>191</div></td><td><span class=\"time\">12-02 23:37</span></td></tr><tr><td class=\"index\">17.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"17\" target=\"_blank\" href=\"http://www.ruoxia.com/book/35111\" targe=\"_blank\" class=\"name\">炮灰女配二嫁攻略</a> <a href=\"http://www.ruoxia.com/book/35111/942024\" class=\"chapter\">番外</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4165342\" targe=\"_blank\" class=\"author\">烬相思</a></div></td><td><div>412</div></td><td><span class=\"time\">10-13 22:39</span></td></tr><tr class=\"even\"><td class=\"index\">18.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"18\" target=\"_blank\" href=\"http://www.ruoxia.com/book/46464\" targe=\"_blank\" class=\"name\">娇妻别逃</a> <a href=\"http://www.ruoxia.com/book/46464/1344044\" class=\"chapter\">系列文开更了！</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5625273\" targe=\"_blank\" class=\"author\">九竹</a></div></td><td><div>635</div></td><td><span class=\"time\">07-01 13:15</span></td></tr><tr><td class=\"index\">19.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"19\" target=\"_blank\" href=\"http://www.ruoxia.com/book/26318\" targe=\"_blank\" class=\"name\">妾惊华</a> <a href=\"http://www.ruoxia.com/book/26318/789360\" class=\"chapter\">番外 3 正式完结 鬼月篇</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2970776\" targe=\"_blank\" class=\"author\">温柔的小白兔</a></div></td><td><div>144</div></td><td><span class=\"time\">06-18 09:35</span></td></tr><tr class=\"even\"><td class=\"index\">20.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"20\" target=\"_blank\" href=\"http://www.ruoxia.com/book/46115\" targe=\"_blank\" class=\"name\">废妾青瑶</a> <a href=\"http://www.ruoxia.com/book/46115/1420123\" class=\"chapter\">冷玉•世上堪哀只有痴 （不无聊依旧发着玩）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3428612\" targe=\"_blank\" class=\"author\">梦中说梦</a></div></td><td><div>1032</div></td><td><span class=\"time\">08-15 19:03</span></td></tr><tr><td class=\"index\">21.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=19\" class=\"tag\" targe=\"_blank\">宫斗</a></td><td><div class=\"range\"><a data-collect-index=\"21\" target=\"_blank\" href=\"http://www.ruoxia.com/book/78428\" targe=\"_blank\" class=\"name\">帝女长乐</a> <a href=\"http://www.ruoxia.com/book/78428/2057572\" class=\"chapter\">第一百六十三章大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5672126\" targe=\"_blank\" class=\"author\">梅花香雨</a></div></td><td><div>0</div></td><td><span class=\"time\">09-30 20:32</span></td></tr><tr class=\"even\"><td class=\"index\">22.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"22\" target=\"_blank\" href=\"http://www.ruoxia.com/book/72124\" targe=\"_blank\" class=\"name\">总裁在上，萌妻不乖</a> <a href=\"http://www.ruoxia.com/book/72124/1880164\" class=\"chapter\">新文公告</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5152286\" targe=\"_blank\" class=\"author\">丛慕然</a></div></td><td><div>0</div></td><td><span class=\"time\">06-05 11:31</span></td></tr><tr><td class=\"index\">23.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=47\" class=\"tag\" targe=\"_blank\">重生</a></td><td><div class=\"range\"><a data-collect-index=\"23\" target=\"_blank\" href=\"http://www.ruoxia.com/book/63141\" targe=\"_blank\" class=\"name\">重生之只想好好爱你</a> <a href=\"http://www.ruoxia.com/book/63141/1604556\" class=\"chapter\">第三百三十一章 明白心意</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2149297\" targe=\"_blank\" class=\"author\">忘忧草</a></div></td><td><div>80</div></td><td><span class=\"time\">11-25 19:56</span></td></tr><tr class=\"even\"><td class=\"index\">24.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=49\" class=\"tag\" targe=\"_blank\">异世</a></td><td><div class=\"range\"><a data-collect-index=\"24\" target=\"_blank\" href=\"http://www.ruoxia.com/book/45001\" targe=\"_blank\" class=\"name\">末世之活下去</a> <a href=\"http://www.ruoxia.com/book/45001/1073956\" class=\"chapter\">第一百一十四章　大结局之另种结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4876856\" targe=\"_blank\" class=\"author\">清风随意</a></div></td><td><div>68</div></td><td><span class=\"time\">01-12 10:06</span></td></tr><tr><td class=\"index\">25.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"25\" target=\"_blank\" href=\"http://www.ruoxia.com/book/70099\" targe=\"_blank\" class=\"name\">以婚试爱：总裁老公太过分</a> <a href=\"http://www.ruoxia.com/book/70099/1871138\" class=\"chapter\">第二百章 温哥华的暖冬</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/14023478\" targe=\"_blank\" class=\"author\">乔慕燃</a></div></td><td><div>0</div></td><td><span class=\"time\">05-29 18:46</span></td></tr><tr class=\"even\"><td class=\"index\">26.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"26\" target=\"_blank\" href=\"http://www.ruoxia.com/book/51499\" targe=\"_blank\" class=\"name\">顾瑾，我们要好好的</a> <a href=\"http://www.ruoxia.com/book/51499/2122738\" class=\"chapter\">新书~婚不谈爱，总裁老公住隔壁</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2099877\" targe=\"_blank\" class=\"author\">一朵66</a></div></td><td><div>2778</div></td><td><span class=\"time\">11-04 17:48</span></td></tr><tr><td class=\"index\">27.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=1\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"27\" target=\"_blank\" href=\"http://www.ruoxia.com/book/62293\" targe=\"_blank\" class=\"name\">吟尸调妃</a> <a href=\"http://www.ruoxia.com/book/62293/1620092\" class=\"chapter\">作品最后</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/6052301\" targe=\"_blank\" class=\"author\">乔沫若轩</a></div></td><td><div>207</div></td><td><span class=\"time\">12-06 16:57</span></td></tr><tr class=\"even\"><td class=\"index\">28.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"28\" target=\"_blank\" href=\"http://www.ruoxia.com/book/32090\" targe=\"_blank\" class=\"name\">嫡女皇商</a> <a href=\"http://www.ruoxia.com/book/32090/1065024\" class=\"chapter\">皇商开始修文</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2595590\" targe=\"_blank\" class=\"author\">十七帝</a></div></td><td><div>260</div></td><td><span class=\"time\">01-04 23:26</span></td></tr><tr><td class=\"index\">29.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"29\" target=\"_blank\" href=\"http://www.ruoxia.com/book/80386\" targe=\"_blank\" class=\"name\">豪门养女：总裁请息怒</a> <a href=\"http://www.ruoxia.com/book/80386/2174667\" class=\"chapter\">第一百三十五章 最终番外</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2079910\" targe=\"_blank\" class=\"author\">杨家小呆</a></div></td><td><div>0</div></td><td><span class=\"time\">12-07 21:39</span></td></tr><tr class=\"even\"><td class=\"index\">30.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"30\" target=\"_blank\" href=\"http://www.ruoxia.com/book/46774\" targe=\"_blank\" class=\"name\">这盛世，如你所愿</a> <a href=\"http://www.ruoxia.com/book/46774/1282874\" class=\"chapter\">【免费公告】完结感言+新书公告</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4950247\" targe=\"_blank\" class=\"author\">南风知意</a></div></td><td><div>1127</div></td><td><span class=\"time\">06-06 17:28</span></td></tr><tr><td class=\"index\">31.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"31\" target=\"_blank\" href=\"http://www.ruoxia.com/book/34887\" targe=\"_blank\" class=\"name\">江湖有晴天</a> <a href=\"http://www.ruoxia.com/book/34887/901292\" class=\"chapter\">第一二零章 阴谋叠加，尘埃落定（结局篇）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2077970\" targe=\"_blank\" class=\"author\">洛紫晴</a></div></td><td><div>113</div></td><td><span class=\"time\">09-13 09:06</span></td></tr><tr class=\"even\"><td class=\"index\">32.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"32\" target=\"_blank\" href=\"http://www.ruoxia.com/book/57202\" targe=\"_blank\" class=\"name\">江山不若美人顾</a> <a href=\"http://www.ruoxia.com/book/57202/1711384\" class=\"chapter\">番外：最终章</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2067719\" targe=\"_blank\" class=\"author\">慕容以泽</a></div></td><td><div>597</div></td><td><span class=\"time\">02-14 18:47</span></td></tr><tr><td class=\"index\">33.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"33\" target=\"_blank\" href=\"http://www.ruoxia.com/book/54323\" targe=\"_blank\" class=\"name\">一碰冥婚</a> <a href=\"http://www.ruoxia.com/book/54323/1280258\" class=\"chapter\">第一百三十九章 秦无极诡上身</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4782768\" targe=\"_blank\" class=\"author\">二手玫瑰</a></div></td><td><div>528</div></td><td><span class=\"time\">06-04 22:04</span></td></tr><tr class=\"even\"><td class=\"index\">34.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"34\" target=\"_blank\" href=\"http://www.ruoxia.com/book/27977\" targe=\"_blank\" class=\"name\">侯门丑媳</a> <a href=\"http://www.ruoxia.com/book/27977/774342\" class=\"chapter\">第202章 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/666311\" targe=\"_blank\" class=\"author\">东方怡然</a></div></td><td><div>328</div></td><td><span class=\"time\">06-06 22:09</span></td></tr><tr><td class=\"index\">35.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"35\" target=\"_blank\" href=\"http://www.ruoxia.com/book/26287\" targe=\"_blank\" class=\"name\">将本红妆</a> <a href=\"http://www.ruoxia.com/book/26287/756383\" class=\"chapter\">完结感言 我们新文见</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2382839\" targe=\"_blank\" class=\"author\">故城阿九</a></div></td><td><div>539</div></td><td><span class=\"time\">05-24 14:42</span></td></tr><tr class=\"even\"><td class=\"index\">36.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"36\" target=\"_blank\" href=\"http://www.ruoxia.com/book/79251\" targe=\"_blank\" class=\"name\">妃卿非故：世子，有事好商量</a> <a href=\"http://www.ruoxia.com/book/79251/2304572\" class=\"chapter\">最后的一点小内容</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5270097\" targe=\"_blank\" class=\"author\">白玉琼楼</a></div></td><td><div>0</div></td><td><span class=\"time\">03-05 23:27</span></td></tr><tr><td class=\"index\">37.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"37\" target=\"_blank\" href=\"http://www.ruoxia.com/book/31901\" targe=\"_blank\" class=\"name\">美人潋滟</a> <a href=\"http://www.ruoxia.com/book/31901/1998239\" class=\"chapter\">新文《爱有余温，触手可及》</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1412126\" targe=\"_blank\" class=\"author\">冷在</a></div></td><td><div>3215</div></td><td><span class=\"time\">08-21 16:38</span></td></tr><tr class=\"even\"><td class=\"index\">38.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=19\" class=\"tag\" targe=\"_blank\">宫斗</a></td><td><div class=\"range\"><a data-collect-index=\"38\" target=\"_blank\" href=\"http://www.ruoxia.com/book/52159\" targe=\"_blank\" class=\"name\">后宫长梧传</a> <a href=\"http://www.ruoxia.com/book/52159/1402619\" class=\"chapter\">160 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/6660633\" targe=\"_blank\" class=\"author\">嘟嘟爱吃鱼</a></div></td><td><div>905</div></td><td><span class=\"time\">08-04 20:24</span></td></tr><tr><td class=\"index\">39.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"39\" target=\"_blank\" href=\"http://www.ruoxia.com/book/51408\" targe=\"_blank\" class=\"name\">冥夫别过来</a> <a href=\"http://www.ruoxia.com/book/51408/1380765\" class=\"chapter\">新文速递（我好慌）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2538685\" targe=\"_blank\" class=\"author\">陌妖</a></div></td><td><div>1328</div></td><td><span class=\"time\">07-25 10:58</span></td></tr><tr class=\"even\"><td class=\"index\">40.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"40\" target=\"_blank\" href=\"http://www.ruoxia.com/book/44908\" targe=\"_blank\" class=\"name\">公子好倾城</a> <a href=\"http://www.ruoxia.com/book/44908/1094556\" class=\"chapter\">番外</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5193966\" targe=\"_blank\" class=\"author\">颜箴言</a></div></td><td><div>203</div></td><td><span class=\"time\">01-27 20:53</span></td></tr><tr><td class=\"index\">41.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=19\" class=\"tag\" targe=\"_blank\">宫斗</a></td><td><div class=\"range\"><a data-collect-index=\"41\" target=\"_blank\" href=\"http://www.ruoxia.com/book/33791\" targe=\"_blank\" class=\"name\">女相倾天下</a> <a href=\"http://www.ruoxia.com/book/33791/879406\" class=\"chapter\">第九十三章 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3970105\" targe=\"_blank\" class=\"author\">睡梦之城</a></div></td><td><div>407</div></td><td><span class=\"time\">08-31 09:03</span></td></tr><tr class=\"even\"><td class=\"index\">42.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"42\" target=\"_blank\" href=\"http://www.ruoxia.com/book/28208\" targe=\"_blank\" class=\"name\">庶辜</a> <a href=\"http://www.ruoxia.com/book/28208/727884\" class=\"chapter\">请假通知</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1434153\" targe=\"_blank\" class=\"author\">君醉</a></div></td><td><div>16</div></td><td><span class=\"time\">05-03 17:38</span></td></tr><tr><td class=\"index\">43.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"43\" target=\"_blank\" href=\"http://www.ruoxia.com/book/79201\" targe=\"_blank\" class=\"name\">隐婚蜜爱：首席老公别太坏</a> <a href=\"http://www.ruoxia.com/book/79201/2130842\" class=\"chapter\">第138章 筱雅，我终于等到你了！</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/15011710\" targe=\"_blank\" class=\"author\">古月初雪</a></div></td><td><div>0</div></td><td><span class=\"time\">11-10 08:00</span></td></tr><tr class=\"even\"><td class=\"index\">44.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"44\" target=\"_blank\" href=\"http://www.ruoxia.com/book/76667\" targe=\"_blank\" class=\"name\">予你爱情，还我光阴</a> <a href=\"http://www.ruoxia.com/book/76667/1937700\" class=\"chapter\">第066章 结尾</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/15544088\" targe=\"_blank\" class=\"author\">美人折</a></div></td><td><div>0</div></td><td><span class=\"time\">07-12 21:37</span></td></tr><tr><td class=\"index\">45.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"45\" target=\"_blank\" href=\"http://www.ruoxia.com/book/73761\" targe=\"_blank\" class=\"name\">王妃，王爷又来拆墙了</a> <a href=\"http://www.ruoxia.com/book/73761/1908547\" class=\"chapter\">有红包</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5672126\" targe=\"_blank\" class=\"author\">梅花香雨</a></div></td><td><div>0</div></td><td><span class=\"time\">06-23 21:02</span></td></tr><tr class=\"even\"><td class=\"index\">46.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"46\" target=\"_blank\" href=\"http://www.ruoxia.com/book/42459\" targe=\"_blank\" class=\"name\">爱上我的阴阳先生</a> <a href=\"http://www.ruoxia.com/book/42459/1273498\" class=\"chapter\">完本感言</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3227798\" targe=\"_blank\" class=\"author\">魑魅魁魃</a></div></td><td><div>1382</div></td><td><span class=\"time\">05-31 20:36</span></td></tr><tr><td class=\"index\">47.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=47\" class=\"tag\" targe=\"_blank\">重生</a></td><td><div class=\"range\"><a data-collect-index=\"47\" target=\"_blank\" href=\"http://www.ruoxia.com/book/29035\" targe=\"_blank\" class=\"name\">嫡女重生</a> <a href=\"http://www.ruoxia.com/book/29035/828174\" class=\"chapter\">完结感言</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3252807\" targe=\"_blank\" class=\"author\">小喵家的温婉</a></div></td><td><div>334</div></td><td><span class=\"time\">07-16 19:19</span></td></tr><tr class=\"even\"><td class=\"index\">48.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"48\" target=\"_blank\" href=\"http://www.ruoxia.com/book/58092\" targe=\"_blank\" class=\"name\">亲爱的，我不等你了</a> <a href=\"http://www.ruoxia.com/book/58092/2105021\" class=\"chapter\">嘿，还有宝贝在吗？</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5209133\" targe=\"_blank\" class=\"author\">依人茶</a></div></td><td><div>505</div></td><td><span class=\"time\">11-01 16:42</span></td></tr><tr><td class=\"index\">49.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"49\" target=\"_blank\" href=\"http://www.ruoxia.com/book/77198\" targe=\"_blank\" class=\"name\">爱已过期：总裁前夫请放手</a> <a href=\"http://www.ruoxia.com/book/77198/2085300\" class=\"chapter\">第一百六十七章 余生有你陪伴 全文完</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2149297\" targe=\"_blank\" class=\"author\">忘忧草</a></div></td><td><div>0</div></td><td><span class=\"time\">10-19 18:32</span></td></tr><tr class=\"even\"><td class=\"index\">50.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"50\" target=\"_blank\" href=\"http://www.ruoxia.com/book/56098\" targe=\"_blank\" class=\"name\">你的甜蜜，触手不及</a> <a href=\"http://www.ruoxia.com/book/56098/1476223\" class=\"chapter\">圆宝的完结感言</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/7144700\" targe=\"_blank\" class=\"author\">圆八宝</a></div></td><td><div>540</div></td><td><span class=\"time\">09-19 19:18</span></td></tr><tr><td class=\"index\">51.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"51\" target=\"_blank\" href=\"http://www.ruoxia.com/book/45650\" targe=\"_blank\" class=\"name\">江太太，恋爱已生效</a> <a href=\"http://www.ruoxia.com/book/45650/1161174\" class=\"chapter\">江先生和江太太的恋城旧忆（三） 怀孕篇</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5548454\" targe=\"_blank\" class=\"author\">呆小萌的包子</a></div></td><td><div>226</div></td><td><span class=\"time\">03-18 13:09</span></td></tr><tr class=\"even\"><td class=\"index\">52.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"52\" target=\"_blank\" href=\"http://www.ruoxia.com/book/28004\" targe=\"_blank\" class=\"name\">倾城不过未亡人</a> <a href=\"http://www.ruoxia.com/book/28004/1147278\" class=\"chapter\">楚木萧萧 第一章</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2067719\" targe=\"_blank\" class=\"author\">慕容以泽</a></div></td><td><div>1026</div></td><td><span class=\"time\">03-08 16:28</span></td></tr><tr><td class=\"index\">53.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=47\" class=\"tag\" targe=\"_blank\">重生</a></td><td><div class=\"range\"><a data-collect-index=\"53\" target=\"_blank\" href=\"http://www.ruoxia.com/book/46534\" targe=\"_blank\" class=\"name\">重生女二嫁攻略</a> <a href=\"http://www.ruoxia.com/book/46534/1122895\" class=\"chapter\">算是完结感言吧</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2595590\" targe=\"_blank\" class=\"author\">十七帝</a></div></td><td><div>304</div></td><td><span class=\"time\">02-19 10:25</span></td></tr><tr class=\"even\"><td class=\"index\">54.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"54\" target=\"_blank\" href=\"http://www.ruoxia.com/book/42151\" targe=\"_blank\" class=\"name\">冥婚难测</a> <a href=\"http://www.ruoxia.com/book/42151/1117992\" class=\"chapter\">完结感言（有惊喜哦，戳进来看看）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1494532\" targe=\"_blank\" class=\"author\">鬼爹</a></div></td><td><div>2617</div></td><td><span class=\"time\">02-15 20:57</span></td></tr><tr><td class=\"index\">55.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"55\" target=\"_blank\" href=\"http://www.ruoxia.com/book/33600\" targe=\"_blank\" class=\"name\">傻王贤妃</a> <a href=\"http://www.ruoxia.com/book/33600/891372\" class=\"chapter\">感言</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1249730\" targe=\"_blank\" class=\"author\">汐凉</a></div></td><td><div>199</div></td><td><span class=\"time\">09-04 19:43</span></td></tr><tr class=\"even\"><td class=\"index\">56.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=16\" class=\"tag\" targe=\"_blank\">同人</a></td><td><div class=\"range\"><a data-collect-index=\"56\" target=\"_blank\" href=\"http://www.ruoxia.com/book/30689\" targe=\"_blank\" class=\"name\">清宫瑾妃传</a> <a href=\"http://www.ruoxia.com/book/30689/832178\" class=\"chapter\">第220章 此生唯你（大结局）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1677848\" targe=\"_blank\" class=\"author\">芳小苓</a></div></td><td><div>768</div></td><td><span class=\"time\">07-19 20:00</span></td></tr><tr><td class=\"index\">57.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"57\" target=\"_blank\" href=\"http://www.ruoxia.com/book/83309\" targe=\"_blank\" class=\"name\">庶女世子妃</a> <a href=\"http://www.ruoxia.com/book/83309/2273884\" class=\"chapter\">第一六五章 完美结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3227798\" targe=\"_blank\" class=\"author\">魑魅魁魃</a></div></td><td><div>0</div></td><td><span class=\"time\">02-13 18:13</span></td></tr><tr class=\"even\"><td class=\"index\">58.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"58\" target=\"_blank\" href=\"http://www.ruoxia.com/book/80185\" targe=\"_blank\" class=\"name\">我曾卑微爱过你</a> <a href=\"http://www.ruoxia.com/book/80185/2135467\" class=\"chapter\">第96章 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5321782\" targe=\"_blank\" class=\"author\">懒桔不懒</a></div></td><td><div>0</div></td><td><span class=\"time\">11-12 22:23</span></td></tr><tr><td class=\"index\">59.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"59\" target=\"_blank\" href=\"http://www.ruoxia.com/book/74007\" targe=\"_blank\" class=\"name\">妾倾天下</a> <a href=\"http://www.ruoxia.com/book/74007/1962721\" class=\"chapter\">第162章 母仪天下（全书完）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/14890712\" targe=\"_blank\" class=\"author\">璃璃</a></div></td><td><div>0</div></td><td><span class=\"time\">07-28 23:42</span></td></tr><tr class=\"even\"><td class=\"index\">60.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"60\" target=\"_blank\" href=\"http://www.ruoxia.com/book/66546\" targe=\"_blank\" class=\"name\">纵使情深如故</a> <a href=\"http://www.ruoxia.com/book/66546/1697902\" class=\"chapter\">【175】一言不合就完结</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1664188\" targe=\"_blank\" class=\"author\">糖小贩</a></div></td><td><div>0</div></td><td><span class=\"time\">02-03 23:09</span></td></tr><tr><td class=\"index\">61.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"61\" target=\"_blank\" href=\"http://www.ruoxia.com/book/59727\" targe=\"_blank\" class=\"name\">爱你，可念不可说</a> <a href=\"http://www.ruoxia.com/book/59727/1664270\" class=\"chapter\">完结感言</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1494532\" targe=\"_blank\" class=\"author\">鬼爹</a></div></td><td><div>285</div></td><td><span class=\"time\">01-07 19:21</span></td></tr><tr class=\"even\"><td class=\"index\">62.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=47\" class=\"tag\" targe=\"_blank\">重生</a></td><td><div class=\"range\"><a data-collect-index=\"62\" target=\"_blank\" href=\"http://www.ruoxia.com/book/27946\" targe=\"_blank\" class=\"name\">美人皮，噬骨香</a> <a href=\"http://www.ruoxia.com/book/27946/1538607\" class=\"chapter\">【完结感言】</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1311937\" targe=\"_blank\" class=\"author\">涣茶</a></div></td><td><div>654</div></td><td><span class=\"time\">10-12 18:16</span></td></tr><tr><td class=\"index\">63.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=43\" class=\"tag\" targe=\"_blank\">异能</a></td><td><div class=\"range\"><a data-collect-index=\"63\" target=\"_blank\" href=\"http://www.ruoxia.com/book/47521\" targe=\"_blank\" class=\"name\">末世之拐个系统做男神</a> <a href=\"http://www.ruoxia.com/book/47521/1319390\" class=\"chapter\">以后的日子 番外二</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5776194\" targe=\"_blank\" class=\"author\">TK。优酱</a></div></td><td><div>617</div></td><td><span class=\"time\">06-18 20:23</span></td></tr><tr class=\"even\"><td class=\"index\">64.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=19\" class=\"tag\" targe=\"_blank\">宫斗</a></td><td><div class=\"range\"><a data-collect-index=\"64\" target=\"_blank\" href=\"http://www.ruoxia.com/book/50621\" targe=\"_blank\" class=\"name\">笑嫁江山</a> <a href=\"http://www.ruoxia.com/book/50621/1276556\" class=\"chapter\">第三百一十五章 伤怀</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4819693\" targe=\"_blank\" class=\"author\">与文</a></div></td><td><div>27</div></td><td><span class=\"time\">06-02 21:05</span></td></tr><tr><td class=\"index\">65.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=28\" class=\"tag\" targe=\"_blank\">种田</a></td><td><div class=\"range\"><a data-collect-index=\"65\" target=\"_blank\" href=\"http://www.ruoxia.com/book/31900\" targe=\"_blank\" class=\"name\">重生之带着装备去种田</a> <a href=\"http://www.ruoxia.com/book/31900/886594\" class=\"chapter\">第一百三十五章 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/21456\" targe=\"_blank\" class=\"author\">灵山小道士</a></div></td><td><div>206</div></td><td><span class=\"time\">08-31 19:23</span></td></tr><tr class=\"even\"><td class=\"index\">66.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"66\" target=\"_blank\" href=\"http://www.ruoxia.com/book/27944\" targe=\"_blank\" class=\"name\">恶毒女配的悠然生活</a> <a href=\"http://www.ruoxia.com/book/27944/847971\" class=\"chapter\">第240章 下辈子你还是我的妻(完)</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3147647\" targe=\"_blank\" class=\"author\">翦语</a></div></td><td><div>2444</div></td><td><span class=\"time\">08-19 15:51</span></td></tr><tr><td class=\"index\">67.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"67\" target=\"_blank\" href=\"http://www.ruoxia.com/book/28130\" targe=\"_blank\" class=\"name\">一品皇妻</a> <a href=\"http://www.ruoxia.com/book/28130/857549\" class=\"chapter\">第158章 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3167696\" targe=\"_blank\" class=\"author\">七月白椿</a></div></td><td><div>818</div></td><td><span class=\"time\">08-07 23:38</span></td></tr><tr class=\"even\"><td class=\"index\">68.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=25\" class=\"tag\" targe=\"_blank\">现代</a></td><td><div class=\"range\"><a data-collect-index=\"68\" target=\"_blank\" href=\"http://www.ruoxia.com/book/95582\" targe=\"_blank\" class=\"name\">龙拳</a> <a href=\"http://www.ruoxia.com/book/95582/10698954\" class=\"chapter\">第一千八百七十章 大结局！ （六千字大章）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/19990474\" targe=\"_blank\" class=\"author\"></a></div></td><td><div>0</div></td><td><span class=\"time\">12-23 17:02</span></td></tr><tr><td class=\"index\">69.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=1\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"69\" target=\"_blank\" href=\"http://www.ruoxia.com/book/95598\" targe=\"_blank\" class=\"name\">民调局异闻录之勉传</a> <a href=\"http://www.ruoxia.com/book/95598/10384052\" class=\"chapter\">第四百一十七章 归宿</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/19990495\" targe=\"_blank\" class=\"author\"></a></div></td><td><div>0</div></td><td><span class=\"time\">07-23 12:00</span></td></tr><tr class=\"even\"><td class=\"index\">70.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"70\" target=\"_blank\" href=\"http://www.ruoxia.com/book/69929\" targe=\"_blank\" class=\"name\">原来爱你那么伤</a> <a href=\"http://www.ruoxia.com/book/69929/2105024\" class=\"chapter\">嘿，还有宝贝在吗？</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5209133\" targe=\"_blank\" class=\"author\">依人茶</a></div></td><td><div>0</div></td><td><span class=\"time\">11-01 16:43</span></td></tr><tr><td class=\"index\">71.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"71\" target=\"_blank\" href=\"http://www.ruoxia.com/book/78853\" targe=\"_blank\" class=\"name\">情深如许：霸道总裁我不约</a> <a href=\"http://www.ruoxia.com/book/78853/2029552\" class=\"chapter\">谢谢大家，新书求收藏</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/16083833\" targe=\"_blank\" class=\"author\">余无晴</a></div></td><td><div>0</div></td><td><span class=\"time\">09-12 00:01</span></td></tr><tr class=\"even\"><td class=\"index\">72.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"72\" target=\"_blank\" href=\"http://www.ruoxia.com/book/74481\" targe=\"_blank\" class=\"name\">戾妃倾城</a> <a href=\"http://www.ruoxia.com/book/74481/1823456\" class=\"chapter\">番外1 几经辗转，故人坟草三尺高</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/14543004\" targe=\"_blank\" class=\"author\">凌家女孩</a></div></td><td><div>0</div></td><td><span class=\"time\">04-27 22:42</span></td></tr><tr><td class=\"index\">73.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"73\" target=\"_blank\" href=\"http://www.ruoxia.com/book/71766\" targe=\"_blank\" class=\"name\">婚久情深：闪婚娇妻深深爱</a> <a href=\"http://www.ruoxia.com/book/71766/1809712\" class=\"chapter\">第二十二章 大结局（完）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2079910\" targe=\"_blank\" class=\"author\">杨家小呆</a></div></td><td><div>0</div></td><td><span class=\"time\">04-19 13:55</span></td></tr><tr class=\"even\"><td class=\"index\">74.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=43\" class=\"tag\" targe=\"_blank\">异能</a></td><td><div class=\"range\"><a data-collect-index=\"74\" target=\"_blank\" href=\"http://www.ruoxia.com/book/47956\" targe=\"_blank\" class=\"name\">末世重生之女配归来</a> <a href=\"http://www.ruoxia.com/book/47956/1391378\" class=\"chapter\">第98章</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5862910\" targe=\"_blank\" class=\"author\">慕晓玥</a></div></td><td><div>62</div></td><td><span class=\"time\">07-30 00:00</span></td></tr><tr><td class=\"index\">75.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"75\" target=\"_blank\" href=\"http://www.ruoxia.com/book/49277\" targe=\"_blank\" class=\"name\">皇帝你被征用了</a> <a href=\"http://www.ruoxia.com/book/49277/1373550\" class=\"chapter\">新书准备ing</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/6052301\" targe=\"_blank\" class=\"author\">乔沫若轩</a></div></td><td><div>1307</div></td><td><span class=\"time\">07-20 16:41</span></td></tr><tr class=\"even\"><td class=\"index\">76.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"76\" target=\"_blank\" href=\"http://www.ruoxia.com/book/52370\" targe=\"_blank\" class=\"name\">道士房东，快开门</a> <a href=\"http://www.ruoxia.com/book/52370/1366506\" class=\"chapter\">第六百七十章 姓什么</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5058618\" targe=\"_blank\" class=\"author\">佚之狐</a></div></td><td><div>12820</div></td><td><span class=\"time\">07-15 23:46</span></td></tr><tr><td class=\"index\">77.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"77\" target=\"_blank\" href=\"http://www.ruoxia.com/book/43341\" targe=\"_blank\" class=\"name\">欠你一世长安</a> <a href=\"http://www.ruoxia.com/book/43341/1282888\" class=\"chapter\">【免费公告】新书《如果爱情看得见》求支持</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4950247\" targe=\"_blank\" class=\"author\">南风知意</a></div></td><td><div>828</div></td><td><span class=\"time\">06-06 17:54</span></td></tr><tr class=\"even\"><td class=\"index\">78.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"78\" target=\"_blank\" href=\"http://www.ruoxia.com/book/45958\" targe=\"_blank\" class=\"name\">鬓云香腮雪</a> <a href=\"http://www.ruoxia.com/book/45958/1256794\" class=\"chapter\">番外 倾心。（秦相宜&amp;太子）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5575980\" targe=\"_blank\" class=\"author\">萌七妹</a></div></td><td><div>985</div></td><td><span class=\"time\">05-20 23:53</span></td></tr><tr><td class=\"index\">79.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"79\" target=\"_blank\" href=\"http://www.ruoxia.com/book/39183\" targe=\"_blank\" class=\"name\">一纸冥婚</a> <a href=\"http://www.ruoxia.com/book/39183/1198169\" class=\"chapter\">关于番外+新书</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4782768\" targe=\"_blank\" class=\"author\">二手玫瑰</a></div></td><td><div>4960</div></td><td><span class=\"time\">04-12 15:58</span></td></tr><tr class=\"even\"><td class=\"index\">80.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=24\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"80\" target=\"_blank\" href=\"http://www.ruoxia.com/book/46118\" targe=\"_blank\" class=\"name\">阴夫驾到</a> <a href=\"http://www.ruoxia.com/book/46118/1140031\" class=\"chapter\">第一六零话 最后的决战（结局篇）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2077970\" targe=\"_blank\" class=\"author\">洛紫晴</a></div></td><td><div>245</div></td><td><span class=\"time\">03-02 23:11</span></td></tr><tr><td class=\"index\">81.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"81\" target=\"_blank\" href=\"http://www.ruoxia.com/book/39812\" targe=\"_blank\" class=\"name\">美人鬓</a> <a href=\"http://www.ruoxia.com/book/39812/1046332\" class=\"chapter\">完本公告</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/4819693\" targe=\"_blank\" class=\"author\">与文</a></div></td><td><div>34</div></td><td><span class=\"time\">12-21 10:11</span></td></tr><tr class=\"even\"><td class=\"index\">82.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=20\" class=\"tag\" targe=\"_blank\">宅斗</a></td><td><div class=\"range\"><a data-collect-index=\"82\" target=\"_blank\" href=\"http://www.ruoxia.com/book/28007\" targe=\"_blank\" class=\"name\">妻居一品</a> <a href=\"http://www.ruoxia.com/book/28007/834007\" class=\"chapter\">第259章 墩仔和淼淼（四）【大结局】</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/3154400\" targe=\"_blank\" class=\"author\">沙提子</a></div></td><td><div>1411</div></td><td><span class=\"time\">07-21 00:00</span></td></tr><tr><td class=\"index\">83.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=25\" class=\"tag\" targe=\"_blank\">现代</a></td><td><div class=\"range\"><a data-collect-index=\"83\" target=\"_blank\" href=\"http://www.ruoxia.com/book/95617\" targe=\"_blank\" class=\"name\">女总裁的超级高手</a> <a href=\"http://www.ruoxia.com/book/95617/10401594\" class=\"chapter\">第3609章、这样挺好！（大结局下）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/19990521\" targe=\"_blank\" class=\"author\"></a></div></td><td><div>0</div></td><td><span class=\"time\">07-31 10:10</span></td></tr><tr class=\"even\"><td class=\"index\">84.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=1\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"84\" target=\"_blank\" href=\"http://www.ruoxia.com/book/89974\" targe=\"_blank\" class=\"name\">活见诡</a> <a href=\"http://www.ruoxia.com/book/89974/2452074\" class=\"chapter\">第三十六章 威风凌凌</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/19016569\" targe=\"_blank\" class=\"author\">一骑妃子笑</a></div></td><td><div>0</div></td><td><span class=\"time\">06-18 13:53</span></td></tr><tr><td class=\"index\">85.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=15\" class=\"tag\" targe=\"_blank\">架空</a></td><td><div class=\"range\"><a data-collect-index=\"85\" target=\"_blank\" href=\"http://www.ruoxia.com/book/78680\" targe=\"_blank\" class=\"name\">压寨夫君请上轿</a> <a href=\"http://www.ruoxia.com/book/78680/2168844\" class=\"chapter\">103 我说了，我已经嫁过人了 大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5724868\" targe=\"_blank\" class=\"author\">唯水眠心</a></div></td><td><div>0</div></td><td><span class=\"time\">12-03 23:41</span></td></tr><tr class=\"even\"><td class=\"index\">86.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=1\" class=\"tag\" targe=\"_blank\">玄奇</a></td><td><div class=\"range\"><a data-collect-index=\"86\" target=\"_blank\" href=\"http://www.ruoxia.com/book/83856\" targe=\"_blank\" class=\"name\">九命</a> <a href=\"http://www.ruoxia.com/book/83856/2160919\" class=\"chapter\">第045章 柳家的秘密</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/2547718\" targe=\"_blank\" class=\"author\">渴雨</a></div></td><td><div>0</div></td><td><span class=\"time\">11-28 22:13</span></td></tr><tr><td class=\"index\">87.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"87\" target=\"_blank\" href=\"http://www.ruoxia.com/book/79904\" targe=\"_blank\" class=\"name\">暖婚契约：腹黑总裁的呆萌妻</a> <a href=\"http://www.ruoxia.com/book/79904/2128055\" class=\"chapter\">【118】大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/15919521\" targe=\"_blank\" class=\"author\">落小妹</a></div></td><td><div>0</div></td><td><span class=\"time\">11-07 22:48</span></td></tr><tr class=\"even\"><td class=\"index\">88.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"88\" target=\"_blank\" href=\"http://www.ruoxia.com/book/77693\" targe=\"_blank\" class=\"name\">眷你如火如荼</a> <a href=\"http://www.ruoxia.com/book/77693/2010568\" class=\"chapter\">【终章】、经年后，道一句好久不见</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/6095530\" targe=\"_blank\" class=\"author\">粟越</a></div></td><td><div>0</div></td><td><span class=\"time\">08-29 23:15</span></td></tr><tr><td class=\"index\">89.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=28\" class=\"tag\" targe=\"_blank\">种田</a></td><td><div class=\"range\"><a data-collect-index=\"89\" target=\"_blank\" href=\"http://www.ruoxia.com/book/45352\" targe=\"_blank\" class=\"name\">女儿香满田</a> <a href=\"http://www.ruoxia.com/book/45352/1998240\" class=\"chapter\">新文《爱有余温，触手可及》</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/1412126\" targe=\"_blank\" class=\"author\">冷在</a></div></td><td><div>1831</div></td><td><span class=\"time\">08-21 16:38</span></td></tr><tr class=\"even\"><td class=\"index\">90.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"90\" target=\"_blank\" href=\"http://www.ruoxia.com/book/74771\" targe=\"_blank\" class=\"name\">千万婚约：求你放了我！</a> <a href=\"http://www.ruoxia.com/book/74771/1936113\" class=\"chapter\">【112】</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/12820436\" targe=\"_blank\" class=\"author\">纳兰一梦</a></div></td><td><div>0</div></td><td><span class=\"time\">07-11 21:25</span></td></tr><tr><td class=\"index\">91.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"91\" target=\"_blank\" href=\"http://www.ruoxia.com/book/73591\" targe=\"_blank\" class=\"name\">虐爱成殇：冷傲总裁太绝情</a> <a href=\"http://www.ruoxia.com/book/73591/1892707\" class=\"chapter\">第138章 小玥，我爱你，你愿意嫁给我吗？</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/15011710\" targe=\"_blank\" class=\"author\">古月初雪</a></div></td><td><div>0</div></td><td><span class=\"time\">06-13 15:37</span></td></tr><tr class=\"even\"><td class=\"index\">92.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"92\" target=\"_blank\" href=\"http://www.ruoxia.com/book/71367\" targe=\"_blank\" class=\"name\">总裁的替身小萌妻</a> <a href=\"http://www.ruoxia.com/book/71367/1838552\" class=\"chapter\">178·尾声</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/366099\" targe=\"_blank\" class=\"author\">沈乔</a></div></td><td><div>0</div></td><td><span class=\"time\">05-07 22:10</span></td></tr><tr><td class=\"index\">93.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"93\" target=\"_blank\" href=\"http://www.ruoxia.com/book/71221\" targe=\"_blank\" class=\"name\">早安，小甜妻</a> <a href=\"http://www.ruoxia.com/book/71221/1733121\" class=\"chapter\">第71章：大结局（完）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/14303346\" targe=\"_blank\" class=\"author\">星辉熠熠</a></div></td><td><div>0</div></td><td><span class=\"time\">02-28 00:01</span></td></tr><tr class=\"even\"><td class=\"index\">94.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"94\" target=\"_blank\" href=\"http://www.ruoxia.com/book/60151\" targe=\"_blank\" class=\"name\">娇妻休逃</a> <a href=\"http://www.ruoxia.com/book/60151/1632790\" class=\"chapter\">第326章 我带你飞（大结局）</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5625273\" targe=\"_blank\" class=\"author\">九竹</a></div></td><td><div>304</div></td><td><span class=\"time\">12-16 07:30</span></td></tr><tr><td class=\"index\">95.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"95\" target=\"_blank\" href=\"http://www.ruoxia.com/book/54317\" targe=\"_blank\" class=\"name\">宋先生，我的爱情已过期</a> <a href=\"http://www.ruoxia.com/book/54317/1578696\" class=\"chapter\">完结感言+新书速递《给我一场盛宴，纪念你离开》</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/868367\" targe=\"_blank\" class=\"author\">流年mengo</a></div></td><td><div>669</div></td><td><span class=\"time\">11-07 18:16</span></td></tr><tr class=\"even\"><td class=\"index\">96.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=7\" class=\"tag\" targe=\"_blank\">仙侠</a></td><td><div class=\"range\"><a data-collect-index=\"96\" target=\"_blank\" href=\"http://www.ruoxia.com/book/61509\" targe=\"_blank\" class=\"name\">神君快到碗里来</a> <a href=\"http://www.ruoxia.com/book/61509/1512646\" class=\"chapter\">110.最美是回忆</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/8528296\" targe=\"_blank\" class=\"author\">柒月绯然</a></div></td><td><div>54</div></td><td><span class=\"time\">09-25 19:51</span></td></tr><tr><td class=\"index\">97.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=12\" class=\"tag\" targe=\"_blank\">豪门</a></td><td><div class=\"range\"><a data-collect-index=\"97\" target=\"_blank\" href=\"http://www.ruoxia.com/book/58932\" targe=\"_blank\" class=\"name\">我爱你，与你无关</a> <a href=\"http://www.ruoxia.com/book/58932/1444784\" class=\"chapter\">大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/10048716\" targe=\"_blank\" class=\"author\">南有木木</a></div></td><td><div>655</div></td><td><span class=\"time\">08-31 13:02</span></td></tr><tr class=\"even\"><td class=\"index\">98.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=54\" class=\"tag\" targe=\"_blank\">现实</a></td><td><div class=\"range\"><a data-collect-index=\"98\" target=\"_blank\" href=\"http://www.ruoxia.com/book/55800\" targe=\"_blank\" class=\"name\">你与时光皆薄凉</a> <a href=\"http://www.ruoxia.com/book/55800/1340844\" class=\"chapter\">完结感言</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/6517325\" targe=\"_blank\" class=\"author\">七寸南季</a></div></td><td><div>374</div></td><td><span class=\"time\">06-29 09:55</span></td></tr><tr><td class=\"index\">99.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=17\" class=\"tag\" targe=\"_blank\">穿越</a></td><td><div class=\"range\"><a data-collect-index=\"99\" target=\"_blank\" href=\"http://www.ruoxia.com/book/48522\" targe=\"_blank\" class=\"name\">夫君，你别跑</a> <a href=\"http://www.ruoxia.com/book/48522/1320612\" class=\"chapter\">完结了，完结了</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5209133\" targe=\"_blank\" class=\"author\">依人茶</a></div></td><td><div>373</div></td><td><span class=\"time\">06-19 18:07</span></td></tr><tr class=\"even\"><td class=\"index\">100.</td><td><a target=\"_blank\" href=\"http://www.ruoxia.com/all?sort=35\" class=\"tag\" targe=\"_blank\">婚恋</a></td><td><div class=\"range\"><a data-collect-index=\"100\" target=\"_blank\" href=\"http://www.ruoxia.com/book/52762\" targe=\"_blank\" class=\"name\">彼年豆蔻，白首不离</a> <a href=\"http://www.ruoxia.com/book/52762/1280140\" class=\"chapter\">第一百四十二章大结局</a></div></td><td><div class=\"range\"><a target=\"_blank\" href=\"http://www.ruoxia.com/people/5672126\" targe=\"_blank\" class=\"author\">梅花香雨</a></div></td><td><div>159</div></td><td><span class=\"time\">06-04 21:05</span></td></tr></tbody></table></div></div></div><div class=\"c-right\"><div class=\"c-right\"><div class=\"mod mod-block sidebar-menu\"><div class=\"hd\"><h5><span>排行榜</span></h5></div><div class=\"bd\"><ul><li id=\"monthly\"><a href=\"http://www.ruoxia.com/top/monthly/day?rank=13\">钻石榜</a></li><li id=\"dianji\" class=\"active\"><a href=\"http://www.ruoxia.com/top/dianji/day\">点击榜</a></li><li id=\"tuijian\"><a href=\"http://www.ruoxia.com/top/tuijian/day?rank=3\">推荐榜</a></li><li id=\"xinshu\"><a href=\"http://www.ruoxia.com/top/xinshu/day\">新书榜</a></li><li id=\"pengchang\"><a href=\"http://www.ruoxia.com/top/pengchang/day\">捧场榜</a></li><li id=\"finishding\"><a href=\"http://www.ruoxia.com/top/finishding/day\">完本订阅榜</a></li><li id=\"wbTuijian\"><a href=\"http://www.ruoxia.com/top/wbTuijian/day?rank=16\">完本推荐榜</a></li><li id=\"wbMonthly\"><a href=\"http://www.ruoxia.com/top/wbMonthly/day?rank=17\">完本钻石榜</a></li></ul></div></div></div></div></div></div>";

    @Test
    public void testStringAPI() {
        // testAPI: selectList(String) -> selectList(Node)
        List<String> items = new Xpath2Selector("//div[@class=\"bd\"]//tbody/tr").selectList(rank);
        Assert.assertSame(100, items.size());
        // testAPI: select(String) -> select(Node)
        String name = new Xpath2Selector("//td[3]/div/a[1]/text()").select(items.get(10));
        Assert.assertEquals("深宫安容传", name);
    }

    @Test
    public void testNodeAPI() {
        // testAPI: selectNodes(String) -> selectNodes(Node)
        List<Node> items = new Xpath2Selector("//div[@class=\"bd\"]//tbody/tr").selectNodes(rank);
        Assert.assertSame(100, items.size());
        // testAPI: selectNode(Node)
        Node item = new Xpath2Selector("./td[3]/div/a[1]").selectNode(items.get(10));
        String name = new Xpath2Selector("./text()").select(item);
        Assert.assertEquals("深宫安容传", name);
    }

    @Test
    public void testUtilAPI() throws TransformerException {
        Node item = Xpath2Selector.newInstance("//div[@class=\"bd\"]//tbody/tr[11]/td[3]/div/a[1]/text()").selectNode(rank);
        // testAPI: nodeToString(Node) -> nodesToStrings(List<Node>)
        String name = JaxpSelectorUtils.nodeToString(item);
        Assert.assertEquals("深宫安容传", name);
    }

}


================================================
FILE: webmagic-scripts/README.md
================================================
webmagic-scripts
======
## 目标：
使得可以用简单脚本的方式编写爬虫，从而为一些常用场景提供可流通的脚本。如果已经有人写好了脚本，那么你直接使用就可以了！

## 实例:
例如：我需要抓github的仓库数据，可以这样写一个脚本(javascript)：

```javascript
var name=xpath("//h1[@class='entry-title public']/strong/a/text()")
var readme=xpath("//div[@id='readme']/tidyText()")
var star=xpath("//ul[@class='pagehead-actions']/li[1]//a[@class='social-count js-social-count']/text()")
var fork=xpath("//ul[@class='pagehead-actions']/li[2]//a[@class='social-count']/text()")
var url=page.getUrl().toString()
if (name!=null){
    println(name)
    println(readme)
    println(star)
    println(url)
}

urls("(https://github\\.com/\\w+/\\w+)")
urls("(https://github\\.com/\\w+)")
```

然后使用webmagic加载并启动它，无需下载依赖、编写代码、执行的过程。目前已经有控制台版本，请下载[http://code4craft.qiniudn.com/webmagic-console.tar.gz](http://code4craft.qiniudn.com/webmagic-console.tar.gz)。

解压后，使用以下命令执行：
	
	java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f 脚本文件名 [-l 语言，默认是javascript] [-t 线程数] [-s 抓取间隔，毫秒] url1 url2 …

例如，对于github这个脚本，我可以这样执行：

	java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.js -t 2 -s 0 https://github.com/code4craft

目前这部分使用Java的ScriptEngine机制完成。

## 语言:

选用javascript是因为用户面比较广。目前还支持ruby语言，选用ruby是因为ruby的语法编写DSL更简洁：

```ruby
name= xpath "//h1[@class='entry-title public']/strong/a/text()"
readme = xpath "//div[@id='readme']/tidyText()"
star = xpath "//ul[@class='pagehead-actions']/li[1]//a[@class='social-count js-social-count']/text()"
fork = xpath "//ul[@class='pagehead-actions']/li[2]//a[@class='social-count']/text()"
url=$page.getUrl().toString()

puts name,readme,star,fork,url unless name==nil

urls "(https://github\\.com/\\w+/\\w+)"
urls "(https://github\\.com/\\w+)"
```

多语言通过参数-l区分，例如执行这个ruby脚本需要：

	java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.rb -t2 -s0 -l ruby https://github.com/code4craft

这个功能目前仍在实验阶段。欢迎大家积极参与并提出意见。

================================================
FILE: webmagic-scripts/deploy.sh
================================================
#!/bin/sh
VERSION="0.4.1-SNAPSHOT"
mvn clean package
cp target/webmagic-scripts-${VERSION}.jar /usr/local/webmagic/webmagic-console.jar
rsync -avz --delete target/lib/ /usr/local/webmagic/lib/


================================================
FILE: webmagic-scripts/pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic</artifactId>
        <version>1.0.4-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>webmagic-scripts</artifactId>
    <properties>
        <kotlin.version>2.1.0</kotlin.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-slf4j2-impl</artifactId>
        </dependency>
        <dependency>
            <groupId>org.jruby</groupId>
            <artifactId>jruby</artifactId>
        </dependency>
        <dependency>
            <groupId>org.jetbrains.kotlin</groupId>
            <artifactId>kotlin-stdlib</artifactId>
            <version>${kotlin.version}</version>
        </dependency>
        <dependency>
            <groupId>org.python</groupId>
            <artifactId>jython</artifactId>
        </dependency>
        <dependency>
            <groupId>commons-cli</groupId>
            <artifactId>commons-cli</artifactId>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <version>1.18.32</version>
            <scope>provided</scope>
        </dependency>
    </dependencies>

    <build>
        <sourceDirectory>${project.basedir}/src/main/java</sourceDirectory>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>./lib/</classpathPrefix>
                            <mainClass>us.codecraft.webmagic.scripts.ScriptConsole</mainClass>
                        </manifest>
                    </archive>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.codehaus.mojo</groupId>
                <artifactId>build-helper-maven-plugin</artifactId>
                <version>3.0.0</version>
                <executions>
                    <execution>
                        <id>add-source</id>
                        <phase>generate-sources</phase>
                        <goals>
                            <goal>add-source</goal>
                        </goals>
                        <configuration>
                            <sources>
                                <source>${project.basedir}/src/main/kotlin</source>
                            </sources>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>


</project>


================================================
FILE: webmagic-scripts/src/main/groovy/Github.groovy
================================================
Github {
    Site {
        sleepTime 0
        timeOut 100
        retryTimes 3
        userAgent ['a','b','c'].random
    }
    match "https://github.com/\\w+/\\w+" {
        addUrl(url.regex("https://github.com/\\w+/\\w+"))
        return  {
            name: html.xpath("//h1[@class='entry-title public']/strong/a/text()")
            author: html.xpath "https://github\\.com/(\\w+)/.*"
            readme: html.xpath "//div[@id='readme']/tidyText()"
            star : toInt(html.xpath("//div[@id='readme']/tidyText()"))
        }
    }

}


================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/Params.java
================================================
package us.codecraft.webmagic.scripts;

import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Set;

import lombok.Getter;
import lombok.Setter;
import us.codecraft.webmagic.scripts.languages.JRuby;
import us.codecraft.webmagic.scripts.languages.Javascript;
import us.codecraft.webmagic.scripts.languages.Language;
import us.codecraft.webmagic.utils.WMCollections;

public class Params {
   @Getter
   Language language = new Javascript();

   @Getter @Setter
   String scriptFileName;

   @Getter @Setter
   List<String> urls;

   @Getter @Setter
   int thread = 1;

   @Getter @Setter
   int sleepTime = 1000;
   
   private static Map<Language, Set<String>> alias;

   public Params() {
      alias = new HashMap<Language, Set<String>>();
      alias.put(new Javascript(), WMCollections.<String>newHashSet("js", "javascript", "JavaScript", "JS"));
      alias.put(new JRuby(), WMCollections.<String>newHashSet("ruby", "jruby", "Ruby", "JRuby"));
   }

   public void setLanguagefromArg(String arg) {
       for (Map.Entry<Language, Set<String>> languageSetEntry : alias.entrySet()) {
           if (languageSetEntry.getValue().contains(arg)) {
               this.language = languageSetEntry.getKey();
               return;
           }
       }
   }
}

================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/ScriptConsole.java
================================================
package us.codecraft.webmagic.scripts;

import org.apache.commons.cli.*;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.scripts.config.CommandLineOption;
import us.codecraft.webmagic.utils.WMCollections;

import java.util.List;

/**
 * @author code4crafter@gmail.com / FrancoisGib
 * @since 0.4.1
 */
public class ScriptConsole {
    public static void main(String[] args) {
        Params params = parseCommand(args);
        startSpider(params);
    }

    private static void startSpider(Params params) {
        ScriptProcessor pageProcessor = ScriptProcessorBuilder.custom()
                .language(params.getLanguage()).scriptFromFile(params.getScriptFileName()).thread(params.getThread()).build();
        pageProcessor.getSite().setSleepTime(params.getSleepTime());
        pageProcessor.getSite().setRetryTimes(3);
        pageProcessor.getSite().setAcceptStatCode(WMCollections.<Integer>newHashSet(200, 404,403, 500,502));
        Spider spider = Spider.create(pageProcessor).thread(params.getThread());
        spider.clearPipeline().addPipeline(new Pipeline() {
            @Override
            public void process(ResultItems resultItems, Task task) {

            }
        });
        if (params.getUrls() == null || params.getUrls().size() == 0) {
            System.err.println("Need at least one argument");
            System.out.println("Usage: java -jar webmagic.jar [-l language] -f script file [-t threadnum] [-s sleep time] url1 [url2 url3]");
            System.exit(-1);
        }
        for (String url : params.getUrls()) {
            spider.addUrl(url);
        }
        spider.run();
    }


    private static Params parseCommand(String[] args) {
        try {
            Options options = new Options();
            options.addOption(new Option("l", "language", true, "language"));
            options.addOption(new Option("t", "thread", true, "thread"));
            options.addOption(new Option("f", "file", true, "script file"));
            options.addOption(new Option("i", "input", true, "input file"));
            options.addOption(new Option("s", "sleep", true, "sleep time"));
            options.addOption(new Option("g", "logger", true, "sleep time"));
            CommandLineParser commandLineParser = new PosixParser();
            CommandLine commandLine = commandLineParser.parse(options, args);
            return readOptions(commandLine);
        } catch (Exception e) {
            e.printStackTrace();
            exit();
            return null;
        }
    }

    private static void exit() {
        System.err.println("Format error");
        System.out.println("Usage: java -jar webmagic.jar [-l language] -f script file [-t threadnum] [-s sleep time] url1 [url2 url3]");
        System.exit(-1);
    }

    private static Params readOptions(CommandLine commandLine) {
        Params params = new Params();
        List<CommandLineOption> options = CommandLineOption.getAllOptions();
        for (CommandLineOption option : options)
            option.addParamOptionIfInCommandLine(params, commandLine);
        return params;
    }
}

================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/ScriptEnginePool.java
================================================
package us.codecraft.webmagic.scripts;

import javax.script.ScriptEngine;
import javax.script.ScriptEngineManager;

import us.codecraft.webmagic.scripts.languages.Language;

import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * @author code4crafter@gmail.com
 * @since 0.4.1
 */
public class ScriptEnginePool {

    private final AtomicInteger availableCount;

    private final LinkedBlockingQueue<ScriptEngine> scriptEngines = new LinkedBlockingQueue<ScriptEngine>();

    public ScriptEnginePool(Language language,int size) {
        this.availableCount = new AtomicInteger(size);
        for (int i=0;i<size;i++){
            ScriptEngineManager manager = new ScriptEngineManager();
            ScriptEngine engine = manager.getEngineByName(language.getEngineName());
            scriptEngines.add(engine);
        }
    }

    public ScriptEngine getEngine() {
        availableCount.decrementAndGet();
        return scriptEngines.poll();
    }

    public void release(ScriptEngine scriptEngine){
        scriptEngines.add(scriptEngine);
        availableCount.incrementAndGet();
    }

}


================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/ScriptProcessor.java
================================================
package us.codecraft.webmagic.scripts;


import java.io.IOException;
import java.io.InputStream;
import java.nio.charset.Charset;
import javax.script.ScriptContext;
import javax.script.ScriptEngine;
import javax.script.ScriptException;
import org.apache.commons.io.IOUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scripts.languages.Language;

/**
 * @author code4crafter@gmail.com
 * @since 0.4.1
 */
public class ScriptProcessor implements PageProcessor {

    private ScriptEnginePool enginePool;

    private String defines;

    private String script;

    private final Language language;

    private Site site = Site.me();

    public ScriptProcessor(Language language, String script, int threadNum) {
        if (language == null || script == null) {
            throw new IllegalArgumentException("language and script must not be null!");
        }
        this.language = language;
        enginePool = new ScriptEnginePool(language, threadNum);
        InputStream resourceAsStream = this.getClass().getClassLoader().getResourceAsStream(language.getDefineFile());
        try {
            defines = IOUtils.toString(resourceAsStream, Charset.defaultCharset());
        } catch (IOException e) {
            throw new IllegalArgumentException(e);
        }
        this.script = script;
    }

    @Override
    public void process(Page page) {
        ScriptEngine engine = enginePool.getEngine();
        try {
            ScriptContext context = engine.getContext();
            context.setAttribute("page", page, ScriptContext.ENGINE_SCOPE);
            context.setAttribute("config", site, ScriptContext.ENGINE_SCOPE);
            try {
                this.language.process(engine, defines, script, page);
            } catch (ScriptException e) {
                e.printStackTrace();
            }
        } finally {
            enginePool.release(engine);
        }
    }


    @Override
    public Site getSite() {
        return site;
    }

}


================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/ScriptProcessorBuilder.java
================================================
package us.codecraft.webmagic.scripts;


import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.nio.charset.Charset;
import org.apache.commons.io.IOUtils;

import us.codecraft.webmagic.scripts.languages.Javascript;
import us.codecraft.webmagic.scripts.languages.Language;


/**
 * @author code4crafter@gmail.com
 * @since 0.4.1
 */
public class ScriptProcessorBuilder {

    private static final Language DefaultLanguage = new Javascript();

    private Language language = DefaultLanguage;

    private String script;

    private int threadNum = 1;

    private ScriptProcessorBuilder() {
    }

    public static ScriptProcessorBuilder custom() {
        return new ScriptProcessorBuilder();
    }

    public ScriptProcessorBuilder language(Language language) {
        this.language = language;
        return this;
    }

    public ScriptProcessorBuilder scriptFromFile(String fileName) {
        try {
            InputStream resourceAsStream = new FileInputStream(fileName);
            this.script = IOUtils.toString(resourceAsStream, Charset.defaultCharset());
        } catch (IOException e) {
            throw new IllegalArgumentException(e);
        }
        return this;
    }

    public ScriptProcessorBuilder scriptFromClassPathFile(String fileName) {
        try {
            InputStream resourceAsStream = ScriptProcessor.class.getClassLoader().getResourceAsStream(fileName);
            this.script = IOUtils.toString(resourceAsStream, Charset.defaultCharset());
        } catch (IOException e) {
            throw new IllegalArgumentException(e);
        }
        return this;
    }

    public ScriptProcessorBuilder script(String script) {
        this.script = script;
        return this;
    }

    public ScriptProcessorBuilder thread(int threadNum) {
        this.threadNum = threadNum;
        return this;
    }

    public ScriptProcessor build(){
        return new ScriptProcessor(language,script,threadNum);
    }

}


================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/config/CommandLineOption.java
================================================
package us.codecraft.webmagic.scripts.config;

import java.util.List;

import org.apache.commons.cli.CommandLine;

import lombok.Getter;
import us.codecraft.webmagic.scripts.Params;

public abstract class CommandLineOption {
    @Getter
    char option;

    public CommandLineOption(char option) {
        this.option = option;
    }

    protected abstract void addParamOption(Params params, CommandLine commandLine);

    public void addParamOptionIfInCommandLine(Params params, CommandLine commandLine) {
        if (commandLine.hasOption(this.option))
            this.addParamOption(params, commandLine);
    }

    public static List<CommandLineOption> getAllOptions() {
        return List.of(new OptionL(), new OptionF(), new OptionS(), new OptionT(), new OptionG());
    }
}

class OptionL extends CommandLineOption {
    public OptionL() {
        super('l');
    }

    protected void addParamOption(Params params, CommandLine commandLine) {
        String language = commandLine.getOptionValue("l");
        params.setLanguagefromArg(language);
    }
}

class OptionF extends CommandLineOption {
    public OptionF() {
        super('f');
    }

    protected void addParamOption(Params params, CommandLine commandLine) {
        String scriptFilename = commandLine.getOptionValue("f");
        params.setScriptFileName(scriptFilename);
    }
}

class OptionS extends CommandLineOption {
    public OptionS() {
        super('s');
    }

    protected void addParamOption(Params params, CommandLine commandLine) {
        Integer sleepTime = Integer.parseInt(commandLine.getOptionValue("s"));
        params.setSleepTime(sleepTime);
    }
}

class OptionT extends CommandLineOption {
    public OptionT() {
        super('t');
    }

    protected void addParamOption(Params params, CommandLine commandLine) {
        Integer thread = Integer.parseInt(commandLine.getOptionValue("t"));
        params.setThread(thread);
    }
}

class OptionG extends CommandLineOption {
    public OptionG() {
        super('g');
    }

    protected void addParamOption(Params params, CommandLine commandLine) {
        ConfigLogger.configLogger(commandLine.getOptionValue("g"));
    }
}

================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/config/ConfigLogger.java
================================================
package us.codecraft.webmagic.scripts.config;

import java.util.List;

import org.apache.commons.lang3.tuple.Pair;
import org.apache.logging.log4j.Level;
import org.apache.logging.log4j.core.Logger;
import org.slf4j.LoggerFactory;

public class ConfigLogger {
    /**
     * Log the config parameter. If the counter is less than the number of available
     * options then it means that the user entered an option
     * 
     * @param value The config string
     */
    public static void configLogger(String value) {
        List<Pair<String, Level>> options = List.of(
            Pair.of("debug", Level.DEBUG),
            Pair.of("info", Level.INFO),
            Pair.of("warn", Level.WARN),
            Pair.of("trace", Level.TRACE),
            Pair.of("off", Level.OFF),
            Pair.of("error", Level.ERROR));
        Pair<String, Level> option = options.get(0);
        int i = 1;
        while (i < options.size() && !option.getLeft().equalsIgnoreCase(value))
            option = options.get(i++);
        if (i < options.size()) {
            Logger rootLogger = (Logger) LoggerFactory.getLogger(org.slf4j.Logger.ROOT_LOGGER_NAME);
            rootLogger.setLevel(option.getRight());
        }
    }
}


================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/languages/JRuby.java
================================================
package us.codecraft.webmagic.scripts.languages;

import java.util.Iterator;
import java.util.Map;

import javax.script.ScriptEngine;
import javax.script.ScriptException;

import org.jruby.RubyHash;

import us.codecraft.webmagic.Page;

public class JRuby extends Language {
    public JRuby() {
        super("jruby","ruby/defines.rb","");
    }

    public void process(ScriptEngine engine, String defines, String script, Page page) throws ScriptException {
        RubyHash oRuby = (RubyHash) engine.eval(defines + "\n" + script, engine.getContext());
        Iterator itruby = oRuby.entrySet().iterator();
        while (itruby.hasNext()) {
            Map.Entry pairs = (Map.Entry) itruby.next();
            page.getResultItems().put(pairs.getKey().toString(), pairs.getValue());
        }
    }
} 

================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/languages/Javascript.java
================================================
package us.codecraft.webmagic.scripts.languages;

import javax.script.ScriptEngine;
import javax.script.ScriptException;

import us.codecraft.webmagic.Page;

public class Javascript extends Language {
    public Javascript() {
        super("javascript","js/defines.js","");
    }

    public void process(ScriptEngine engine, String defines, String script, Page page) throws ScriptException {
        engine.eval(defines + "\n" + script, engine.getContext());
    }
}

================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/languages/Jython.java
================================================
package us.codecraft.webmagic.scripts.languages;

import java.util.Iterator;
import java.util.Map;

import javax.script.ScriptEngine;
import javax.script.ScriptException;

import org.python.core.PyDictionary;

import us.codecraft.webmagic.Page;

public class Jython extends Language {
    public Jython() {
        super("jython","python/defines.py","");
    }

    public void process(ScriptEngine engine, String defines, String script, Page page) throws ScriptException {
        engine.eval(defines + "\n" + script, engine.getContext());
        PyDictionary oJython = (PyDictionary) engine.get("result");
        Iterator it = oJython.entrySet().iterator();
        while (it.hasNext()) {
            Map.Entry pairs = (Map.Entry) it.next();
            page.getResultItems().put(pairs.getKey().toString(), pairs.getValue());
        }
    }
}

================================================
FILE: webmagic-scripts/src/main/java/us/codecraft/webmagic/scripts/languages/Language.java
================================================
package us.codecraft.webmagic.scripts.languages;

import javax.script.ScriptEngine;
import javax.script.ScriptException;
import us.codecraft.webmagic.Page;

/**
 * @author FrancoisGib
 */
public abstract class Language {
    public Language(String engineName, String defineFile, String gatherFile) {
        this.engineName = engineName;
        this.defineFile = defineFile;
        this.gatherFile = gatherFile;
    }

    private String engineName;

    private String defineFile;

    private String gatherFile;

    public String getEngineName() {
        return engineName;
    }

    public String getDefineFile() {
        return defineFile;
    }

    public String getGatherFile() {
        return gatherFile;
    }

    public abstract void process(ScriptEngine engine, String defines, String script, Page page) throws ScriptException;
}


================================================
FILE: webmagic-scripts/src/main/kotlin/Github.kt
================================================

import us.codecraft.webmagic.Page
import us.codecraft.webmagic.Site
import us.codecraft.webmagic.Spider
import us.codecraft.webmagic.processor.PageProcessor
import us.codecraft.webmagic.processor.example.GithubRepoPageProcessor

/**
 *
 * @author code4crafter@gmail.com
 * Date: 2017/5/31
 * Time: 下午11:33
 *
 */
class GithubRepoPageProcessor : PageProcessor {

    private val site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000)

    override fun process(page: Page) {
        page.addTargetRequests(page.html.links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all())
        page.addTargetRequests(page.html.links().regex("(https://github\\.com/[\\w\\-])").all())
        page.putField("author", page.url.regex("https://github\\.com/(\\w+)/.*").toString())
        page.putField("name", page.html.xpath("//h1[@class='public']/strong/a/text()").toString())
        if (page.resultItems.get<Any>("name") == null) {
            //skip this page
            page.setSkip(true)
        }
        page.putField("readme", page.html.xpath("//div[@id='readme']/tidyText()"))
    }

    override fun getSite(): Site {
        return site
    }

    companion object {
        @JvmStatic fun main(args: Array<String>) {
            Spider.create(GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(5).run()
        }
    }
}


================================================
FILE: webmagic-scripts/src/main/resources/js/defines.js
================================================
function $(str){
    return page.getHtml().$(str).toString();
}
function xpath(str){
    return page.getHtml().xpath(str).toString();
}
function urls(str){
    links = page.getHtml().links().regex(str).all();
    page.addTargetRequests(links);
}


================================================
FILE: webmagic-scripts/src/main/resources/js/github.js
================================================
var name=xpath("//h1[@class='entry-title public']/strong/a/text()")
var readme=xpath("//div[@id='readme']/tidyText()")
var star=xpath("//ul[@class='pagehead-actions']/li[1]//a[@class='social-count js-social-count']/text()")
var fork=xpath("//ul[@class='pagehead-actions']/li[2]//a[@class='social-count']/text()")
var url=page.getUrl().toString()
if (name!=null){
    println(name)
    println(readme)
    println(star)
    println(url)
}

urls("(https://github\\.com/\\w+/\\w+)")
urls("(https://github\\.com/\\w+)")

================================================
FILE: webmagic-scripts/src/main/resources/js/oschina.js
================================================
var result = {
    title: $("div.BlogTitle h1"),
    content: $("div.BlogContent")
}
var config = {
    ua: '',
    sleepTime : 20
}
title = $("div.BlogTitle h1"),
content = $("div.BlogContent")
urls("http://my\\.oschina\\.net/flashsword/blog/\\d+")
config;


================================================
FILE: webmagic-scripts/src/main/resources/python/defines.py
================================================
def xpath(str):
   return page.getHtml().xpath(str).toString()

def css(str):
  return page.getHtml().css(str).toString()

def urls(str):
  links=page.getHtml().links().regex(str).all()
  page.addTargetRequests(links);

def tomap(key,value):
  return "hello world"


================================================
FILE: webmagic-scripts/src/main/resources/python/oschina.py
================================================
title=xpath("div[@class=BlogTitle]")
urls="http://my\\.oschina\\.net/flashsword/blog/\\d+"

result={"title":title,"urls":urls}


================================================
FILE: webmagic-scripts/src/main/resources/ruby/defines.rb
================================================
def xpath str
  $page.getHtml().xpath(str).toString()
end
def css str
  $page.getHtml().css(str).toString()
end
def urls str
  links = $page.getHtml().links().regex(str).all();
  $page.addTargetRequests(links);
end


================================================
FILE: webmagic-scripts/src/main/resources/ruby/github.rb
================================================
name= xpath "//h1[@class='entry-title public']/strong/a/text()"
readme = xpath "//div[@id='readme']/tidyText()"
star = xpath "//ul[@class='pagehead-actions']/li[1]//a[@class='social-count js-social-count']/text()"
fork = xpath "//ul[@class='pagehead-actions']/li[2]//a[@class='social-count']/text()"
url=$page.getUrl().toString()

puts name,readme,star,fork,url unless name==nil

urls "(https://github\\.com/\\w+/\\w+)"
urls "(https://github\\.com/\\w+)"

================================================
FILE: webmagic-scripts/src/main/resources/ruby/oschina.rb
================================================
urls "http://my\\.oschina\\.net/flashsword/blog/\\d+"
title = css "div.BlogTitle h1"
content = css "div.BlogContent"

return {"title"=>title,"content"=>content}


================================================
FILE: webmagic-scripts/src/test/java/us/codecraft/webmagic/scripts/ScriptProcessorTest.java
================================================
package us.codecraft.webmagic.scripts;

import org.junit.Ignore;
import org.junit.Test;

import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.scripts.languages.JRuby;
import us.codecraft.webmagic.scripts.languages.Javascript;
import us.codecraft.webmagic.scripts.languages.Jython;

/**
 * @author code4crafter@gmail.com
 * @since 0.4.1
 */
@Ignore
public class ScriptProcessorTest {

    @Test
    public void testJavaScriptProcessor() {
        ScriptProcessor pageProcessor = ScriptProcessorBuilder.custom().language(new Javascript()).scriptFromClassPathFile("js/oschina.js").build();
        pageProcessor.getSite().setSleepTime(0);
        Spider.create(pageProcessor).addUrl("http://my.oschina.net/flashsword/blog").setSpawnUrl(false).run();
    }

    @Test
    public void testRubyProcessor() {
        ScriptProcessor pageProcessor = ScriptProcessorBuilder.custom().language(new JRuby()).scriptFromClassPathFile("ruby/oschina.rb").build();
        pageProcessor.getSite().setSleepTime(0);
        Spider.create(pageProcessor).addUrl("http://my.oschina.net/flashsword/blog").setSpawnUrl(false).run();
    }


    @Test
    public void testPythonProcessor() {
        ScriptProcessor pageProcessor = ScriptProcessorBuilder.custom().language(new Jython()).scriptFromClassPathFile("python/oschina.py").build();
        pageProcessor.getSite().setSleepTime(0);
        Spider.create(pageProcessor).addUrl("http://my.oschina.net/flashsword/blog").setSpawnUrl(false).run();
    }
}


================================================
FILE: webmagic-scripts/src/test/resources/log4j2-test.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<Configuration>
    <Appenders>
        <Console name="stdout" target="SYSTEM_OUT">
            <PatternLayout pattern="%d{yy-MM-dd HH:mm:ss,SSS} %-5p %c(%F:%L) ## %m%n" />
        </Console>
    </Appenders>
    <Loggers>
        <Logger name="org.apache" level="warn" additivity="false">
            <AppenderRef ref="stdout" />
        </Logger>
        <Root level="debug">
            <AppenderRef ref="stdout" />
        </Root>
    </Loggers>
</Configuration>


================================================
FILE: webmagic-selenium/README.md
================================================
webmagic-extension
-------
webmagic与selenium的集成，用于爬取ajax页面。selenium太重，所以单独抽出成一个包了。

================================================
FILE: webmagic-selenium/config.ini
================================================
# What WebDriver to use for the tests
driver=phantomjs
#driver=firefox
#driver=chrome
#driver=http://localhost:8910
#driver=http://localhost:4444/wd/hub

# PhantomJS specific config (change according to your installation)
#phantomjs_exec_path=/Users/Bingo/bin/phantomjs-qt5
phantomjs_exec_path=/Users/Bingo/Downloads/phantomjs-1.9.8-macosx/bin/phantomjs
#phantomjs_driver_path=/Users/Bingo/Documents/workspace/webmagic/webmagic-selenium/src/main.js
phantomjs_driver_loglevel=DEBUG

================================================
FILE: webmagic-selenium/pom.xml
================================================
<?xml version="1.0" encoding="UTF-8"?>
<project
    xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
        http://maven.apache.org/POM/4.0.0
        http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic</artifactId>
        <version>1.0.4-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>webmagic-selenium</artifactId>

    <dependencies>
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
        </dependency>
        <dependency>
            <groupId>${project.groupId}</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>${project.version}</version>
        </dependency>
        <dependency>
            <groupId>com.github.detro</groupId>
            <artifactId>phantomjsdriver</artifactId>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-deploy-plugin</artifactId>
                <version>3.0.0-M1</version>
                <configuration>
                    <skip>true</skip>
                </configuration>
            </plugin>
        </plugins>
    </build>

</project>


================================================
FILE: webmagic-selenium/src/main/java/us/codecraft/webmagic/downloader/selenium/SeleniumDownloader.java
================================================
package us.codecraft.webmagic.downloader.selenium;

import org.openqa.selenium.By;
import org.openqa.selenium.Cookie;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.downloader.AbstractDownloader;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.selector.PlainText;
import us.codecraft.webmagic.utils.HttpConstant;

import java.io.Closeable;
import java.io.IOException;
import java.net.http.HttpRequest;
import java.util.Map;

/**
 * 使用Selenium调用浏览器进行渲染。目前仅支持chrome。<br>
 * 需要下载Selenium driver支持。<br>
 *
 * @author code4crafter@gmail.com <br>
 * Date: 13-7-26 <br>
 * Time: 下午1:37 <br>
 */
public class SeleniumDownloader extends AbstractDownloader implements Closeable {

    private volatile WebDriverPool webDriverPool;

    private Logger logger = LoggerFactory.getLogger(getClass());

    private int sleepTime = 0;

    private int poolSize = 1;

    private static final String DRIVER_PHANTOMJS = "phantomjs";

    /**
     * 新建
     *
     * @param chromeDriverPath chromeDriverPath
     */
    public SeleniumDownloader(String chromeDriverPath) {
        System.getProperties().setProperty("webdriver.chrome.driver",
                chromeDriverPath);
    }

    /**
     * Constructor without any filed. Construct PhantomJS browser
     *
     * @author bob.li.0718@gmail.com
     */
    public SeleniumDownloader() {
        // System.setProperty("phantomjs.binary.path",
        // "/Users/Bingo/Downloads/phantomjs-1.9.7-macosx/bin/phantomjs");
    }

    /**
     * set sleep time to wait until load success
     *
     * @param sleepTime sleepTime
     * @return this
     */
    public SeleniumDownloader setSleepTime(int sleepTime) {
        this.sleepTime = sleepTime;
        return this;
    }

    @Override
    public Page download(Request request, Task task) {
        checkInit();
        WebDriver webDriver = null;
        Page page = Page.fail(request);
        try {
            webDriver = webDriverPool.get();

            logger.info("downloading page " + request.getUrl());
            webDriver.get(request.getUrl());
            try {
                if (sleepTime > 0) {
                    Thread.sleep(sleepTime);
                }
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            WebDriver.Options manage = webDriver.manage();
            Site site = task.getSite();
            if (site.getCookies() != null) {
                for (Map.Entry<String, String> cookieEntry : site.getCookies()
                        .entrySet()) {
                    Cookie cookie = new Cookie(cookieEntry.getKey(),
                            cookieEntry.getValue());
                    manage.addCookie(cookie);
                }
            }

            /*
             * TODO You can add mouse event or other processes
             *
             * @author: bob.li.0718@gmail.com
             */

            WebElement webElement = webDriver.findElement(By.xpath("/html"));
            String content = webElement.getAttribute("outerHTML");
            page.setDownloadSuccess(true);
            page.setRawText(content);
            page.setHtml(new Html(content, request.getUrl()));
            page.setUrl(new PlainText(request.getUrl()));
            page.setRequest(request);
            page.setStatusCode(HttpConstant.StatusCode.CODE_200);
            onSuccess(page, task);
        } catch (Exception e) {
            logger.warn("download page {} error", request.getUrl(), e);
            onError(page, task, e);
        } finally {
            if (webDriver != null) {
                webDriverPool.returnToPool(webDriver);
            }
        }
        return page;
    }

    private void checkInit() {
        if (webDriverPool == null) {
            synchronized (this) {
                webDriverPool = new WebDriverPool(poolSize);
            }
        }
    }

    @Override
    public void setThread(int thread) {
        this.poolSize = thread;
    }

    @Override
    public void close() throws IOException {
        webDriverPool.closeAll();
    }
}


================================================
FILE: webmagic-selenium/src/main/java/us/codecraft/webmagic/downloader/selenium/WebDriverPool.java
================================================
package us.codecraft.webmagic.downloader.selenium;

import java.io.FileReader;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.Properties;
import java.util.concurrent.BlockingDeque;
import java.util.concurrent.LinkedBlockingDeque;
import java.util.concurrent.atomic.AtomicInteger;

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.firefox.FirefoxDriver;
import org.openqa.selenium.firefox.FirefoxOptions;
import org.openqa.selenium.phantomjs.PhantomJSDriver;
import org.openqa.selenium.phantomjs.PhantomJSDriverService;
import org.openqa.selenium.remote.DesiredCapabilities;
import org.openqa.selenium.remote.RemoteWebDriver;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * @author code4crafter@gmail.com <br>
 *         Date: 13-7-26 <br>
 *         Time: 下午1:41 <br>
 */
class WebDriverPool {
	private Logger logger = LoggerFactory.getLogger(getClass());

	private final static int DEFAULT_CAPACITY = 5;

	private final int capacity;

	private final static int STAT_RUNNING = 1;

	private final static int STAT_CLODED = 2;

	private AtomicInteger stat = new AtomicInteger(STAT_RUNNING);

	/*
	 * new fields for configuring phantomJS
	 */
	private WebDriver mDriver = null;
	private boolean mAutoQuitDriver = true;

	private static final String DEFAULT_CONFIG_FILE = "/data/webmagic/webmagic-selenium/config.ini";
	private static final String DRIVER_FIREFOX = "firefox";
	private static final String DRIVER_CHROME = "chrome";
	private static final String DRIVER_PHANTOMJS = "phantomjs";

	protected static Properties sConfig;
	protected static DesiredCapabilities sCaps;

	/**
	 * Configure the GhostDriver, and initialize a WebDriver instance. This part
	 * of code comes from GhostDriver.
	 * https://github.com/detro/ghostdriver/tree/master/test/java/src/test/java/ghostdriver
	 *
	 * @author bob.li.0718@gmail.com
	 * @throws IOException
	 */
	public void configure() throws IOException {
		// Read config file
		sConfig = new Properties();
		String configFile = DEFAULT_CONFIG_FILE;
		if (System.getProperty("selenuim_config")!=null){
			configFile = System.getProperty("selenuim_config");
		}
		sConfig.load(new FileReader(configFile));

		// Prepare capabilities
		sCaps = new DesiredCapabilities();
		sCaps.setCapability("takesScreenshot", false);

		String driver = sConfig.getProperty("driver", DRIVER_PHANTOMJS);

		// Fetch PhantomJS-specific configuration parameters
		if (driver.equals(DRIVER_PHANTOMJS)) {
			// "phantomjs_exec_path"
			if (sConfig.getProperty("phantomjs_exec_path") != null) {
				sCaps.setCapability(
						PhantomJSDriverService.PHANTOMJS_EXECUTABLE_PATH_PROPERTY,
						sConfig.getProperty("phantomjs_exec_path"));
			} else {
				throw new IOException(
						String.format(
								"Property '%s' not set!",
								PhantomJSDriverService.PHANTOMJS_EXECUTABLE_PATH_PROPERTY));
			}
			// "phantomjs_driver_path"
			if (sConfig.getProperty("phantomjs_driver_path") != null) {
				System.out.println("Test will use an external GhostDriver");
				sCaps.setCapability(
						PhantomJSDriverService.PHANTOMJS_GHOSTDRIVER_PATH_PROPERTY,
						sConfig.getProperty("phantomjs_driver_path"));
			} else {
				System.out
						.println("Test will use PhantomJS internal GhostDriver");
			}
		}

		// Disable "web-security", enable all possible "ssl-protocols" and
		// "ignore-ssl-errors" for PhantomJSDriver
		// sCaps.setCapability(PhantomJSDriverService.PHANTOMJS_CLI_ARGS, new
		// String[] {
		// "--web-security=false",
		// "--ssl-protocol=any",
		// "--ignore-ssl-errors=true"
		// });

		ArrayList<String> cliArgsCap = new ArrayList<String>();
		cliArgsCap.add("--web-security=false");
		cliArgsCap.add("--ssl-protocol=any");
		cliArgsCap.add("--ignore-ssl-errors=true");
		sCaps.setCapability(PhantomJSDriverService.PHANTOMJS_CLI_ARGS,
				cliArgsCap);

		// Control LogLevel for GhostDriver, via CLI arguments
		sCaps.setCapability(
				PhantomJSDriverService.PHANTOMJS_GHOSTDRIVER_CLI_ARGS,
				new String[] { "--logLevel="
						+ (sConfig.getProperty("phantomjs_driver_loglevel") != null ? sConfig
								.getProperty("phantomjs_driver_loglevel")
								: "INFO") });

		// String driver = sConfig.getProperty("driver", DRIVER_PHANTOMJS);

		// Start appropriate Driver
		if (isUrl(driver)) {
			sCaps.setBrowserName("phantomjs");
			mDriver = new RemoteWebDriver(new URL(driver), sCaps);
		} else if (driver.equals(DRIVER_FIREFOX)) {
			mDriver = new FirefoxDriver(new FirefoxOptions(sCaps));
		} else if (driver.equals(DRIVER_CHROME)) {
			mDriver = new ChromeDriver(new ChromeOptions().merge(sCaps));
		} else if (driver.equals(DRIVER_PHANTOMJS)) {
			mDriver = new PhantomJSDriver(sCaps);
		}
	}

	/**
	 * check whether input is a valid URL
	 *
	 * @author bob.li.0718@gmail.com
	 * @param urlString urlString
	 * @return true means yes, otherwise no.
	 */
	private boolean isUrl(String urlString) {
		try {
			new URL(urlString);
			return true;
		} catch (MalformedURLException mue) {
			return false;
		}
	}

	/**
	 * store webDrivers created
	 */
	private List<WebDriver> webDriverList = Collections
			.synchronizedList(new ArrayList<WebDriver>());

	/**
	 * store webDrivers available
	 */
	private BlockingDeque<WebDriver> innerQueue = new LinkedBlockingDeque<WebDriver>();

	public WebDriverPool(int capacity) {
		this.capacity = capacity;
	}

	public WebDriverPool() {
		this(DEFAULT_CAPACITY);
	}

	/**
	 *
	 * @return
	 * @throws InterruptedException
	 */
	public WebDriver get() throws InterruptedException {
		checkRunning();
		WebDriver poll = innerQueue.poll();
		if (poll != null) {
			return poll;
		}
		if (webDriverList.size() < capacity) {
			synchronized (webDriverList) {
				if (webDriverList.size() < capacity) {

					// add new WebDriver instance into pool
					try {
						configure();
						innerQueue.add(mDriver);
						webDriverList.add(mDriver);
					} catch (IOException e) {
						e.printStackTrace();
					}

					// ChromeDriver e = new ChromeDriver();
					// WebDriver e = getWebDriver();
					// innerQueue.add(e);
					// webDriverList.add(e);
				}
			}

		}
		return innerQueue.take();
	}

	public void returnToPool(WebDriver webDriver) {
		checkRunning();
		innerQueue.add(webDriver);
	}

	protected void checkRunning() {
		if (!stat.compareAndSet(STAT_RUNNING, STAT_RUNNING)) {
			throw new IllegalStateException("Already closed!");
		}
	}

	public void closeAll() {
		boolean b = stat.compareAndSet(STAT_RUNNING, STAT_CLODED);
		if (!b) {
			throw new IllegalStateException("Already closed!");
		}
		for (WebDriver webDriver : webDriverList) {
			logger.info("Quit webDriver" + webDriver);
			webDriver.quit();
			webDriver = null;
		}
	}

}


================================================
FILE: webmagic-selenium/src/test/java/us/codecraft/webmagic/downloader/SeleniumTest.java
================================================
package us.codecraft.webmagic.downloader;

import java.util.Arrays;
import java.util.HashMap;
import java.util.Map;

import org.junit.Ignore;
import org.junit.Test;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.remote.DesiredCapabilities;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-7-26 <br>
 * Time: 下午12:27 <br>
 */
public class SeleniumTest {

    @Ignore("need chrome driver")
    @Test
    public void testSelenium() {
        System.getProperties().setProperty("webdriver.chrome.driver", "/Users/yihua/Downloads/chromedriver");
        Map<String, Object> contentSettings = new HashMap<String, Object>();
        contentSettings.put("images", 2);

        Map<String, Object> preferences = new HashMap<String, Object>();
        preferences.put("profile.default_content_settings", contentSettings);

        DesiredCapabilities caps = new DesiredCapabilities();
        caps.setCapability("chrome.prefs", preferences);
        caps.setCapability("chrome.switches", Arrays.asList("--user-data-dir=/Users/yihua/temp/chrome"));
        WebDriver webDriver = new ChromeDriver(new ChromeOptions().merge(caps));
        webDriver.get("http://huaban.com/");
        WebElement webElement = webDriver.findElement(By.xpath("/html"));
        System.out.println(webElement.getAttribute("outerHTML"));
        webDriver.close();
    }
}


================================================
FILE: webmagic-selenium/src/test/java/us/codecraft/webmagic/downloader/selenium/SeleniumDownloaderTest.java
================================================
package us.codecraft.webmagic.downloader.selenium;

import org.junit.Ignore;
import org.junit.Test;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Task;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-7-26 <br>
 *        Time: 下午2:46 <br>
 */
public class SeleniumDownloaderTest {

	private String chromeDriverPath = "/Users/yihua/Downloads/chromedriver";

	@Ignore("need chrome driver")
	@Test
	public void test() {
		SeleniumDownloader seleniumDownloader = new SeleniumDownloader(chromeDriverPath);
		long time1 = System.currentTimeMillis();
		for (int i = 0; i < 100; i++) {
			Page page = seleniumDownloader.download(new Request("http://huaban.com/"), new Task() {
				@Override
				public String getUUID() {
					return "huaban.com";
				}

				@Override
				public Site getSite() {
					return Site.me();
				}
			});
			System.out.println(page.getHtml().$("#waterfall").links().regex(".*pins.*").all());
		}
		System.out.println(System.currentTimeMillis() - time1);
	}

    @Ignore
	@Test
	public void testBaiduWenku() {
		SeleniumDownloader seleniumDownloader = new SeleniumDownloader(chromeDriverPath);
        seleniumDownloader.setSleepTime(10000);
		long time1 = System.currentTimeMillis();
		Page page = seleniumDownloader.download(new Request("http://wenku.baidu.com/view/462933ff04a1b0717fd5ddc2.html"), new Task() {
			@Override
			public String getUUID() {
				return "huaban.com";
			}

			@Override
			public Site getSite() {
				return Site.me();
			}
		});
		System.out.println(page.getHtml().$("div.inner").replace("<[^<>]+>","").replace("&nsbp;","").all());
	}

}


================================================
FILE: webmagic-selenium/src/test/java/us/codecraft/webmagic/downloader/selenium/WebDriverPoolTest.java
================================================
package us.codecraft.webmagic.downloader.selenium;

import org.junit.Ignore;
import org.junit.Test;
import org.openqa.selenium.WebDriver;

/**
 * @author code4crafter@gmail.com <br>
 * Date: 13-7-26 <br>
 * Time: 下午2:12 <br>
 */
public class WebDriverPoolTest {

    private String chromeDriverPath = "/Users/yihua/Downloads/chromedriver";

    @Ignore("need chrome driver")
    @Test
    public void test() {
        System.getProperties().setProperty("webdriver.chrome.driver", chromeDriverPath);
        WebDriverPool webDriverPool = new WebDriverPool(5);
        for (int i = 0; i < 5; i++) {
            try {
                WebDriver webDriver = webDriverPool.get();
                System.out.println(i);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
        webDriverPool.closeAll();
    }
}


================================================
FILE: webmagic-selenium/src/test/java/us/codecraft/webmagic/samples/GooglePlayProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.downloader.selenium.SeleniumDownloader;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 *
 * Using Selenium with PhantomJS to fetch web-page with JS<br>
 * 
 * @author bob.li.0718@gmail.com <br>
 *         Date: 15-7-11 <br>
 */
public class GooglePlayProcessor implements PageProcessor {

	private Site site;

	@Override
	public void process(Page page) {

		page.putField("whole-html", page.getHtml().toString());

	}

	@Override
	public Site getSite() {
		if (null == site) {
			site = Site.me().setDomain("play.google.com").setSleepTime(300);
		}
		return site;
	}

	public static void main(String[] args) {
		Spider.create(new GooglePlayProcessor())
				.thread(5)
				.addPipeline(
						new FilePipeline(
								"/Users/Bingo/Documents/workspace/webmagic/webmagic-selenium/data/"))
				.setDownloader(new SeleniumDownloader())
				.addUrl("https://play.google.com/store/apps/details?id=com.tencent.mm")
				.runAsync();
	}
}


================================================
FILE: webmagic-selenium/src/test/java/us/codecraft/webmagic/samples/HuabanProcessor.java
================================================
package us.codecraft.webmagic.samples;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.downloader.selenium.SeleniumDownloader;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * 花瓣网抽取器。<br>
 * 使用Selenium做页面动态渲染。<br>
 * @author code4crafter@gmail.com <br>
 * Date: 13-7-26 <br>
 * Time: 下午4:08 <br>
 */
public class HuabanProcessor implements PageProcessor {

    private Site site;

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("http://huaban\\.com/.*").all());
        if (page.getUrl().toString().contains("pins")) {
            page.putField("img", page.getHtml().xpath("//div[@class='image-holder']/a/img/@src").toString());
        } else {
            page.getResultItems().setSkip(true);
        }
    }

    @Override
    public Site getSite() {
        if (null == site) {
            site = Site.me().setDomain("huaban.com").setSleepTime(0);
        }
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new HuabanProcessor()).thread(5)
                .addPipeline(new FilePipeline("/data/webmagic/test/"))
                .setDownloader(new SeleniumDownloader("/Users/yihua/Downloads/chromedriver"))
                .addUrl("http://huaban.com/")
                .runAsync();
    }
}


================================================
FILE: webmagic-selenium/src/test/resources/config.ini
================================================
#driver=phantomjs
#driver=firefox
driver=chrome
#driver=http://localhost:8910
driver=http://localhost:4444/wd/hub

# PhantomJS specific config (change according to your installation)
#phantomjs_exec_path=/Users/detro/bin/phantomjs-qt5
phantomjs_exec_path=/Users/detro/bin/phantomjs-upstream
phantomjs_driver_path=../../src/main.js
phantomjs_driver_loglevel=DEBUG