gitextract_46gecs8w/ ├── .gdbinit ├── .gitignore ├── CMakeLists.txt ├── Dockerfile ├── LICENSE ├── README.md ├── cmake/ │ └── Findfcgi.cmake ├── config.conf ├── documentation/ │ ├── alexandria.md │ ├── api_response_format.md │ ├── caching.md │ ├── coding_rules.md │ ├── configure_local_nginx.md │ ├── full_text_indexes.md │ ├── ideas.md │ ├── index_file_format.md │ ├── indexer.md │ ├── installing_nodes.md │ ├── performance_journal.md │ ├── search_result_ranking.md │ └── statues_swe.tex ├── scripts/ │ ├── bootstrap_node_2drives.sh │ ├── build-deps.sh │ ├── clean.sh │ ├── download-deps.sh │ ├── download-test-data.sh │ ├── find_missing_files_in_batch.sh │ ├── init-docker.sh │ ├── install-deps.sh │ ├── packager.sh │ ├── prepare-output-dirs.sh │ ├── truncate.sh │ └── update.sh ├── src/ │ ├── URL.cpp │ ├── URL.h │ ├── alexandria.cpp │ ├── algorithm/ │ │ ├── algorithm.cpp │ │ ├── algorithm.h │ │ ├── bloom_filter.cpp │ │ ├── bloom_filter.h │ │ ├── hash.cpp │ │ ├── hash.h │ │ ├── hyper_ball.h │ │ ├── hyper_log_log.cpp │ │ ├── hyper_log_log.h │ │ ├── intersection.cpp │ │ ├── intersection.h │ │ ├── sort.cpp │ │ ├── sort.h │ │ ├── sum_sorted.h │ │ └── top_k.h │ ├── api/ │ │ ├── api_response.cpp │ │ ├── api_response.h │ │ ├── result_with_snippet.cpp │ │ └── result_with_snippet.h │ ├── cluster/ │ │ ├── cluster.h │ │ ├── document.cpp │ │ └── document.h │ ├── common/ │ │ ├── ThreadPool.h │ │ ├── datetime.cpp │ │ ├── datetime.h │ │ ├── dictionary.cpp │ │ ├── dictionary.h │ │ ├── dictionary_row.cpp │ │ ├── dictionary_row.h │ │ ├── simple_thread_pool.hpp │ │ ├── system.cpp │ │ └── system.h │ ├── config.cpp │ ├── config.h │ ├── debug.cpp │ ├── debug.h │ ├── domain_stats/ │ │ ├── domain_stats.cpp │ │ └── domain_stats.h │ ├── downloader/ │ │ ├── merge_downloader.cpp │ │ ├── merge_downloader.h │ │ ├── warc_downloader.cpp │ │ └── warc_downloader.h │ ├── file/ │ │ ├── archive.cpp │ │ ├── archive.h │ │ ├── file.cpp │ │ ├── file.h │ │ ├── gz_tsv_file.cpp │ │ ├── gz_tsv_file.h │ │ ├── tsv_file.cpp │ │ ├── tsv_file.h │ │ ├── tsv_file_remote.cpp │ │ ├── tsv_file_remote.h │ │ ├── tsv_row.cpp │ │ └── tsv_row.h │ ├── full_text/ │ │ ├── domain_link_record.h │ │ ├── link_record.h │ │ ├── record.h │ │ ├── result_set.h │ │ └── search_metric.h │ ├── hash_table2/ │ │ ├── builder.cpp │ │ ├── builder.h │ │ ├── hash_table.cpp │ │ ├── hash_table.h │ │ ├── hash_table_shard.cpp │ │ ├── hash_table_shard.h │ │ ├── hash_table_shard_base.h │ │ ├── hash_table_shard_builder.cpp │ │ └── hash_table_shard_builder.h │ ├── hash_table_helper/ │ │ ├── hash_table_helper.cpp │ │ └── hash_table_helper.h │ ├── http/ │ │ ├── request.cpp │ │ ├── request.h │ │ ├── response.h │ │ ├── server.cpp │ │ └── server.h │ ├── indexer/ │ │ ├── basic_index.h │ │ ├── basic_index_builder.h │ │ ├── console.cpp │ │ ├── console.h │ │ ├── counted_record.h │ │ ├── domain_link_record.h │ │ ├── domain_record.h │ │ ├── generic_record.h │ │ ├── index.h │ │ ├── index_base.h │ │ ├── index_builder.h │ │ ├── index_manager.cpp │ │ ├── index_manager.h │ │ ├── index_reader.cpp │ │ ├── index_reader.h │ │ ├── index_utils.cpp │ │ ├── index_utils.h │ │ ├── link_record.h │ │ ├── merger.cpp │ │ ├── merger.h │ │ ├── regular_index_builder.h │ │ ├── return_record.h │ │ ├── score_builder.cpp │ │ ├── score_builder.h │ │ ├── sharded.h │ │ ├── sharded_builder.h │ │ ├── sharded_index.h │ │ ├── sharded_index_builder.h │ │ ├── url_record.h │ │ └── value_record.h │ ├── indexer.cpp │ ├── logger/ │ │ ├── logger.cpp │ │ └── logger.h │ ├── memory/ │ │ ├── debugger.cpp │ │ ├── debugger.h │ │ ├── memory.cpp │ │ ├── memory.h │ │ └── overload.cpp │ ├── parser/ │ │ ├── cc_parser.cpp │ │ ├── cc_parser.h │ │ ├── entities.cpp │ │ ├── entities.h │ │ ├── html_link.cpp │ │ ├── html_link.h │ │ ├── html_parser.cpp │ │ ├── html_parser.h │ │ ├── parser.cpp │ │ ├── parser.h │ │ ├── unicode.cpp │ │ └── unicode.h │ ├── profiler/ │ │ ├── profiler.cpp │ │ └── profiler.h │ ├── scraper/ │ │ ├── scraper.cpp │ │ ├── scraper.h │ │ ├── scraper_store.cpp │ │ └── scraper_store.h │ ├── scraper.cpp │ ├── search_engine/ │ │ ├── search_allocation.h │ │ ├── search_engine.cpp │ │ └── search_engine.h │ ├── server/ │ │ ├── search_server.cpp │ │ ├── search_server.h │ │ ├── url_server.cpp │ │ └── url_server.h │ ├── server.cpp │ ├── stats/ │ │ └── stats.h │ ├── text/ │ │ ├── stopwords.cpp │ │ ├── stopwords.h │ │ ├── text.cpp │ │ └── text.h │ ├── tools/ │ │ ├── calculate_harmonic.cpp │ │ ├── calculate_harmonic.h │ │ ├── counter.cpp │ │ ├── counter.h │ │ ├── find_links.cpp │ │ ├── find_links.h │ │ ├── generate_url_lists.cpp │ │ ├── generate_url_lists.h │ │ ├── splitter.cpp │ │ └── splitter.h │ ├── transfer/ │ │ ├── transfer.cpp │ │ └── transfer.h │ ├── url_link/ │ │ ├── link.cpp │ │ └── link.h │ ├── utils/ │ │ ├── id_allocator.h │ │ ├── thread_pool.cpp │ │ ├── thread_pool.hpp │ │ └── thread_pool_arg.h │ └── warc/ │ ├── tlds.h │ ├── warc.cpp │ └── warc.h └── tests/ ├── main.cpp ├── test_algorithm.cpp ├── test_bloom_filter.cpp ├── test_cc_parser.cpp ├── test_config.conf ├── test_config2.conf ├── test_configuration.cpp ├── test_counted_index_builder.cpp ├── test_datetime.h ├── test_file.cpp ├── test_hash.cpp ├── test_hash_table.cpp ├── test_html_parser.cpp ├── test_hyper_ball.cpp ├── test_hyper_log_log.cpp ├── test_index_builder.cpp ├── test_index_iteration.cpp ├── test_index_reader.cpp ├── test_logger.cpp ├── test_memory.cpp ├── test_n_gram.cpp ├── test_robot_parser.cpp ├── test_scraper.cpp ├── test_sharded_index_builder.cpp ├── test_sort.cpp ├── test_sum_sorted.cpp ├── test_text.cpp ├── test_thread_pool.cpp ├── test_top_k.cpp ├── test_unicode.cpp ├── test_url.cpp └── test_url_record.cpp