gitextract_v67onyjf/ ├── .github/ │ └── workflows/ │ ├── ci.yaml │ ├── docs.yaml │ ├── package.yaml │ └── test-docs.yaml ├── .gitignore ├── LICENSE ├── README.md ├── abacus-research/ │ ├── README.md │ ├── README_CUAD_LOCAL.md │ ├── biodex-ablation.py │ ├── biodex-demo.py │ ├── biodex-max-quality-at-cost.py │ ├── biodex-min-at-fixed-quality.py │ ├── biodex-pareto-cascades.py │ ├── biodex-priors-cascades.json │ ├── biodex-priors.json │ ├── biodex-revision-priors-maxquality.json │ ├── biodex-revision-priors-mincost.json │ ├── cheap-priors-cascades.json │ ├── cheap-priors.json │ ├── cuad-demo.py │ ├── cuad-max-quality-at-cost.py │ ├── cuad-priors.json │ ├── cuad_data_loader.py │ ├── download_embeddings_and_mmqa.sh │ ├── helper-scripts/ │ │ ├── biodex-gen-index.py │ │ ├── generate-prior-stats-biodex-first-convert.py │ │ ├── generate-prior-stats-biodex.py │ │ ├── generate-prior-stats-cuad.py │ │ ├── mmqa-baseline.py │ │ ├── mmqa-gen-image-index.py │ │ ├── mmqa-gen-image-title-index.py │ │ ├── mmqa-gen-table-index.py │ │ └── mmqa-gen-text-index.py │ ├── mmqa-complex-demo.py │ ├── mmqa-demo.py │ ├── run_ablation_study.sh │ ├── run_biodex.sh │ ├── run_biodex_cascades.sh │ ├── run_biodex_cost_threshold.sh │ ├── run_biodex_min_cost_latency.sh │ ├── run_biodex_priors.sh │ ├── run_biodex_priors_constrained.sh │ ├── run_cuad.sh │ ├── run_cuad_cost_threshold.sh │ ├── run_cuad_min_cost_latency.sh │ ├── run_cuad_priors.sh │ ├── run_cuad_priors_constrained.sh │ ├── run_mmqa.sh │ ├── run_mmqa_complex.sh │ ├── run_mmqa_complex_min_cost_latency.sh │ ├── run_mmqa_min_cost_latency.sh │ ├── score_biodex.py │ ├── score_cuad.py │ ├── score_mmqa.py │ ├── score_mmqa_complex.py │ └── setup_cuad_data.py ├── demos/ │ ├── audio-demo.py │ ├── caching-demo.py │ ├── demo_core.py │ ├── enron-demo.py │ ├── image-demo.py │ ├── join-data/ │ │ └── animal-texts/ │ │ ├── animal1.txt │ │ ├── animal2.txt │ │ ├── animal3.txt │ │ ├── animal4.txt │ │ ├── animal5.txt │ │ └── animal6.txt │ ├── join-demo.py │ ├── paper-demo.py │ ├── real-estate-demo.py │ ├── simple-demo.py │ └── vllm-demo.py ├── evals/ │ └── quest/ │ └── eval.py ├── pyproject.toml ├── quickstart.ipynb ├── ruff.toml ├── scripts/ │ ├── capture_litellm_stats.py │ ├── capture_provider_stats.py │ ├── generate_test_messages.py │ └── update_model_info.py ├── src/ │ └── palimpzest/ │ ├── __init__.py │ ├── agents/ │ │ ├── __init__.py │ │ ├── compute_agents.py │ │ └── search_agents.py │ ├── constants.py │ ├── core/ │ │ ├── __init__.py │ │ ├── data/ │ │ │ ├── __init__.py │ │ │ ├── context.py │ │ │ ├── context_manager.py │ │ │ ├── dataset.py │ │ │ ├── index_dataset.py │ │ │ └── iter_dataset.py │ │ ├── elements/ │ │ │ ├── __init__.py │ │ │ ├── filters.py │ │ │ ├── groupbysig.py │ │ │ └── records.py │ │ ├── lib/ │ │ │ ├── __init__.py │ │ │ └── schemas.py │ │ └── models.py │ ├── policy.py │ ├── prompts/ │ │ ├── __init__.py │ │ ├── agent_prompts.py │ │ ├── aggregate_prompts.py │ │ ├── context_search.py │ │ ├── convert_prompts.py │ │ ├── critique_and_refine_prompts.py │ │ ├── filter_prompts.py │ │ ├── join_prompts.py │ │ ├── moa_aggregator_prompts.py │ │ ├── moa_proposer_prompts.py │ │ ├── prompt_factory.py │ │ ├── prompt_manager.py │ │ ├── split_merge_prompts.py │ │ ├── split_proposer_prompts.py │ │ ├── utils.py │ │ └── validator.py │ ├── query/ │ │ ├── __init__.py │ │ ├── execution/ │ │ │ ├── __init__.py │ │ │ ├── all_sample_execution_strategy.py │ │ │ ├── execution_strategy.py │ │ │ ├── execution_strategy_type.py │ │ │ ├── mab_execution_strategy.py │ │ │ ├── parallel_execution_strategy.py │ │ │ └── single_threaded_execution_strategy.py │ │ ├── generators/ │ │ │ ├── __init__.py │ │ │ ├── gemini_client.py │ │ │ └── generators.py │ │ ├── operators/ │ │ │ ├── __init__.py │ │ │ ├── aggregate.py │ │ │ ├── compute.py │ │ │ ├── convert.py │ │ │ ├── critique_and_refine.py │ │ │ ├── distinct.py │ │ │ ├── filter.py │ │ │ ├── join.py │ │ │ ├── limit.py │ │ │ ├── logical.py │ │ │ ├── mixture_of_agents.py │ │ │ ├── physical.py │ │ │ ├── project.py │ │ │ ├── rag.py │ │ │ ├── scan.py │ │ │ ├── search.py │ │ │ ├── split.py │ │ │ └── topk.py │ │ ├── optimizer/ │ │ │ ├── __init__.py │ │ │ ├── cost_model.py │ │ │ ├── optimizer.py │ │ │ ├── optimizer_strategy.py │ │ │ ├── optimizer_strategy_type.py │ │ │ ├── plan.py │ │ │ ├── primitives.py │ │ │ ├── rules.py │ │ │ └── tasks.py │ │ └── processor/ │ │ ├── __init__.py │ │ ├── config.py │ │ ├── query_processor.py │ │ └── query_processor_factory.py │ ├── schemabuilder/ │ │ ├── __init__.py │ │ └── schema_builder.py │ ├── tools/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── allenpdf.py │ │ ├── pdfparser.py │ │ └── skema_tools.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── env_helpers.py │ │ ├── hash_helpers.py │ │ ├── model_helpers.py │ │ ├── model_info_helpers.py │ │ ├── progress.py │ │ ├── pz_models_information.json │ │ └── udfs.py │ └── validator/ │ ├── __init__.py │ └── validator.py ├── testdata/ │ ├── README.md │ ├── download-testdata.sh │ ├── enron-eval-medium-labels.json │ └── target_matching.csv ├── tests/ │ └── pytest/ │ ├── README.md │ ├── conftest.py │ ├── data/ │ │ ├── email_schema.json │ │ ├── email_schema.yml │ │ ├── synapse_schema.csv │ │ └── synapse_schema.jsonld │ ├── fixtures/ │ │ ├── champion_outputs.py │ │ ├── datasets.py │ │ ├── execution_data.py │ │ ├── expected_physical_plans.py │ │ ├── expected_qualities.py │ │ ├── expected_records.py │ │ ├── models.py │ │ ├── operator_to_stats.py │ │ ├── physical_plans.py │ │ ├── schemas.py │ │ ├── side_effects.py │ │ └── workloads.py │ ├── test_aggregate.py │ ├── test_convert.py │ ├── test_dataset.py │ ├── test_distinct.py │ ├── test_dynamic_models.py │ ├── test_dynamicschema.py │ ├── test_execution.py │ ├── test_filter.py │ ├── test_generator.py │ ├── test_iter_dataset.py │ ├── test_join.py │ ├── test_map.py │ ├── test_optimizer.py │ ├── test_physical.py │ ├── test_records.py │ ├── test_rules.py │ ├── test_scan.py │ └── test_schemas.py └── website/ ├── .gitignore ├── README.md ├── blog/ │ ├── 2024-06-01-palimpzest/ │ │ ├── bibtex.js │ │ └── index.md │ ├── authors.yml │ └── tags.yml ├── docs/ │ ├── api/ │ │ └── overview.mdx │ ├── getting-started/ │ │ ├── installation.mdx │ │ ├── next-steps.mdx │ │ └── quickstart.mdx │ ├── intro.mdx │ └── user-guide/ │ ├── dataset.mdx │ ├── operators/ │ │ ├── overview.mdx │ │ ├── relational.mdx │ │ ├── sem_agg.mdx │ │ ├── sem_filter.mdx │ │ ├── sem_join.mdx │ │ ├── sem_map.mdx │ │ └── sem_topk.mdx │ ├── optimization.mdx │ └── overview.mdx ├── docusaurus.config.ts ├── package.json ├── sidebars.ts ├── src/ │ ├── components/ │ │ ├── HomepageFeatures/ │ │ │ ├── index.tsx │ │ │ └── styles.module.css │ │ └── ResearchPage/ │ │ └── admonitions.tsx │ ├── css/ │ │ └── custom.css │ └── pages/ │ ├── index.module.css │ ├── index.tsx │ ├── palimpchat.mdx │ └── research.mdx ├── static/ │ └── .nojekyll └── tsconfig.json