MeiliSearch/milli/tests/search/mod.rs

use std::cmp::Reverse;
use std::collections::HashSet;

use big_s::S;
use either::{Either, Left, Right};
use heed::EnvOpenOptions;
use maplit::{hashmap, hashset};
use milli::update::{Settings, UpdateBuilder, UpdateFormat};
use milli::{AscDesc, Criterion, DocumentId, Index, Member};
use serde::Deserialize;
use slice_group_by::GroupBy;

mod distinct;
mod filters;
mod query_criteria;
mod sort;

pub const TEST_QUERY: &'static str = "hello world america";

pub const EXTERNAL_DOCUMENTS_IDS: &[&str; 17] =
    &["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q"];

pub const CONTENT: &str = include_str!("../assets/test_set.ndjson");

pub fn setup_search_index_with_criteria(criteria: &[Criterion]) -> Index {
    let path = tempfile::tempdir().unwrap();
    let mut options = EnvOpenOptions::new();
    options.map_size(10 * 1024 * 1024); // 10 MB
    let index = Index::new(options, &path).unwrap();

    let mut wtxn = index.write_txn().unwrap();

    let mut builder = Settings::new(&mut wtxn, &index, 0);

    let criteria = criteria.iter().map(|c| c.to_string()).collect();
    builder.set_criteria(criteria);
    builder.set_filterable_fields(hashset! {
        S("tag"),
        S("asc_desc_rank"),
        S("_geo"),
    });
    builder.set_sortable_fields(hashset! {
        S("tag"),
        S("asc_desc_rank"),
    });
    builder.set_synonyms(hashmap! {
        S("hello") => vec![S("good morning")],
        S("world") => vec![S("earth")],
        S("america") => vec![S("the united states")],
    });
    builder.set_searchable_fields(vec![S("title"), S("description")]);
    builder.execute(|_, _| ()).unwrap();

    // index documents
    let mut builder = UpdateBuilder::new(0);
    builder.max_memory(10 * 1024 * 1024); // 10MiB
    let mut builder = builder.index_documents(&mut wtxn, &index);
    builder.update_format(UpdateFormat::JsonStream);
    builder.enable_autogenerate_docids();
    builder.execute(CONTENT.as_bytes(), |_, _| ()).unwrap();

    wtxn.commit().unwrap();

    index
}

pub fn internal_to_external_ids(index: &Index, internal_ids: &[DocumentId]) -> Vec<String> {
    let mut rtxn = index.read_txn().unwrap();
    let docid_map = index.external_documents_ids(&mut rtxn).unwrap();
    let docid_map: std::collections::HashMap<_, _> =
        EXTERNAL_DOCUMENTS_IDS.iter().map(|id| (docid_map.get(id).unwrap(), id)).collect();
    internal_ids.iter().map(|id| docid_map.get(id).unwrap().to_string()).collect()
}

pub fn expected_order(
    criteria: &[Criterion],
    authorize_typo: bool,
    optional_words: bool,
    sort_by: &[AscDesc],
) -> Vec<TestDocument> {
    let dataset =
        serde_json::Deserializer::from_str(CONTENT).into_iter().map(|r| r.unwrap()).collect();
    let mut groups: Vec<Vec<TestDocument>> = vec![dataset];

    for criterion in criteria {
        let mut new_groups = Vec::new();
        for group in groups.iter_mut() {
            match criterion {
                Criterion::Attribute => {
                    group.sort_by_key(|d| d.attribute_rank);
                    new_groups
                        .extend(group.linear_group_by_key(|d| d.attribute_rank).map(Vec::from));
                }
                Criterion::Exactness => {
                    group.sort_by_key(|d| d.exact_rank);
                    new_groups.extend(group.linear_group_by_key(|d| d.exact_rank).map(Vec::from));
                }
                Criterion::Proximity => {
                    group.sort_by_key(|d| d.proximity_rank);
                    new_groups
                        .extend(group.linear_group_by_key(|d| d.proximity_rank).map(Vec::from));
                }
                Criterion::Sort if sort_by == [AscDesc::Asc(Member::Field(S("tag")))] => {
                    group.sort_by_key(|d| d.sort_by_rank);
                    new_groups.extend(group.linear_group_by_key(|d| d.sort_by_rank).map(Vec::from));
                }
                Criterion::Sort if sort_by == [AscDesc::Desc(Member::Field(S("tag")))] => {
                    group.sort_by_key(|d| Reverse(d.sort_by_rank));
                    new_groups.extend(group.linear_group_by_key(|d| d.sort_by_rank).map(Vec::from));
                }
                Criterion::Typo => {
                    group.sort_by_key(|d| d.typo_rank);
                    new_groups.extend(group.linear_group_by_key(|d| d.typo_rank).map(Vec::from));
                }
                Criterion::Words => {
                    group.sort_by_key(|d| d.word_rank);
                    new_groups.extend(group.linear_group_by_key(|d| d.word_rank).map(Vec::from));
                }
                Criterion::Asc(field_name) if field_name == "asc_desc_rank" => {
                    group.sort_by_key(|d| d.asc_desc_rank);
                    new_groups
                        .extend(group.linear_group_by_key(|d| d.asc_desc_rank).map(Vec::from));
                }
                Criterion::Desc(field_name) if field_name == "asc_desc_rank" => {
                    group.sort_by_key(|d| Reverse(d.asc_desc_rank));
                    new_groups
                        .extend(group.linear_group_by_key(|d| d.asc_desc_rank).map(Vec::from));
                }
                Criterion::Asc(_) | Criterion::Desc(_) | Criterion::Sort => {
                    new_groups.push(group.clone())
                }
            }
        }
        groups = std::mem::take(&mut new_groups);
    }

    if authorize_typo && optional_words {
        groups.into_iter().flatten().collect()
    } else if optional_words {
        groups.into_iter().flatten().filter(|d| d.typo_rank == 0).collect()
    } else if authorize_typo {
        groups.into_iter().flatten().filter(|d| d.word_rank == 0).collect()
    } else {
        groups.into_iter().flatten().filter(|d| d.word_rank == 0 && d.typo_rank == 0).collect()
    }
}

fn execute_filter(filter: &str, document: &TestDocument) -> Option<String> {
    let mut id = None;
    if let Some((field, filter)) = filter.split_once("=") {
        if field == "tag" && document.tag == filter {
            id = Some(document.id.clone())
        } else if field == "asc_desc_rank"
            && document.asc_desc_rank == filter.parse::<u32>().unwrap()
        {
            id = Some(document.id.clone())
        }
    } else if let Some(("asc_desc_rank", filter)) = filter.split_once("<") {
        if document.asc_desc_rank < filter.parse().unwrap() {
            id = Some(document.id.clone())
        }
    } else if let Some(("asc_desc_rank", filter)) = filter.split_once(">") {
        if document.asc_desc_rank > filter.parse().unwrap() {
            id = Some(document.id.clone())
        }
    } else if filter.starts_with("_geoRadius") {
        id = (document.geo_rank < 100000).then(|| document.id.clone());
    } else if filter.starts_with("NOT _geoRadius") {
        id = (document.geo_rank > 1000000).then(|| document.id.clone());
    }
    id
}

pub fn expected_filtered_ids(filters: Vec<Either<Vec<&str>, &str>>) -> HashSet<String> {
    let dataset: HashSet<TestDocument> =
        serde_json::Deserializer::from_str(CONTENT).into_iter().map(|r| r.unwrap()).collect();

    let mut filtered_ids: HashSet<_> = dataset.iter().map(|d| d.id.clone()).collect();
    for either in filters {
        let ids = match either {
            Left(array) => array
                .into_iter()
                .map(|f| {
                    let ids: HashSet<String> =
                        dataset.iter().filter_map(|d| execute_filter(f, d)).collect();
                    ids
                })
                .reduce(|a, b| a.union(&b).cloned().collect())
                .unwrap(),
            Right(filter) => {
                let ids: HashSet<String> =
                    dataset.iter().filter_map(|d| execute_filter(filter, d)).collect();
                ids
            }
        };

        filtered_ids = filtered_ids.intersection(&ids).cloned().collect();
    }

    filtered_ids
}

#[derive(Debug, Clone, Deserialize, PartialEq, Eq, Hash)]
pub struct TestDocument {
    pub id: String,
    pub word_rank: u32,
    pub typo_rank: u32,
    pub proximity_rank: u32,
    pub attribute_rank: u32,
    pub exact_rank: u32,
    pub asc_desc_rank: u32,
    pub sort_by_rank: u32,
    pub geo_rank: u32,
    pub title: String,
    pub description: String,
    pub tag: String,
}
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`use std::cmp::Reverse;`
Add test on filters 2021-06-17 13:56:09 +02:00			`use std::collections::HashSet;`

Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`use big_s::S;`
Add test on filters 2021-06-17 13:56:09 +02:00			`use either::{Either, Left, Right};`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`use heed::EnvOpenOptions;`
			`use maplit::{hashmap, hashset};`
Remove log in chunk generator 2021-09-02 16:57:46 +02:00			`use milli::update::{Settings, UpdateBuilder, UpdateFormat};`
fix all the tests 2021-09-01 17:43:18 +02:00			`use milli::{AscDesc, Criterion, DocumentId, Index, Member};`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`use serde::Deserialize;`
			`use slice_group_by::GroupBy;`

Add distinct integration tests 2021-06-17 14:24:59 +02:00			`mod distinct;`
Add test on filters 2021-06-17 13:56:09 +02:00			`mod filters;`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`mod query_criteria;`
Add a test to make sure we throw the right error message 2021-09-07 11:01:37 +02:00			`mod sort;`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00
			`pub const TEST_QUERY: &'static str = "hello world america";`

format the whole project 2021-06-16 18:33:33 +02:00			`pub const EXTERNAL_DOCUMENTS_IDS: &[&str; 17] =`
			`&["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q"];`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00
			`pub const CONTENT: &str = include_str!("../assets/test_set.ndjson");`

			`pub fn setup_search_index_with_criteria(criteria: &[Criterion]) -> Index {`
			`let path = tempfile::tempdir().unwrap();`
			`let mut options = EnvOpenOptions::new();`
			`options.map_size(10 * 1024 * 1024); // 10 MB`
			`let index = Index::new(options, &path).unwrap();`

			`let mut wtxn = index.write_txn().unwrap();`

			`let mut builder = Settings::new(&mut wtxn, &index, 0);`

			`let criteria = criteria.iter().map(\|c\| c.to_string()).collect();`
			`builder.set_criteria(criteria);`
format the whole project 2021-06-16 18:33:33 +02:00			`builder.set_filterable_fields(hashset! {`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`S("tag"),`
			`S("asc_desc_rank"),`
tests the geo filters 2021-09-08 13:08:48 +02:00			`S("_geo"),`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`});`
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`builder.set_sortable_fields(hashset! {`
			`S("tag"),`
			`S("asc_desc_rank"),`
			`});`
format the whole project 2021-06-16 18:33:33 +02:00			`builder.set_synonyms(hashmap! {`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`S("hello") => vec![S("good morning")],`
			`S("world") => vec![S("earth")],`
			`S("america") => vec![S("the united states")],`
			`});`
format the whole project 2021-06-16 18:33:33 +02:00			`builder.set_searchable_fields(vec![S("title"), S("description")]);`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`builder.execute(\|_, _\| ()).unwrap();`

			`// index documents`
Plug new indexer 2021-08-16 13:36:30 +02:00			`let mut builder = UpdateBuilder::new(0);`
			`builder.max_memory(10 * 1024 * 1024); // 10MiB`
			`let mut builder = builder.index_documents(&mut wtxn, &index);`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`builder.update_format(UpdateFormat::JsonStream);`
			`builder.enable_autogenerate_docids();`
			`builder.execute(CONTENT.as_bytes(), \|_, _\| ()).unwrap();`

			`wtxn.commit().unwrap();`

			`index`
			`}`

			`pub fn internal_to_external_ids(index: &Index, internal_ids: &[DocumentId]) -> Vec<String> {`
			`let mut rtxn = index.read_txn().unwrap();`
			`let docid_map = index.external_documents_ids(&mut rtxn).unwrap();`
format the whole project 2021-06-16 18:33:33 +02:00			`let docid_map: std::collections::HashMap<_, _> =`
			`EXTERNAL_DOCUMENTS_IDS.iter().map(\|id\| (docid_map.get(id).unwrap(), id)).collect();`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`internal_ids.iter().map(\|id\| docid_map.get(id).unwrap().to_string()).collect()`
			`}`

format the whole project 2021-06-16 18:33:33 +02:00			`pub fn expected_order(`
			`criteria: &[Criterion],`
			`authorize_typo: bool,`
			`optional_words: bool,`
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`sort_by: &[AscDesc],`
format the whole project 2021-06-16 18:33:33 +02:00			`) -> Vec<TestDocument> {`
			`let dataset =`
			`serde_json::Deserializer::from_str(CONTENT).into_iter().map(\|r\| r.unwrap()).collect();`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`let mut groups: Vec<Vec<TestDocument>> = vec![dataset];`

			`for criterion in criteria {`
			`let mut new_groups = Vec::new();`
			`for group in groups.iter_mut() {`
			`match criterion {`
			`Criterion::Attribute => {`
			`group.sort_by_key(\|d\| d.attribute_rank);`
format the whole project 2021-06-16 18:33:33 +02:00			`new_groups`
			`.extend(group.linear_group_by_key(\|d\| d.attribute_rank).map(Vec::from));`
			`}`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`Criterion::Exactness => {`
			`group.sort_by_key(\|d\| d.exact_rank);`
			`new_groups.extend(group.linear_group_by_key(\|d\| d.exact_rank).map(Vec::from));`
format the whole project 2021-06-16 18:33:33 +02:00			`}`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`Criterion::Proximity => {`
			`group.sort_by_key(\|d\| d.proximity_rank);`
format the whole project 2021-06-16 18:33:33 +02:00			`new_groups`
			`.extend(group.linear_group_by_key(\|d\| d.proximity_rank).map(Vec::from));`
			`}`
fix all the tests 2021-09-01 17:43:18 +02:00			`Criterion::Sort if sort_by == [AscDesc::Asc(Member::Field(S("tag")))] => {`
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`group.sort_by_key(\|d\| d.sort_by_rank);`
			`new_groups.extend(group.linear_group_by_key(\|d\| d.sort_by_rank).map(Vec::from));`
			`}`
fix all the tests 2021-09-01 17:43:18 +02:00			`Criterion::Sort if sort_by == [AscDesc::Desc(Member::Field(S("tag")))] => {`
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`group.sort_by_key(\|d\| Reverse(d.sort_by_rank));`
			`new_groups.extend(group.linear_group_by_key(\|d\| d.sort_by_rank).map(Vec::from));`
			`}`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`Criterion::Typo => {`
			`group.sort_by_key(\|d\| d.typo_rank);`
			`new_groups.extend(group.linear_group_by_key(\|d\| d.typo_rank).map(Vec::from));`
format the whole project 2021-06-16 18:33:33 +02:00			`}`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`Criterion::Words => {`
			`group.sort_by_key(\|d\| d.word_rank);`
			`new_groups.extend(group.linear_group_by_key(\|d\| d.word_rank).map(Vec::from));`
format the whole project 2021-06-16 18:33:33 +02:00			`}`
Factorize tests using macro_rules 2021-06-08 12:33:02 +02:00			`Criterion::Asc(field_name) if field_name == "asc_desc_rank" => {`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`group.sort_by_key(\|d\| d.asc_desc_rank);`
format the whole project 2021-06-16 18:33:33 +02:00			`new_groups`
			`.extend(group.linear_group_by_key(\|d\| d.asc_desc_rank).map(Vec::from));`
			`}`
			`Criterion::Desc(field_name) if field_name == "asc_desc_rank" => {`
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`group.sort_by_key(\|d\| Reverse(d.asc_desc_rank));`
format the whole project 2021-06-16 18:33:33 +02:00			`new_groups`
			`.extend(group.linear_group_by_key(\|d\| d.asc_desc_rank).map(Vec::from));`
			`}`
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`Criterion::Asc(_) \| Criterion::Desc(_) \| Criterion::Sort => {`
			`new_groups.push(group.clone())`
			`}`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`}`
			`}`
			`groups = std::mem::take(&mut new_groups);`
			`}`

Resolve PR comments 2021-06-08 14:11:00 +02:00			`if authorize_typo && optional_words {`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`groups.into_iter().flatten().collect()`
			`} else if optional_words {`
			`groups.into_iter().flatten().filter(\|d\| d.typo_rank == 0).collect()`
Resolve PR comments 2021-06-08 14:11:00 +02:00			`} else if authorize_typo {`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`groups.into_iter().flatten().filter(\|d\| d.word_rank == 0).collect()`
			`} else {`
			`groups.into_iter().flatten().filter(\|d\| d.word_rank == 0 && d.typo_rank == 0).collect()`
			`}`
			`}`

Add test on filters 2021-06-17 13:56:09 +02:00			`fn execute_filter(filter: &str, document: &TestDocument) -> Option<String> {`
			`let mut id = None;`
			`if let Some((field, filter)) = filter.split_once("=") {`
			`if field == "tag" && document.tag == filter {`
			`id = Some(document.id.clone())`
			`} else if field == "asc_desc_rank"`
			`&& document.asc_desc_rank == filter.parse::<u32>().unwrap()`
			`{`
			`id = Some(document.id.clone())`
			`}`
			`} else if let Some(("asc_desc_rank", filter)) = filter.split_once("<") {`
			`if document.asc_desc_rank < filter.parse().unwrap() {`
			`id = Some(document.id.clone())`
			`}`
			`} else if let Some(("asc_desc_rank", filter)) = filter.split_once(">") {`
			`if document.asc_desc_rank > filter.parse().unwrap() {`
			`id = Some(document.id.clone())`
			`}`
tests the geo filters 2021-09-08 13:08:48 +02:00			`} else if filter.starts_with("_geoRadius") {`
			`id = (document.geo_rank < 100000).then(\|\| document.id.clone());`
			`} else if filter.starts_with("NOT _geoRadius") {`
			`id = (document.geo_rank > 1000000).then(\|\| document.id.clone());`
Add test on filters 2021-06-17 13:56:09 +02:00			`}`
			`id`
			`}`

			`pub fn expected_filtered_ids(filters: Vec<Either<Vec<&str>, &str>>) -> HashSet<String> {`
			`let dataset: HashSet<TestDocument> =`
			`serde_json::Deserializer::from_str(CONTENT).into_iter().map(\|r\| r.unwrap()).collect();`

			`let mut filtered_ids: HashSet<_> = dataset.iter().map(\|d\| d.id.clone()).collect();`
			`for either in filters {`
			`let ids = match either {`
			`Left(array) => array`
			`.into_iter()`
			`.map(\|f\| {`
			`let ids: HashSet<String> =`
			`dataset.iter().filter_map(\|d\| execute_filter(f, d)).collect();`
			`ids`
			`})`
			`.reduce(\|a, b\| a.union(&b).cloned().collect())`
			`.unwrap(),`
			`Right(filter) => {`
			`let ids: HashSet<String> =`
			`dataset.iter().filter_map(\|d\| execute_filter(filter, d)).collect();`
			`ids`
			`}`
			`};`

			`filtered_ids = filtered_ids.intersection(&ids).cloned().collect();`
			`}`

			`filtered_ids`
			`}`

			`#[derive(Debug, Clone, Deserialize, PartialEq, Eq, Hash)]`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`pub struct TestDocument {`
			`pub id: String,`
			`pub word_rank: u32,`
			`pub typo_rank: u32,`
			`pub proximity_rank: u32,`
			`pub attribute_rank: u32,`
			`pub exact_rank: u32,`
			`pub asc_desc_rank: u32,`
Revert "Revert "Sort at query time"" 2021-08-23 11:37:18 +02:00			`pub sort_by_rank: u32,`
tests the geo filters 2021-09-08 13:08:48 +02:00			`pub geo_rank: u32,`
Introduce integration test on criteria 2021-06-03 14:44:53 +02:00			`pub title: String,`
			`pub description: String,`
			`pub tag: String,`
			`}`