MeiliSearch/milli/src/update/index_documents/extract/extract_word_position_docids.rs

use std::collections::BTreeSet;
use std::fs::File;
use std::io::{self, BufReader};

use obkv::KvReaderU16;

use super::helpers::{
    create_sorter, merge_deladd_cbo_roaring_bitmaps, sorter_into_reader, try_split_array_at,
    GrenadParameters,
};
use crate::error::SerializationError;
use crate::index::db_name::DOCID_WORD_POSITIONS;
use crate::update::del_add::{DelAdd, KvReaderDelAdd, KvWriterDelAdd};
use crate::update::MergeFn;
use crate::{bucketed_position, DocumentId, Result};

/// Extracts the word positions and the documents ids where this word appear.
///
/// Returns a grenad reader with the list of extracted words at positions and
/// documents ids from the given chunk of docid word positions.
#[tracing::instrument(level = "trace", skip_all, target = "indexing::extract")]
pub fn extract_word_position_docids<R: io::Read + io::Seek>(
    docid_word_positions: grenad::Reader<R>,
    indexer: GrenadParameters,
) -> Result<grenad::Reader<BufReader<File>>> {
    puffin::profile_function!();

    let max_memory = indexer.max_memory_by_thread();

    let mut word_position_docids_sorter = create_sorter(
        grenad::SortAlgorithm::Unstable,
        merge_deladd_cbo_roaring_bitmaps,
        indexer.chunk_compression_type,
        indexer.chunk_compression_level,
        indexer.max_nb_chunks,
        max_memory,
    );

    let mut del_word_positions: BTreeSet<(u16, Vec<u8>)> = BTreeSet::new();
    let mut add_word_positions: BTreeSet<(u16, Vec<u8>)> = BTreeSet::new();
    let mut current_document_id: Option<u32> = None;
    let mut key_buffer = Vec::new();
    let mut cursor = docid_word_positions.into_cursor()?;
    while let Some((key, value)) = cursor.move_on_next()? {
        let (document_id_bytes, _fid_bytes) = try_split_array_at(key)
            .ok_or(SerializationError::Decoding { db_name: Some(DOCID_WORD_POSITIONS) })?;
        let document_id = DocumentId::from_be_bytes(document_id_bytes);

        if current_document_id.map_or(false, |id| document_id != id) {
            words_position_into_sorter(
                current_document_id.unwrap(),
                &mut key_buffer,
                &del_word_positions,
                &add_word_positions,
                &mut word_position_docids_sorter,
            )?;
            del_word_positions.clear();
            add_word_positions.clear();
        }

        current_document_id = Some(document_id);

        let del_add_reader = KvReaderDelAdd::new(value);
        // extract all unique words to remove.
        if let Some(deletion) = del_add_reader.get(DelAdd::Deletion) {
            for (position, word_bytes) in KvReaderU16::new(deletion).iter() {
                let position = bucketed_position(position);
                del_word_positions.insert((position, word_bytes.to_vec()));
            }
        }

        // extract all unique additional words.
        if let Some(addition) = del_add_reader.get(DelAdd::Addition) {
            for (position, word_bytes) in KvReaderU16::new(addition).iter() {
                let position = bucketed_position(position);
                add_word_positions.insert((position, word_bytes.to_vec()));
            }
        }
    }

    if let Some(document_id) = current_document_id {
        words_position_into_sorter(
            document_id,
            &mut key_buffer,
            &del_word_positions,
            &add_word_positions,
            &mut word_position_docids_sorter,
        )?;
    }

    // TODO remove noop DelAdd OBKV
    let word_position_docids_reader = sorter_into_reader(word_position_docids_sorter, indexer)?;

    Ok(word_position_docids_reader)
}

#[tracing::instrument(level = "trace", skip_all, target = "indexing::extract")]
fn words_position_into_sorter(
    document_id: DocumentId,
    key_buffer: &mut Vec<u8>,
    del_word_positions: &BTreeSet<(u16, Vec<u8>)>,
    add_word_positions: &BTreeSet<(u16, Vec<u8>)>,
    word_position_docids_sorter: &mut grenad::Sorter<MergeFn>,
) -> Result<()> {
    puffin::profile_function!();

    use itertools::merge_join_by;
    use itertools::EitherOrBoth::{Both, Left, Right};

    let mut buffer = Vec::new();
    for eob in merge_join_by(del_word_positions.iter(), add_word_positions.iter(), |d, a| d.cmp(a))
    {
        buffer.clear();
        let mut value_writer = KvWriterDelAdd::new(&mut buffer);
        let (position, word_bytes) = match eob {
            Left(key) => {
                value_writer.insert(DelAdd::Deletion, document_id.to_ne_bytes()).unwrap();
                key
            }
            Right(key) => {
                value_writer.insert(DelAdd::Addition, document_id.to_ne_bytes()).unwrap();
                key
            }
            Both(key, _) => {
                // both values needs to be kept because it will be used in other extractors.
                value_writer.insert(DelAdd::Deletion, document_id.to_ne_bytes()).unwrap();
                value_writer.insert(DelAdd::Addition, document_id.to_ne_bytes()).unwrap();
                key
            }
        };

        key_buffer.clear();
        key_buffer.extend_from_slice(word_bytes);
        key_buffer.push(0);
        key_buffer.extend_from_slice(&position.to_be_bytes());
        word_position_docids_sorter.insert(&key_buffer, value_writer.into_inner().unwrap())?;
    }

    Ok(())
}
update extract word position docids 2023-10-19 13:27:07 +02:00			`use std::collections::BTreeSet;`
Plug new indexer 2021-08-16 13:36:30 +02:00			`use std::fs::File;`
use a bufreader everytime there is a grenad<file> 2023-09-28 16:26:01 +02:00			`use std::io::{self, BufReader};`
Plug new indexer 2021-08-16 13:36:30 +02:00
Wip 2023-09-18 09:59:38 +02:00			`use obkv::KvReaderU16;`

Plug new indexer 2021-08-16 13:36:30 +02:00			`use super::helpers::{`
update extract word position docids 2023-10-19 13:27:07 +02:00			`create_sorter, merge_deladd_cbo_roaring_bitmaps, sorter_into_reader, try_split_array_at,`
Wip 2023-09-18 09:59:38 +02:00			`GrenadParameters,`
Plug new indexer 2021-08-16 13:36:30 +02:00			`};`
Fix Pr comments 2021-09-02 15:17:52 +02:00			`use crate::error::SerializationError;`
			`use crate::index::db_name::DOCID_WORD_POSITIONS;`
update extract word position docids 2023-10-19 13:27:07 +02:00			`use crate::update::del_add::{DelAdd, KvReaderDelAdd, KvWriterDelAdd};`
			`use crate::update::MergeFn;`
Wip 2023-09-18 09:59:38 +02:00			`use crate::{bucketed_position, DocumentId, Result};`
Fix Pr comments 2021-09-02 15:17:52 +02:00
Plug new indexer 2021-08-16 13:36:30 +02:00			`/// Extracts the word positions and the documents ids where this word appear.`
			`///`
			`/// Returns a grenad reader with the list of extracted words at positions and`
			`/// documents ids from the given chunk of docid word positions.`
Add tracing to milli 2024-01-23 09:42:48 +01:00			`#[tracing::instrument(level = "trace", skip_all, target = "indexing::extract")]`
Fix indexing of word_position_docid and fid 2023-04-05 14:55:02 +02:00			`pub fn extract_word_position_docids<R: io::Read + io::Seek>(`
Finally bump grenad to v0.4.1 2022-02-16 15:28:48 +01:00			`docid_word_positions: grenad::Reader<R>,`
Plug new indexer 2021-08-16 13:36:30 +02:00			`indexer: GrenadParameters,`
use a bufreader everytime there is a grenad<file> 2023-09-28 16:26:01 +02:00			`) -> Result<grenad::Reader<BufReader<File>>> {`
First iteration on exposing puffin profiling 2023-07-10 18:41:54 +02:00			`puffin::profile_function!();`

Plug new indexer 2021-08-16 13:36:30 +02:00			`let max_memory = indexer.max_memory_by_thread();`

Simplify word level position DB into a word position DB 2021-10-05 11:18:42 +02:00			`let mut word_position_docids_sorter = create_sorter(`
Use an unstable algorithm for grenad::Sorter when possible 2022-09-13 10:40:37 +02:00			`grenad::SortAlgorithm::Unstable,`
update extract word position docids 2023-10-19 13:27:07 +02:00			`merge_deladd_cbo_roaring_bitmaps,`
Plug new indexer 2021-08-16 13:36:30 +02:00			`indexer.chunk_compression_type,`
			`indexer.chunk_compression_level,`
			`indexer.max_nb_chunks,`
			`max_memory,`
			`);`

update extract word position docids 2023-10-19 13:27:07 +02:00			`let mut del_word_positions: BTreeSet<(u16, Vec<u8>)> = BTreeSet::new();`
			`let mut add_word_positions: BTreeSet<(u16, Vec<u8>)> = BTreeSet::new();`
Generalize usage of CboRoaringBitmap codec to ease the use 2023-09-25 16:39:32 +02:00			`let mut current_document_id: Option<u32> = None;`
Plug new indexer 2021-08-16 13:36:30 +02:00			`let mut key_buffer = Vec::new();`
Finally bump grenad to v0.4.1 2022-02-16 15:28:48 +01:00			`let mut cursor = docid_word_positions.into_cursor()?;`
			`while let Some((key, value)) = cursor.move_on_next()? {`
Add buffer to the obkv writter 2023-09-21 10:02:08 +02:00			`let (document_id_bytes, _fid_bytes) = try_split_array_at(key)`
Fixing piles of clippy errors. Most of these are calling clone when the struct supports Copy. Many are using & and &mut on `self` when the function they are called from already has an immutable or mutable borrow so this isn't needed. I tried to stay away from actual changes or places where I'd have to name fresh variables. 2022-10-13 22:02:54 +02:00			`.ok_or(SerializationError::Decoding { db_name: Some(DOCID_WORD_POSITIONS) })?;`
Plug new indexer 2021-08-16 13:36:30 +02:00			`let document_id = DocumentId::from_be_bytes(document_id_bytes);`

Add buffer to the obkv writter 2023-09-21 10:02:08 +02:00			`if current_document_id.map_or(false, \|id\| document_id != id) {`
update extract word position docids 2023-10-19 13:27:07 +02:00			`words_position_into_sorter(`
			`current_document_id.unwrap(),`
			`&mut key_buffer,`
			`&del_word_positions,`
			`&add_word_positions,`
			`&mut word_position_docids_sorter,`
			`)?;`
			`del_word_positions.clear();`
			`add_word_positions.clear();`
Add buffer to the obkv writter 2023-09-21 10:02:08 +02:00			`}`

			`current_document_id = Some(document_id);`

Fix clippy issues 2023-11-06 11:19:31 +01:00			`let del_add_reader = KvReaderDelAdd::new(value);`
update extract word position docids 2023-10-19 13:27:07 +02:00			`// extract all unique words to remove.`
			`if let Some(deletion) = del_add_reader.get(DelAdd::Deletion) {`
			`for (position, word_bytes) in KvReaderU16::new(deletion).iter() {`
			`let position = bucketed_position(position);`
			`del_word_positions.insert((position, word_bytes.to_vec()));`
			`}`
			`}`

			`// extract all unique additional words.`
			`if let Some(addition) = del_add_reader.get(DelAdd::Addition) {`
			`for (position, word_bytes) in KvReaderU16::new(addition).iter() {`
			`let position = bucketed_position(position);`
			`add_word_positions.insert((position, word_bytes.to_vec()));`
			`}`
Add buffer to the obkv writter 2023-09-21 10:02:08 +02:00			`}`
			`}`

			`if let Some(document_id) = current_document_id {`
update extract word position docids 2023-10-19 13:27:07 +02:00			`words_position_into_sorter(`
			`document_id,`
			`&mut key_buffer,`
			`&del_word_positions,`
			`&add_word_positions,`
			`&mut word_position_docids_sorter,`
			`)?;`
Plug new indexer 2021-08-16 13:36:30 +02:00			`}`

update extract word position docids 2023-10-19 13:27:07 +02:00			`// TODO remove noop DelAdd OBKV`
Split position DB into fid and relative position DB 2023-03-23 09:22:01 +01:00			`let word_position_docids_reader = sorter_into_reader(word_position_docids_sorter, indexer)?;`

			`Ok(word_position_docids_reader)`
Plug new indexer 2021-08-16 13:36:30 +02:00			`}`
update extract word position docids 2023-10-19 13:27:07 +02:00
Add tracing to milli 2024-01-23 09:42:48 +01:00			`#[tracing::instrument(level = "trace", skip_all, target = "indexing::extract")]`
update extract word position docids 2023-10-19 13:27:07 +02:00			`fn words_position_into_sorter(`
			`document_id: DocumentId,`
			`key_buffer: &mut Vec<u8>,`
			`del_word_positions: &BTreeSet<(u16, Vec<u8>)>,`
			`add_word_positions: &BTreeSet<(u16, Vec<u8>)>,`
			`word_position_docids_sorter: &mut grenad::Sorter<MergeFn>,`
			`) -> Result<()> {`
			`puffin::profile_function!();`

			`use itertools::merge_join_by;`
			`use itertools::EitherOrBoth::{Both, Left, Right};`

			`let mut buffer = Vec::new();`
			`for eob in merge_join_by(del_word_positions.iter(), add_word_positions.iter(), \|d, a\| d.cmp(a))`
			`{`
			`buffer.clear();`
			`let mut value_writer = KvWriterDelAdd::new(&mut buffer);`
			`let (position, word_bytes) = match eob {`
			`Left(key) => {`
			`value_writer.insert(DelAdd::Deletion, document_id.to_ne_bytes()).unwrap();`
			`key`
			`}`
			`Right(key) => {`
			`value_writer.insert(DelAdd::Addition, document_id.to_ne_bytes()).unwrap();`
			`key`
			`}`
			`Both(key, _) => {`
Small fixes 2023-11-20 10:20:39 +01:00			`// both values needs to be kept because it will be used in other extractors.`
update extract word position docids 2023-10-19 13:27:07 +02:00			`value_writer.insert(DelAdd::Deletion, document_id.to_ne_bytes()).unwrap();`
			`value_writer.insert(DelAdd::Addition, document_id.to_ne_bytes()).unwrap();`
			`key`
			`}`
			`};`

			`key_buffer.clear();`
			`key_buffer.extend_from_slice(word_bytes);`
			`key_buffer.push(0);`
			`key_buffer.extend_from_slice(&position.to_be_bytes());`
			`word_position_docids_sorter.insert(&key_buffer, value_writer.into_inner().unwrap())?;`
			`}`

			`Ok(())`
			`}`