Pipeline
Motor lógico de processamento para extrair entidades e normalizar frases em PT-BR.
Orquestrador de pré-processamento.
Encadeia componentes (EntityNormalizer -> TextCleaner ->
Tokenizer -> Stopwords -> Lemmatizer) passando um PipelineContext
entre cada estágio.
Source code in src/text_similarity/pipeline/pipeline.py
__init__(stages=None)
add_stage(stage)
process(text)
Executa os estágios em sequência sobre o texto fornecido.
Cria um PipelineContext inicial e o passa por cada estágio,
acumulando transformações e metadados ao longo do caminho.
Parameters:
| Name | Type | Description | Default |
|---|---|---|---|
text
|
str
|
Texto bruto de entrada. |
required |
Returns:
| Name | Type | Description |
|---|---|---|
Tuple |
tuple[str, PipelineContext]
|
(texto_processado, contexto_completo_da_execução) |