UFRN - Erros na indexação com o VuFind

Prezado Diego,

Na nossa última mensagem, relatamos que foi possível importar cerca de 20.000 registros do Repositório Institucional da UFRN. A seguir foi realizada a indexação com o comando batch-import-xsl.bat repinst dspace.properties. 

Demandou cerca de 10 horas. Os arquivos que estavam na pasta repinst foram migrados nesta fase para a pasta processed. Porém, quando vou pesquisar na página do VuFind, em localhost eles não se encontram. 

Eu fiz a implantação inicial em uma máquina Windows, você me comunicou que normalmente trabalha com o LINUX e, desta forma, refizemos então todo o processo usando desta vez uma máquina Ubuntu 20.04 e, infelizmente, o problema persiste. Aparentemente ele indexou todos os 24.000 registros importados do RI, porém na pesquisa apenas consigo recuperar um documento:

http://3.225.78.200/vufind/Author/Home?author=Lobianco%2C+Márcia+Moura+Leite

Com a base pubmed deu certo, foram migrados e indexados cerca de 150.000 registros.

http://3.225.78.200/vufind/Search/Results?lookfor=pubmed&type=AllFields&limit=20

A UFRN tem pressa na implantação desta ferramenta, e não estamos conseguindo descobrir qual seria realmente o problema, vc pode me auxiliar? 

É possível indicar algum telefone de contato no privado?

Agradeço antecipadamente.

Wellington Rodrigues
UFRN-BCZM-SST

1 curtida

@wel,

Tenta ver como Vufind está montando o XML da importação para o Solr.
Vá na pasta import e faça a importação de um único registro utilizando o comando:

php import-xsl.php  --test-only  myFile.xml mySettings.properties

O comando mostrar na tela o xml gerado. Observe se o Xml está de acordo com esperado. Se tiver algum problema, tudo deves ajustar o XSL.

Acesse a página do Solr e verifique a parte do logging, lá deve ter informações se aconteceu algo de errado na importação.

Prezado Diego,

Conforme orientações, fizemos testes para ver como o VuFind está montando o XML da importação para o Solr, aplicamos os seguintes comandos para checar o resultado para a base pubmed que indexou ok, e para base do RI que não recupera os registros.

php import-xsl.php --test-only pubmed.xml dspace.properties
php import-xsl.php --test-only ri_ufrn.xml dspace.properties

Percebemos que na base do RI o id está vazio:

Enquanto que na pubmed, indexada, existe um valor:
pubmed-13900

No final desta mensagem tem o arquivo de origem e o gerado no teste para ver se vc consegue identificar qual seria o problema.

O arquivo dspace.xls, assim como o dspace.properties são os originais do pacote de instalação.

Não consegui identificar como acessar a página do Solr para ver o logging. Teria como detalhar melhor esta parte?

Grato pela atenção.


ARQUIVO XML de ORIGEM: ri_ufrn.xml

<oai_dc:dc xmlns:oai_dc=“http://www.openarchives.org/OAI/2.0/oai_dc/” xmlns:doc=“http://www.lyncode.com/xoai” xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance” xmlns:dc=“DCMI: DCMI Metadata Terms” xsi:schemaLocation=“http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd”>2017-11-01T12:17:26Z
dc:titleUma visita ao universo matemático de Lewis Carrol e o (re)encontro com sua lógica do nonsense</dc:title>
dc:creatorTeixeira, Rafael Montoito</dc:creator>
dc:contributorMendes, Iran Abreu</dc:contributor>
dc:contributor/

dc:contributor/
dc:contributorhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4704236U8</dc:contributor>
dc:contributorSad, Ligia Arantes</dc:contributor>
dc:contributor/

dc:contributorFossa, John Andrew</dc:contributor>
dc:contributor/
dc:contributorhttp://lattes.cnpq.br/2466525106349625</dc:contributor>
dc:contributorAlmeida, Maria da Conceição Xavier de</dc:contributor>
dc:contributor/

dc:subjectLewis Carroll</dc:subject>
dc:subjectLógica do nonsense</dc:subject>
dc:subjectRomances matemáticos</dc:subject>
dc:subjectEducação</dc:subject>
dc:subjectEducação matemática</dc:subject>
dc:subjectRaciocínio lógico-matemático</dc:subject>
dc:subjectLewis Carroll</dc:subject>
dc:subjectLogic of nonsense</dc:subject>
dc:subjectMathematics romances</dc:subject>
dc:subjectEducation</dc:subject>
dc:subjectMathematics education</dc:subject>
dc:subjectReasoning logical-mathematical</dc:subject>
dc:subjectCNPQ::CIENCIAS HUMANAS::EDUCACAO</dc:subject>
dc:descriptionNotable mathematics teacher, Lewis Carroll, pseudonym of Charles Lutwidge Dodgson (1832-1898), made the mixture of mathematics with literature a ludic environment for learning that discipline. Author of Alice s Adventures In Wonderland and its sequel Alice Through The Looking Glass, he eventually created a real and complex universe which uses what we call the logic of the nonsense as an element to motivate the development of mathematical thinking of the reader, taking it as well, learn by establishing a link between the concrete (mathematics) and the imaginary (their universe). In order to investigate and discuss the educational potential of their works and state some elements that can contribute to a decentralized math education from the traditional method of following the models and decorate formulas, we visited his works based on the studies of archeology of knowledge (FOUCAULT, 2007), the rational thought and symbolic thinking (VERGANI, 2003) and about the importance of stories and narratives to the development of human cognition (FARIAS, 2006). Through a descriptive, analytical study, we used the literary construction and presented part of our study in form of a mathematical novel, to give the mathematical school a particular charm, without depriving it of its basics properties as discipline and content. Our study showed how the works of Carroll have a strong didactic element that can deploy in various activities of study and teaching for mathematics classes</dc:description>
dc:descriptionExímio professor de matemática, Lewis Carroll, pseudônimo de Charles Lutwidge Dodgson (1832 1898), fez da mistura da matemática com a literatura um ambiente lúdico para a aprendizagem dessa disciplina. Autor dos conhecidos Alice no país das Maravilhas e Alice através do espelho, acabou criando um universo real e complexo no qual se utiliza do que chamamos lógica do nonsense como elemento para motivar o desenvolvimento do pensamento matemática do leitor, levando-o, assim, a aprender, estabelecendo uma ligação entre o concreto (matemática) e o imaginário (seu universo). Com o objetivo de investigar e discutir as potencialidades didáticas de suas obras e de elencar alguns elementos que possam contribuir para uma educação matemática descentralizada da tradicional metodologia de seguir os modelos e decorar fórmulas, visitamos suas obras tendo por base os estudos sobre arqueologia do saber (FOUCAULT, 2007), o pensamento racional e o pensamento simbólico (VERGANI, 2003) e sobre a importância das histórias e narrativas para o desenvolvimento da cognição humana (FARIAS, 2006). Por meio de um estudo descritivo-analítico, utilizamos a construção literária, apresentamos parte de nosso estudo na forma de um romance matemático, visando conferir à matemática escolar um encanto particular, sem privar-lhe de suas propriedades básicas enquanto disciplina e conteúdo. Nosso estudo mostrou o quanto as obras de Carroll possuem uma forte vertente didática que pode se desdobrar nas mais variadas atividades de estudo e ensino para as aulas de matemática</dc:description>
dc:date2014-12-17T14:36:00Z</dc:date>
dc:date2008-05-26</dc:date>
dc:date2014-12-17T14:36:00Z</dc:date>
dc:date2007-12-07</dc:date>
dc:typemasterThesis</dc:type>
dc:identifierTEIXEIRA, Rafael Montoito. Uma visita ao universo matemático de Lewis Carrol e o (re)encontro com sua lógica do nonsense. 2007. 190 f. Dissertação (Mestrado em Educação) - Universidade Federal do Rio Grande do Norte, Natal, 2007.</dc:identifier>

dc:languagepor</dc:language>
dc:rightsAcesso Aberto</dc:rights>
dc:formatapplication/pdf</dc:format>
dc:formatapplication/pdf</dc:format>
dc:publisherUniversidade Federal do Rio Grande do Norte</dc:publisher>
dc:publisherBR</dc:publisher>
dc:publisherUFRN</dc:publisher>
dc:publisherPrograma de Pós-Graduação em Educação</dc:publisher>
dc:publisherEducação</dc:publisher>
</oai_dc:dc>


RESULTADO DO TESTE: analide_ri_ufrn_ok.txt

<?xml version="1.0" encoding="utf-8"?>

<add xmlns:oai_dc=“/” xmlns:php=>


dspace
2017-11-01T12:17:26Z Uma visita ao universo matemático de Lewis Carrol e o (re)encontro com sua lógica do nonsense Teixeira, Rafael Montoito Mendes, Iran Abreu , Ligia Arantes Fossa, John Andrew Romances matemáticos Educação Educação matemática Raciocínio lógico-matemático Lewis Carroll Logic of nonsense Mathematics romances Education Mathematics education Reasoning logical-mathematical CNPQ::CIENCIAS HUMANAS::EDUCACAO Notable mathematics teacher, Lewis Carroll, pseudonym of Charles Lutwidge Dodgson (1832-1898), made the mixture of mathematics with literature a ludic environment for learning that discipline. Author of Alice s Adventures In Wonderland and its sequel Alice Through The Looking Glass, he eventually created a real and complex universe which uses what we call the logic of the nonsense as an element to motivate the development of mathematical thinking of the reader, taking it as well, learn by establishing a link between the concrete (mathematics) and the imaginary (their universe). In order to investigate and discuss the educational potential of their works and state some elements that can contribute to a decentralized math education from the traditional method of following the models and decorate formulas, we visited his works based on the studies of archeology of knowledge (FOUCAULT, 2007), the rational thought and symbolic thinking (VERGANI, 2003) and about the importance of stories and narratives to the development of human cognition (FARIAS, 2006). Through a descriptive, analytical study, we used the literary construction and presented part of our study in form of a mathematical novel, to give the mathematical school a particular charm, without depriving it of its basics properties as discipline and content. Our study showed how the works of Carroll have a strong didactic element that can deploy in various activities of study and teaching for mathematics classes Exímio professor de matemática, Lewis Carroll, pseudônimo de Charles Lutwidge Dodgson (1832 1898), fez da mistura da matemática com a literatura um ambiente lúdico para a aprendizagem dessa disciplina. Autor dos conhecidos Alice no país das Maravilhas e Alice através do espelho, acabou criando um universo real e complexo no qual se utiliza do que chamamos lógica do nonsense como elemento para motivar o desenvolvimento do pensamento matemática do leitor, levando-o, assim, a aprender, estabelecendo uma ligação entre o concreto (matemática) e o imaginário (seu universo). Com o objetivo de investigar e discutir as potencialidades didáticas de suas obras e de elencar alguns elementos que possam contribuir para uma educação matemática descentralizada da tradicional metodologia de seguir os modelos e decorar fórmulas, visitamos suas obras tendo por base os estudos sobre arqueologia do saber (FOUCAULT, 2007), o pensamento racional e o pensamento simbólico (VERGANI, 2003) e sobre a importância das histórias e narrativas para o desenvolvimento da cognição humana (FARIAS, 2006). Por meio de um estudo descritivo-analítico, utilizamos a construção literária, apresentamos parte de nosso estudo na forma de um romance matemático, visando conferir à matemática escolar um encanto particular, sem privar-lhe de suas propriedades básicas enquanto disciplina e conteúdo. Nosso estudo mostrou o quanto as obras de Carroll possuem uma forte vertente didática que pode se desdobrar nas mais variadas atividades de estudo e ensino para as aulas de matemática 2014-12-17T14:36:00Z 2008-05-26 2014-12-17T14:36:00Z 2007-12-07 masterThesis TEIXEIRA, Rafael Montoito. Uma visita ao universo matemático de Lewis Carrol e o (re)encontro com sua lógica do nonsense. 2007. 190 f. Dissertação (Mestrado em Educação) - Universidade Federal do Rio Grande do Norte, Natal, 2007. por Acesso Aberto application/pdf application/pdf Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Educação Educação
My University
DSpace
por
Lewis Carroll
Lógica do nonsense
Romances matemáticos
Educação
Educação matemática
Raciocínio lógico-matemático
Lewis Carroll
Logic of nonsense
Mathematics romances
Education
Mathematics education
Reasoning logical-mathematical
CNPQ::CIENCIAS HUMANAS::EDUCACAO
Notable mathematics teacher, Lewis Carroll, pseudonym of Charles Lutwidge Dodgson (1832-1898), made the mixture of mathematics with literature a ludic environment for learning that discipline. Author of Alice s Adventures In Wonderland and its sequel Alice Through The Looking Glass, he eventually created a real and complex universe which uses what we call the logic of the nonsense as an element to motivate the development of mathematical thinking of the reader, taking it as well, learn by establishing a link between the concrete (mathematics) and the imaginary (their universe). In order to investigate and discuss the educational potential of their works and state some elements that can contribute to a decentralized math education from the traditional method of following the models and decorate formulas, we visited his works based on the studies of archeology of knowledge (FOUCAULT, 2007), the rational thought and symbolic thinking (VERGANI, 2003) and about the importance of stories and narratives to the development of human cognition (FARIAS, 2006). Through a descriptive, analytical study, we used the literary construction and presented part of our study in form of a mathematical novel, to give the mathematical school a particular charm, without depriving it of its basics properties as discipline and content. Our study showed how the works of Carroll have a strong didactic element that can deploy in various activities of study and teaching for mathematics classes
Mendes, Iran Abreu
masterThesis
Teixeira, Rafael Montoito
Teixeira, Rafael Montoito
Uma visita ao universo matemático de Lewis Carrol e o (re)encontro com sua lógica do nonsense
Uma visita ao universo matemático de Lewis Carrol e o (re)encontro com sua lógica do nonsense
Uma visita ao universo matemático de Lewis Carrol e o (re)encontro com sua lógica do nonsense
uma visita ao universo matemático de lewis carrol e o (re)encontro com sua lógica do nonsense
Universidade Federal do Rio Grande do Norte
2014
2014

<field name="work_keys_str_mv">AT teixeirarafaelmontoito umavisitaaouniversomatematicodelewiscarroleoreencontrocomsualogicadononsense</field>

TEM COMO ENVIAR ANEXO pelo Fórum?
FORAM RETIRADOS ALGUNS LINKS do arquivo de ORIGEM pois apareceu a mensagem que usuários novos poderiam mostrar apenas DOIS.

@wel,

tu já encontraste o problema do Vufind não conseguir indexar os metadados do RI da UFNR.

Portanto, de alguma forma o dspace.xsl não está conseguindo parsear corretamente o identifier do xml de origem e colocar no ID do xml de destino. No oai_dc, o campo identifier pode ser usado para três tipos de informação: 1) identificação do registro; 2) citação e 3) url da publicação. Reparei que nem sempre tem a identificação do registro nos metadados do RIUFRN. Algo que tem que olhar melhor.

Observe que nem sempre o dspace.xsl pode funcionar corretamente em todos os dspaces existentes, pois em alguns dspaces pode ter algumas customizações e, portanto, necessariamente o dspace.xsl deve ser ajustado.

Uma outra forma, é tentar coletar os metadados em DIM e utilizar o dspace-dim.xsl. Mas de todo modo o dspace-dim.xsl pode ser ajustado.

1 curtida

Prezado Diego, boa tarde!

Conversamos com o pessoal de TI que trata dos Repositórios na UFRN e eles não souberam explicar como poderia ser ajustado o arquivo de exportação do DSPACE para importação pelo VuFind.

Uma questão que surgiu foi a seguinte:

O IBICT já faz o harvest do RI da UFRN sem a necessidade de ajustes, neste caso, você não poderia indicar como está configurado o dspace.xsl no VuFind do IBICT de forma que o mesmo consiga parsear corretamente o identifier do xml de origem e colocar no ID do xml de destino?

Estamos com problemas de prazos, a universidade precisa avançar com este projeto, é possível indicar um e-mail ou telefone de contato para que possamos ver algumas questões pontuais?

Pode enviar para o meu e-mail institucional.
wellington.rodrigues@ufrn.br

Desde já, agradecemos pela atenção.

@wel,

Creio que tenha um equivoco, neste caso o pessoal da UFRN não precisa fazer nenhum ajuste no DSPACE deles. O ajuste tem que ser realizado no arquivo de configuração lá no Vufind da sua instituição, quem está realizando esse processo tem que ter conhecimentos em XML, XSLT e afins.

O Ibict utiliza um outro coletador e usa o Vufind só para apresentar os metadados para usuário final, então deve ser diferente a forma que é coletado e indexado os metadados. Outra coordenação que cuida dessa outra parte a COLAB, sob a coordenação do Washington.

Vocês estão mais de 01 mês tentando resolver essa questão, porém, ainda sem êxito. Creio que seja mais produtivo eu ajustar esse arquivo de configuração e testar e mandar o(s) arquivo(s) com as instruções para que vocês possam substituir aí.

Irei ver isso para vocês e encaminho o arquivo ajustado junto com as instruções.

atenciosamente,
@diegojmacedo

1 curtida

Prezado Diego,

     Muito obrigado pelo retorno. Fico no aguardo  do arquivo ajustado e das instruções.

Atenciosamente,
Wellington
UFRN/BCZM

Prezado Diego, boa noite!

Por favor, tem alguma posição sobre esta demanda? Estamos no aguardo.

Agradecemos a atenção!

Por favor, tem alguma posição sobre esta demanda? Estamos no aguardo.
Agradecemos a atenção!

@wel,

como eu disse anteriormente, o problema está em parsear o campo identifier do xml coletado.

Então temos que olhar se as diretivas idSearch[] e idReplace[] do arquivo de configuração oai.ini estão corretas. Se elas não estiverem corretas, pode dar problemas quando for indexar.
Então sugiro que você coloque a seguinte configuração no arquivo oai.ini.

[UFRN]
url = https://repositorio.ufrn.br/oai/request
metadataPrefix = oai_dc
idSearch[] = "/^oai:https:\/\/repositorio.ufrn.br:/"
idReplace[] = "ufrn-"
idSearch[] = "/\//"
idReplace[] = "-"
injectId = "identifier"
injectDate = "datestamp"
sanitize = true
sanitizeRegex[] = "/[^\x{0009}\x{000a}\x{000d}\x{0020}-\x{D7FF}\x{E000}-\x{FFFD}]+/u"

Utilizando idSearch[] e idReplace[] conforme mostrado, o xml coletado pelo Vufind irá criar o identifier corretamente no xml.

É Importante definir idSearch[] e idReplace[], pois o vufind, mais especificamente o Solr, não aceita como id as barras “/” e barras invertidas "" e alguns outros caracteres, por isso, é necessário realizar essa transformação.

Prezado Diego, boa noite!
Passei o dia fazendo testes e aparentemente agora conseguiu indexar ok, muito obrigado pela ajuda.
É possível me dizer também o que está errado quando tento aplicar o mesmo código para o OJS? Utilizei as definições abaixo:
[PERIO]
url = https://periodicos.ufrn.br/
metadataPrefix = oai_dc
idSearch[] = “/^oai:https://periodicos.ufrn.br:/”
idReplace[] = “perio-”
idSearch[] = “///”
idReplace[] = “-”
injectId = “identifier”
injectDate = “datestamp”
sanitize = true
sanitizeRegex[] = “/[^\x{0009}\x{000a}\x{000d}\x{0020}-\x{D7FF}\x{E000}-\x{FFFD}]+/u”

Mais uma vez, grato pelo retorno.
Wellington

@wel,

Tem certeza que estás utilizando a URL OAI correta?
A URL OAI de coleta portal é : https://periodicos.ufrn.br/index/oai

Também observe que o identifier desse portal começa com oai:periodicos.ufrn.br e não oai:https://repositorio.ufrn.br .

Portanto, o idSearch deve ficar algo do tipo.

idSearch[] = “/^oai:periodicos.ufrn.br:/”

Testa aí e ver se dá certo.

Prezado Diego, boa tarde!

	  Depois da forte gripe, estou retornando às atividades. 

	  O RI foi importado, estamos vendo agora o Portal de periódicos.


		Fizemos a importação do OJS usando a seguinte configuração:

[OJS001]
url = https://periodicos.ufrn.br/index/oai
metadataPrefix = oai_dc
idSearch[] = “/^oai:periodicos.ufrn.br:/”
;idReplace[] = “ojs-”
;idSearch[] = “///”
;idReplace[] = “-”
;injectId = “identifier”
;injectDate = “datestamp”

		Foram coletados vários registros, porém parou com a seguinte mensagem de erro:

				Processing 100 records...
				Processing 100 records...
				Problem loading XML: PCDATA invalid Char value 2; PCDATA invalid Char value 2
				Completed with 1 error(s) -- 1 source(s) processed.

		A fase de INDEXAÇÃO também não foi concluída, nenhum dos registros coletados aparecem na página:

		http://44.200.237.32/vufind/

		Segue os dados de um dos arquivos processados:

    <dc:title xml:lang="pt-BR">Resumos de Dissertações</dc:title>
    <dc:creator>CCHLA, Cronos</dc:creator>
    <dc:description xml:lang="pt-BR">Resumos das dissertações

A terceirização no segmento bancário: o caso da Caixa Econômica Federal de Natal/RN - Ana Patrícia Dias;
O acidente de trabalho fatal na industria da construção civil: Grande Natal: 1990-1999 - Edwar Abreu Gonçalves;
Aprender a (con)viver: o afetual na aprendizagem - Luzia Ferreira Pereira;
Conselho Estadual de Assistencia Social do RN: espaço de democratização da política de assistência social? - Adna Rejane de Freitas Rego;
A dicícil institucionalização das gestões participativas: os conselhos municipais de saúde - Angela Cristina Freire Diógenes Rego;
Conselho Municipal de Saúde: a experiência de Natal/RN - Ivanaldo Oliveira dos Santos Filho;
O processo de Estadualização da Universidade Regional do Rio Grande do Norte - Mara Betânia Jales dos Santos;
Frida Kahlo: Imagens da condição humana - Jarileide Cipriano da Silva;
Taurophtongo: da natureza e da cultura - Eugênio Pereira Soares;
Retratos do cotidiano: as mulheres do assentamento rua de Santa Vitória - Janete Monteiro de Souza.
</dc:description>
<dc:publisher xml:lang=“pt-BR”>Revista Cronos</dc:publisher>
dc:date2018-10-10</dc:date>
dc:typeinfo:eu-repo/semantics/article</dc:type>
dc:typeinfo:eu-repo/semantics/publishedVersion</dc:type>
dc:formatapplication/pdf</dc:format>
dc:identifierhttps://periodicos.ufrn.br/cronos/article/view/15706</dc:identifier>
<dc:source xml:lang=“pt-BR”>Revista Cronos; v. 3 n. 2 (2002): Dossiê Educação e Sociedade</dc:source>
dc:source1982-5560</dc:source>
dc:source1518-0689</dc:source>
dc:languagepor</dc:language>
dc:relationhttps://periodicos.ufrn.br/cronos/article/view/15706/10746</dc:relation>
<dc:rights xml:lang=“pt-BR”>Copyright (c) 2002 Revista Cronos</dc:rights>
<dc:rights xml:lang=“pt-BR”>Creative Commons — Attribution-NonCommercial-ShareAlike 4.0 International — CC BY-NC-SA 4.0</dc:rights>
</oai_dc:dc>

    **É possível vc me ajudar a formatar as definições de importação como fez com o RI?**

Ficamos no aguardo e agradeço novamente a atenção.

Wellington Rodrigues
UFRN-BCZM

@wel,
Espero que estejas melhor!

Esta configuração está equivocada, tu deves descomentar as linhas restantes da configuração para que posteriormente a importação seja realizada corretamente.
Portanto, o seu o oai.ini deve ficar parecido com isso:

[OJS001]
url = https://periodicos.ufrn.br/index/oai2
metadataPrefix = oai_dc
idSearch[] = "/^oai:periodicos.ufrn.br:/"
idReplace[] = "ojs-"
idSearch[] = "/\//"
idReplace[] = "-"
injectId = "identifier"
injectDate = "datestamp"

Provavelmente este problema está relacionado com caracteres inválidos nos metadados dos artigos coletadas no OJS. Isso acontece muitas vezes em copiar algum texto direto do PDF para o OJS, aí pode ir junto algum caractere inválido e isso mais na frente interfere na coleta.

Portanto, existem duas formas de corrigir esse problema:

  1. Ir no OJS e corrigir o registro problemático nos metadados do artigo.
  2. No Vufind no arquivo oai.ini, colocar a diretiva sanitize= true . Acho que é a melhor opção.

De acordo com a instrução contido no arquivo oai.ini

sanitize may be set to true to strip illegal characters from XML responses; it
defaults to false, assuming that the OAI-PMH server you are harvesting from will provide you with valid data.

O sanitize pode ser definida como true para remover caracteres ilegais das respostas XML. Sendo assim, colocando essa diretiva no arquivo oai.ini, deve resolver o problema enfrentado.
Portanto o seu oai.ini deve ficar algo parecido com isso:

[OJS001]
url = https://periodicos.ufrn.br/index/oai2
metadataPrefix = oai_dc
idSearch[] = "/^oai:periodicos.ufrn.br:/"
idReplace[] = "ojs-"
idSearch[] = "/\//"
idReplace[] = "-"
injectId = "identifier"
injectDate = "datestamp"
sanitize = true

Leia as descrições de todas as opções de configurações contidas no oai.ini, isso ajudará a entender melhor os recursos de coleta do Vufind.

Realizei os testes na minha máquina local, tanto a coleta quanto a indexação funcionaram corretamente.

1 curtida

Prezado Diego, boa tarde!
Agradecemos todo o seu apoio neste processo de configuração do Vufind. Graças a você conseguimos importar dados do RI e OJS e agora estamos checando a integridade das informações.
Solicitamos a sua colaboração ainda para 4 questões:

  1. Como eu posso associar cada base a uma coleção específica dentro do Vufind, onde é feita esta configuração?
  2. O Vufind faz pesquisa no inteiro teor dos PDFs? Notei que as pesquisas no RI recuperam bem mais registros que no Vufind, embora, aparentemente, todos os documentos tenham sido coletados e indexados.
  3. Como posso deletar do Vufind, com segurança, toda uma coleção já importada para repetir o processo?
  4. Ao executar a coletar uma segunda vez, o sistema já identifica automaticamente todos os documentos alterados, incluídos e excluídos desde a última vez?

Novamente, muito obrigado pela atenção e ficamos no aguardo!

Att.
Wellington Rodrigues
UFRN/BCZM

1 curtida

Boa noite, Wel!

Bom que conseguiu indexar os dados no Vufind.

  1. se eu entendi bem, você quer adicionar o nome da coleção nos registros e configurar a faceta ? Se for isso, no xsl de cada fonte, localizado em /usr/local/vufind/import/xsl , tu deves definir o nome da coleção, se é um repositório institucional, periódico etc. Faz essa alteração nesta linha:

    < xsl:param name=“collection”>nomeDaColeção< /xsl:param>

Para aparecer o nome da coleção no facetamento deve adicionar uma entrada lá no arquivo facets.ini especificamente na seção [Results] . Deve ficar algo do tipo :

collection = "Coleção" 

Desse modo, deve aparecer nome da coleção lá no facetamento.

  1. Dá para indexar o texto completo, porém, acredito que não seja necessário, pois os metadados que o VuFind indexa já contempla o suficiente para a busca.
    Uma outra questão é que o algorítimo para busca do Dspace deve ser diferente do VuFind e também quais os campos que realmente utilizados para cada tipo de buscas. Pode verificar o arquivo searchspecs.yaml e lá você tem uma noção de mais ou menos como funciona o processo de busca no Solr.

  2. Você pode ir no bash do terminal no servidor e executar uma query no Solr para apagar os registros conforme necessidades. No caso para apagar determinada coleção, tu podes executar o seguinte comando:

    curl http://localhost:8983/solr/biblio/update?commit=true -H “Content-Type: text/xml” --data-binary ‘collection:NomeDaColecao’

Sugiro que aprenda um pouco mais de como funciona o Solr, isso te ajudará bastante.

  1. Na verdade tu podes colocar o processo de harvest na cron do servidor e no período estabelecido ele sempre vai coletar os novos itens e os alterados. Esses registros serão indexados no VuFind.
    Se por algum motivo o VuFind indexar o mesmo registro mais de uma vez, o sistema não irá duplicar esse registro, mas caso o registro tiver alguma atualização (não sendo no id - identifier), o VuFind irá atualizar o registro lá no Solr. Portanto, não tem problema de indexar mais de uma vez esse registro.
    Nos registros deletados, talvez não seja tão trivial. Acesse a Wiki do VuFind ( indexing:tracking_record_changes [VuFind Documentation] ) na seção “Frequently Asked Questions” tem uma explicação para a sua dúvida. Sugiro também que habilite o Tracking Record Changes para realizar esse controle de alterações.

at.te,
@diegojmacedo

1 curtida

Prezado Diego, boa tarde!

Muito obrigado pelo retorno. Vamos realizar os testes localmente.

Att.
Wellington

1 curtida