Please use this identifier to cite or link to this item: http://hdl.handle.net/10316/83559
Title: SmartSearch – Search Engine with Natural Language Processing
Other Titles: SmartSearch – Search Engine with Natural Language Processing
Authors: Marcelino, José Miguel Simões 
Orientador: Costa, Ernesto Jorge Fernandes
Sousa, Ricardo Jorge Gamelas de
Keywords: Processamento de Linguagem Natural; Aprendizagem Computacional; Modelos de Linguagem; Extração de Informação; E-commerce de moda; Natural Language Processing (NLP); Machine Learning (ML); Language Models; Information Extraction; Fashion e-commerce
Issue Date: 10-Jul-2018
Serial title, monograph or event: SmartSearch – Search Engine with Natural Language Processing
Place of publication or event: Farfetch
Abstract: The world of fashion has recently been receiving a lot of at- tention. At Farfetch, the global platform for luxury, a robust search engine is required to cope with its users’ needs and ex- pectations. The fashion language, with its semantically rich expressions, context and linguistic structure give origin to chal- lenges such as the inability 1) to capture nuances of fashion epithets (for instance, semantically speaking, what is a floral dress?) and, 2) of having an algorithm able to translate the do- main into an effective identification of fashion entities. Natural Language Processing (NLP) endows our systems with capabil- ities to tackle these challenging tasks.Historically, the search engine parser has been keyword-based, involving a large number of constraint rules. This work presents a hierarchical deep learning natural language parser for fash- ion. Our proposal intends not only to recognize fashion-domain entities but also to expose syntactic and morphologic insights. We leverage the usage of an architecture of specialist models, each one for a different task (from parsing to entity recogni- tion). Such architecture renders a hierarchical model able to capture the nuances of the fashion language. The natural lan- guage parser is able to deal with textual ambiguities which are left unresolved by our currently existing solution.We conducted an extensive experimental work to assess the quality of our proposal. Having in mind the complexity of our proposed framework, we conducted an analysis of each module. Achieving 0.98, 0.8 and 0.99 in terms of F1 score in our extrinsic evaluation into the each module (Part-of-Speech (POS), Depen- dency Parsing and Named Entity Recognition (NER) respec- tively) our empirical results establish a robust baseline, which justifies the use of hierarchical architectures of deep learning models while opening new research avenues to explore.
O mundo da moda tem vindo a ser alvo de grande destaque. Na Farfetch, a plataforma global de luxo, ́e necess ́ario um mecanismo de pesquisa robusto de modo a cumprir as necessi- dades e expectativas dos utilizadores. A linguagem da moda, com as suas express ̃oes semanticamente ricas, com a sua es- trutura lingu ́ıstica complexa e o seu vago contexto originam grandes desafios, tais como a incapacidade: 1) de captar nu- ances de vocabul ́ario (por exemplo, semanticamente falando, o que ́e um vestido floral?) e, 2) de ter um algoritmo ca- paz de traduzir o dom ́ınio numa identifica ̧c ̃ao efetiva das enti- dades da moda. O Processamento de Linguagem Natural dota os nossos sistemas com capacidades para ultrapassar estas de- safiantes tarefas. Historicamente, o processador do motor de pesquisa tem sido baseado em palavras-chave, envolvendo um vasto nu ́mero de restri ̧c ̃oes. Este trabalho apresenta um pro- cessador de linguagem natural baseado em redes de aprendiza- gem profunda estruturadas de forma hier ́arquica no dom ́ınio da moda. A nossa abordagem pretende n ̃ao s ́o reconhecer as en- tidades do dom ́ınio da moda mas tamb ́em expor conhecimento acerca da sintaxe e morfologia. Baseamo-nos numa arquitetura de modelos especialistas, cada um com um diferente prop ́osito (desde an ́alise sint ́atica a reconhecimento de entidades). Esta arquitetura hier ́arquica permite captar as nuances da moda. O processador de linguagem natural ́e capaz de lidar com am- biguidades que n ̃ao possuem resposta adequada da solu ̧c ̃ao em vigor. Conduzimos uma vasta experimentac ̧ ̃ao de forma a val- idar os nossos resultados. Tendo em conta a complexidade da nossa solu ̧c ̃ao efetuamos uma avalia ̧c ̃ao orientada a cada m ́odulo, tendo obtido valores de ‘F1 score’ de 0.98, 0.8 e 0.99 (respetivamente, An ́alise Sint ́atica, An ́alise de Dependˆencias e Reconhecimento de Entidades). Os nossos resultados emp ́ıricos estabelecem uma base robusta, que justifica o uso de arquite- turas hier ́arquicas de modelos de aprendizagem profunda en- quanto abre novas oportunidades de investiga ̧c ̃ao.
Description: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: http://hdl.handle.net/10316/83559
Rights: closedAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat Login
master-thesis-final-version.pdf2.72 MBAdobe PDFEmbargo Access    Request a copy
Show full item record

Page view(s) 50

346
checked on Nov 12, 2019

Download(s) 50

322
checked on Nov 12, 2019

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons