Main conference

Programme: Main conference

Monday

9:00 – 10:00

Keynote (plenary)

10:30 – 12:30

Room A Full Papers

Full Papers 1: Core Retrieval Models, Representations & Evaluation

Sample-Free Almost-Exact Estimation of Plackett-Luce Propensities for Off-Policy Ranking
Norman Knyazev and Harrie Oosterhuis
Validating Search Query Simulations: A Taxonomy of Measures
Andreas Konstantin Kruff, Nolwenn Bernard and Philipp Schaer
Reducing Human Effort to Validate LLM Relevance Judgements via Stratified Sampling
Simone Merlo, Stefano Marchesin, Guglielmo Faggioli and Nicola Ferro
Revealing MonoT5's Learning Mechanisms via Prompt-Token Adaptation
Marco Braga, Sean MacAvaney, Craig Macdonald and Gabriella Pasi
When Reducing Representations Improves Performance
Andrea Pasin, Guglielmo Faggioli, Nicola Ferro, Raffaele Perego and Nicola Tonellotto
An Empirical Study of Model Casing in Learned Sparse Retrieval
Emmanouil Georgios Lionis, Jia-Huei Ju, Angelos Nalmpantis, Casper Thuis, Sean MacAvaney and Andrew Yates
Improving Instruction-Aware Retrieval with Query-Preserving Regularization
Hyewon Kim and Hyun-Je Song

Room B Full Papers

Full Papers 2: Applied Generation, Evaluation & Analysis with LLMs

Contradictions in Context: Challenges for Retrieval-Augmented Generation in Healthcare
Saeedeh Javadi, Sara Mirabi, Manan Gangar and Bahadorreza Ofoghi
Small Models, Big Picture! A Language Model Augmentation for Enhanced Reader-Aware Summarization
Raghvendra Kumar, A S Poornash and Sriparna Saha
From Comments to Conclusions: Adaptive Reader-Aware Summary Generation in Low-Resource Languages via Agent Debate
Raghvendra Kumar, Mohammed Salman S A, Jaya Verma and Sriparna Saha
Prompt Compression in the Wild: Measuring Latency, Rate Adherence, and Quality for Faster LLM Inference
Cornelius Kummer, Lena Jurkschat, Michael Färber and Sahar Vahdati
Towards Quantitative Summarization Evaluation: An Integrated Atomic-Based Evaluation Framework and Dataset for Text Summarization
Yan Lei, Suncong Zheng, Roberts Wang, Liang Pang, Lei He, Shuang Chen, Wang Yu, Huawei Shen, Xueqi Cheng and Yuanzhuo Wang
ExpertMix: Aspect and Severity Detection in Conversational Complaints
Sarmistha Das, Apoorva Singh, Rishu Kumar Singh, Navneet Shreya and Sriparna Saha
MemTool: Optimizing Short-Term Memory Management for Dynamic Tool Retrieval and Invocation in LLM Agent Multi-Turn Conversations
Elias Lumer

Room C IR4Good

IR4Good 1: IR-for-Good Paper Session I

From Engagement to Empowerment: A Capability-Theoretic Rethinking of Recommender Systems
Vittoria Vineis and Gabriele Tolomei
Bias in Book Recommendation: A Case Study on the Danish Public Libraries
Savvina Daniil, Søren Højlund Mollerup and Laura Hollink
How Do LLMs Cite? A Mechanistic Interpretation of Attribution in RAG
Ian van Dort and Maria Heuss
All That Matters: Revisiting Children's Concept of Relevance in Primary School Context
Diletta Micol Tobia, Hrishita Chakrabarti, Maria Soledad Pera and Monica Landoni
When Attention Becomes Exposure in Generative Search
Shayan Alipour, Mehdi Kargar and Morteza Zihayat
Counterfactual Understanding via Retrieval-Aware Multimodal Modeling for Time-to-Event Survival Prediction
Ha-Anh Hoang Nguyen, Tri-Duc Phan Le, Duc-Hoang Pham, Huy-Son Nguyen, Cam-Van Thi Nguyen, Duc-Trong Le and Hoang-Quynh Le
Joint Modeling of Candidate and Recruiter Preferences for Fair Two-Sided Job Matching
Clara Rus, Masoud Mansoury, Andrew Yates and Maarten de Rijke

14:30 – 15:30

Room A Full Papers

Full Papers 3: Specialized Retrieval Domains & Architectures

Filtering Few-Level Segment Regions for Efficient Subsequence Search in 3D Human Motions
Andrej Černek and Jan Sedmidubsky
Starbucks: Improved Training for 2D Matryoshka Embeddings
Shengyao Zhuang, Shuai Wang, Fabio Zheng, Bevan Koopman and Guido Zuccon
Website Segmentation Beyond Structure: A Benchmark on Functional and Digital Maturity Classes
Jonathan Gerber, Jasmin Saxer, Andreas Weiler and Michael Grossniklaus

Room B Reproducibility

Reproducibility 1: Recommender Systems

Are Multimodal Embeddings Truly Beneficial for Recommendation? A Deep Dive into Whole vs. Individual Modalities
Yu Ye, Junchen Fu, Yu Song, Kaiwen Zheng and Joemon Jose
RecRankerEval: A Reproducible Framework for Deploying and Evaluating LLM-Based Top-k Recommenders
Zeyuan Meng, Zixuan Yi and Iadh Ounis
Efficient Optimization of Hierarchical Identifiers for Generative Recommendation
Federica Valeau, Odysseas Boufalis, Polytimi Gkotsi, Joshua Rosenthal and David Vos
A Reproducible and Fair Evaluation of Partition-Aware Collaborative Filtering
Domenico de Gioia, Claudio Pomo, Ludovico Boratto and Tommaso Di Noia
A Systematic Reproducibility Study of BSARec for Sequential Recommendation
Jan Hutter, Hua Chang Bakker, Stan Fris, Angela Madelon Bernardy and Yuanna Liu

Room C IR4Good

IR4Good 2: IR-for-Good Paper Session II

Measuring Political Stance and Consistency in Large Language Models
Mucahid Kutlu, Saban Kardas, Salah Feras Alali and Mohammad Nashat Maasfeh
Judiciously Reducing Sub-Group Comparisons for Learning Intersectional Fair Representations
Clara Rus, Andrew Yates and Maarten de Rijke
Modeling Behavioral Patterns in News Recommendations Using Fuzzy Neural Networks
Kevin Innerebner, Stephan Bartl, Markus Reiter-Haas and Elisabeth Lex
Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers
Saron Samuel, Benjamin Van Durme and Eugene Yang

16:00 – 17:00

Room A Findings

Findings Lightning Talks

Room B Reproducibility

Reproducibility 2: Retrieval

Fast, Compact, Dynamic Indexing for Learned Sparse Retrieval Systems
Billy Rule and Joel Mackenzie
Down with the Hierarchy: The 'H' in HNSW Stands for "Hubs"
Blaise Munyampirwa, Vihan Lakshman and Benjamin Coleman
Multivector Reranking in the Era of Strong First-Stage Retrievers
Silvio Martinico, Franco Maria Nardini, Cosimo Rulli and Rossano Venturini
Temporal Fact Conflicts in LLMs: Reproducibility Insights from Unifying DYNAMICQA and MULAN
Ritajit Dey, Iadh Ounis, Graham McDonald and Yashar Moshfeghi

Room C IR4Good

IR4Good Invited Talks and Panel

Tuesday

9:00 – 10:00

Keynote – IR4Good (plenary)

10:30 – 12:30

Room A Full Papers

Full Papers 4: LLMs as Rankers, Rerankers & Judges

Training-Induced Bias Toward LLM-Generated Content in Dense Retrieval
William Xion and Wolfgang Nejdl
OrLog: Resolving Complex Queries with LLMs and Probabilistic Reasoning
Mohanna Hoveyda, Jelle Piepenbrock, Arjen de Vries, Maarten de Rijke and Faegheh Hasibi
LLM-based Listwise Reranking Under the Effect of Positional Bias
Jingfen Qiao, Jin Huang, Xinyu Ma, Shuaiqiang Wang, Dawei Yin, Evangelos Kanoulas and Andrew Yates
RerAnchor: Anchoring Important Context in Multi-Modal Document Reranking
Tz-Huan Hsu, Sian-Yao Huang, Kuanlun Liao, Che-Yu Lin and Cheng-Lin Yang
How Role-Play Shapes Relevance Judgment in Zero-Shot LLM Rankers
Yumeng Wang, Jirui Qi, Catherine Chen, Panagiotis Eustratiadis and Suzan Verberne
Influential Training Data Retrieval for Explaining Verbalized Confidence of LLMs
Yuxi Xia, Loris Schoenegger and Benjamin Roth
LANCER: LLM Reranking for Nugget Coverage
Jia-Huei Ju, François G. Landry, Eugene Yang, Suzan Verberne and Andrew Yates

Room B Full Papers

Full Papers 5: RAG: Retrieval Utility, Scaling & Infrastructure

Who Benefits from RAG? The Role of Exposure, Utility and Attribution Bias
Mahdi Dehghan and Graham McDonald
Utilizing Metadata for Better Retrieval-Augmented Generation
Raquib Bin Yousuf, Shengzhe Xu, Mandar Sharma, Andrew Neeser, Chris Latimer and Naren Ramakrishnan
Predicting Retrieval Utility and Answer Quality in Retrieval-Augmented Generation
Fangzheng Tian, Debasis Ganguly and Craig Macdonald
Open Web Indexes for Remote Querying
Gijs Hendriksen, Djoerd Hiemstra and Arjen P. de Vries
LURE-RAG: Lightweight Utility-Driven Reranking for Efficient RAG
Manish Chandra, Debasis Ganguly and Iadh Ounis
Insider Knowledge: How Much Can RAG Systems Gain from Evaluation Secrets
Laura Dietz, Bryan Li, Eugene Yang, Dawn Lawrie, William Walden and James Mayfield
Less LLM, More Documents: Searching for Improved RAG
Jingjie Ning, Yibo Kong, Yunfan Long and Jamie Callan

Room C IR4Good

IR4Good 3: IR-for-Good Paper Session III

AgriIR: A Scalable Framework for Domain-Specific Knowledge Retrieval
Shuvam Banerji Seal, Aheli Poddar, Alok Mishra and Dwaipayan Roy
Extending Logic Tensor Networks to Implicit Feedback for Representation-Aware Music Recommendation
Hannah Eckert, Oleg Lesota and Markus Schedl
Cultural Analytics for Good: Building Inclusive Evaluation Frameworks for Historical IR
Suchana Datta, Dwaipayan Roy, Derek Greene, Gerardine Meaney, Karen Wade and Philipp Mayr
One LLM to Train Them All: A Multi-Task Learning Framework for Fact-Checking
Malin Astrid Larsson, Harald Fosen Grunnaleite and Vinay Setty
How Information Retrieval Systems Construct and Amplify Immigration Narratives
Zarif Masud, Abhijit Paul, Syed Ishtiaque Ahmed and Ebrahim Bagheri
Towards Reliable Machine Translation: Scaling LLMs for Critical Error Detection and Safety
Muskaan Chopra, Lorenz Sparrenberg and Rafet Sifa
Integrating AI and IR Paradigms for Sustainable and Trustworthy Accurate Access to Large Scale Biomedical Information
Federico Borazio, Danilo Croce, Roberto Basili and Francesco Labbate
Debiasing CLIP with Neural Interventions
Amelia Gómez Grabowska, Jordi Gonzalez and Lluis Gomez

14:30 – 16:00

Room A Full Papers

Full Papers 6: Multimodal Retrieval & Embeddings

Event-Aware Video Corpus Moment Retrieval
Danyang Hou, Liang Pang, Yanyan Lan, Huawei Shen and Xueqi Cheng
Scalable Music Cover Retrieval Using Lyrics-Aligned Audio Embeddings
Joanne Affolter, Benjamin Martin, Elena V. Epure, Gabriel Meseguer-Brocal and Frédéric Kaplan
Image Complexity-Aware Adaptive Retrieval for Efficient Vision-Language Models
Mikel Williams-Lekuona and Georgina Cosma
Cross-Sensory Brain Passage Retrieval: Scaling Beyond Visual to Audio
Niall McGuire and Yashar Moshfeghi
Learning Audio–Visual Embeddings with Inferred Latent Interaction Graphs
Donghuo Zeng, Hao Niu, Yanan Wang and Masato Taya

Room B Full Papers

Full Papers 7: Trustworthy and Responsible Retrieval-Augmented Systems

Learned Hallucination Detection in Black-Box LLMs Using Token-Level Entropy Production Rate
Charles Moslonka, Hicham Randrianarivo, Arthur Garnier and Emmanuel Malherbe
FACTUM: Mechanistic Detection of Citation Hallucination in Long-Form RAG
Maxime Dassen, Rebecca Kotula, Kenton Murray, Andrew Yates, Dawn Lawrie, Efsun Kayi, James Mayfield and Kevin Duh
SUMMIR: A Hallucination-Aware Framework for Ranking Sports Insights from LLMs
Nitish Kumar, Sannu Kumar, S Akash, Manish Gupta, Ankith Karat and Sriparna Saha
Bribery-Resistant Ranking Systems: A Multipartite User-Agnostic Framework for AI Act Compliance
Martim Baltazar, Ludovico Boratto, Mirko Marras and Guilherme Ramos
RAC: Retrieval-Augmented Clarification for Faithful Conversational Search
Ahmed Rayane Kebir, Vincent Guigue, Lynda Said Lhadj and Laure Soulier

Room C Resource

Resource 1: Interactive and Conversational Search

WildClaims: Conversational Information Access in the Wild(Chat)
Hideaki Joko, Shakiba Amirshahi, Charles L. A. Clarke and Faegheh Hasibi
LISP – A Rich Interaction Dataset and Loggable Interactive Search Platform
Jana Isabelle Friese, Andreas Konstantin Kruff, Philipp Schaer, Norbert Fuhr and Nicola Ferro
UserSimCRS v2: Simulation-Based Evaluation for Conversational Recommender Systems
Nolwenn Bernard and Krisztian Balog
Sim4IA-Bench: A User Simulation Benchmark Suite for Next Query and Utterance Prediction
Andreas Konstantin Kruff, Christin Katharina Kreutz, Timo Breuer, Philipp Schaer and Krisztian Balog
Beyond the Click: A Framework for Inferring Cognitive Traces in Search
Saber Zerhoudi and Michael Granitzer

Evening Banquet

Wednesday

9:00 – 10:00

Keynote – KvR (plenary)

10:30 – 12:30

Room A IRRJ

IRRJ Papers

Room B CLEF

CLEF Tracks Presentations

Room C Resource

Resource 2: Domain- and Language-Specific Datasets

FaE: A Resource of Logs, Profiles, and Rankings for Academic Expert Finding
Marjan Azimi, Alistair Moffat and Justin Zobel
SciNUP: Natural Language User Interest Profiles for Scientific Literature Recommendation
Mariam Arustashvili and Krisztian Balog
FoodNexus: Massive Food Knowledge for Recommender Systems
Ludovico Boratto, Gianni Fenu, Mirko Marras, Giacomo Medda and Giovanni Zedda
pt-image-ir-dataset: An Image Retrieval Dataset in European Portuguese
Rodrigo Duarte, António Branco, Hugo Proença and Ricardo Campos
CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes
Ricardo Campos, Ana Pacheco, Ana Fernandes, Inês Cantante, Rute Rebouças, Luís Filipe Cunha, José Isidro, José Pedro Evans, Miguel Marques, Rodrigo Batista, Evelin Amorim, Alípio Jorge, Nuno Guimarães, Sérgio Nunes, António Leal and Purificação Silvano
ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles
Ricardo Campos, Raquel Sequeira, Sara Nerea, Inês Cantante, Diogo Folques, Luís Filipe Cunha, João Canavilhas, António Branco, Alípio Jorge, Sérgio Nunes, Nuno Guimarães and Purificação Silvano
BioGraphletQA: Knowledge-Anchored Generation of Complex Question Answering Datasets
Richard A. A. Jonker, Bárbara Maria Ribeiro de Abreu Martins and Sérgio Matos

14:30 – 16:00

Room A Full Papers

Full Papers 8: Recommendation Systems & LLMs

From What to Why: Thought-Space Recommendation with Small Language Models
Prosenjit Biswas, Pervez Shaik, Abhinav Thorat, Ravi Kolla and Niranjan Pedanekar
Post-Training Denoising of User Profiles with LLMs in Collaborative Filtering Recommendation
Ervin Dervishaj, Maria Maistro, Tuukka Ruotsalo and Christina Lioma
PromptHG: Prompt-Enhanced Heterogeneous Graph for Personalized News Recommendation
Dang Kieu, Delvin Ce Zhang, Minh-Duc Nguyen, Qiang Wu, Min Xu and Dung D. Le
Interplay: Training Independent Simulators for Reference-Free Conversational Recommendation
Jerome Ramos, Feng Xia, Xi Wang, Shubham Chatterjee, Xiao Fu, Hossein A. Rahmani and Aldo Lipani
Improving Conversational Recommendation with Contextual Adaptation of External Recommenders and LLM-Based Reranking
Chuang Li, Yang Deng, Weida Liang, Hengchang Hu, See-Kiong Ng, Min-Yen Kan and Haizhou Li

Room B

- No session -

Room C Resource

Resource 3: Evaluation Tooling for Retrieval and RecSys

CoRECT: A Framework for Evaluating Embedding Compression Techniques at Scale
Laura Caspari, Michael Dinzinger, Kanishka Ghosh Dastidar, Christofer Fellicious, Jelena Mitrović and Michael Granitzer
GREAT: Group Recommender Evaluation and Analysis Tool
Ariel Smith, David Contreras, Maria Salamo and Ludovico Boratto
Evaluating the Efficiency and Effectiveness of Learned Sparse Retrieval with the lsr_benchmark
Maik Fröbe, Ferdinand Schlatt, Cosimo Rulli, Tim Hagen, Jan Heinrich Merker, Gijs Hendriksen, Carlos Lassance, Franco Maria Nardini, Rossano Venturini and Martin Potthast
An Open SERP Mining Infrastructure for the Archive Query Log
Jan Heinrich Merker, Simon Ruth, Harrisen Scells and Martin Potthast
RoutIR: Fast Serving of Retrieval Pipelines for Retrieval-Augmented Generation
Eugene Yang, Andrew Yates, Dawn Lawrie, James Mayfield and Trevor Adriaanse

16:00 – 16:30

Closing Session (plenary)

74 hits