LSH + MinHash + Jaccard Explained | Find Similar Documents FAST!

Опубликовано: 17 Июнь 2026
на канале: Mini

1,480

Discover How Locality-Sensitive Hashing (LSH) Speeds Up Document Similarity Search! 🚀

This video breaks down LSH, a powerful technique to efficiently find similar documents and items in massive datasets. Perfect for anyone exploring machine learning, big data, or search engines.

What You’ll Learn in This Video:
✅ Recap: Universal Hashing for efficient data distribution
✅ Shingling → Convert documents into sets of k-grams
✅ MinHash → Compress large sets into compact signatures while preserving Jaccard similarity
✅ Locality-Sensitive Hashing (LSH) → Efficiently find likely similar pairs without brute-force
✅ Applications → Search engines, plagiarism detection, recommendation systems, big data deduplication

By the end of this session, you'll know how LSH and MinHash work together to quickly identify near-duplicate documents at scale.

📌 Resources & References:
"Mining of Massive Datasets" by Anand Rajaraman & Jeffrey Ullman

#LocalitySensitiveHashing #MinHash #DocumentSimilarity #JaccardSimilarity #MachineLearning #BigData #SearchEngines