जावा के लिए गिगाबाइट का प्रबंधन

जावा के लिए गीगाबाइट प्रबंधित करना जावा में लिखे गए बड़े दस्तावेज़ संग्रह के लिए एक निःशुल्क पूर्ण-पाठ अनुक्रमण प्रणाली है।

अब डाउनलोड करो

जावा के लिए गिगाबाइट का प्रबंधन रैंकिंग और सारांश

Rating:

लाइसेंस:
LGPL

कीमत:
FREE

प्रकाशक का नाम:
Sebastiano Vigna

प्रकाशक वेब साइट:
http://archive4j.dsi.unimi.it/

जावा के लिए गिगाबाइट का प्रबंधन टैग

गिगाबाइट्स का प्रबंधन

गीगाबाइट

जावा के लिए गिगाबाइट का प्रबंधन विवरण

जावा के लिए गिगाबाइट प्रबंधित करना जावा में लिखे गए बड़े दस्तावेज़ संग्रह के लिए एक निःशुल्क पूर्ण-पाठ अनुक्रमण प्रणाली है। जावा (एमजी 4 जे) के लिए गीगाबाइट प्रबंधित करना जावा में लिखे गए बड़े दस्तावेज़ संग्रह के लिए एक निःशुल्क पूर्ण-पाठ अनुक्रमण प्रणाली है। एक उप-उत्पाद के रूप में, यह कई सामान्य उद्देश्य अनुकूलित कक्षाएं प्रदान करता है, जिसमें तेजी से और कॉम्पैक्ट म्यूट्येबल स्ट्रिंग, बिट-स्तरीय I / O, तेज़ unyshysonised buffered धाराओं, (संभवतः हस्ताक्षरित) बहुत बड़े स्ट्रिंग्स संग्रह के लिए न्यूनतम सही हैशिंग, आदि शामिल हैं। रिलीज 1.1, एमजी 4 जे एक बेहद अनुकूलन योग्य, उच्च प्रदर्शन, पूर्ण-फ़्लेड टेक्स्ट-इंडेक्सिंग सिस्टम बन जाता है जिसमें अत्याधुनिक विशेषताएं (जैसे बीएम 25 स्कोरिंग) और नए शोध एल्गोरिदम प्रदान करते हैं। "के लिए गिगाबाइट्स के लिए कुछ प्रमुख विशेषताएं हैं जावा ": - शक्तिशाली अनुक्रमण। दस्तावेज़ संग्रह और कारखानों के लिए समर्थन लगातार बड़े दस्तावेज़ संग्रहों का विश्लेषण, अनुक्रमणित और क्वेरी करना संभव बनाता है, जो पुनर्प्राप्त दस्तावेजों में प्रासंगिक मार्गों को हाइलाइट करता है जो आसानी से समझने वाले स्निपेट प्रदान करता है। - दक्षता। हम अर्थहीन डेटा प्रदान नहीं करते हैं जैसे "हम इंडेक्स एक्स गिब प्रति सेकेंड" (किस कॉन्फ़िगरेशन के साथ? कौन सी भाषा? कौन सा डेटा स्रोत?) - हम आपको इसे आज़माने के लिए आमंत्रित करते हैं। एमजी 4 जे प्रयास के बिना इंडेक्स कर सकते हैं टीआरईसी जीओवी 2 संग्रह (इस उद्देश्य के लिए दस्तावेज़ कारखानों को प्रदान किया जाता है) और लाखों दस्तावेजों के लिए तराजू। - बहु-सूचकांक अंतराल अर्थशास्त्र। जब आप प्रत्येक सूचकांक के लिए एक क्वेरी, एमजी 4 जे रिटर्न जमा करते हैं, तो क्वेरी को संतुष्ट करने वाले अंतराल की एक सूची। यह कई उच्च परिशुद्धता स्कोररों और परिष्कृत ऑपरेटरों के बहुत ही कुशल कार्यान्वयन के लिए आधार प्रदान करता है। अंतराल नए शोध एल्गोरिदम का उपयोग करके रैखिक समय में बनाए जाते हैं। अभिव्यंजक ऑपरेटरों। एमजी 4 जे बैग-ऑफ-शब्द मॉडल से काफी दूर है, वाक्यांश प्रश्नों, निकटता प्रतिबंधों, आदेश के संयोजन, और संयुक्त बहु-सूचकांक प्रश्नों के कुशल कार्यान्वयन प्रदान करता है। प्रत्येक ऑपरेटर को एक अमूर्त वस्तु द्वारा आंतरिक रूप से दर्शाया जाता है, ताकि आप आसानी से अपने पसंदीदा वाक्यविन्यास में प्लग कर सकें। - आभासी फ़ील्ड। एमजी 4 जे वर्चुअल फ़ील्ड-फ़ील्ड को एक अलग, वर्चुअल दस्तावेज़ के लिए टेक्स्ट युक्त करता है; सामान्य उदाहरण एंकर टेक्स्ट है, जिसे लक्षित दस्तावेज़ को जिम्मेदार ठहराया जाना चाहिए। लचीलापन। आप टर्म पदों को छोड़कर, या यहां तक कि अवधि गणना करके बहुत छोटे सूचकांक बना सकते हैं। यह आप पर निर्भर करता है। दक्षता और सूचकांक आकार को संतुलित करने के लिए कई अलग-अलग प्रकार के कोड चुने जा सकते हैं। एक संग्रह से आने वाले दस्तावेजों को पुनर्निर्मित किया जा सकता है (उदा।, एक स्थिर रैंक या इंडेक्सिंग तकनीकों के साथ प्रयोग से मेल खाने के लिए)। - खुलेपन। दस्तावेज़ संग्रह / फैक्टरी इंटरफेस एमजी 4 जे को अपना खुद का डेटा प्रतिनिधित्व पेश करने का एक आसान तरीका प्रदान करते हैं, जिससे इसे वेब-आधारित खोज इंजन सेट अप करने के लिए सीधे आपके डेटा को एक्सेस किया जाता है। क्वेरी रिज़ॉल्यूशन (पार्सर, दस्तावेज़-इटरेटर बिल्डर्स, क्वेरी इंजन इत्यादि) के पथ के साथ प्रत्येक तत्व को अपने संस्करणों के साथ प्रतिस्थापित किया जा सकता है। - वितरित प्रसंस्करण। इंडेक्स को कई हिस्सों में संग्रहित विभाजन के लिए बनाया जा सकता है, और बाद में संयुक्त किया जा सकता है। सूचकांक का संयोजन गैर-संगत सूचकांक की अनुमति देता है और यहां तक कि एक ही दस्तावेज़ को विभिन्न संग्रहों में विभाजित किया जा सकता है (जैसे, एंकर टेक्स्ट को अनुक्रमणित करते समय)। - मल्टीथ्रेडिंग। सूचकांकों को पूछताछ और समवर्ती रूप से स्कोर किया जा सकता है। - क्लस्टरिंग। सूचकांक को लेक्सिक और दस्तावे पर (संभवतः विभाजन के बाद) दोनों को क्लस्टर किया जा सकता है। क्लस्टरिंग सिस्टम पूरी तरह से खुला है, और उपयोगकर्ता परिभाषित रणनीतियों का निर्णय है कि विभिन्न स्रोतों से दस्तावेजों को कैसे गठबंधन किया जाए। यह आर्किटेक्चर इसे संभव बनाता है, उदाहरण के लिए, उस इंडेक्स का हिस्सा राम में लोड करने के लिए जिसमें उपयोगकर्ता क्वेरी में अधिक बार दिखाई देने वाली शर्तें होती हैं। आवश्यकताएं: फास्ट्यूटिल · जल इस रिलीज में नया क्या है: चेतावनी: दस्तावुलित्रविज्ञानी उपप्रणाली का भारी सुधार। अब ऐसे आगंतुक एक queryiteratorbuildervisitor की तरह डेटा वापस कर सकते हैं। मल्टीटर्मिंडेक्सेटर के लिए इसकी एक विशेष यात्रा विधि भी है। आपको अपने पिछले कार्यान्वयन को अनुकूलित करना होगा। चेतावनी: क्वेरीस्पार्सर इंस्टेंस को एक पार्स (Mutablestring) विधि और दो नए भागने के तरीकों को प्रदान करने की आवश्यकता है जिसका उपयोग एक स्ट्रिंग को टेक्स्ट टोकन में बदलने के लिए किया जा सकता है। यह सुविधा स्वचालित क्वेरी पीढ़ी के लिए मौलिक है (इस समस्या को इंगित करने के लिए ह्यूगो ज़ारागोज़ा के लिए धन्यवाद)। चेतावनी: कुछ चीजों को आसान बनाने के लिए, अब हमारे पास स्पष्ट दस्तावेज़ इटरेटर्स सही और गलत का प्रतिनिधित्व करते हैं। उनके निर्माण के लिए एक संदर्भ सूचकांक की आवश्यकता होती है (इसके विपरीत जो दस्तावेज़ों के साथ हो रहा था Iterators टोकन #true और #false द्वारा उत्पन्न होते हैं। चेतावनी: वर्चुअल फ़ील्ड का अनुक्रमण बहुत कम स्मृति का उपयोग करता है, लेकिन बैचों में अब एक अलग सामग्री है: वे अंतिम वर्चुअल दस्तावेज़ में वास्तविक पदों का प्रतिनिधित्व करते हैं। प्रत्येक बैच के आकार एक वर्चुअल पल के ज्ञात आकार का प्रतिनिधित्व करते हैं जब बैच लिखा गया था। इस परिवर्तन के साथ, पेस्ट को कॉनटेनेट की तुलना में अधिक मेमोरी की आवश्यकता नहीं है। चेतावनी: एक नया remappingdocumentiterator वर्ग स्थितिकरण ऑपरेटरों के साथ विभिन्न सूचकांक से परिणामों को मिश्रण करना संभव बनाता है। चूंकि एक नया रीमेप क्वेरी नोड है, इसलिए सभी दस्तावेज़ विजिटर्स को अपडेट किया जाना होगा। चेतावनी: सभी बहिष्कृत कक्षाएं हटा दी गई हैं। चेतावनी: इंडेक्सबिल्डर का -बी विकल्प अब स्कैन करने के लिए गठबंधन है - यह इंडेक्सिंग समय पर एक संग्रह के बेसननाम को निर्दिष्ट करता है। यह गठबंधन बफर का आकार होता था। इंडेक्सिंग समय पर कुशल दस्तावेज़ संग्रह निर्माण के लिए नई कक्षाएं। वास्तुकला अब भी बहुत खुली है - आप अपने स्वयं के बिल्डरों में प्लग कर सकते हैं। गठबंधन और उपवर्ग के लिए पूरी तरह से पुनर्गठित आकार हैंडलिंग। जब तक आप गोल्बम कोडिंग का उपयोग नहीं करते हैं, आपको आकार लोड करने की आवश्यकता नहीं होगी। यह आभासी क्षेत्रों के बैचों के भी सच है, क्योंकि डिफ़ॉल्ट रूप से पेस्ट अब पदों को पुनर्निर्मित नहीं करता है, बल्कि उन्हें पहले से ही नामित करने की उम्मीद है। पुराने व्यवहार को ध्वज के माध्यम से प्राप्त किया जा सकता है। · हम जेटी 6 में चले गए। इसके अलावा, वेग के साथ कुछ समस्याएं टेम्पलेट नहीं ढूंढ रही हैं। नई, अधिक बुद्धिमान मेमोरी हैंडलिंग जो पूरी तरह से आउट-ऑफ-मेमोरी त्रुटियों से बचने में सक्षम होना चाहिए। प्रति बैच शर्तों की संख्या पर भी एक सीमा है जो कचरा संग्रह में मदद करनी चाहिए। · संग्रह निर्माण में एक बग फिक्स्ड: हम मूल कारखाने प्रदान करते थे, लेकिन यह गलत है क्योंकि हम सभी क्षेत्रों को अनुक्रमणित नहीं कर सकते हैं। अब हम एक उपयुक्त कारखाने उत्पन्न करते हैं जिसमें केवल अनुक्रमित फ़ील्ड शामिल हैं। नई महत्वपूर्ण विशेषता: उच्च प्रदर्शन सूचकांक अब सूची आवृत्ति और घनत्व के आधार पर परिवर्तनीय मात्रा हो सकता है। सूचकांक अब एक .posnumbits फ़ाइल खेलते हैं जो रिकॉर्ड करता है कि पदों को स्टोर करने के लिए कितने बिट्स का उपयोग किया जाता है। इसका उपयोग सही क्वांटम की गणना करने के लिए बुनियादी आंकड़ों के रूप में किया जाता है। आप टावरों को छोड़ने के लिए उपयोग किए जाने वाले सूचकांक के प्रतिशत के लिए पूछ सकते हैं, और प्रत्येक सूची के लिए सही क्वांटम आपके लिए गणना की जाएगी। प्रक्रिया काफी अनुभवजन्य है, इसलिए हमेशा यह जांचने के लिए .stats फ़ाइलों को देखें कि आप वास्तव में अनुरोध किए गए प्रतिशत से अधिक उपयोग नहीं कर रहे हैं। आम तौर पर, पुराने सूचकांक को परिवर्तनीय क्वांटा के साथ सूचकांक में जोड़ने में सक्षम होने से पहले पुनर्निर्मित किया जाना चाहिए, लेकिन उच्च प्रदर्शन सूचकांक के लिए टूल computeposnumbitspositions का उपयोग लापता फ़ाइल को जोड़ने के लिए किया जा सकता है। · सूचकांक का मेमोरी मैपिंग अब BYTEBUFFERINPUTTREAM में लागू नए मल्टीप्लेक्ड दृष्टिकोण का उपयोग करता है। इसका मतलब है कि हम अनिवार्य रूप से हर सूचकांक में स्मृति में मैप कर सकते हैं। इस दृष्टिकोण का सुझाव देने के लिए वैलेंटाइन चबाने और इयान रॉबर्ट्स के लिए धन्यवाद। · अब हम अत्याधुनिक बीएम 25 एफ रैंकिंग समारोह के कार्यान्वयन की सुविधा प्रदान करते हैं। · Zipdocumentcollection.getInstance () वास्तविक निर्देशिका में नहीं होने पर भी वास्तविक zipdocumentcollection उदाहरणों को लोड करना संभव बनाता है। संयोजन, विघटन, सत्य और गलत के लिए नए यूटीएफ -8 अच्छे गणितीय प्रतीक। · Jdbcdocumentcollection का उपयोग करते समय बहुत सारे कनेक्शन के साथ फिक्स्ड समस्या। · एक नया succencizes यूआरआई कुंजी एक एलियास-फैनो संपीड़ित सूची में आकार लोड करने के लिए पूछना संभव बनाता है। यह परिमाण के दो आदेशों से पहुंच को धीमा कर देगा, लेकिन बड़े सूचकांक को चिपकाने पर यह बहुत उपयोगी हो सकता है, क्योंकि चिपकने वाली बड़ी मात्रा में आकार डेटा लोड करने की आवश्यकता होती है। · Quickindexiterator उदाहरण अब इंडेक्स-आधारित सिंगलटन नहीं हैं। रैंकिंग एल्गोरिदम चलाने के लिए यह परिवर्तन आवश्यक था जिसे खाली इटरेटर के वजन या आईडी को सेट करने की आवश्यकता होती है। इससे कोई समस्या नहीं होनी चाहिए। · सभी दस्तावेज़ इटरेटर्स के पास अब एक स्थिर वजन है। वजन को ब्रेसिज़ का उपयोग करके मानक वाक्यविन्यास में दबाया जा सकता है। ध्यान दें कि प्रति अनुमान के वजन का कोई मतलब नहीं है - यह उनको उपयोग करने के लिए स्कोरर पर निर्भर है। · अब गठबंधन का मेटाडेटा-केवल विकल्प और इसके कार्यान्वयन आवृत्तियों की फ़ाइल उत्पन्न करता है। यह बहुत उपयोगी है क्योंकि यह सभी क्षेत्रों को समेकित करके प्राप्त वर्चुअल दस्तावेजों के लिए आवृत्तियों की गणना करना संभव बनाता है - बीएम 25 एफ की सही गणना के लिए आवश्यक कुछ। · व्याकरण में एक बग फिक्स्ड: "(ए)) जैसे प्रश्नों को" (ए) "के रूप में पार्स किया गया होगा (ईओएफ के लिए चेक की कमी (इस बग की रिपोर्ट करने के लिए ह्यूगो ज़ारागोज़ा के लिए धन्यवाद)। पार्सर अब यूनिकोड वर्ण 0x2227 और 0x2228 (संयोजन और विघटन के लिए मानक गणितीय प्रतीकों) को क्रमशः और क्रमशः स्वीकार करेगा। कुछ परीक्षण TREC GOV2 के बाद, HTMLDOCUMENTAFTORY में MAXPREANCHOR और MAXPOSTANCHAR के लिए डिफ़ॉल्ट क्रमशः 8 और 4 हो गए हैं। · Semiexternalgammalist में पुरानी पुरानी बग; रीडबिट्स (0) को Numlongs अनुमान के बाद नहीं कहा गया था, जिससे eofexceptions। दस्तावेज़ पॉइंटर्स को अब यूनरी में कोड किया जा सकता है। विभाजन में निश्चित खराब बग: उच्च प्रदर्शन सूचकांक के लिए, अंतिम अवधि की स्थिति लिखी नहीं जा रही थी। Httpfileserver के पास एक सेटटेबल पोर्ट है। भार प्राप्त करने के लिए · नया स्कोरर। जैवइट्स () विधि। · टीएफआईडीएफ स्कोरर में एक बग फिक्स्ड जो नैन का कारण बनता था। · सामान्य क्रमबद्ध वस्तु के अलावा क्वेरी शीर्षक की एक नई रेखा से अलग सूची स्वीकार करती है।

जावा के लिए गिगाबाइट का प्रबंधन संबंधित सॉफ्टवेयर