people don't want to search it. they just want to get it.

金曜日, 1月 30, 2004

Google Weblog

bact': "Everything you want and don't want to know about Google" :)


水曜日, 1月 21, 2004

Multi-Documents Summarization

Text Summarization, a home of MEAD (a public domain portable multi-document summarization system).

a summary of a collection of documents (which may comes from an automatic clustering) will help user decide if he/she wants to investigate that collection further or not -- a time saving feature :)

月曜日, 1月 19, 2004

Thumbshots for search engine -- "Stop Guessing. Take Control!"

Thumbshots.org. Featuring small picture of each webpage, so users have more clue if it a site they looking for or not.

[click here for example]

dude: What I don't understand is, how do they get so many sites adding code for them? (from the this page site owners need to add a line of code to get the thumbshot on that directory, right? They have got all this?

日曜日, 1月 18, 2004

Topic Clustering

There are more than Vivisimo out there, read about Topic Clustering at Fagan Finder.
C|NET News: Search may be Microsoft's next target, court told

Microsoft may be unlawfully wielding its desktop dominance to put the squeeze on search engines and on document formats like Adobe Acrobat, the state of Massachusetts claimed on Friday.


火曜日, 1月 13, 2004

Web Graphs

All people in computer science and some fields of engineering (e.g. industrial engineering?) are very familiar with "Graphs" -- those nodes and arcs. And, actually, we can represent the web as a [huge] graph. Where node=webpage, arc=(hyper)link.

From this representation, it gives us a way to understand the characteristic of the web better (as we do well with normal graphs).
graph structure in the web | web graph | more on web graph


Talking about representing document/site as a node in a graph, Peer-to-Peer people already done this since their early day.

Making it more relavant to this blog, one of the most popular P2P application is obviously an IR-like system -- search for mp3 song or DivX movie, given a title or singer's name.

Searching things on P2P network is not like a traditional search engine searching its database (which is a snapshot of a part of the web at a particular time, collected by spiders/web spiders).

Rather, the P2P search visits each node, doing searching in that node, jump to other node .. and so on, in "real time". Clearly, it is impossible to visits every nodes in the network, there are just too many nodes out there. To decide which node it will make a visit or not, it needs a routing algorithm.

As a result, we can simplified a search problem in P2P network as a routing problem, loosely.
[ to find a document is to find a way to that document ]

There are even some more advance routing algorithm that use semantics!

bact': I used to think about using NLP with P2P routing. But it just "thinking" anyway, never do .. lazy me :(

月曜日, 1月 12, 2004

Talking about Document Clustering/Categorization/Classification, about 'approach' to aid user access to montains of pages may be a Summarization.
Instead of just only page title, url, and few first (nonsense) paragraphs from the page.
Short summaries may help users to decide which pages are whattheywant and whattheydontwant.

นอกจากจะแบ่งกลุ่มเอกสารที่หามาได้ ให้หา(ต่อโดยผู้ใช้ว่าอันไหนจะเอา อันไหนไม่เอา)ง่ายๆ แล้ว
ถ้าเรามีเนื้อหาย่อๆ ของเอกสารแต่ละหน้า ก็น่าจะทำให้ผู้ใช้ตัดสินใจได้ง่ายขึ้น เร็วขึ้น
อ่านเปเปอร์ข้างล่าง ถ้าสนใจ:

For papers about Summarization for Search Engine, try starts from here:
Dragomir R. Radev, Weiguo Fan (2000), "Automatic summarization of search engine hit lists".

CiteSeer? Hey! Citation graph is also another feature that we can use, .. have no idea about it yet.
จริงๆ การใช้หลักของ citation ในเปเปอร์ มันก็ช่วยบอกอะไรบางอย่างเกี่ยวกะ "ความสำคัญ" และ "ความเกี่ยวข้อง" ของเอกสารได้
ถ้าอ้างถึงกัน มันก็น่าจะเกี่ยวกัน และถ้าถูกอ้างถึงบ่อย ก็แสดงว่ามันน่าจะสำคัญ (ทำนอง PageRank เลย?)


keng ใช่ดิ web structure mining ไง อย่างrelated: url ของgoogleรึว่าของsearch engineอื่นๆก็ใช้อันนี้แหละ (discovery of web community)

เอาอีกแล้ว อะไรจะบังเอิญขนาดนี้ พูดเรื่อง authority/hub อยู่พอดีวันนี้ (@siit.net)
"ถ้าถูกอ้างถึงบ่อย ก็แสดงว่ามันน่าจะสำคัญ" -> authority.
กลับกันเรียกว่า hub (อ้างถึงที่สำคัญบ่อยๆ)

ตัวอย่าง paperของหาrelated page

bact': Yes, this means "web structure" does not limited to "hyperlinks" only. But could be any kind of link or structure, and possibly an internal link within the same document (some summarization techniques use this "internal links" to find out "most relevance sentences", and select them to form a summary).

日曜日, 1月 11, 2004

PageRank explained

A Survey of Google's PageRank
PageRank is one of algorithms used by Google search engine.
If you want to know how PageRank works, this is the site.

Vivisimo, a threat to Google's search throne?

วันก่อนได้รู้จักกับ Vivisimo และประทับใจกับความสามารถของมัน ที่สามารถแบ่งผลลัพธ์ของการค้นหาออกเป็นกลุ่มๆ ได้อย่างรวดเร็ว โดยใช้ document clustering technique (ซึ่งไม่รู้ว่ามีsearch engineทางการค้าที่ไหนเคยนำเทคนิคนี้มาใช้ก่อนรึเปล่า)

vivisimoเป็นmeta-searchยังต้องพึ่งsearch engineของที่อื่นอยู่ ซึ่งทำให้มีของเสียคือ
1) ช้า ต้องรอผลของจากsearch engineที่อื่น
2) precision & recall ขึ้นอยู่กับผลลัพธ์ของsearch engineที่เอามาใช้

ข้อดีของvivisimoคือสามารถแบ่งผลลัพธ์ออกเป็นกลุ่มๆ ได้อย่างรวดเร็ว ซึ่งแทนที่ผู้ใช้จะต้องเสียเวลาหาเอกสารที่ต้องการจากเอกสารจำนวนมากมาย ผู้ใช้สามารถเลือกค้นหาเฉพาะในกลุ่มเอกสารที่สนใจได้
แต่ด้วยสถานการณ์ของการใช้search engineที่หลากหลาย vivisimoก็มีเอาไว้ใช้แค่ในบางโอกาส ที่อยากจะเรียนรู้เกี่ยวกับสิ่งที่ค้นหา แต่จะไม่ใช่เป็นsearch engineหลักของผู้ใช้

ปัญหาคือประสิทธิภาพในการแบ่งกลุ่ม ถ้าไม่สามารถแบ่งกลุ่มได้ดีมีความหมายสำหรับผู้ใช้ ผู้ใช้ก็จะเลิกใช้เพราะว่าgoogleให้ผลลัพธ์ที่เร็วและน่าเชื่อถือกว่า (น่าเชื่อถือกว่าเพราะgoogleชื่อเสียงดีกว่า) vivisimoก็จะเป็นเพียงแค่ของเล่น ดูเพลินๆ

แต่ถ้าgoogleนำเทคนิคนี้มาใช้เมื่อไหร่และสามารถแบ่งกลุ่มได้ดีเท่าvivisimo vivisimoก็คงจะนอนทันที (vivisimoเป็นผู้เชี่ยวชาญเรื่องdocument clustering ถ้าเรื่องที่ตัวเองเชี่ยวแล้วทำได้ยังแพ้googleก็สมควรนอน)

1) Googleจะให้บริการdocument clusteringด้วย แต่เป็นเพียงแค่ฟังก์ชั่นเสริมสำหรับให้ผู้ใช้ใช้ในบางโอกาส (Googleอาจจะทำเองรึว่าซื้อvivisimoซะเลย รึไม่ก็อาจจะอยู่แค่ในgoogle labs โชว์ว่าตัวเองก็ทำได้)
2) Googleไม่สนใจเพราะคิดว่าเป็นแค่ของเล่น มุ่งเน้นสิ่งที่จำเป็นดีกว่า

bact': ข่าว CNN กะที่ Slashdot.org สองอัน อันนี้ กะ อันนี้ เกี่ยวกับ Vivisimo
ไม่คิดว่า Vivisimo จะต้องการทำ search engine นะ ที่เวบมันเหมือนเป็น demo มากกว่า ว่าตัว clustering engine ของเค้าทำอะไรได้บ้าง .. คือเหมือนของที่เค้าขายจริงๆ คือ clustering engine มากกว่าน่ะ (แล้วลูกค้ากลุ่มนึงที่เค้าจะขาย ก็คือ search engine ด้วย)
อีกอย่าง คิดว่า document clusering ก็เป็นสิ่งจำเป็นเหมือนกันนะ สำหรับทุกวันนี้ซึ่งจำนวนข้อมูลมันเยอะเหลือเกิน ถ้ามีใครมาแบ่งให้ ก็น่าจะ(คน)หาง่ายขึ้น -- ประมาณหมายเลขชั้นในห้องสมุด
dude: obviously you are right. In vivisimo's homepage they state clearly document clustering ENGINE, not "Hey! we are coming now in SE folks". โง่วะ อายจังเลย
Information Retrieval (and related) research groups in Thailand

CRL Thai Computational Linguistics Lab
CU Machine Intelligence and Knowledge Discovery Lab
KU Intelligent Information Retrieval and Database Lab
NECTEC RD-I4: Text Processing Technology Group
SIIT Knowledge Information & Data Management Lab

土曜日, 1月 10, 2004

เมืองไทยมีที่ไหนทำ Question-Answering บ้างรึเปล่า?

มันก็ประมาณ Information Extraction อะไรประมาณนี้แหละ
ที่ TREC ก็มี QA Track ด้วย
ปีที่ผ่านมา (2003) ทีมจากมหาลัยของสิงคโปร์ (NUS) ได้ที่ 3 จากทีมทั้งหมดที่ร่วมประเมิน และเป็นที่ 1 ถ้านับเฉพาะสถาบันการศึกษา .. อันนี้พูดไปงั้นๆ แบบว่าเผื่อจะจุดประกายอะไรในเมืองไทยมั่ง :P

dude: เคยอ่านเจอว่ามหาลัยเกษตรก็ส่งไป TREC เหมือนกัน ก็ไม่รู้เหมือนกันว่ารวมๆ แล้ว ที่ไทยทำกันบ้างรึเปล่า
เกี่ยวกับเรื่องการวิจัยนิดหน่อย ในสาขาไอทีนี้ ชื่อก็บอกแล้วว่าเป็นเทคโนโลยีด้านข้อมูล แต่ก่อนข้อมูลที่คอมพิวเตอร์ประมวลผลได้ ต้องเป็นอะไรที่ไม่สับซ้อน แต่เดียวนี้เทคโนโลยีก้าวหน้า คอมพิวเตอร์เริ่มสามารถเข้าใจภาษามนุษย์กันได้แล้ว แต่ก็เป็นภาษาๆ ไป ถ้าภาษาไทยคนไทยไม่ทำแล้วใครจะทำ คนต่างชาติทำให้ แล้วก็ให้ชาวนาปลูกกระหล่ำปีไปแลก ส่วนวิศวกรไทยก็ทำหน้าที่เป็นล่าม? เห็นนักวิจัยญี่ปุ่นที่นี่จดสิทธิบัตร วิธีการป้อนภาษาไทยลงมือถือแล้วมันน่าเจ็บใจ นักวิชาการไทยทำอะไรอยู่? วิจัยมาตราฐานใหม่ด้านนู้นด้านนี้สำหรับโลก? วิจัยเสร็จก็เหลือแต่เป็น CV หนึ่งบรรทัด .. อันนี้พูดไปงั้นๆ แบบว่าเผื่อจะจุดประกายอะไรในเมืองไทยมั่ง :D

bact': เอาจริงดิ จริงๆ ถ้าพูดถึงกลุ่มด้าน IR แล้ว เกษตรคงใหญ่สุดในเมืองไทย เพิ่งได้รับทุนจาก NECTEC ไปด้วย หลายล้านอยู่ ให้ทำระบบช่วยตัดสินใจสำหรับคณะรัฐมนตรี ทำนองนั้น (NAiST Lab นำโดยอ.อัศนีย์ เป็น Center of Exellence ในโครงการความร่วมมือกับหน่วยงานวิจัยภายนอกของ NECTEC ด้วย) .. แต่คงลง track อื่นมั้ง ไม่ใช่ QA track
พูดถึงเรื่องนักวิจัยญี่ปุ่น จริงๆ ก็มีนักวิจัยไทยทำงานด้านภาษาไทยอยู่ในญี่ปุ่นเยอะเหมือนกัน อาจจะมีคนญี่ปุ่น lead บางตัว แต่ก็มีที่ทำเองหมดไม่ใช่น้อย แน่นอนว่าทำเสร็จแล้ว ผลงานก็ต้องเป็นของหน่วยงานที่สังกัด อันนี้มันก็อาจจะน่าเจ็บใจ แต่คิดอีกที ถ้าเอาคนกลุ่มนี้กลับไปอยู่เมืองไทย จะมีใครให้โอกาสเค้าทำอะไรรึเปล่า?

木曜日, 1月 08, 2004

For a quick start, we may 'captured' those posts in siit.net webboard and put them here.

Btw, I'm very very new to blogging. Don't sure whether the nature of blogs can well used for a 'structured'/'organized' resources or not (e.g. links repository, faqs/QA).
dude: อยากรู้เหมือนกันว่าได้ปล่าว แต่ต้องได้ดิ
bact': let's see.

And what's the primary language we will use in this blog?
จะใช้ภาษาไทย หรือ ภาษาอังกฤษดี เวบแบบนี้ ภาษาอังกฤษมันมีอยู่แล้วรึเปล่า
แบบว่า อยากให้คนไทยได้อ่านขนาดไหน ทำนองนั้น
dude: คิดเหมือนกัน. ตอนแรกก็ว่าจะให้เป็นภาษาไทย เพราะว่ามันคงมีทำนองนี้เป็นภาษาอังกฤษอยู่แล้ว แต่คิดอีกแง่หนึ่ง ถ้าเป็นภาษาอังกฤษ คนไทยก็อ่านได้ คนชาติอื่นก็อ่านได้ จะเอาไปอ้างอิงที่ไหนก็ได้ไม่ต้องแปลอีกที ตอนแรกว่าตั้งใจจะทำเป็นภาษาไทยเพื่อจะได้ช่วยให้เวบไทยมีอะไรเป็นสาระทางด้านนี้ด้วย แต่ถามตอนนี้เราว่าอังกฤษ
bact': OK, the primary language will be English. Anyway, for my post will try to be bi-lingual, where possible.
To do list.
- papers page (link to papers about IR and related. with summary would be nice)
- search engine page (list of search engines with review and score?)
- probably with QA, Directory, Portal and stuffs too.
- News on the first page blog style (just post with some comments)
- what else?

This page is powered by Blogger. Isn't yours?